在线av 国产算力浪费超50%！百度AI计较部认真东说念主拆解大模子期间的算力资本

在线av 国产

作家 | 徐豫

剪辑 | 漠影

智东西 9 月 13 日音尘，百度系统架构师、百度智能云 AI 计较部认真东说念主王雁鹏向媒体解读了大模子期间的算力资本。为了有用缩小 AI 万卡集群的算力开支，他建议搭载 RDMA 收罗、自动并行战术、保证教师结识性、动态分派算力、多芯异构混训，共五个方面的科罚决策。

当年互联网期间，管事器每台数万元，各大厂商光是采购资本就要糜费几个亿。深奥的支拨促使互联网大厂自研管事器，百度亦然其中一员，该公司自 2011 年起涉足计较基础要领建设。

联系词，陪伴深度学习的发展，GPU 集群来到万卡范围，大模子期间的算力资本依然远高于东说念主力资本。王雁鹏称，当下浪费只是 1% 的算力，亦然很大的一笔花销，算力之贵也体现出计较基础要领的热切性。

近期，不少业内东说念主士合计，"兼容 CUDA 是 AI 芯片的决胜点"，但王雁鹏并不认同这个不雅点。他讲解说念，不少模子兼容 CUDA 后，只留下了 1/3 的性能，失去了原有的竞争力。英伟达是基于 CUDA 构建了一个加快库生态，王雁鹏则合计，其中生态库的壁垒才是真实的难点。

一、面前的模子教师渊博吃掉了超 5 成算力

来到 AI 大模子期间，算力的复杂性已从硬件改革到了软件上，这也导致各大 AI 开荒者利用算力的难度指数级高潮。据百度系统架构师、百度智能云 AI 计较部认真东说念主王雁鹏了解，现阶段的模子教师渊博浪费了超 5 成的算力。

率先的 CPU 通用计较期间，硬件和软件之间高度协同，假定 CPU 的性能培植了一倍，那么使用该 CPU 的软件，其性能也会相应地翻一番。

后续来到 GPU 数值加快计较期间，芯片架构更浅易，以专注于提供最大的算力。开荒者们每每利用 GPU 越过的算力上风，构建一系列复杂的加快库和框架，有针对性地适配不同应用场景。

咫尺，咱们已处于 AI 大集群超算期间。单一的芯片依然不及以孤苦科罚问题，因此需要大范围的芯片协同科罚一个问题，GPU 集群范围以至达到 10 万卡。

在王雁鹏看来，上述计较范式的变迁决定了计较体系机构的工夫发展，而这种结构上的变化，又催生了云计较的工夫和家具款式。"云计较不错看作一种售卖 AI 基础要领的体式"，他说说念。

打个譬如，咫尺可能唯有一块 GPU，但其算力分给了 100 个东说念主用；简略说一个教师任务被切分到十万张卡里运算，这背后需要阔气的存储资源来撑捏。

▲有用算力的 5 大参考标的

如安在大模子期间发达出 AI 大集群的有用算力，王彦鹏给出了一个计较模子教师经过中有用算力的公式，即有用算力非常于能耗有用率（PUE）、单卡算力有用率（MFU）、并行蔓延有用率、有用教师时期、资源利用这 5 项数据的乘积。

激情都市第四色

二、从五大维度开释万卡集群的 GPU 算力在线av 国产

为了科罚大模子期间算力利用率低的难点，王彦鹏从有用算力公式中的五大方面脱手，建议了 5 个有助于开释算力潜能的 GPU 设想理念。

1、为万卡 AI 场景设想的 RDMA 收罗适配 AI 集群

传统的 IB 收罗是为 HPC 设想的，并不适用于 AI 集群。这主如若因为两者的设想理念优先级存在冲突，HPC 是延长优先，AI 则是糊涂优先。

据王彦鹏露出，百度永恒基于 RDMA 收罗构建万卡级别以上的 AI 集群，以减少内存带宽瓶颈。从数据终结来看，应用 RDMA 收罗后 AI 集群的带宽有用率从 60% 培植至 95%，模子性能则增强了 5% 到 10%。

2、自动并行战术是 AI 集群最热切的演进范式

百度的自动并行战术搜索有两个中枢战术。

一方面，百度选择了"边计较边通讯"的容貌，省俭数据搬运所糜费的时期，减少算力和动力损耗。

另一方面，显存优化的切分战术将运算中断所浪费的时期，末端在几分钟内。

▲百度通过 RDMA 收罗撑捏 AI 万卡集群的教师

成绩于此，百度旗下的模子性能不仅能达到开源模子的 130%，也比东说念主工调优的模子成果好。

3、保证结识不拆开的任务开动是一个系统工程

王彦鹏屡次强调了结识性在 AI 教师中起到的热切作用。AI 教师的计较任务是同步进行的，如果半途出现故障，万卡的故障定位是一个相当贫乏且不行控的事情。

同期，斟酌到万卡范围的 AI 集群中断频率较高，每每是牵一发而动全身。王彦鹏建议，"无效教师时期 = 故障次数 * 故障收复时期 + 写查验点的时期"。因此，一朝某个点位出现故障，其影响可能被扩大了十万倍。

▲不错通过 3 个公式详尽判断 AI 集群的教师服从

据王彦鹏先容，百度通过 Hang 检测、慢节点检测、秒级捕捉查验点、分钟级任务收复等容貌，来定位和确立出现故障的单张芯片。咫尺，百度文心一言大模子的有用教师时长比例超 99%。

4、教师一体培植资源利用率

咫尺，主流模子教师存在以下 4 个破绽。

来源在线推理或计较任务当中，系统在峰值负载时的性能是平均负载时的 3 倍。这意味着系统在设想时预留了较多的算力以支吾峰值。但 AI 集群的波峰和波谷其实较为显著，这也变成非峰值时资源的大批浪费，后续在设想上还不错进一步优化。

其次，大批微调模子存在冷热分裂不均的情况。此外，其实有好多计较任务不错通过离线推理竣事，但仍占用了一定的算力资源。临了，从单卡计较转向万卡计较期间，教师任务分裂广、数目大。

关于上述问题，王雁鹏合计，总的来说是要竣事算力流量和资源的动态分派，以便跑通不同范围的层级。百度的百舸异构计较平台（AIHC）期骗单机多推理实力夹杂布局、弹性层级部队、教师任务弹性伸缩机制三种模式后，公司里面和客户的资源利用率都从 50% 培植到了 90%。

5、多芯混训是科罚算力卡脖子的要津工夫

据王雁鹏先容，咫尺市面上的芯片规格、版块、存量和算力水平都错乱不都。他建议，不错用一套兼容的框架将多样各类的芯片组合起来，形成一个宏大的算力集群。

有共同的"大脑"后，AI 开荒者不错通过该集群长入退换悉数芯片的算力，从而提高服从、省俭开支。

百度在异构并行切分战术下，搭建了跨芯交流库，并摄取了 Accelerator 抽象设想要领，从而竣事千卡性能亏蚀仅 3%，以及万卡性能亏蚀仅 5%。

不外，王雁鹏也谈说念，多芯的异构混训天然表面上可行，但实质实行起来，还有诸多工夫难点亟待科罚。

结语：大肆 3 个中枢工夫，为十万卡集群作念准备

咫尺，好意思国 AI 大模子独角兽 OpenAI 和 xAI 的模子教师范围已卷到 10 万卡级别，百度也将加入这场围绕 AI 集群算力的竞争，算力应用场景则聚焦于大讲话模子和自动驾驶工夫。

王雁鹏向媒体露出，后续百度将捏续在 3 个中枢工夫上寻求芯片设想架构的大肆。

来源是竣事更高效的拓扑和拥塞末端，该公司但愿将无壅塞 RDMA 域扩大 10 倍。

除此以外，百度缠绵将跨地域的 RDMA 收罗范围扩大至方圆 30km 内。

王雁鹏称，现阶段百度的万卡集群平均 4 个小时会中断 1 次，如果蔓延到 10 万卡集群，可能 20 分钟阁下就会出现一次中断。现阶段在线av 国产，其模子相比结识的收复时期介于 10 到 20 分钟之间，异日奋勉于于达到分钟级别。

上一篇：黑人巨屌这不是BUG! 王者玩家请小心, 这个技能1元可刷150点荣耀积分

下一篇：上原亞衣肛交江西省井冈山市工东谈主文化宫中国围棋公益课结课

在线av 国产 算力浪费超50%！百度AI计较部认真东说念主拆解大模子期间的算力资本

hongkongdoll onlyfans

在线av 国产算力浪费超50%！百度AI计较部认真东说念主拆解大模子期间的算力资本