告别英伟达?华为昇腾NPU跑出准万亿参数大模型,媲美DeepSeek R1

作者|沐风

来源AI先锋官


以前想要训练万亿参数的大模型,都需要用到英伟达的GPU。


现在,有可能可以跟它说Bye Bye了。


近日,华为盘古团队(包含诺亚方舟实验室、华为云等)在arxiv网站上,发布了一份在昇腾 NPU上高效训练大型稀疏混合专家模型(MoE)的技术报告。


报告显示,盘古研究团队在6000+块昇腾NPU集群上,完成了7180亿(718B)参数的Pangu Ultra MoE(混合专家模型)长期稳定训练。


通过针对昇腾NPU的系统优化与模型架构设计,显著提升了训练效率,这使得Pangu Ultra MoE的最终性能表现与DeepSeek R1相当。



比如,Pangu Ultra MoE在通用理解任务中,CLUEWSC 得分94.8、MMLU得分91.5,同时还具备出色的代码与数学解题能力。

在数学推理与代码生成等高难度测试中,其AIME2024得分81.3、MBPP+得分 81.2。

不过,Pangu Ultra MoE模型并不是这份报告的主角,而是盘古研究团队如何应对训练超大参数MoE模型背后的困难。

训练MoE模型并不是一件容易事。

根据这份技术报告,要想在 Ascend NPU 平台上训练盘古Ultra MoE模型,需要攻克以下四大关卡:

1、架构迷宫:需要在众多参数组合中探索最优配置,设计适配昇腾NPU的大规模MoE架构,实现计算资源的高效利用。

2、负载雪崩:路由机制需要智能分配任务,避免专家资源分配不均,如果不同计算单元忙闲不均,会因“木桶效应”降低训练效率,甚至芯片过热熔毁。

3、通信瓶颈:在近万亿参数规模下,数据在集群间传输堪比春运,token在不同计算节点间的专家流转会产生巨大通信开销。

4、硬件适配:算法与芯片像齿轮卡齿,算力潜能只能发挥10%。实现MoE算法与昇腾NPU等专用AI加速器的深度协同,需要打通算法设计、软件框架和硬件特性的全栈优化,充分释放硬件计算潜力。

为了应对这4大挑战,盘古团队提出了一系列模型架构设计和系统优化方案。

首先,团队先进行先导实验,独创了“细粒度专家+共享专家”范式。

通过增大模型里的隐藏层参数、降低激活参数量,实现“高算力低能耗”,让NPU每秒处理更多数据。

在多维并行亲和方面,采用数量为2的指数级的专家数量,达成了TP8×EP4超融合并行的方式。

在 DaVinci 架构亲和方面,将张量按照256进行对齐处理,使其能完美匹配16×16矩阵计算单元,充分释放昇腾NPU的算力。

其次,为了应对负载平衡,团队研发了一种全新的EP组均衡算法,能在每微秒扫描500万token的路由请求。

该算法比传统方案相比,它不会过度强求局部任务分配的绝对均衡,避免了“矫枉过正”,同时节省了30%通信成本,在200亿参数模型上验证效果显著。


同时,团队提出了层次化All-to-All通信策略,将节点内与节点间通信分开优化,有效提升带宽利用率。再通过自适应流水线重叠技术,通信与计算操作实现高效并行,减少同步等待时间。

在内存管理方面,面对7180亿参数及中间激活值的巨大内存需求,团队通过细粒度重计算,仅对特定算子重新计算中间激活值,而非整个层,降低内存占用。

此外,张量交换技术将部分激活值临时卸载至主机内存,并在反向计算时预取,显著缓解NPU内存压力。

具体而言,团队从改进并行计算策略、优化数据传输效率、提升显存使用效果,以及让任务分配更均匀四个方向对盘古Ultra MoE 模型进行了全面优化。

这一套组合拳下来,Pangu Ultra MoE在6000余块昇腾NPU集群上实现了30.0%的模型算力利用率(MFU)与每秒146万token的处理速度(TPS),相较基线方案(4000块NPU,MFU 18.9%,TPS 61万)提升显著。

MFU指标反映了大模型在训练过程中硬件计算单元被有效利用的程度。

公开的数据显示,基于英伟达卡训练MoE模型,MFU 通常在 35% 到 55% 的范围内。考虑到昇腾NPU的软硬件的成熟度,MFU达到30%也已经很不错了。

随着获取国外算力越来越困难,转向国产算力来训练大模型已经成为了一个重要的发展趋势。

这一成果不仅验证了昇腾NPU在支持前沿AI模型训练中的能力,也为中国AI自主创新树立了新的标杆。

 

(文:AI先锋官)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往