高端智算瓶颈困扰AI迭代,如何解决燃眉之急?


文| 杨柳

尽管DeepSeek通过工程优化,降低了模型训练所需算力,但全国政协委员张云泉认为,这并不意味着高端智算中心建设可以松口气了。相反,高端智算中心是冲击通用人工智能(AGI)这类更高层次目标的关键基础设施。
张云泉是中国科学院计算技术研究所研究员,长期从事高性能计算研究。他向南都记者表示,许多国产AI芯片主要集中在难度较低的低精度计算领域,而国内的智算中心也往往只考虑低精度训练算力需求。虽说这种配置恰好承接住DeepSeek这类采用低精度(FP8浮点数)训练的推理模型,一定程度缓解了“算力荒”问题,但大模型的Scaling Law(规模效应)仍在发挥作用,大模型后续的技术演进仍不确定,国家依然需要从战略层面跟进高端算力投资。
然而,张云泉发现,当前中国能够支撑大模型训练的高端智算中心极为稀少,面临算力供需的结构性失衡。
高端算力紧缺
智算中心不同于通用算力中心,前者主要提供人工智能应用所需算力服务,是大模型产业的基础设施。其建设主体包括地方政府、基础电信运营商和云厂商。中商产业研究院一份数据显示,截至2024年8月,全国投运、在建及规划的智算中心中,地方政府和基础电信运营商主导建设的智算中心项目占比超过50%,互联网及云厂商项目数量占比约为17.7%。
据张云泉调研了解,国内已知的最大单体智算中心算力仅为万卡6.6Eflops(以BF16浮点数衡量,1Eflops即每秒百亿亿次浮点运算),与国际领先水平差两个数量级。另外,国内主要的智算中心单体规模仅在100-1000Pflops之间(1Eflops等于1000Pflops)。而高端智算中心的性能需达到万卡10Eflops以上。
相比之下,马斯克旗下xAI公司去年9月建成的Colossus算力集群,拥有10万块英伟达H100 GPU,总算力规模达200Eflops。
高端智算中心还要求单机柜功率密度达到40-100kW,但根据张云泉的调研,国内主流机架功率密度低于15kW,远低于高端智算的功率密度要求。而且,国内能开展大模型训练的智算中心的GPU训练效率不超过30%,即GPU实际发挥的计算能力不到理论最大值的三成,这意味着计算效率偏低。
张云泉认为,智算中心建设缺乏行业评价标准,芯片架构跟不上大模型的演化速度,建成即过时,是导致高端算力供给不足的成因之一。而且,智算中心建设中盲目追求算力规模的亮眼数字,而非背后的计算能力,未配齐能动态选择合适精度进行运算的混合精度算力,以至于通用性不强,无法满足最新大模型的计算要求。
因此,张云泉建议出台高端智算中心建设管理办法,从供给侧引导高端算力发展。建立智算中心的准入标准,要求所有新建智算中心必须通过大模型训练或推理能力评测,否则不予批准建设。
张云泉还指出,此前一段时间,业内过度强调国产化,在一定程度上加剧了供需失衡。在国产AI芯片尚不成熟的情况下,智算中心不顾实际需求追求完全的国产化,将先进成熟的英伟达GPU排除在外。该现象在地方政府主导建设的智算中心项目中尤为明显。结果便是,算力平台难以适配市场需求。不过,近期张云泉发现这一情况有所改善。
“超智融合”能否成为出路?
缓解“算力荒”,路径之一是提升国产AI芯片性能。2月5日,百度智能云宣布成功点亮自研昆仑芯三代万卡集群,这是国内首个正式点亮的自研万卡集群。张云泉说, 能实现万卡部署,代表着接近国外的前沿水平。但当前,国产AI芯片仍然面临适配过程复杂、系统不够稳定,芯片的可扩展性、运行成本等诸多问题。
为了缓解高端智算紧缺的“燃眉之急”,业界将视线投向“超算+智算”的融合方案。
与面向AI计算的智算中心不同,超算中心主要用于科学计算的创新。张云泉解释说,所谓“超智融合”,是将国产超算积累的关键技术(如架构、芯片、并行与通信算法、算力调度与负载均衡等),赋能高端智算中心建设和大模型高效训推优化过程。
中国工程院院士郑纬民在去年7月一场业内研讨会上指出,国产AI芯片的生态系统尚不完善,提高了应用门槛,但一些负载不饱和的国家超算系统可以利用空闲资源支持大模型训练,前提是要做好软硬件协同设计,降低超算训练大模型的成本和能耗。
在张云泉看来,“超智融合”推进过程中,应当紧盯最新大模型算法的进展,针对大模型训练和推理进行目标优化。其次,超算技术如何和国产AI智算芯片进行适配,保证高效运转亦是难点。此外,还需搭建人才队伍,这要求超算人才交叉学习智算领域的技术。
“国产AI芯片相对落后,但中国在超算上有很深厚的积累。为了尽快解决算力瓶颈问题,‘超智融合’是我们目前能看到的最优、最有突破把握的路径。”张云泉说。

(文:AI前哨站)

欢迎分享

发表评论