「深度报告」洞悉智算散热革命:千亿市场如何崛起?芯片禁令变量几何?

文丨治臻咨询

本文是由头部科技和治臻咨询联合推出的行业系列研报,更多精彩内容敬请持续关注。

引言
伴随生成式人工智能(AI)的爆发式发展,散热行业正从传统的成熟行业转为资本市场关注的焦点赛道。英伟达NVL72的发布更是引爆了整个产业链的热度,海内外的产业链上下游企业,英维克、奇鋐科技、Vertiv等公司的股价在过去一年也经历了大幅的上涨。根据Semianalysis2024年8月的报告,全球数据中心基建中包括冷却设备热交换设备在内整体热管理投资达到约约1800亿人民币,2028年这个数字有望达到4700亿人民币。
上图蓝色部分代表了全球数据中心CAPEX中热管理部分的支出,图片来自SemiAnalysis 的报告Datacenter Anatomy Part 1: Electrical Systems
芯片:后摩尔时代
单芯片热功耗成为新翻倍指标

2023年伴随芯片进入3纳米时代,制程进一步提升大幅放缓,同步开始的AI投资浪潮下,英伟达等头部芯片厂商为适应下游爆发式需求,开始将芯片升级的重点转向通过HBM堆叠、CPU与GPU异构拼接等方向,随之而来的就是单芯片热功耗和单位面积热功耗的翻倍提升。

如上图所示,纵坐标代表了单芯片TDP指标,气泡大小代表了该芯片FP16下的标准算力,近两年主流国内外AI芯片基本上单芯片TDP都在500W~1000W的区间,英伟达的GB200的双GPU加Grace CPU组合更是达到了2700W单芯片

互联:散热要求再上新台阶
大机柜超节点成为算力新趋势

根据今年3月份的英伟达发布会,DeepSeek这类推理模型,单次推理的token数比传统的LLM大模型提升20倍,计算量提高了150倍,推理端的计算需求大幅增加。

现阶段以英伟达NVL72为代表的超节点(SuperPod),通过内部高速总线互连大量显卡,能够有效支撑并行计算任务,加速GPU之间的参数交换和数据同步,既可以缩短大模型的训练周期,又显著提升算力集群在推理任务中的表现。

图中所示为英伟达代表的NVL72机柜

而相同的电力输入下,超节点(SuperPod)能实现25倍的标准性能提升,推理模型上的性能提升更是快40倍。

性能提升的背后代价是单机柜显卡数量和单机柜功耗的大幅提升,显卡数量从最初的H100时代的8卡服务器变为当前的GB200与GB300时代的单机柜72卡,到明年的Robin Ultra产品上单机柜更是会达到惊人的576张卡。而单机柜的功耗也从一开始DGX H100时代的单机柜10~40kW提升到如今的120~200kW,未来有望达到1MW。

来自治臻研究

根据Vertiv,传统的风冷散热模式在单机柜功率达到150kW~200kW级别时能力就接近极限,如NVL72这类单机柜功率达到120kW的服务器就倾向于使用冷板式液冷散热,同功率下冷板液冷的初始设备投资额达到风冷的三倍,机柜的形态变化同样加速了散热市场的成长。

产业链:散热器是核心
从热界面材料到精密空调

在数据中心散热中,散热产品可分为以GPU等芯片和服务器Tray为核心的IT侧(芯片侧&机柜侧)以及机房侧。

来自Vertiv智算中心基础设施演进白皮书

IT侧来看,芯片热源会经历芯片封装盖板(Metal-Lid)、热界面材料(TIM)再到散热器(Heat Sink)三个阶段,逐渐将高度集中的芯片当中点状热源进行扩散。

来自治臻研究

其中散热器根据芯片TDP功率的不同,会有针对性的风冷或液冷解决方案。风冷方案为风扇结合热管,VC(均温板)、3D-VC等散热器,液冷方案则为不同规格的液冷板以及对应的CDU(冷量分配单元)。

机房侧来看,根据散热方式的不同和单机柜功率的不同,则有风冷房间空调、风冷列间空调、风冷背板空调等不同的精密空调方案。

目前主流的高功率AI GPU中,风冷方案中的高功率均热板性价比高,不涉及机房改造,在如H100这类单芯片500W~700W的服务器中大量运用,能适应单芯片千瓦级需求,但是冷板式液冷也凭借其优秀的PUE带来的较低的电费以及整体较低的TCO成本在千瓦级GPU中广受欢迎。

来自治臻研究

产业格局:
头部海外厂商垄断百亿市场

根据野村证券的报告,目前按照单芯片的散热价值量来看,一个H100所需要的IT侧的散热部件接近4000元人民币,而一个GB200所需的液冷散热部件更是高达一万六千元人民币,仅2024年的全球的服务器AI GPU出货就超过500万片,这是一个超过500亿人民币的巨大市场。

来自野村证券Asia AI thermal 2024.9.17

且伴随着未来全球GPU芯片出货数量的上升,单芯片功率提升导致的单芯片散热价值量提升,这个500亿人民币的巨大市场更是将保持着每年30%以上的速度成长。

散热器领域,目前全球高端市场被美国BOYD,台湾AVC,台湾Auras,台湾CoolerMaster等几家厂商占据。

以英伟达的产品为例,英伟达占据了全球AI GPU市场90%的份额,英伟达旗下的NVL72服务器中台湾AVC占据了60%以上的散热器份额,而台湾Cooler Master则占据了DGXH100服务器大部分的散热器市场份额。

英伟达NVL72
液冷带领服务器散热市场翻倍增长

2024年3月18号,GB200 NVL72发布,单机柜拥有72个使用NVLink互联的 GPU,NVL72能够作为单一大型的GPU使用,并为拥有兆级参数的LLM提供相较之前产品30倍的即时推论速度,且英伟达在2025年的GB300芯片产品序列中沿用了这样的72卡单机柜形态。

来自英伟达2024 GTC大会

NVL72机柜的热设计功耗达132kW,散热密度过高导致传统风冷方案难以避免过热和宕机。

根据野村证券,使用液冷方案的NVL72机柜其中散热部件的价值量虽然只占整机柜售价的3%左右,但也来到了惊人的60万人民币每台,是传统DGXH100单机柜散热价值量的20倍,单芯片的散热价值量也达到了先前H100芯片的4倍。

英伟达NVL72的发布成为冷板式液冷市场爆发的核心催化剂,其高功率密度需求直接推动液冷技术从“可选”变为“必选”,这类液冷大机柜的年销售数量有望2~3年内将达到10万台以上,按照每台单价60万人民币计算,服务器散热市场在短短几年内又将新添一个年化500亿人民币以上的市场需求。

热点问题专家解答:

在过去三个月当中,散热市场其实并不平稳, DeepSeek发布后,海内外头部公司的股价也在剧烈波动,包括Vertiv,AVC,英维克等头部企业都经历了一定的调整,不少人都在关心是否AI投资增长就停了?是否采购昂贵液冷机柜的客户也会变少?国内市场在H20这类显卡都被限制的情况下,又存在哪些投资机会?

针对大家关心的热点问题,治臻咨询请教了行业内的资深专家为大家带来解答:

Deepseek横空出世
大厂AIDC投资锐减?

根据我们和行业内专家的交流,的确在DeepSeek发布后,很多采购商对算力采购的节奏做重新评估,中间Delay的时间各家不一,基本在3个月左右,但我们了解到大部分业内厂商很快采购节奏和采购金额上就恢复了2024年年底的势头,2025年2026年海外大厂仍然保持着每年40%~50%的高增速。

Deep Seek发布后, GPU产业链龙头的英伟达股价遭遇重挫

●至于国内更是被DeepSeek点燃了AI投资热情,我们交流当中的国内的服务器厂商更是表示哪怕在H20的进口受到管制, 在AI服务器这块今年也会普遍高达100%甚至更高的增速。

●这一点我们也可以从头部的终端客户各大互联网厂商与CSP云厂商一季度以来的业绩交流上进行验证,大家的AI Capex仍在持续增长中。

仅仅头部四家的AI Capex今年就将达到3000亿美金以上,而到2028年,全球AI Capex更将超过一万亿美金

治臻观点:今年Q1整个算力市场出现了短暂的放缓,但很快回归了高增速,英伟达Q1 65%营收同比增速也证明了这一点,2025年到2026年全球年化40%~50%的成长是行业基准线,而国内市场正处于从0到1的爆发红利期。

单位AI投资中
散热占比降低?

●从单位芯片的散热价值量来看,冷板式液冷是高端风冷方案的3~4倍。NVL72这类强制使用高价值液冷方案的SuperPod机柜是否在推理场景下仍然拥有更好的TCO(Total Cost of Ownership)的确是这半年来业内争论不断的话题,这关乎到整个散热市场液冷渗透率是否会快速提升。

NVL72中每张卡平均的散热价值量是之前DGX-H100系列的4倍

●英伟达声称其NVL72 SuperPod性能相比普通的GB200性能提升30倍,根据SemiAnalysis 4月最新验证,虽然SuperPod整体性能提升强悍, 但例如英伟达新推出的针对推理市场的B200在132B这类小模型的训练和推理中的确表现出了更好的性价比。

●在我们和行业专家的交流中,也出现了部分算力客户暂时将今年采购的一部分液冷方案替换成风冷的方案的情况,不单单出于下游推理场景增多的原因,也有对液冷尚未成熟漏液的安全风险的担忧。

不过“Today’s large models will be tomorrow’s small models”,最前沿的LLM大模型的规模仍然在指数级成长,而伴随具身智能的发展,除去大语言模型外的视频等多模态大模型的参数翻倍趋势则刚刚开始。训练端液冷SuperPod机柜40多倍的压倒性性能优势仍然将促进服务器液冷市场不断成长。

大模型参数翻倍趋势仍在继续

●治臻观点:今年来看液冷方案出货会有短暂放缓,但也给同时在风冷和液冷领域都拥有成熟供应能力的厂家提供了夺取市场份额的机会,尤其是快速翻倍成长的国内市场。

VC均温板是简单机加工产品
未来会被液冷彻底取代?

●风冷散热中最重要的是VC均温板(Vapor Chamber),其并非简单的金属模切件,而是上下两层金属壳(通常为铜)包裹的一个真空系统,在这个真空腔体内内拥有少量水,在其生命周期内不间断的进行着蒸发冷凝的循环。而最近涌现的3D-VC则通过在原来的均温板上加装热管和鳍片(Heat Pipe)的方式进一步提高了整个散热系统的能力。

上图来自DNP,展现了风冷散热器结构从1维热管到2维均温板再到三维的3D-VC的进化

其中经过特殊设计的微米级毛细芯决定了这个循环的效率进而决定了散热器的能力。和专家的交流过程中发现,整体制造涉及100道以上工序。高功率 VC 从产品制程角度难度甚至要高于液冷冷板,主要是海外厂商主导相关市场,国内的供应商非常少。

图片为COFAN THRMAL的均温板结构以及微米级毛细芯

●高功率风冷散热器作为过渡阶段的方案,在单机柜功率100kW以下的场景下,高端风冷散热器仍能非常好的应对包括至GB200,GB300这类单芯片TDP达到1200W甚至1400W的高端芯片。

●国内市场中华为昇腾910C、寒武纪思元590这类单芯片TDP在300W~500W的芯片也能很好的通过高功率的风冷散热器来解热。

图片来自治臻研究,治臻调研发现除去NVL72外,目前市场所有产品均能使用风冷解决散热,针对500W~1000W大部分主流芯片,很多服务器ODM厂商都为客户同时提供了风冷、液冷两种方案,风冷初始投资成本更低,而液冷则PUE更低,大规模部署长期运营成本低。

●其实风冷的潜力尚未被挖掘充分,在我们和部分厂商访谈中,通过改进现在3D-VC散热器中的微通道设计,材料构成以及扩大现有风冷散热器的体积,风冷散热器的解热上限仍有望提升20%~30%,对单芯片达到1700W乃至2000W的芯片提供散热。

●而且我们在访谈中发现,无论是全球的行业Agent 产业趋势还是国内政务专有模型的场景,一体机产品对这类小批量灵活部署的场景更加适配,而高端风冷在这类场景中对客户也是更加灵活且具有性价比的选择。

图中为联想和第三方合作的AI一体机产品,搭载英伟达或昇腾GPU

治臻观点:在液冷大机柜超节点(SuperPod)将成为主流算力集群之前,风冷散热的解决方案仍有望凭借其成熟稳定,初始投资成本低的特点,在未来的3~5年内,在散热市场上占据重要的市场份额。

芯片禁令下
国内AIDC散热市场机会在哪儿?

●首先从芯片角度,从2024年下半年以来,国产算力芯片不断突破,昇腾910C在关键的FP16精度算力上预计可达到约800 TFLOPS,内存带宽约为3.2 TB/s。这一性能表现与H100相比,综合算力水平接近其80%。

华为的昇腾910系列是目前国内出货最多的芯片

●寒武纪、摩尔线程等其他厂商的GPU能力也均能比肩A100,并都在实现批量交付,支撑中国整体人工智能算力规模大幅成长。2022年中国智能算力规模为 259.9EFLOPS(基于FP16 计算),预计2027年达到1117.4EFLOPS,5年CAGR达 33.9%。

●当然芯片的数量和基础能力不输海外竞对,国产芯片的稳定性和热功耗还存在差距,反而促进了国内液冷市场的成长,我们接触到的行业项目中,同样的TDP区间内,相比英伟达的产品,部分国产芯片在液冷下能提升20%的巅峰性能表现,且性能释放的稳定性也相比风冷更好。

●国内散热市场除了国产芯片进化之外也有国家政策的引导与鼓励。工信部于2021年明确要求,到2023年底新建大型及以上数据中心PUE需降至1.3以下,东数西算枢纽节点及寒冷地区进一步降至1.25以下。2025年目标进一步收紧,要求全国新建大型数据中心平均PUE低于1.3,国家枢纽节点低于1.25。

据CSDN数据,传统风冷的PUE值大概为1.3,而采用液冷技术,PUE值会显著降低。其中,采用传统冷板技术的PUE值大概为1.2。而风冷散热的技术路线如果采用间接蒸发等机房温控设计,则可以降低PUE值到1.25左右。国内大量智算中心在单芯片TDP在300W~500W的智算机房中部署冷板式液冷,如杭州之江实验室的万卡集群就采用了冷板式液冷的方案。

●超节点(SuperPod)算力趋势在国内也发展很快,华为于今年4月份发布了CloudMatrix 384,以384张昇腾算力卡组成一个超节点,在目前已商用的超节点中单体规模最大,可提供高达300 PFLOPs的密集BF16算力,接近达到英伟达GB200 NVL72系统的两倍,而四倍于NVL72的功耗也对散热提出了挑战。

治臻观点:PUE门槛硬指标和国产超节点的部署加速了中国散热市场尤其是高价值量的液冷市场的快速成长,国内液冷渗透增速有望超越海外市场,国内芯片的配套国产化需求更是给国内散热厂商以替代良机。

新技术展望

(1)浸没式液冷

浸没式液冷是指将服务器、GPU等发热元件完全浸泡在绝缘冷却液(如氟化液、矿物油)中,通过冷却液直接吸收热量。使用浸没式液冷后PUE可降至1.08-1.12,比冷板式液冷更低(1.2-1.3)。

但浸没式液冷当前造价高昂,且稳定性和可维护性对大规模商用仍然有负面影响,目前具有代表性的海内外厂商的AI GPU大部分尚未使用浸没。

根据网络专家纪要,矿物油或硅油的冷却液的浸没式方案,其成本约为5000到6000人民币每千瓦。而氟化液方案的成本更是达到1万到12000人民币每千瓦。目前国内市场交付最多的中科曙光的浸没式液冷方案成交价接近2万人民币每千瓦。而最高端的风冷也不过几百元人民币。

治臻观点:双相浸没是理论上散热效率最高技术路线,但当前可维护性,高成本等问题尚未解决,且在冷板乃至风冷的潜力尚未被发掘充分的情况下,3~5年内浸没式液冷都很难成为市场的主流解决方案。

(2)芯片盖板(Lid)

芯片热源传导到散热器之前会经过芯片盖板(Lid),因此部分业内厂商也尝试通过改造芯片盖板结构实现更加优秀的散热解决方案。

当前芯片封装盖板包括GB200这样的千瓦级GPU仍然使用铜片作为简单的芯片盖板。

有芯片厂商试图将风冷散热器中的均温板结构引入芯片盖板,打造VC-Lid产品,也有尝试将也液冷散热器做小直接做成芯片盖板的形式,代表方案如Jetcool团队的SmartLid。

治臻观点:通过将类似均温板&液冷板的散热器结构进一步前置到芯片盖板处进行更加高效的散热也是行业内在持续探索的方向,不过考虑到GPU服务器场景对可靠性&可维护性的高要求,这类风冷和液冷散热器进一步前置的方向还需要行业来验证。

(3)金刚石材料

金刚石材料凭借其超高导热性(1000-2000 W/m·K)和低热膨胀系数,正在进入散热舞台。

华为联合厦门大学团队通过低温键合技术,将多晶金刚石集成至2.5D玻璃转接板封装芯片背面,在2 W/mm²功率密度下,芯片最高结温降低24.1℃,封装热阻减少28.5%,且兼容现有封装方案,避免热膨胀失配问题。

治臻观点:金刚石材料目前成本问题还较高,在我们与产业伙伴的交流中,目前实验室样品阶段和现有成熟产品造价差距接近百倍,和成熟化应用还有距离。

机构简介:治臻咨询作为一家深耕企业战略服务领域的精品化咨询机构,整合资本交易投行服务与企业管理咨询服务于一体。公司核心业务涵盖企业融资、境内外并购交易、债务重组等多元资本交易类型,服务范畴聚焦于先进制造、材料、汽车工业、半导体、医疗等重点行业领域。在投资人合作层面,公司建立了覆盖聚焦行业不同发展阶段的风险投资机构、产业基金、上市公司及多策略私募基金与并购基金等在内的多元化合作体系。治臻咨询始终以全流程专业化服务为支撑,助力企业优化资本结构、实现战略布局拓展,推动产业资源与资本的高效协同对接。

-END-

(文:头部科技)

发表评论