中国玩家全栈突破!全光互联Scale Out让AI进入“光速时代”

文丨治臻咨询

本文是由头部科技和治臻咨询联合推出的行业系列研报,更多精彩内容敬请持续关注。

引言

从十万卡到百万卡集群,AI算力的军备竞赛已驶入深水区。当Scale-Out规模呈指数级扩张,传统电交换架构的功耗、时延与成本瓶颈日益凸显——光模块配比翻3倍、能耗翻几十倍、交换机全套更换资本支出居高不下,一场底层网络革命迫在眉睫。

本篇智算革命带大家走进光互联产业,全光交换技术(OCS)如何以光速破局,破解百万卡大集群的功耗与时延隐形之墙;电信市场的ROADM/WSS技术,又如何借力AI跨区域训练浪潮重获新生,撬动百亿美元增量市场;以及在这波浪潮中,中国企业如何从架构、器件到工艺实现全栈突围。

百万卡集群时代已经到来

在此前智算革命系列研究中,我们着重介绍了英伟达的NVL72大机柜产品带来的散热以及电源的产业变化和投资机遇。

AIDC中,智算集群的演进有两个方向,一个是Scale-UP(单算力节点的升级),一个是Scale-Out(链接数量更多的算力节点)。

NVL72这类大机柜产品属于前者,即Scale-UP,单个算力节点内部铜链接的显卡数量越来越多,从8卡到16卡再到72卡和未来的288卡。


而在Scale-Out的方向上,除了有英伟达这样的上游供应商,各家头部大模型厂商也在以一年10倍的速度在扩展着自己单个算力集群的规模。

2023年年底的万卡集群作为衡量头部大模型公司的标准,再到2024年年中,包括Xai,腾讯,Meta厂商纷纷推出自己的十万卡集群计划,而到2025年,马斯克已经计划在田纳西州的孟菲斯搭建一个一百万张GPU组成的服务器集群。

传统广电架构面临挑战

伴随着Scale-Out规模逐渐扩大,用于数据交换的光模块的配比飙升,一系列问题也随之而来

来自Marvell,光模块增速远高于GPU出货增速

根据MarvellGPT-425K个集群上训练,需要7.5万个光模块;10万个超大计算集群,需要50万个光模块(5层架构,GPU与光模块的配比为1:5);而随着Scaling LaW定律的演进,通用人工智能背景下将出现1:10光模块配比的网络架构,将远超当前的1:3

回顾过去,在LLM尚未成为主流的年代里,光传输功耗已经在数据中心中翻了20倍,根据思科,2022年光通信交换机系统总功耗是2010年的22倍,其中包括光模块在内的光学相关组件功耗则为26倍。未来这个速度在AI时代将持续加速。

来自博通,传统电交换机功耗指数级增长

光模块爆炸性的增长下,如何控制光模块和电交换机的功耗?如何面对光模块及电交换机庞大的资本支出?高时延?如何兼容不同速率的光模块网络的兼容性,这都给当前传统网络架构提出挑战。

OCS全光互联
破局功耗、时延和架构拓扑

面对这些问题,Google率先在数据中心应用的OCS全光交换方案有望成为破局之道。

Google先尝试在Spine层用光交换机取代了传统的电交换机,且该类部署模式已经在谷歌大部分的数据中心得到了应用,为谷歌节省了30亿美元的成本。

OCS光交换机内部通过320个可调节的微型镜面,像精确的激光笔一样将输入光纤的光信号直接反射到目标输出光纤,消除了传统光电转换的堵车点


相比传统电交换机。在OCS系统中数据传输时无需光电转换,显著降低了时延,满足大语言模型计算的发展需求。

其次,该136×136端口的光交换机功耗仅为108W, 而同等规格的电交换机功耗却高达3000W,单交换机的功耗就降低95%

整个数据中心来看,在OCS系统下,网络吞吐量提升了30%,能耗降低40%,资本支出减少30%,数据流完成时间缩短10%,网络宕机时间锐减98%(相当于可靠性提升50倍)。

资本支出上的优势来自OCS系统自身更新时极大的灵活性,原来电交换机架构下,每23年电交换机就需要全部更换一遍。

而光交换本质上做的是光路接口转向,与模块速率无关,这样未来1.6T/3.2T光模块集群就可以兼容已经部署的那些比如100G或者200G的低速模块,实现代际无缝衔接,光网络平滑升级。

谷歌数据中心800G交换机可以和40G交换机共处一个网络

OCS全光互联
成为主流仍需时日

OCS系统虽有望破局GPU集群扩大过程中功率飙升的问题,但也有来自光交换技术特性本身的一些灵活性制约。

OCS就像铁路道岔:虽然存在多条轨道,但列车每次只能选择一条特定路径行驶。若要改变列车行进路线,就必须手动调整轨道方向。

而整个大的系统就像一座拥有多条进出轨道的大型火车站。数据包在到达OCS的光交换机之前,其传输路径就必须要预先确定。

如果需要更改通信端口,就须预先分析数据流特征及传输方向。

光交换机内部就像一个巨大的高铁枢纽

简言之,必须提前确定“列车”的行驶路线,才能让它进站。

这样的技术原理下,采用3D MEMS技术的OCS调整镜面反射路径需要数秒时间,导致网络短暂瘫痪。此特性使OCS系统仅适用于长周期任务(如AI训练),对推理场景复杂的网络流量工况适应性不够好。

每次调整轨道都需要调整数十个精密的MEMS器件

谷歌用通过精细化网络流量画像实现智能预配置来避免这个问题,这也是为什么谷歌当前的大部分数据中心能够稳定使用OCS系统方案的原因。

整体来看,OCS的市场份额在未来的一段时间内还不是市场主流,但考虑到谷歌本身数据中心的扩展速度,而微软、Meta、亚马逊AWS也都在探索自己的光交换网络,整个光交换机市场会呈现较快的增长。

根据LightCounting的预测,预计OCS光交换机的市场规模2024-2029年的年均复合增长率为28%,为传统以太网交换机市场增速的两倍

RODAM&WSS
电信市场的光交换方案

灵活性缺失制约了光交换机在AI数据中心内部的全行业普及,但针对光交换点对点传输的技术特性,数据中心之外的另一个市场,电信市场,很早就在研究解决之道。

城市间的上万公里的骨干网中,光传输是毫无疑问的唯一路线,而骨干网因为节点较少,更新频次少,单次建设成本高等特点,一直探索着行业最为领先的光交换技术。


这类光交换技术被称作ROADM技术(Reconfigurable Optical Add-Drop Multiplexe),即可重构光分插复用器。

RODAM技术允许在光通信网络中灵活地添加、删除和重新配置光信号,这类技术在21世纪初就有所发展,并在诞生的近三十年中不断进化。

同样以城市交通为比喻,最新一代的ROADM技术已经实现了以下特点。

波长无关(Colorless:任意波长可在任意端口上下车(不限制乘客类型)。

方向无关(Directionless本地信号可发往任意方向(换乘任意线路)。

竞争无关(Contentionless相同波长可同时上下不同方向的业务(避免座位冲突)。

灵活栅格(Flexi-Grid:波长间隔可动态调整(如50GHz→75GHz),适应不同带宽需求(类似加挂列车

而实现这项技术的核心器件则是一个名为WSSWavelength Selective Switch 波长选择开关)的光交换器件,其基本原理是利用光栅的衍射效应将不同波长的光信号分离,并通过光开关实现对特定波长信号的灵活选择和路由,因为结构复杂而单价较高。

WSS模块内部有着复杂的光学结构

WSS模块单价虽高,但市场出货也少,一年全球出货在十万颗的级别,全球市场规模只在3亿美元左右。市场小加上技术壁垒高,导致全球WSS市场高度集中,海外玩家们经过长期的并购整合,只剩下 II-VI 和 Lumentum 等几家龙头。

不过以WSS为代表的传统电信网络中的光交换市场,现在却有望伴随大型数据中心之间的互联需求,迎来爆发。

跨区域训练浪潮
电信光交换市场因AI重启

202485日,仅次于AT&TVerizon的美国电信服务公司Lumen Technologies当日股价飙升93%,其宣布,在人工智能浪潮催生的连接需求激增下,成功斩获了价值50亿美元(折合人民币约357亿元)的新业务订单合同,且还有潜在高达70亿美元的交易正在酝酿当中。


原来北美电信市场其实是光纤埋太多,需求却太少,相对于家喻户晓的AT&TVerizon等电信行业龙头,专注于边缘计算市场Lumen收入只有AT&T的零头,是相对不起眼的那个。

而微软等行业巨头雄心勃勃的跨区域数据中心训练计划(multi-datacenter training)则改变了这一切。

Lumen的另一个身份是全美最大的暗光纤厂商,暗光纤就是已经被部署但是处于闲置状态的光纤管道。


图中灰色的都是Lumen还有闲置能力的光纤网络

对微软等厂商来说,铺设地下光纤管道的高昂成本一度成为它们构建跨区域数据训练中心的难题,而Lumen这样曾经过剩建设的光纤服务商则正好可以解决这个问题。

大量闲置的光纤网络有望在AI 浪潮中被重新利用,通过改造,为微软等厂商连接北美各地的数据中心。面对跨区域的训练浪潮, Lumen甚至提前预定了其供应商康宁未来2年全球光纤产能的10% ,来满足客户需求。

大部分的光纤都为Hyperscaler即云厂商大模型训练服务

当然和光纤管道一同升级的,还有包括收发器、DWDM 复用器/解复用器、路由器、放大器、 ROADM(可重构光分插复用器)和 WSS(波长选择开关)等一整套传统电信市场的相关设备。

根据SemiAnalysis,未来将有超过100亿美元的电信 Capex 专门用于跨数据中心训练(multi-datacenter training),对比之下,全球整个交换机、路由器和广域网(WAN)市场也不过 750 亿美元且这还只是训练市场,伴随LLM推理模型使用量大幅上升后用户对时延的要求,未来来自推理端的需求也将刺激电信设备更新。

架构-模块-元件
中国玩家全栈突破

可以看到,无论是数据中心内部Spine层连接,还是跨区越数据中心的训练,光互联技术凭借超高速、低时延、低功耗的特性,正成为破局关键。在这场决定AI基础设施主导权的竞赛中,中国企业也在惊人的速度打破垄断、重构规则。

首先是架构设计上,谷歌有基于OCS光交换机的阿波罗计划,而华为则推出了数据中心全光交叉方案(DC-OXC),在顶层构建全光交换平面,支持计算单元(POD)按需分批接入,理论可扩展至百万卡规模。在时延敏感型场景中,华为DC-OXC通过扁平化架构将传输跳数从5跳降至4跳,单跳时延降低5~6μs。仿真和实测显示,可助力GPT-MoE等模型训练任务吞吐量提升1.5%~3.5%,小规模集群实测性能增益达2%

华为的光交换机产品

其次是核心器件WSS,光迅科技、科谱技术,慧辰芯等国产厂商克服了LCOS芯片自主化,核心器件国产化等重大技术难点,实现了关键技术的自主研发,打破了II-VI 和 Lumentum 等海外厂商的垄断。

最后在关键的光学工艺上,腾景科技等国内厂商完成了光学薄膜、精密光学、模压玻璃非球面、光纤器件技术平台,实现滤光片、偏振分束器等20余类元件的国产替代这一切源自达λ/10(波长十分之一)的颠覆性光学元件面形精度。

光互连的星辰大海

应用场景方面,陆地光通信由电信网络、行业专网和数据中心互联等传统领域向智算/超算互联、算间互联、工业互联网等领域扩展,并进一步由陆地向空间、水下、车内、以及芯片级等范围延伸。

自动驾驶领域,光互联的高带宽(提升10倍至≥100Gb/s高抗电磁(干扰降低90%超轻质量(重量为铜线1/10)等特性,适应了车载摄像头、激光雷达、传感器间高吞吐、μs级低延迟的通信需求,为即将到来的L4自动驾驶时代保驾护航。

工业互联网领域,三一重工全球首条5G+50G PON柔性产线,取代传统工业以太网,时延压至<1毫秒,机器视觉检测效率提升40%,背后的华为工业级光网络可靠性达99.9999999%,保障生产线零失误

卫星互联网领域,北斗星通构建在轨算力池,长光卫星突破卫星间&星地激光链路速度,突破100Gbps,未来6G将实现手机直连卫星,为地面应急响应提速。

AI的巨轮驶向通用智能深蓝,“全光互联”跳出现有框架,为智算更远的未来探索着可能,无论是OCS光交换机产业拐点的逐渐逼近,还是电信WSS设备市场的重启,抑或是光互联在自动驾驶、工业自动化、卫星通信的场景拓展······

当下,我们正处于技术革命与产业红利的交汇点,一起见证AI光速未来

机构简介:治臻咨询作为一家深耕企业战略服务领域的精品化咨询机构,整合资本交易投行服务与企业管理咨询服务于一体。公司核心业务涵盖企业融资、境内外并购交易、债务重组等多元资本交易类型,服务范畴聚焦于先进制造、材料、汽车工业、半导体、医疗等重点行业领域。在投资人合作层面,公司建立了覆盖聚焦行业不同发展阶段的风险投资机构、产业基金、上市公司及多策略私募基金与并购基金等在内的多元化合作体系。治臻咨询始终以全流程专业化服务为支撑,助力企业优化资本结构、实现战略布局拓展,推动产业资源与资本的高效协同对接。

-END-

(文:头部科技)

发表评论