
字节开源了他们内部百亿级集群实战验证的MoE加速库——COMET,相比DeepSeek近期开源的DualPipe等MoE优化方案,COMET可以像插件一样直接接入已有的MoE训练框架,无论你的模型用哪种并行策略,COMET都能完美支持
按照字节的说法,COMET已经在字节跳动 10,000+ GPU 的生产集群上大规模部署,实实在在 省下了数百万 GPU 小时!💰💰💰 效果有多惊人?论文里给出了硬核数据:
-
• 单层 MoE 提速 1.96x ⚡️ -
• 端到端 MoE 模型加速 1.71x ⚡️
这效率提升,直接把MoE模型的性价比拉满!更关键的是,COMET的原理非常硬核:细粒度计算-通信重叠,彻底榨干GPU算力!

给大家划个重点:COMET神器特点
-
• 即插即用,代码改动极小 📌 告别复杂的魔改,只需几行代码就能替换现有MoE模块,无痛上手! -
• 通吃所有MoE并行模式 📌 TP/EP/EP+TP,无论你的模型用哪种并行策略,COMET都能完美支持 -
• MLSys’25 顶级评分 📌 实打实的硬实力,性能经过大规模验证,可靠性杠杠的!
COMET创新点
简单来说,MoE模型虽然参数量巨大,但实际计算是稀疏的,只有部分“专家”会被激活。然而,大规模MoE模型的瓶颈在于通信开销,设备间数据交换耗时惊人,甚至能占到模型运行时间的 47%!
现有的优化方法,比如粗粒度的计算-通信流水线,效果有限,GPU空闲时间依然不少COMET的创新之处在于:
-
• 细粒度重叠:COMET通过数据依赖分析和任务重调度,实现了计算和通信的 精细化同步,消除了传统方法中粗粒度划分带来的效率损失 -
• 自适应工作负载分配:MoE模型运行时,不同专家的负载动态变化,COMET能 动态调整GPU资源分配,平衡计算和通信,最大程度隐藏延迟 -
技术硬核解析
COMET的核心技术包括:
-
1. 基于共享张量的依赖解析: COMET深入分析MoE层中计算和通信操作之间的数据依赖关系,通过分解共享张量,打破粗粒度数据依赖,实现更灵活的流水线 -
-
2. 自适应工作负载分配: 针对MoE模型动态负载的特点,COMET设计了自适应的线程块分配机制,在kernel内部动态平衡计算和通信资源,实现极致的延迟隐藏
简单来说,COMET就像一个精密的调度大师,把MoE模型的计算和通信过程拆解重组,让GPU资源得到最大化利用,从而实现性能飞跃
写在最后
开发团队seed希望以此为契机,推动MoE模型优化的进一步发展。他们还提到,未来会探索使用Triton、TVM等编译器,进一步提升COMET的性能。
论文:
https://arxiv.org/pdf/2502.19811
代码:
https://github.com/bytedance/flux/pull/54/
开源地址:
https://github.com/bytedance/flux
⭐
(文:AI寒武纪)