重磅！字节开源COMET：MoE加速立省百万GPU时，摩擦DeepSeek方案

下午11时 2025/03/10 作者 AI寒武纪

字节开源了他们内部百亿级集群实战验证的MoE加速库——COMET，相比DeepSeek近期开源的DualPipe等MoE优化方案，COMET可以像插件一样直接接入已有的MoE训练框架，无论你的模型用哪种并行策略，COMET都能完美支持

按照字节的说法，COMET已经在字节跳动 10,000+ GPU 的生产集群上大规模部署，实实在在 省下了数百万 GPU 小时！💰💰💰 效果有多惊人？论文里给出了硬核数据：

• 单层 MoE 提速 1.96x ⚡️
• 端到端 MoE 模型加速 1.71x ⚡️

这效率提升，直接把MoE模型的性价比拉满！更关键的是，COMET的原理非常硬核：细粒度计算-通信重叠，彻底榨干GPU算力！

给大家划个重点：COMET神器特点

• 即插即用，代码改动极小 📌 告别复杂的魔改，只需几行代码就能替换现有MoE模块，无痛上手！
• 通吃所有MoE并行模式 📌 TP/EP/EP+TP，无论你的模型用哪种并行策略，COMET都能完美支持
• MLSys’25 顶级评分 📌 实打实的硬实力，性能经过大规模验证，可靠性杠杠的！

COMET创新点

简单来说，MoE模型虽然参数量巨大，但实际计算是稀疏的，只有部分“专家”会被激活。然而，大规模MoE模型的瓶颈在于通信开销，设备间数据交换耗时惊人，甚至能占到模型运行时间的 47%！

现有的优化方法，比如粗粒度的计算-通信流水线，效果有限，GPU空闲时间依然不少COMET的创新之处在于：

• 细粒度重叠：COMET通过数据依赖分析和任务重调度，实现了计算和通信的 精细化同步，消除了传统方法中粗粒度划分带来的效率损失
• 自适应工作负载分配：MoE模型运行时，不同专家的负载动态变化，COMET能 动态调整GPU资源分配，平衡计算和通信，最大程度隐藏延迟

技术硬核解析

COMET的核心技术包括：

1. 基于共享张量的依赖解析： COMET深入分析MoE层中计算和通信操作之间的数据依赖关系，通过分解共享张量，打破粗粒度数据依赖，实现更灵活的流水线
2. 自适应工作负载分配：针对MoE模型动态负载的特点，COMET设计了自适应的线程块分配机制，在kernel内部动态平衡计算和通信资源，实现极致的延迟隐藏

简单来说，COMET就像一个精密的调度大师，把MoE模型的计算和通信过程拆解重组，让GPU资源得到最大化利用，从而实现性能飞跃

写在最后

开发团队seed希望以此为契机，推动MoE模型优化的进一步发展。他们还提到，未来会探索使用Triton、TVM等编译器，进一步提升COMET的性能。

论文:
https://arxiv.org/pdf/2502.19811

代码:

https://github.com/bytedance/flux/pull/54/

开源地址：

https://github.com/bytedance/flux

⭐

（文：AI寒武纪）

发表评论取消回复