DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈

作者周一笑
邮箱zhouyixiao@pingwest.com

DeepSeek开源周day2正式发布:DeepEP。
昨天的FlashMLA着眼于解决计算性能瓶颈,而今天发布的DeepEP则将目光投向了MoE模型训练与推理中的另一个关键环节——通信。DeepEP是一个面向MoE模型训练与推理的开源EP通信库,专门针对Hopper GPU(未来可能支持更多架构或设备)优化通信效率。
DeepSeek官方总结的DeepEP主要特点包括:
  • 高效优化的全对全通信

  • 通过 NVLink 和 RDMA 实现节点内与节点间支持

  • 用于训练和推理预填充的高吞吐量内核

  • 低延迟推理解码内核

  • 原生 FP8 调度支持

  • 计算与通信重叠的灵活 GPU 资源控制

在MoE模型中,由于专家数量众多且分布在不同设备上,专家之间的通信效率直接影响到整个模型的训练和推理速度。因此,一个高效的通信库对于MoE模型至关重要。
EP通信库,通常指的是用于高效数据传输和通信的协议或库,特别是在分布式计算环境中。在EP(Expert Parallel)模式是一种并行计算策略,能够有效地处理巨大的计算负载。
在使用MoE(Mixture of Experts)模型时,EP通信库可以帮助在不同设备之间实现专家并行,使每个设备只需处理其所负责的专家,从而减轻了单个设备的负担。
从 GitHub 页面提供的描述来看,DeepEP就像是为前面提到的专家团队提供了一种超快的“信使服务”,让这些专家之间的通信尽可能快速。
它优化了速度和效率,支持低精度操作如 FP8,这是一种计算更快但精度稍低的数字表示方式,类似于用更简单的工具完成任务。它还针对特定的硬件连接(如 NVLink 和 RDMA)进行了优化,这些是 GPU 之间的高速通信方式,确保在大规模 AI 项目中通信效率最高。
想象你有一个很大的团队,每个成员(我们称之为“专家”)负责不同的任务,比如一个擅长写文章,另一个擅长算数学。这些专家分布在不同的电脑上,使用强大的处理器叫 GPU。DeepEP 就像一个超级快的信息传递系统,让这些专家能快速分享数据,确保团队合作顺利。
具体来看,DeepEP包括以下关键功能:
正常内核: 用于训练和推理预填充,支持对 Streaming Multiprocessor (SM) 数量的控制。SM 是 GPU 执行 CUDA 内核的部分,控制其数量可以优化性能。
低延迟内核: 针对延迟敏感的推理解码,使用纯 RDMA(远程直接内存访问)技术,并采用基于钩子的通信-计算重叠方法,不占用 SM 资源。这对于实时应用(如语言模型的逐 token 生成)尤为重要。
低精度支持: 支持 FP8 操作,FP8 是一种 8 位浮点格式,相比标准 FP32(32 位)计算更快,内存占用更少。这在大型模型中尤为关键,可以显著提高效率。
硬件优化: 针对非对称域带宽转发(如 NVLink 到 RDMA 域)进行了优化,符合 DeepSeek-V3 论文中提到的组限制门控算法。NVLink 和 RDMA 是 GPU 之间的高速互连方式,优化这些连接可以充分利用硬件性能。
性能方面,在实测中,DeepEP在H800上4096个token同时处理的场景下,达到了153GB/s的传输速度,接近硬件理论极限(160GB/s)。
具体来看,正常内核性能(NVLink 和 RDMA,H800,CX7 InfiniBand 400 Gb/s,DeepSeek-V3/R1 预训练:4096 tokens/batch,7168 hidden,top-4 groups,top-8 experts,FP8 dispatch,BF16 combine):
低延迟内核性能(纯 RDMA,H800,CX7 InfiniBand 400 Gb/s,DeepSeek-V3/R1 生产:128 tokens/batch,7168 hidden,top-8 experts,FP8 dispatch,BF16 combine):
DeepEP项目描述还提到,实施可能与 DeepSeek-V3 论文略有不同,表明DeepEP可能是一个独立开发但与DeepSeek-V3 密切相关的工具,专门处理通信优化。
总的来看,DeepEP 的价值主要体现在以下几个方面:
效率提升:通过优化通信,减少训练和推理所需的时间和计算资源。例如,低延迟内核通过通信-计算重叠方法不占用 SM 资源,适合实时推理。
可扩展性:其设计支持大规模 GPU 集群,适合处理参数量巨大的模型,如 DeepSeek-V3 的 671B 参数。
成本降低:高效通信减少了 GPU 使用时间,降低训练成本,这在 AI研究中尤为重要。
创新潜力:作为通信库的创新,DeepEP 可能影响未来硬件设计,如论文中建议的 NVIDIA SHARP 协处理器或统一 IB 和 NVLink 网络。
综合来看,DeepEP通过一系列创新性的设计和优化,显著提升了MoE模型训练和推理过程中的通信效率,为大模型的发展带来了新的可能性。如此强大的功能,使得DeepEP在发布后立即引发了业界的广泛关注。
DeepEP发布短短几个小时,从X上的评论看,受到了广泛的积极评价。许多评论者对 DeepEP 的高效通信和支持低精度操作(如 FP8)印象深刻,称其为“开源工具的伟大发布”。也有用户称赞赏DeepSeek使用 NVLink 和 RDMA 的精确优化。
赛科传媒的CEO梁赛告诉硅星人:今天DeepEP这个发布,适用于Hopper架构GPU从训练到推理的全流程加速,相当于在给全世界的大模型训练提速,有利于大模型自身的进化演变;同时也在给大模型的推理提速,能进一步催生出更多的应用。
DeepSeek开源周day one的FlashMLA让推理训练更快了,今天的DeepEP直接加速MoE通信,接下来DeepSeek可能继续覆盖训练、数据处理或部署的各个环节,继续让开源技术惠及全世界。

(文:硅星GenAI)

欢迎分享

发表评论