DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈

作者｜周一笑
邮箱｜zhouyixiao@pingwest.com

DeepSeek开源周day2正式发布：DeepEP。

昨天的FlashMLA着眼于解决计算性能瓶颈，而今天发布的DeepEP则将目光投向了MoE模型训练与推理中的另一个关键环节——通信。DeepEP是一个面向MoE模型训练与推理的开源EP通信库，专门针对Hopper GPU（未来可能支持更多架构或设备）优化通信效率。

DeepSeek官方总结的DeepEP主要特点包括：

高效优化的全对全通信

通过 NVLink 和 RDMA 实现节点内与节点间支持

用于训练和推理预填充的高吞吐量内核

低延迟推理解码内核

原生 FP8 调度支持

计算与通信重叠的灵活 GPU 资源控制

在MoE模型中，由于专家数量众多且分布在不同设备上，专家之间的通信效率直接影响到整个模型的训练和推理速度。因此，一个高效的通信库对于MoE模型至关重要。

EP通信库，通常指的是用于高效数据传输和通信的协议或库，特别是在分布式计算环境中。在EP（Expert Parallel）模式是一种并行计算策略，能够有效地处理巨大的计算负载。

在使用MoE（Mixture of Experts）模型时，EP通信库可以帮助在不同设备之间实现专家并行，使每个设备只需处理其所负责的专家，从而减轻了单个设备的负担。

从 GitHub 页面提供的描述来看，DeepEP就像是为前面提到的专家团队提供了一种超快的“信使服务”，让这些专家之间的通信尽可能快速。

它优化了速度和效率，支持低精度操作如 FP8，这是一种计算更快但精度稍低的数字表示方式，类似于用更简单的工具完成任务。它还针对特定的硬件连接（如 NVLink 和 RDMA）进行了优化，这些是 GPU 之间的高速通信方式，确保在大规模 AI 项目中通信效率最高。

想象你有一个很大的团队，每个成员（我们称之为“专家”）负责不同的任务，比如一个擅长写文章，另一个擅长算数学。这些专家分布在不同的电脑上，使用强大的处理器叫 GPU。DeepEP 就像一个超级快的信息传递系统，让这些专家能快速分享数据，确保团队合作顺利。

具体来看，DeepEP包括以下关键功能：

正常内核：用于训练和推理预填充，支持对 Streaming Multiprocessor (SM) 数量的控制。SM 是 GPU 执行 CUDA 内核的部分，控制其数量可以优化性能。

低延迟内核：针对延迟敏感的推理解码，使用纯 RDMA（远程直接内存访问）技术，并采用基于钩子的通信-计算重叠方法，不占用 SM 资源。这对于实时应用（如语言模型的逐 token 生成）尤为重要。

低精度支持：支持 FP8 操作，FP8 是一种 8 位浮点格式，相比标准 FP32（32 位）计算更快，内存占用更少。这在大型模型中尤为关键，可以显著提高效率。

硬件优化：针对非对称域带宽转发（如 NVLink 到 RDMA 域）进行了优化，符合 DeepSeek-V3 论文中提到的组限制门控算法。NVLink 和 RDMA 是 GPU 之间的高速互连方式，优化这些连接可以充分利用硬件性能。

性能方面，在实测中，DeepEP在H800上4096个token同时处理的场景下，达到了153GB/s的传输速度，接近硬件理论极限（160GB/s）。

具体来看，正常内核性能（NVLink 和 RDMA，H800，CX7 InfiniBand 400 Gb/s，DeepSeek-V3/R1 预训练：4096 tokens/batch，7168 hidden，top-4 groups，top-8 experts，FP8 dispatch，BF16 combine）：

低延迟内核性能（纯 RDMA，H800，CX7 InfiniBand 400 Gb/s，DeepSeek-V3/R1 生产：128 tokens/batch，7168 hidden，top-8 experts，FP8 dispatch，BF16 combine）：

DeepEP项目描述还提到，实施可能与 DeepSeek-V3 论文略有不同，表明DeepEP可能是一个独立开发但与DeepSeek-V3 密切相关的工具，专门处理通信优化。

总的来看，DeepEP 的价值主要体现在以下几个方面：

效率提升：通过优化通信，减少训练和推理所需的时间和计算资源。例如，低延迟内核通过通信-计算重叠方法不占用 SM 资源，适合实时推理。

可扩展性：其设计支持大规模 GPU 集群，适合处理参数量巨大的模型，如 DeepSeek-V3 的 671B 参数。

成本降低：高效通信减少了 GPU 使用时间，降低训练成本，这在 AI研究中尤为重要。

创新潜力：作为通信库的创新，DeepEP 可能影响未来硬件设计，如论文中建议的 NVIDIA SHARP 协处理器或统一 IB 和 NVLink 网络。

综合来看，DeepEP通过一系列创新性的设计和优化，显著提升了MoE模型训练和推理过程中的通信效率，为大模型的发展带来了新的可能性。如此强大的功能，使得DeepEP在发布后立即引发了业界的广泛关注。

DeepEP发布短短几个小时，从X上的评论看，受到了广泛的积极评价。许多评论者对 DeepEP 的高效通信和支持低精度操作（如 FP8）印象深刻，称其为“开源工具的伟大发布”。也有用户称赞赏DeepSeek使用 NVLink 和 RDMA 的精确优化。

赛科传媒的CEO梁赛告诉硅星人：今天DeepEP这个发布，适用于Hopper架构GPU从训练到推理的全流程加速，相当于在给全世界的大模型训练提速，有利于大模型自身的进化演变；同时也在给大模型的推理提速，能进一步催生出更多的应用。

DeepSeek开源周day one的FlashMLA让推理训练更快了，今天的DeepEP直接加速MoE通信，接下来DeepSeek可能继续覆盖训练、数据处理或部署的各个环节，继续让开源技术惠及全世界。

（文：硅星GenAI）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复