刚刚,高效部署DeepSeek R1的秘密被DeepSeek公开了~

DeepSeek的开源周(OpenSourceWeek)Day2开源了DeepEP: 第一个用于 MoE 模型训练和推理的开源 EP 通信库。
DeepEP 是一个为专家混合(Mixture-of-Experts,简称MoE)和专家并行(expert parallelism,简称EP)量身定制的通信库。它提供了高吞吐量和低延迟的 all-to-all GPU内核,这些内核也被称为MoE分发和合并。该库还支持低精度操作,包括FP8
为了与DeepSeek-V3论文中提出的组限制门控算法相一致,DeepEP提供了一套针对非对称域带宽转发优化的内核,例如从NVLink域转发数据到RDMA域。这些内核提供高吞吐量,使它们既适用于训练任务,也适用于推理预填充任务。
  • 带有NVLink和RDMA转发的正常内核:H800上测试,遵循DeepSeek-V3/R1预训练设置(每批4096 tokens, 7168 hidden, top-4 groups, top-8 experts, FP8 dispatching and BF16 combining
  • 带有纯RDMA的低延迟内核:H800上测试,遵循典型的DeepSeek-V3/R1生产设置(每批128 tokens, 7168 hidden, top-8 experts, FP8 dispatching and BF16 combining
    https://github.com/deepseek-ai/DeepEP

    (文:PaperAgent)

    欢迎分享

    发表评论