SGLang Team:在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek
25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型
25-05-05-large-scale-ep
DeepSeek 是一个广受欢迎的开源大型语言模型
DeepSeek在OpenSourceWeek分享了多个开源项目,包括用于V3/R1训练的DualPipe、EPLB负载均衡算法以及用于深度学习模型的profile-data分析数据。
昨天DeepSeek开源第一天即收获9000颗星,今日其新项目DeepEP发布两天后已获3900颗星星。支持低精度计算、优化NVLink和RDMA数据转发等特性,专为混合专家(MoE)和专家并行(EP)设计的高效通信库。
文章介绍了DeepEP,一个用于高效通信的开源框架。通过类比交通系统,解释了其主要特点包括全对全通信能力、支持两种通信方式(节点内和节点间)、高吞吐量低延迟的GPU内核以及灵活资源控制等特性。
DeepSeek的开源周Day2发布了DeepEP库,这是一个为MoE模型训练和推理定制的通信库,支持高吞吐量、低延迟的All-to-All GPU内核,并提供针对非对称域带宽转发优化的内核。
DeepSeek 开源周第二天,带来了 DeepEP 通信库,旨在优化混合专家系统和专家并行模型的高效通信。其亮点包括高效的全员协作通道、专为训练和推理预填充设计的核心以及灵活调控GPU资源的能力,显著提升MoE模型的性能和效率。