DeepSeek开源周Day 2: DeepEP——解锁MoE模型通信瓶颈
DeepEP是针对Hopper GPU优化的MoE模型训练与推理高效通信库,支持FP8和低延迟推理解码,通过NVLink和RDMA提升效率。
DeepEP是针对Hopper GPU优化的MoE模型训练与推理高效通信库,支持FP8和低延迟推理解码,通过NVLink和RDMA提升效率。
DeepSeek发布第二款开源软件库DeepEP,专为MoE模型训练与推理设计,提供高效的全对全通信计算核,支持FP8精度运算。
DeepSeek开源第二弹来了!首个用于MoE模型训练和推理的开源EP通信库DeepEP提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度运算包括FP8。性能方面涵盖高效和优化的all-to-all通信、NVLink和RDMA的支持、预填充任务和推理解码任务等。团队建议使用Hopper GPUs及更高版本Python 3.8及以上CUDA 12.3及以上PyTorch 2.1及以上环境,并提供详细的使用指南。
Kimi开源Moonlight-16B模型,参数量16B,激活3B,性能优于LLAMA、Qwen和Deepseek-v2-Lite,在英文和中文能力上表现优异。
OpenAI团队的优化算法Muon在更大模型和数据集上的应用效果被月之暗面团队验证,改进后的Muon对1.5B参数量Llama架构模型的算力需求仅为AdamW的52%,同时基于DeepSeek架构训练出一个16B的MoE模型并开源。
今天分享了一款快、稳且免费的R1满血版推理模型平台——问小白。界面简洁,提问后2秒出第一个token,速度快于同类产品。适用于各种需要即时反馈的场景。