MoE模型归档 - 第3页共4页 - 每时AI

刚刚，DeepSeek开源DeepEP通信库，千亿MoE训推颠覆级创新！FP8狂飙，带飞GPU

下午12时 2025/02/25 作者新智元

推EP通信库DeepEP开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。
刚刚

DeepSeek开源第二弹，为MoE和EP量身定制的通信库！暂和英伟达显卡绑定

下午12时 2025/02/25 作者量子位

DeepSeek开源第二弹来了！首个用于MoE模型训练和推理的开源EP通信库DeepEP提供高吞吐量和低延迟的all-to-all GPU内核，支持低精度运算包括FP8。性能方面涵盖高效和优化的all-to-all通信、NVLink和RDMA的支持、预填充任务和推理解码任务等。团队建议使用Hopper GPUs及更高版本Python 3.8及以上CUDA 12.3及以上PyTorch 2.1及以上环境，并提供详细的使用指南。

Kimi首次开源了其一个16B参数的MoE模型：Moonlight-16B

上午8时 2025/02/25 作者 NLP工程化

Kimi开源Moonlight-16B模型，参数量16B，激活3B，性能优于LLAMA、Qwen和Deepseek-v2-Lite，在英文和中文能力上表现优异。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

下午4时 2025/02/23 作者量子位

OpenAI团队的优化算法Muon在更大模型和数据集上的应用效果被月之暗面团队验证，改进后的Muon对1.5B参数量Llama架构模型的算力需求仅为AdamW的52%，同时基于DeepSeek架构训练出一个16B的MoE模型并开源。

MoE环游记：从几何意义出发

下午12时 2025/02/10 作者 PaperWeekly

网络
前两年福至心灵之下，开了一个“Transformer 升级之路”系列，陆续分享了主流 Tran

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

下午4时 2025/01/24 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000