Lin Zhang 归档 - 每时AI

Infra视角下的DeepSeek-V3，到底有多强？

2025年1月21日22时作者 Datawhale

DeepSeek发布的大规模MoE模型DeepSeek-V3在两千张H800上仅用两个月训练完成，实现了显著的性能提升。通过MLA和MoE结构改进以及辅助损失无化策略等技术优化，使得模型稀疏程度提高，同时引入了64路专家并行、流水线并行及数据并行等高效部署方案，在推理阶段取得了较好的效果。