-
细粒度专家划分:DeepSeekMoE对专家进行更细致的分割,使每个专家在特定领域或任务上更专精,从而提高知识获取的准确性和效率。
-
共享专家隔离:同时设计了一部分共享专家,用于捕捉通用知识,避免各个路由专家之间的重复计算(知识冗余),实现更合理的专家职责分配。
-
专家并行与负载均衡机制:在训练时采用专家并行策略,并引入辅助损失(包括专家级、设备级和通信级平衡损失)以及token-dropping策略,确保每个专家的负载相对均衡,控制跨设备通信开销,从而降低训练成本并提升整体训练效率。
-
auxiliary-loss-free strategy for load balancing:对于每个专家,在路由时为其加上一个偏置项(仅用于路由选择),在训练过程中根据当前专家是否过载进行动态调整(增加或减少偏置),这一策略保持专家负载均衡而不引入额外损失,从而不会对模型性能造成明显干扰,同时节点限制路由确保在专家并行时跨设备通信最小化,使得大规模MoE模型训练更稳定、高效。
-
Multi-Token Prediction (MTP) :引入了MTP模块和相应训练目标,既能提升模型预测精度,也可用于推理时的speculative decoding,从而加速生成过程。
-
首创FP8 Mixed Precision Training Framework:首次在极大规模模型上引入并验证了FP8混合精度训练框架。通过支持FP8运算和存储实现了训练加速和减少内存占用。
-
训练框架优化:DualPipe算法实现流水线并行,减少流水线空泡实现了计算与通信重叠;开发了专门的跨节点All-to-All通信内核,以充分利用InfiniBand (IB) 和NVLink的带宽,从而确保各节点之间的数据交换高效且低延迟。
-
DeepSeek-V3在RewardBench上的表现与最优版本的GPT-4o-0806和Claude-3.5-Sonnet-1022相当,甚至超过了其他版本的表现,这表明其判断能力非常出色。
-
DeepSeek-V3探讨了self-rewarding策略,通过模型自身的投票评估结果来生成奖励信号,实现自我优化。这种方法不仅提高了模型的对齐效果,还为未来在更广泛任务中的奖励机制设计提供了新的思路。
-
强化学习使用DeepSeekMath中提出的GRPO策略。
-
Reward Modeling:1) Accuracy Reward:usually rule based model,2)Format reward:强制模型生成CoT过程。Aha Moment of R1-Zero:在RL训练过程中会出现Aha moment,模型突然“恍然大悟”,并分配更多的思考时间重新考虑初始条件策略,这说明了通过提供正确的激励,模型可以自主发展出先进的解决问题的策略。“Aha Moment”是通过强化学习,解锁下一层LLM智能的可能路径。
(文:智东西)