多头潜在注意力归档

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

2024年12月30日22时作者 AI先锋官

DeepSeek V3 是一款6710亿参数的开源模型，在训练成本上仅需278.8万GPU小时。其技术创新包括多头潜在注意力（MLA）和混合专家架构（MoE），展示了在推理效率和成本控制上的潜力，引发了业界对于更经济实惠AI路径的关注与讨论。

2024年12月27日10时作者 AI寒武纪

2024年12月26日，DeepSeek AI发布其最新大型语言模型DeepSeek-V3，每秒处理60个token，采用FP8训练、MoE架构、无辅助损失负载均衡策略和多令牌预测目标等技术。该模型仅花费不到600万美金完成训练，并且支持高效推理与本地部署。