Kimi 模型,硬核开源…

月之暗面 AI(Kimi)HuggingFace开源了首个模型:Moonlight-16B-A3B,超过同等参数规模的DeepSeek、Qwen、Llama模型。
Moonlight对比Qwen2.5-3B、DeepSeek V2-Lite、Llama3.2-3B
最近,基于矩阵正交化的Muon优化器在训练小规模语言模型方面展现出了强大的效果,但在扩展到更大规模模型方面的可行性尚未得到验证。Kimi确定了两项关键的技术手段,用于扩大Muon的应用规模:
  • 增加权重衰减,
  • 精细调整每个参数的更新规模。
这些技术手段使得Muon能够在大规模训练中直接投入使用,而无需进行超参数调整。规模扩展规律实验表明,与采用计算优化训练的AdamW相比,Muon实现了约2倍的计算效率提升。
基于这些改进,Kimi推出了Moonlight,这是一个拥有3B/16B参数的混合专家(Mixture-of-Expert,MoE)模型,使用Muon进行了5.7T tokens的训练。与以往的模型相比,以更少的 FLOPs 实现了更好的性能。
开源了分布式Muon实现版本,该版本在内存使用上达到最优,并且通信效率很高。还发布了经过预训练、指令微调以及中间checkpoints的模型,以支持未来的研究工作。
    https://hf-mirror.com/moonshotai/Moonlight-16B-A3B-Instructhttps://hf-mirror.com/moonshotai/Moonlight-16B-A3Bhttps://github.com/MoonshotAI/Moonlight

    (文:PaperAgent)

    欢迎分享

    发表评论