Kimi 模型,硬核开源…
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。
Mooncake是Kimi的服务平台,后者是由Moonshot AI提供的大型语言模型服务。基于KVCache的解耦架构和预测性早期拒绝策略,Mooncake在高过载场景下实现了显著的吞吐量增加,并且通过改进的传输引擎支持灵活的数据传输。