DeepSeek R2没来,Kimi K2来了,VLLM,SGLang首发支持
杨植麟提出开源路线,Moonshot AI发布Kimi K2大语言模型,采用混合专家架构,参数量达1万亿,表现出色并在多个基准测试中创造新SOTA记录。核心技术包括MuonClip优化器、大规模Agent数据合成和通用强化学习框架。模型提供两种版本,并通过修改版MIT协议开源。
杨植麟提出开源路线,Moonshot AI发布Kimi K2大语言模型,采用混合专家架构,参数量达1万亿,表现出色并在多个基准测试中创造新SOTA记录。核心技术包括MuonClip优化器、大规模Agent数据合成和通用强化学习框架。模型提供两种版本,并通过修改版MIT协议开源。
Paper2Code 是一个多智能体系统,将机器学习论文转换为可运行的代码仓库;Kimi-Audio 是一个开源音频模型,擅长理解、生成和对话任务;LangGraph WhatsApp Agent 利用 LangGraph 和 Twilio 构建 AI 代理处理 WhatsApp 消息;Trackers 是一个统一库,提供多种目标追踪算法与不同对象检测器集成;DeepWiki 利用 AI 自动生成 GitHub 代码仓库的交互式深度文档。
AI研究者Kimi发布了首个大规模混合专家模型Moonlight-16B-A3B,其使用Muon优化器在5.7T tokens的训练中实现了约2倍的计算效率提升,并开源了分布式Muon实现版本和预训练模型。
Mooncake是Kimi的服务平台,后者是由Moonshot AI提供的大型语言模型服务。基于KVCache的解耦架构和预测性早期拒绝策略,Mooncake在高过载场景下实现了显著的吞吐量增加,并且通过改进的传输引擎支持灵活的数据传输。