逼停OpenAI开源计划,Kimi2震撼发布

最近几天,huggingface最受欢迎的两大LLM模型分别是月之暗面的kim2和智谱的4.1。

尤其是Kimi2,简直爆火。

原因是它是有史以来第一个能够接近甚至超越Claude编程能力的开源模型,所有涉及到编程能力的Agent,都要借助Claude才能比较完美,而Claude一是闭源,二是付费,还不便宜。

Kimi2的到来,让广大开源爱好者,有了最最完美的替代者。

有意思的是,Kimi2的架构是基于DeepSeek的。

这意味着,DeepSeek有了传承(事实上有很多国外做的不错的开源大模型也采用了DeepSeek的架构),这就是开源的意义。

在开源大模型领域,中国企业,就是当年的linux。

Kimi2最大的特点:模型即Agent。

架构与参数

混合专家架构:采用 MoE 架构,总参数量达 1 万亿,每次推理激活 320 亿参数。这种架构能够在大规模参数下实现高效的计算和推理,使得模型在处理复杂任务时表现出色。

长上下文支持:上下文长度为 128k,这使得 Kimi K2 能够处理更长的文本输入和输出,对于需要理解长篇内容的任务,如文档分析、代码生成等,具有明显优势。

性能表现

基准测试成绩优异:在 SWE Bench Verified、Tau2、AceBench 等基准性能测试中,Kimi K2 均取得开源模型中的 SOTA(stateoftheart)成绩。例如,在 SWEbench Verified 和 SWEbench Multilingual 两项自主编程能力的测试上,成绩仅次于 Claude 4 Opus 和 Claude 4 Sonnet,优于 DeepSeekV30324、Qwen3235BA22B 以及 OpenAI GPT4.1。

数学推理能力突出:在数学推理方面表现出色,实测其在 MATH500 中得分高达 97.4,能够准确处理复杂的数学问题和逻辑判断。

代码生成能力强:在代码生成方面表现出色,能够生成支持粒子系统、可视化和 3D 场景等复杂表现形式的代码。例如,通过一段“创建 3D HTML 山脉场景”的提示词,就能生成包含悬崖、河流和昼夜光照变化等元素的山川峡谷 3D 景观。

Agent 工具调用能力强大:具备稳定的复杂指令解析能力,可将需求自动拆解为一系列格式规范、可直接执行的 ToolCall 结构。例如,可以一站式帮助用户制定追星计划,包括演唱会所在城市的机酒与旅游规划,并生成日历,再用 html 概括完整行程规划并发送邮件。

开源与应用

开源版本丰富:同步开源了 Kimi K2 系列中的两个模型版本,分别是 KimiK2Base 和 KimiK2Instruct。KimiK2Base 是未经过指令微调的基础预训练模型,适合科研与自定义场景;KimiK2Instruct 是通用指令微调版本,在大多数问答与 Agent 任务中表现卓越。

API 服务完善:API 服务已全面上线,支持最长 128K 上下文,具备更强的通用性与工具调用能力。计费方案为每百万输入 tokens 4 元,每百万输出 tokens 16 元,兼容 OpenAI 和 Anthropic 的 Chat API 接口,用户可以轻松将常用的大模型工具切换至 Kimi K2。

技术创新

MuonClip 优化器:抛弃了传统的 Adam 优化器,创新性地使用了 Muon 优化器,并提出 MuonClip 来缓解大规模训练中的 attention logits 偏大问题。这使得 Kimi K2 能够完成 15.5T token 的平稳训练,全程无 loss spike,显著提升了训练稳定性和 token 使用效率。

大规模 Agentic Tool Use 数据合成:构建了可大规模生成多轮工具使用场景的合成 pipeline,覆盖数百领域、数千工具。高质量样本由 LLM 评估筛选后用于训练,进一步提升了模型的工具调用能力。

通用强化学习:不仅在可验证任务上强化学习,还通过引入自我评价机制(selfjudging),解决了不可验证任务的奖励稀缺问题。通过可验证任务持续优化 critic,提升泛化任务表现。


(文:路过银河AI)

发表评论