不卷智商,卷“干活”!国产模型 Kimi K2 凭什么在国外杀疯了?

在 AI 模型大战已陷入疲态的当下,月之暗面(Moonshot AI)凭一己之力,再次点燃了全球用户对国产大模型的热情。

Kimi K2 来了,一开源就是万亿参数级。

这次的 Kimi K2,不同于以往卷模型“基础性能”(智商),而是剑走偏锋,开始卷“任务执行”(谁更能干活)。

Kimi 的这步棋,无疑是走对了。

来看看国外用户对 Kimi K2 的评价。

首先是来自大模型市场 OpenRouter 官方的认可:“就在 Kimi K2 推出后短短几天内,Moonshot AI 在 token 市场份额已超过了 xAI。”

OpenRouter 上各个模型 API 使用量是用户对这个模型评价的直接反映。Kimi K2 目前超过 xAI,排在第九名。另外一个国产之光 DeepSeek 排在第二,毕竟,性价比太高了。

再比如下面这位网友的评价:“Kimi K2 是继 Claude 3.5 Sonnet 之后,第一个让我在生产环境里可以放心调用的模型。”

类似的评价还有很多,多到我甚至都怀疑是不是 Kimi 官方雇了“水军”。


那么,Kimi K2 真的很“行”吗?它到底“强”在哪?

今天就来尝试客观地分析一波。



01|Kimi K2 基本参数

基础参数方面,Kimi K2 最亮眼的无疑是“万亿参数”。

1T(1 万亿)总参数,使用 MoE 架构推理时激活 32B(320 亿)参数,上下文长度 128K tokens。

作为对比,DeepSeek V3 参数总量为 671B(6710 亿),激活参数 37B(370 亿),上下文长度 64K。

不同于“刷榜型大模型”(特指 Llama 4Grok 4 等模型),Kimi K2 主打“代码生成 + 工具调用 + 数学推理”这些真实生产场景。

所以,月之暗面官方在宣传 Kimi K2 时,用得最多的一个词,就是 Agentic,即自主的、具备代理能力的。



02|Kimi K2 两个版本

Kimi K2 共发布两个版本,分别面向不同的使用场景。

  1. Kimi-K2-Base,基础预训练模型。没有经过任何指令微调,保持了原始训练后的通用能力,更适合科研研究、自定义微调或用作下游任务的底座。如果你是开发者或研究人员,想在此基础上继续探索新领域,这个版本是理想选择。

  2. Kimi-K2-Instruct,经过指令微调后的通用版本。它已经被优化用于实际应用场景,比如 Agent 工具调用、复杂任务拆解、多轮对话以及代码生成等,是在 Kimi 官网、App 和 API 中默认使用的模型。

这两个版本都已经开源,可以直接在 Hugging Face 上下载使用,这里附上地址:https://huggingface.co/moonshotai/Kimi-K2-Instruct。



03|非推理模型,脱颖而出

Kimi 官方很实在,特别强调:Kimi K2 是非推理模型(Non-CoT),且暂不支持多模态输入。

下面则是 Kimi 官方放出的 Kimi K2 基准测试对比图。

作为一个非推理模型,Kimi K2 肯定是没法和 o3Gemini 2.5 Pro 这些顶级推理模型比的,这估计也是 Kimi 官方的小心思,在对比图里压根没有出现 o3 和 Gemini 2.5 Pro 的身影。

参与对比的模型包括 DeepSeek-V3Qwen3-235BGPT-4.1 以及 Claude 4 系列,Kimi K2 可以说是表现相当亮眼,在这些模型中脱颖而出。

尤其是官方宣传最多的:自主编程(Agentic Coding)和工具调用(Tool Use)。

数学推理方面就不用想太多了,推理模型因为具有思维链机制简直是碾压,毕竟 o3 在 AIME 2025 测试中已接近满分,Kimi K2 则是 49.5%。



04|Kimi K2 怎么用?

Kimi 官方提供了三种方式来体验 Kimi K2

最简单的方式就是在 Kimi 官网(kimi.com)或 App,直接使用。

但要注意的是,模型不支持多模态,比如图片输入,当前 Kimi 仅支持用 OCR 技术提取图片里的文字内容。

并且,不支持推理模式。

其次是 API。如果你习惯使用 API 调用的方式来体验各个模型,Kimi K2 也都支持。定价每百万输入 tokens 4 元,每百万输出 tokens 16 元,和 DeepSeek-R1 相同,是 DeepSeek-V3 的 2 倍。

当然,OpenRouter 已支持免费的 Kimi K2 模型,用量小更推荐。

最后是自部署。Kimi K2 Base 和 Instruct 模型都是开源的,支持 FP8 权重,可直接从 Hugging Face 下载部署。

虽然总参数是万亿级别,但 32B 的激活参数大大降低了部署门槛。



05|Kimi K2 初体验

目前仅做了几个测试,给我的感觉:有惊喜,有不足

惊喜来自一道数学题目的测试。

对于一个非推理模型来说,测试数学题稍“严苛”了点,但 Kimi K2 的表现可圈可点。

这是号称史上最难的 1984 年全国卷数学选择最后一题。

Kimi K2 的回答完全正确,包括推理过程。虽然部分推理重复且冗长,但瑕不掩瑜。

不足:以图片格式上传数学题目,Kimi 没有一次能准确识别其中文字的,这应该是 OCR 限制了 Kimi 的发挥,但不支持多模态输入的确是 Kimi K2 的一大短板。

所以上面的测试,我是直接把 Latex 格式的数学题发给了 Kimi。

备注:更全面的测评正在准备中。



结语

从“对话”到“干活”,Kimi K2 是一场方向正确的试探。

在大模型越来越“内卷”的今天,Kimi 并没有继续死磕榜单,而是选择了一条“下沉到底层执行力”的路线。

Kimi K2 没有思维链、不支持多模态、也不是最强的“考试”选手,但不影响它在国外“火出了圈”。

在全球用户被“能用、敢用”体验打动的背后,Kimi 所代表的,可能正是国产大模型正在寻找的那条新路径。




我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

发表评论