不卷智商，卷“干活”！国产模型 Kimi K2 凭什么在国外杀疯了？

在 AI 模型大战已陷入疲态的当下，月之暗面（Moonshot AI）凭一己之力，再次点燃了全球用户对国产大模型的热情。

Kimi K2 来了，一开源就是万亿参数级。

这次的 Kimi K2，不同于以往卷模型“基础性能”（智商），而是剑走偏锋，开始卷“任务执行”（谁更能干活）。

Kimi 的这步棋，无疑是走对了。

来看看国外用户对 Kimi K2 的评价。

首先是来自大模型市场 OpenRouter 官方的认可：“就在 Kimi K2 推出后短短几天内，Moonshot AI 在 token 市场份额已超过了 xAI。”

OpenRouter 上各个模型 API 使用量是用户对这个模型评价的直接反映。Kimi K2 目前超过 xAI，排在第九名。另外一个国产之光 DeepSeek 排在第二，毕竟，性价比太高了。

再比如下面这位网友的评价：“Kimi K2 是继 Claude 3.5 Sonnet 之后，第一个让我在生产环境里可以放心调用的模型。”

类似的评价还有很多，多到我甚至都怀疑是不是 Kimi 官方雇了“水军”。

那么，Kimi K2 真的很“行”吗？它到底“强”在哪？

今天就来尝试客观地分析一波。

01｜Kimi K2 基本参数

基础参数方面，Kimi K2 最亮眼的无疑是“万亿参数”。

1T（1 万亿）总参数，使用 MoE 架构推理时激活 32B（320 亿）参数，上下文长度 128K tokens。

作为对比，DeepSeek V3 参数总量为 671B（6710 亿），激活参数 37B（370 亿），上下文长度 64K。

不同于“刷榜型大模型”（特指 Llama 4，Grok 4 等模型），Kimi K2 主打“代码生成 + 工具调用 + 数学推理”这些真实生产场景。

所以，月之暗面官方在宣传 Kimi K2 时，用得最多的一个词，就是 Agentic，即自主的、具备代理能力的。

02｜Kimi K2 两个版本

Kimi K2 共发布两个版本，分别面向不同的使用场景。

Kimi-K2-Base，基础预训练模型。没有经过任何指令微调，保持了原始训练后的通用能力，更适合科研研究、自定义微调或用作下游任务的底座。如果你是开发者或研究人员，想在此基础上继续探索新领域，这个版本是理想选择。
Kimi-K2-Instruct，经过指令微调后的通用版本。它已经被优化用于实际应用场景，比如 Agent 工具调用、复杂任务拆解、多轮对话以及代码生成等，是在 Kimi 官网、App 和 API 中默认使用的模型。

这两个版本都已经开源，可以直接在 Hugging Face 上下载使用，这里附上地址：https://huggingface.co/moonshotai/Kimi-K2-Instruct。

03｜非推理模型，脱颖而出

Kimi 官方很实在，特别强调：Kimi K2 是非推理模型（Non-CoT），且暂不支持多模态输入。

下面则是 Kimi 官方放出的 Kimi K2 基准测试对比图。

作为一个非推理模型，Kimi K2 肯定是没法和 o3、Gemini 2.5 Pro 这些顶级推理模型比的，这估计也是 Kimi 官方的小心思，在对比图里压根没有出现 o3 和 Gemini 2.5 Pro 的身影。

参与对比的模型包括 DeepSeek-V3、Qwen3-235B、GPT-4.1 以及 Claude 4 系列，Kimi K2 可以说是表现相当亮眼，在这些模型中脱颖而出。

尤其是官方宣传最多的：自主编程（Agentic Coding）和工具调用（Tool Use）。

数学推理方面就不用想太多了，推理模型因为具有思维链机制简直是碾压，毕竟 o3 在 AIME 2025 测试中已接近满分，Kimi K2 则是 49.5%。

04｜Kimi K2 怎么用？

Kimi 官方提供了三种方式来体验 Kimi K2。

最简单的方式就是在 Kimi 官网（kimi.com）或 App，直接使用。

但要注意的是，模型不支持多模态，比如图片输入，当前 Kimi 仅支持用 OCR 技术提取图片里的文字内容。

并且，不支持推理模式。

其次是 API。如果你习惯使用 API 调用的方式来体验各个模型，Kimi K2 也都支持。定价每百万输入 tokens 4 元，每百万输出 tokens 16 元，和 DeepSeek-R1 相同，是 DeepSeek-V3 的 2 倍。

当然，OpenRouter 已支持免费的 Kimi K2 模型，用量小更推荐。

最后是自部署。Kimi K2 Base 和 Instruct 模型都是开源的，支持 FP8 权重，可直接从 Hugging Face 下载部署。

虽然总参数是万亿级别，但 32B 的激活参数大大降低了部署门槛。

05｜Kimi K2 初体验

目前仅做了几个测试，给我的感觉：有惊喜，有不足。

惊喜来自一道数学题目的测试。

对于一个非推理模型来说，测试数学题稍“严苛”了点，但 Kimi K2 的表现可圈可点。

这是号称史上最难的 1984 年全国卷数学选择最后一题。

Kimi K2 的回答完全正确，包括推理过程。虽然部分推理重复且冗长，但瑕不掩瑜。

不足：以图片格式上传数学题目，Kimi 没有一次能准确识别其中文字的，这应该是 OCR 限制了 Kimi 的发挥，但不支持多模态输入的确是 Kimi K2 的一大短板。

所以上面的测试，我是直接把 Latex 格式的数学题发给了 Kimi。

备注：更全面的测评正在准备中。

结语

从“对话”到“干活”，Kimi K2 是一场方向正确的试探。

在大模型越来越“内卷”的今天，Kimi 并没有继续死磕榜单，而是选择了一条“下沉到底层执行力”的路线。

Kimi K2 没有思维链、不支持多模态、也不是最强的“考试”选手，但不影响它在国外“火出了圈”。

在全球用户被“能用、敢用”体验打动的背后，Kimi 所代表的，可能正是国产大模型正在寻找的那条新路径。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

01｜Kimi K2 基本参数

02｜Kimi K2 两个版本

03｜非推理模型，脱颖而出

04｜Kimi K2 怎么用？

05｜Kimi K2 初体验

结语

发表评论 取消回复

发表评论取消回复