Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

新智元报道

编辑：编辑部 HYZ

【新智元导读】来了来了，月之暗面首个「满血版o1」来了！这是除OpenAI之外，首次有多模态模型在数学和代码能力上达到了满血版o1的水平。

还记得吗，AI大神Karpathy曾说过，「英文是最热门的编程语言」。

两年后的现在，这个规则彻底要被颠覆了。

从今天起，中文很有可能成为全球最热门的编程语言！

就在刚刚，Kimi发布了k1.5 多模态思考模型。这是继去年 11 月他们发布 k0-math 数学模型，12月发布 k1 视觉思考模型之后，连续第三个月带来 k 系列强化学习模型的重磅升级。

Kimi k1.5的性能，如今已经全面追上现役全球最强模型——OpenAI o1满血版。

具体来说，在Long CoT模式下，Kimi k1.5的数学、代码、多模态推理能力，达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内，首次有OpenAI之外的公司达到。

而在Short CoT模式下，Kimi k1.5大幅领先GPT-4o 和Claude 3.5的水平。

短COT模式下，数学成绩显著高于GPT-4o和Claude Sonnet 3.5

同时，月之暗面也大方公开了这个满血版o1水平的强化学习模型的训练技术细节。

简单出奇迹，首创long2short思维链

扒开Kimi k1.5 25页技术报告，可以清晰看到这款模型的技术创新之处。

当前，基于下一个token预测的语言模型，在计算规模上的扩展，已经得到了有效证明。

但模型Scaling仍受限于可用的数据量，为此，Kimi团队创新性地扩展了强化学习（RL）的应用，开辟出一条全新的路径。

它能够让LLM通过奖励机制进行探索性学习，从而自主扩展训练数据，从而实现计算规模有效扩展。

论文地址：https://github.com/MoonshotAI/kimi-k1.5

以下，是k1.5设计和训练的四大关键要素：

1. 长上下文扩展

2. 改进的策略优化

3. 简化框架

4. 多模态

接下来，我们一起深挖一下这些技术细节吧。

短CoT模型的上下文压缩

与业界普遍采用复杂技术做法不同，Kimi团队选择了一条更为优雅的技术路线——回归第一性原理。

他们证明了，无需依赖蒙特卡洛树搜索、价值函数、过程奖励模型，也能让模型取得卓越的性能。

如上所见，我们已经看到了Kimi k1.5在多个权威基准测试中，取得了显著的突破。

那么，long2short是如何被实现的呢？

Kimi团队认为，可以将长CoT模型的推理先验转移到短CoT模型中，从而即使在有限的测试Token预算下也能提高性能。

模型合并

将长CoT模型和短CoT模型进行合并，除了可以在泛化性上起到积极的作用，还可以提高Token的使用效率。

这种方法通过简单地平均两个模型的权重，将一个长CoT模型与一个短模型结合，得到一个新的模型，而无需进行训练。

最短筛选采样

由于模型对于同一问题生成的响应长度变化很大，因此团队设计了一种最短筛选采样方法。

也就是，先对同一问题采样n次，然后选择最短的正确响应进行监督微调。

DPO

利用长CoT模型生成多个响应样本，然后选择最短的正确解作为正样本，并将较长的响应视为负样本，包括正确但长度是选定正样本1.5倍的较长响应。

这些正负样本对数据集形成了用于DPO训练的成对偏好数据。

long2short强化学习

在标准强化学习训练阶段之后，团队选择了一个在性能与Token使用效率之间提供最佳平衡的模型作为基础模型，并进行单独的long2short强化学习训练阶段。

在第二阶段中，他们应用了「长度惩罚」，并显著减少了最大展开长度，以进一步惩罚可能正确但超出期望长度的响应。

强化学习基础设施

Kimi k1.5系统设计了一种迭代同步的RL框架，旨在通过持续的学习与适应来增强模型的推理能力。

该系统的一项关键创新是引入了部分回滚（Partial Rollout）技术，用于减少计算开销并优化复杂推理轨迹的处理。

如下图3a所示，RL训练系统通过迭代同步的方法运行，每次迭代包含回滚阶段和训练阶段。

在回滚阶段，由中央主控协调的回滚工作节点通过与模型交互生成回滚轨迹，这些轨迹是模型对各种输入生成的响应序列。在随后的训练阶段，训练工作节点访问这些经验以更新模型的权重。

这个循环过程使模型能够持续从其行为中学习，随着时间的推移调整其策略以提升性能。

长CoT强化学习的部分回滚技术

部分回滚（Partial Rollouts）能够通过同时管理长轨迹和短轨迹的回滚，有效地解决处理长CoT特性时的资源分配和效率挑战，进而实现长上下文强化学习（RL）训练的规模扩展。

该技术设定了一个固定的输出Token预算，对每个回滚轨迹的长度进行限制。如果某个轨迹在回滚阶段超过了Token限制，其未完成部分被保存到重放缓冲区，并在后续迭代中继续处理。

此外，由于回滚工作节点是异步运行的，当某些节点处理长轨迹时，其他节点可以独立地处理新的短回滚任务。

如图3b所示，部分回滚系统通过在多次迭代中将长响应分解为多个片段来运行，显著降低了计算开销——系统无需一次性处理整个响应，而是逐步处理和存储片段，从而在保持快速迭代时间的同时生成更长的响应。

部分回滚的实现还提供了重复检测功能。系统能够识别生成内容中的重复序列并提前终止，从而减少不必要的计算，同时保持输出质量。

训练与推理的混合部署

研究者提出了一种用于训练和推理任务的混合部署策略，该策略利用Kubernetes的Sidecar容器共享所有可用GPU，将两种任务协同部署在同一个Pod中。这一策略的主要优势包括：

促进了资源的高效共享与管理，避免了训练节点因等待推理节点而处于空闲状态（当两者部署在不同节点时）
通过使用不同的部署镜像，训练和推理可以独立迭代，从而实现更好的性能
架构并不限于vLLM，还可以方便地集成其他框架

如图4所示，研究者在Megatron和vLLM的基础上实现了这一混合部署框架，从训练到推理阶段不到一分钟的转换时间，反向转换则约为十秒钟。

实验结果

由于k1.5是一个多模态模型，研究者对不同模态的各种基准进行了综合评估。基准测试主要包括以下三类：

Text Benchmark：MMLU, IF-Eval, CLUEWSC, C-EVAL
Reasoning Benchmark：HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
Vision Benchmark：MMMU, MATH-Vision, MathVista

k1.5长CoT模型

Kimi的k1.5长CoT模型通过长CoT监督微调和视觉-文本联合强化学习，在长距离推理上获得了显著的增强。

评估显示，模型在长上下文中的推理、理解和信息综合能力方面有了显著提升，标志着多模态AI能力的显著进步。

k1.5短CoT模型

Kimi的k1.5短CoT模型集成了多种技术，包括传统监督微调方法、强化学习以及长到短知识蒸馏。

如表3所示，k1.5短CoT模型在覆盖多个领域的多项任务中表现出与领先的开源和专有模型相当或更优的性能。

长上下文Scaling

研究者使用一个中型模型，来研究结合LLM的强化学习的扩展特性。如图5所示，随着训练的进行，模型响应长度和性能准确率同时增加。

尤其值得注意的是，在更具挑战性的基准测试中，响应长度的增长更为陡峭，这表明模型在处理复杂问题时学会生成更详尽的解决方案。

图6表明，模型输出的上下文长度与其问题解决能力之间存在显著的相关性。

最终，k1.5模型的运行能支持128k上下文长度，并在困难的推理基准测试中持续取得改进。

由长到短

研究者重点研究了long2short问题中的Token效率，特别是长CoT模型如何提升短模型性能。

如图7所示，提出的long2short强化学习算法在Token效率方面优于其他方法（如DPO和模型合并）。

值得注意的是，k1.5系列的所有模型（用橙色标记）在Token效率上都优于其他模型（用蓝色标记）。

思考模型，进入冲刺

可以看到，在多模态推理技术路线上，Kimi又进了一步。

从2024年11月，他们首次推出的数学推理模型K0-math就展现出了在数学领域的领先性。

紧接着一个月后，K1视觉思考模型诞生，不仅继承了K0-math的数学底蕴，更突破性地解锁了视觉理解能力。

这意味着，K1不仅「会算」，还能「会看」——通过理解图片中的信息，并通过逐步推理得出答案。

如今，k1.5又继续向前推进了一步，在多个领域数理化、代码、通用中，刷新了SOTA，甚至能够媲美世界顶尖模型。

下一步，Kimi依旧会发力多模态推理，继续迭代出能够在更多模态、更多领域、具备更强通用能力的Kn系列的模型。

k1.5已经带来了诸多惊喜，还真是有点期待下一代模型的到来。

（文：新智元）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31