MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 青稞AI

作者 | 蛙哥

RL真的让大模型变聪明了吗？我最近读的这几篇论文还挺有意思，底层的逻辑应该是有共识的，就是模型能力的上限在预训练阶段就确定了，当前的RL只是优化选择路径，并没有提升智力上限。

这三篇关于 RL在大模型训练中作用的论文，分别是3月斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》、4月清华和上交大联合出品的《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》以及刚刚出品的Transformer原作Ashish Vaswani参与的《Rethinking Reflection in Pre-training》。

这三篇文章来自不同团队，用的模型也不一样，但从我的视角看，都指出了一个核心事实——大模型的推理能力，其实早在预训练阶段就已经形成了，RL 更像是个“采样放大器”。RL不一定让模型更聪明，只是让它更擅长挑选已有的好答案。

斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners》分析的是 RL 效果的分歧。

论文链接：https://arxiv.org/abs/2503.01307

研究者发现，同样的 RL 训练，一个模型（比如 Qwen-2.5）提升特别明显，另一个（Llama-3.2）基本没反应。为啥？他们提出了一个概念：认知行为。也就是说，一个模型本身有没有“回溯”“验证”“设子目标”这些能力，决定了它能不能从 RL中学到东西。没有这些基础，RL训再久也没用。Qwen2.5和Llama3.2的差别就是Qwen2.5里有大量的所谓认知行为，也就是推理轨迹，而Llama3.2没有，所以你怎么RL Llama3.2他一点都激活不起来推理能力。后来尝试给Llama3.2基座灌了一批推理轨迹数据，再用RL来激活就能力就上来了。国内智源当前正在推进的OpenSeek项目，也buy in了这个点，目前正在预训练阶段大量的刷推理轨迹数据，让模型在基座上就见到足够多的推理路径或者叫“模版”，后训练RL的时候他们相信即使轨迹的内容不对，但是路径的模版足够丰富，也能带来极大的能力提升。

清华《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》直接把“RL 会提升推理上限”的说法拿出来批判。

论文链接：https://arxiv.org/abs/2504.13837

他们做了个大规模的 pass@k 分析，结果是：那些被 RL 训出来的“好答案”，其实底座模型早就能生成，只是裸用基座被挑中的概率低了点。RL只是让模型更偏向去生成高 reward 的路径，并没有真正增加推理能力的多样性。这篇论文的几个主要发现

• RLVR 未引入新的推理路径：通过手动检查链式思维推理路径，发现 RLVR 训练的模型生成的推理路径在基模型的输出分布中已存在，表明 RLVR 并未引入全新的推理能力。说明智力上限在预训练，RL只是激活。
• RLVR 提高采样效率但缩小推理边界：RLVR 训练使模型倾向于生成高奖励的路径，从而提高了在小 k 值（如 pass@1）下的表现。然而，这种偏向性减少了模型的探索能力，导致在大 k 值下（如 pass@256）基模型的表现反而优于 RLVR 模型。就是说用基座是的多了，肯定能找到一个更优的答案比RLVR的模型结果更好。
• 不同 RL 算法表现相近，均未达到最优：比较了 PPO、GRPO 和 Reinforce++ 等 RL 算法，发现它们在采样效率上的差异较小，且都未达到基模型推理边界所定义的最优采样效率。说明目前RL不注入新数据的情况应该都差不多。
• 知识蒸馏能引入新知识，区别于 RLVR：与 RLVR 不同，知识蒸馏可以引入新的推理模式，扩展模型的推理边界。这表明蒸馏在提升模型推理能力方面具有更大的潜力。说明在同样的方法情况下，模型能力提升，还是需要新的数据。

清华这篇论文我的看法是还说明了一个问题，即使推理能力是在基座模型里决定的，但是当前RLVR技术也很难找到最优的推理路径给出最优解，也是个局部最优。所以VR这类方法看起来也是阶段性的方法而已，长期来看如何给RL定义真实世界的评估反馈，才是最终解。

Transformer原作参与的《Rethinking Reflection in Pre-training》讲的是“反思”能力，也就是模型能不能在推理过程中发现自己犯了错然后纠正。

论文链接：https://arxiv.org/abs/2504.04022

作者用一堆刻意掺了错误的推理链去测试模型，发现模型在还没做RL的时候就已经能自己修正不少错误了。训练token越多、模型越大，这种能力越明显。作者用基座模型OLMo-2-7B来证明在未进行RL的阶段，通过在推理阶段适时的塞入一个提示词“wait”，就能触发模型的反思能力，达到RL后模型的效果。

这个效果让我想起来一个叫entropix的开源项目，这个项目通过在推理阶段引入基于熵和变熵的动态采样机制，显著提升了模型在推理任务中的表现，比如根据模型当前的情况，插入CoT提示引导模型深入思考，或者重新采样尝试新的生成路径，出发点和这篇论文大体相似，可惜这个项目去年底就停更了。

总结

总结下来，这三篇文章其实达成了一个RL模型的共识：

1、能力来源（source）：

语言模型的推理能力 = f(模型架构, token量, 训练数据多样性, 泛化能力)

2、RL的作用（作用机制）：

RL ≈ 一个奖励驱动的路径偏移器

• 将已存在于模型分布中的推理路径偏移为更高 reward 的选项
• 提高成功率，但不生成新“知识”或“能力”

3、提升路径（有效方向）：

想要获得新的 reasoning 能力 ≠ 强化训练

需要更强的知识/经验（知识注入+架构优化+认知行为引导）

RL不是创造能力，而是优化选择。真正决定模型能走多远的，是底座模型的本体素质，在架构稳定的情况下，最终还是数据。

其实前几天OpenAI姚顺雨的《The Second Half》和 DeepMind 的《The Era of Experience》这两篇文章里提到的下半场AI训练要关注的评估和体验，我觉得也是和这三篇论文的基调一致。一方面是通过体验与真实世界更好链接，更多的现实世界的数据来源，提高模型基础边界上限；另一方面足够准确的定义评估模型，通过RL技术让模型可以学习到最佳的上限路径，真正把模型能力发挥出来。

（文：机器学习算法与自然语言处理）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Transformer原作、斯坦福、清华交大三篇论文共识：基座模型边界锁死RL能力上限

总结

发表评论取消回复

总结

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复