Transformer原作、斯坦福、清华交大三篇论文共识:基座模型边界锁死RL能力上限


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 青稞AI
作者 | 蛙哥

RL真的让大模型变聪明了吗?我最近读的这几篇论文还挺有意思,底层的逻辑应该是有共识的,就是模型能力的上限在预训练阶段就确定了,当前的RL只是优化选择路径,并没有提升智力上限

这三篇关于 RL在大模型训练中作用的论文,分别是3月斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》、4月清华和上交大联合出品的《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》以及刚刚出品的Transformer原作Ashish Vaswani参与的《Rethinking Reflection in Pre-training》。

这三篇文章来自不同团队,用的模型也不一样,但从我的视角看,都指出了一个核心事实——大模型的推理能力,其实早在预训练阶段就已经形成了,RL 更像是个“采样放大器”。RL不一定让模型更聪明,只是让它更擅长挑选已有的好答案。

斯坦福的《Cognitive Behaviors that Enable Self-Improving Reasoners》分析的是 RL 效果的分歧

论文链接:https://arxiv.org/abs/2503.01307

研究者发现,同样的 RL 训练,一个模型(比如 Qwen-2.5)提升特别明显,另一个(Llama-3.2)基本没反应。为啥?他们提出了一个概念:认知行为。也就是说,一个模型本身有没有“回溯”“验证”“设子目标”这些能力,决定了它能不能从 RL中学到东西。没有这些基础,RL训再久也没用。Qwen2.5和Llama3.2的差别就是Qwen2.5里有大量的所谓认知行为,也就是推理轨迹,而Llama3.2没有,所以你怎么RL Llama3.2他一点都激活不起来推理能力。后来尝试给Llama3.2基座灌了一批推理轨迹数据,再用RL来激活就能力就上来了。国内智源当前正在推进的OpenSeek项目,也buy in了这个点,目前正在预训练阶段大量的刷推理轨迹数据,让模型在基座上就见到足够多的推理路径或者叫“模版”,后训练RL的时候他们相信即使轨迹的内容不对,但是路径的模版足够丰富,也能带来极大的能力提升。

清华《Does Reinforcement Learning Really Incentivize Reasoning Beyond the Base Model?》直接把“RL 会提升推理上限”的说法拿出来批判

论文链接:https://arxiv.org/abs/2504.13837

他们做了个大规模的 pass@k 分析,结果是:那些被 RL 训出来的“好答案”,其实底座模型早就能生成,只是裸用基座被挑中的概率低了点。RL只是让模型更偏向去生成高 reward 的路径,并没有真正增加推理能力的多样性。这篇论文的几个主要发现

  • • RLVR 未引入新的推理路径:通过手动检查链式思维推理路径,发现 RLVR 训练的模型生成的推理路径在基模型的输出分布中已存在,表明 RLVR 并未引入全新的推理能力。说明智力上限在预训练,RL只是激活。
  • • RLVR 提高采样效率但缩小推理边界:RLVR 训练使模型倾向于生成高奖励的路径,从而提高了在小 k 值(如 pass@1)下的表现。然而,这种偏向性减少了模型的探索能力,导致在大 k 值下(如 pass@256)基模型的表现反而优于 RLVR 模型。 就是说用基座是的多了,肯定能找到一个更优的答案比RLVR的模型结果更好。
  • • 不同 RL 算法表现相近,均未达到最优:比较了 PPO、GRPO 和 Reinforce++ 等 RL 算法,发现它们在采样效率上的差异较小,且都未达到基模型推理边界所定义的最优采样效率。 说明目前RL不注入新数据的情况应该都差不多。
  • • 知识蒸馏能引入新知识,区别于 RLVR:与 RLVR 不同,知识蒸馏可以引入新的推理模式,扩展模型的推理边界。这表明蒸馏在提升模型推理能力方面具有更大的潜力。说明在同样的方法情况下,模型能力提升,还是需要新的数据。

清华这篇论文我的看法是还说明了一个问题,即使推理能力是在基座模型里决定的,但是当前RLVR技术也很难找到最优的推理路径给出最优解,也是个局部最优。所以VR这类方法看起来也是阶段性的方法而已,长期来看如何给RL定义真实世界的评估反馈,才是最终解。

Transformer原作参与的《Rethinking Reflection in Pre-training》讲的是“反思”能力,也就是模型能不能在推理过程中发现自己犯了错然后纠正。

论文链接:https://arxiv.org/abs/2504.04022

作者用一堆刻意掺了错误的推理链去测试模型,发现模型在还没做RL的时候就已经能自己修正不少错误了。训练token越多、模型越大,这种能力越明显。作者用基座模型OLMo-2-7B来证明在未进行RL的阶段,通过在推理阶段适时的塞入一个提示词“wait”,就能触发模型的反思能力,达到RL后模型的效果。

这个效果让我想起来一个叫entropix的开源项目,这个项目通过在推理阶段引入基于熵和变熵的动态采样机制,显著提升了模型在推理任务中的表现,比如根据模型当前的情况,插入CoT提示引导模型深入思考,或者重新采样尝试新的生成路径,出发点和这篇论文大体相似,可惜这个项目去年底就停更了。

总结

总结下来,这三篇文章其实达成了一个RL模型的共识:

1、能力来源(source): 

语言模型的推理能力 = f(模型架构, token量, 训练数据多样性, 泛化能力)

2、RL的作用(作用机制)

RL ≈ 一个奖励驱动的路径偏移器

  • • 将已存在于模型分布中的推理路径偏移为更高 reward 的选项
  • • 提高成功率,但不生成新“知识”或“能力”

3、提升路径(有效方向)

想要获得新的 reasoning 能力 ≠ 强化训练

需要更强的知识/经验(知识注入+架构优化+认知行为引导)

RL不是创造能力,而是优化选择真正决定模型能走多远的,是底座模型的本体素质,在架构稳定的情况下,最终还是数据

其实前几天OpenAI姚顺雨的《The Second Half》和 DeepMind 的《The Era of Experience》这两篇文章里提到的下半场AI训练要关注的评估和体验,我觉得也是和这三篇论文的基调一致。一方面是通过体验与真实世界更好链接,更多的现实世界的数据来源,提高模型基础边界上限;另一方面足够准确的定义评估模型,通过RL技术让模型可以学习到最佳的上限路径,真正把模型能力发挥出来。


(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往