机器之心PRO · 会员通讯 Week 15
— 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 —
1. RL for LLMs,强化学习的 Scaling Law 才刚刚起步?
为什么说 LLM 性能的下一个突破点是强化学习的 Scale?RL 是如何增强 LLM 的能力的?预训练与 RL 缺一不可,为什么单纯的 RL 并不能提高 LLM 的「智力」?RL 的 Scaling Law 才刚刚起步,有哪些关键难点?近期主流的 LLM 是如何通过强化学习来增强决策能力的?…
2. Anthropic 首席科学家的 AI「视界」如何判别 AGI 进程?
什么是 AI「视界」?AI「视界」正在如何快速进步?Anthropic 一直在关注 DeepSeek?Kaplan 对 Scaling Law 为何仍保持乐观?Anthropic 和 DeepMind 如何辨析「AGI 的加速时间表」?

要事解读① RL for LLMs,强化学习的 Scaling Law 才刚刚起步?
日期:4 月 11 日
预训练模型 x 强化学习=智能?
1、近期、来自 DeepSeek、清华大学的研究者发表了一项关于提升通用奖励模型(GRM)在推理阶段的可扩展性 的技术论文。研究者提出了名为「自我原则批评调整(SPCT)」的方法,通过拒绝式微调和基于规则的在线强化学习,使 GRM 通过动态生成原则和批评优化奖励生成。[1-1]
2、在 o1 模型推出后,LLM 的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段,通过更多的强化学习(训练时计算)和更多的思考时间(测试时计算)来持续提高 o1 的性能。
① 即 o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
② o1 开启了通过强化学习来实现 LLM 推理能力显著提升的路线,同样,DeepSeek-R1 系列模型也进一步验证了通过纯强化学习训练(无需监督微调)实现 LLM 推理能力的跃升。
3、LLM 本身依赖于「Next token prediction」机制,类似于概率模型,虽知识丰富但缺乏深度规划和长期结果预测能力,易陷入短视决策。而强化学习则起到补充作用,为 LLM 提供「Internal World Model」(内心世界模型),使 LLM 能够模拟不同推理路径的潜在结果、通过评估路径优劣并选择更优解,从而实现更系统化的长期规划,LLM 与 RL 的结合是提升复杂问题解决能力的关键。
4、清华叉院助理教授吴翼在一档播客节目中将 LLM 与强化学习的关系形容为「乘法关系」。强化学习虽然在决策能力上表现出色,但其本身无法提供理解能力。理解能力的构建需要依赖预训练模型,而强化学习则在此基础上进一步优化决策能力。两者的关系可以被形容为「乘法关系」,只有在预训练阶段构建了强大的理解能力、记忆能力和逻辑能力,强化学习才能充分发挥其潜力,最终实现一个完整的智能体。[1-2]
5、在来自墨尔本大学、浙江大学等机构发布的综述论文《Reinforcement Learning Enhanced LLMs: A Survey》中,使用 RL 训练 LLMs 的过程可以大致分为三个主要步骤:
① 首先是奖励模型的训练。在微调之前,训练一个奖励模型(或奖励函数)来近似人类偏好并评估不同的 LLM 输出;
② 其次是基于偏好的微调。在每次微调迭代中,大型语言模型会为给定指令生成多个响应,每个响应都使用训练好的奖励模型进行评分;
③ 最后是策略优化,通过强化学习优化技术,根据偏好分数更新模型的权重,以提升响应生成。将强化学习纳入大型语言模型,使模型能够基于不同的偏好分数动态调整,而不是仅限于单一的预定答案。
RL 的 Scaling Law 才刚刚起步,有哪些关键难点?
1、尽管强化学习的 Post-Training 成为当前提升 LLM 性能的突破点。但强化学习算法仍有很大的改进空间,强化学习的 Scaling Law 才刚刚起步。
2、所谓的「强化学习的 Scaling Law」 指如何通过增加计算资源(如并行化处理、GPU 加速等)、训练样本或模型规模,来提升强化学习模型的性能。不同于传统的 Scaling Laws 范式,使用更多的数据和算力来实现模型性能的提升,强化学习的 Scaling Law 的影响因素更为复杂,包括样本吞吐量、模型参数量、训练环境的复杂度等。
3、目前,强化学习的 Scaling Law 面临的一大难题是奖励稀疏性,Reward model(奖励模型)是强化学习中的关键模块,生成准确的奖励信号至关重要。Reward model 要想实现泛化性和连续性成为关键重点。
(文:机器之心)