从PPO到GRPO,DeepSeek-R1做对了什么?

机器之心PRO · 会员通讯 Week 07

— 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 —

1. 从 PPO 到 GRPO,DeepSeek-R1 做对了什么?
Kimi 1.5 的 Mirror Descent 是否与R1的GRPO殊途同归?Ruled-based Reward 比 PRM更好用?CoT 过程出错根本不影响推理效果提升?…
2. 什么样的硬件产品才配得上 「AI Native」? 
AI 硬件产品的边界在哪?为什么说 AI 硬件赛道仍处在非常早期的阶段?为什么 AI Native 硬件产品还未出现?AI 大模型的「肉身」并不重要,交互能力才是核心瓶颈?…
3. ARK 2025 年度展望:AI 技术将革新全球经济格局
ARK 的新报告关注了哪些 AI 趋势?Agent 将渗透哪些行业?自动驾驶今年要大火?RoboTaxi 和智能物流的市场哪个更大?AI+机器人会影响哪些产业?…
…本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 9 项,国外方面 5 项。
本期通讯总计 22596 字,可免费试读至 6% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读①  从 PPO 到 GRPO,DeepSeek-R1 做对了什么?

引言:DeepSeek-R1 追平 o1 的推理能力和在推理中展现 Aha Moment 引发了大量对 DeepSeek-R1 技术方案的解读。其中,用 GRPO 替代 PPO 的强化学习方案为模型带来的 Aha Moment 尤其受到关注。
不要 Critic,Deepseek 为何用 GRPO 取代 PPO?
1、在 DeepSeek-R1 的技术报告所展示的强化学习方案是该工作最受关注的亮点,其也在后续的解读中被反复剖析。
① 清华大学刘知远教授近期在一场研讨会中评价 DeepSeek-R1 ,称其突破性贡献之一在于,该模型(R1-Zero)是全球首个通过纯强化学习技术,成功复现了 o1 的能力,并且开源了相关的技术细节,发布了相对详细的技术报告的工作。[1-1]
2、DeepSeek-R1 的强化学习方案中,其亮点之一在于通过 GRPO 算法取代了 RLHF 常用的 PPO,通过尽可能减少人类标注数据,设计纯 RL 的环境,用精心设计的奖励机制来训练模型自己学会推理。
3、在大模型训练中,强化学习常用于提升模型性能和对齐人类偏好,并且在后训练环节的应用愈发受到关注,流行的 RLHF 结合了机器学习和人类反馈训练奖励模型,然后用来微调模型,PPO 则是主流的 RLHF 方法之一。
4、DeepSeek-R1 采用的 GRPO 可以理解为 PPO 的一种替代,其核心在于去除了 PPO 中的 Critic(Value)模型,以此来减少训练的计算资源。[1-2]
① PPO 采用 Actor-Critic 架构,涵盖 Actor(policy)、Critic(Value)、Reward 和 Reference 四种模型。传统的 PPO 使用 Critic 模型来评估模型恢复的总收益,类似比赛中教练指导学员(Actor)的同时也在尝试学习裁判(Reward)的偏好。
② PPO 的缺陷在于 actor 与 critic 的交互会带来过高的成本,GRPO 的亮点在于去除 Critic 模型,用精心设计的 Rule-based Reward 取代难以调试的 Reward 模型进行判别,最终仅需要 Actor 和 Reference 两个模型,成本更低。
5、与 DeepSeek-R1 同一天发布技术报告的 Kimi 1.5 同样具备媲美 o1 的推理能力。有分析发现两者的技术方案虽有差异,但也有惊人的相似。[1-3]
① 两者均设计的简洁的 RL 框架,都没有采用类似 MCTS 那样复杂的树搜索,都没有采用昂贵的 PRM,没有密集的奖励建模,且都精心设计了参考事实的奖励机制来进行判别。
② 相比 DeepSeek-R1 采用 GRPO,Kimi 1.5 则采用了 online Mirror Decent 来进行 Policy Optimization。
R1 和 Kimi 1.5 都在用的 Rule-based Reward 有何神奇之处?

(文:机器之心)

发表评论