过程监督归档 - 每时AI

DeepSeek-R1技术剖析：没有强化学习基础也能看懂的PPO & GRPO

下午11时 2025/02/22 作者 PaperWeekly

可信人工智能
开篇
在强化学习（RL）中，如果我们只知道“做对了能拿多少分”，那往往还不够，因为
单