DeepSeek-R1技术剖析:没有强化学习基础也能看懂的PPO & GRPO 下午11时 2025/02/22 作者 PaperWeekly 可信人工智能 开篇 在强化学习(RL)中,如果我们只知道“做对了能拿多少分”,那往往还不够,因为 单