在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电 下午11时 2025/04/01 作者 机器之心 对策略优化)。 不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 c