出人意料!DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了 下午11时 2025/02/21 作者 机器之心 Group Relative Policy Optimization)非常关键,是 DeepSeek