在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电 下午11时 2025/04/01 作者 机器之心 对策略优化)。 不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 c
OpenAI 前首席科学家 Ilya:预训练时代将终结,未来 AI 或将不可预测 下午12时 2024/12/16 作者 APPSO 在温哥华举行的神经信息处理系统大会(NeurIPS)上,OpenAI 前首席科学家 Ilya Sut