分布外推理归档 - 每时AI

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

2025年4月1日23时作者机器之心

对策略优化）。
不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 c

OpenAI 前首席科学家 Ilya：预训练时代将终结，未来 AI 或将不可预测

2024年12月16日12时作者 APPSO

在温哥华举行的神经信息处理系统大会(NeurIPS)上，OpenAI 前首席科学家 Ilya Sut