灵光一现现象归档 - 每时AI

Understand-R1-Zero：深入剖析R1-Zero类训练方法

上午8时 2025/03/24 作者 NLP工程化

深入剖析R1-Zero训练方法，发现其已展现‘灵光一现’现象，并提出Dr. GRPO算法优化强化学习过程。仅用8×A100 GPU在27小时内实现SOTA性能。