X-R1:人人都能复现0.5B Aha Moment 上午8时 2025/02/13 作者 NLP工程化 X-R1 提出了一种低成本、易于使用的强化学习训练框架,成功训练出0.5B参数的R1-Zero模型。