X-R1: 不到50元,人人都能复现0.5B Aha Moment 2025年2月13日14时 作者 PaperAgent X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。