X-R1: 不到50元,人人都能复现0.5B Aha Moment 下午2时 2025/02/13 作者 PaperAgent X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。