X-R1: 不到50元,人人都能复现0.5B Aha Moment 2025年2月13日14时 作者 PaperAgent X-R1是基于强化学习的训练框架,目标降低R1复现门槛。通过最少成本在0.5B预训练模型上实现了‘顿悟时刻’效果,使用了更易训练的方法,并优化了数据规模和checkpoint打印。
首个DeepSeek-R1全开源复现Open-R1来了 2025年1月26日14时 作者 PaperAgent Open-R1是一个完全开源的DeepSeek-R1复现项目,包含训练、评估和生成合成数据脚本,目标帮助用户复现并在此基础上进行开发。