0.5B小模型逆袭!不到50元,「X-R1」让每个人都能复现Aha Moment

X-R1 是一个低成本且易入门的强化学习训练框架,旨在降低 R1 的复现门槛。通过使用0.5B预训练模型,在4张3090/4090显卡上仅需2小时就实现了 ‘aha Moment’,展示了极小模型也能触发Aha Moment的现象。