nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练。亮点:
-
单GPU即可训练3B参数模型;
-
从零开始的详细视频教程,快速上手;
-
高效训练,10小时内完成R1-zero倒计时任务。


参考文献:
[1] http://github.com/McGill-NLP/nano-aha-moment
[2] https://huggingface.co/McGill-NLP/nano-aha-moment-3b
(文:NLP工程化)
nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练。亮点:
单GPU即可训练3B参数模型;
从零开始的详细视频教程,快速上手;
高效训练,10小时内完成R1-zero倒计时任务。
参考文献:
[1] http://github.com/McGill-NLP/nano-aha-moment
[2] https://huggingface.co/McGill-NLP/nano-aha-moment-3b
(文:NLP工程化)