nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练 上午8时 2025/04/07 作者 NLP工程化 nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练。亮点: 单GPU即可训练3B参数模型; 从零开始的详细视频教程,快速上手; 高效训练,10小时内完成R1-zero倒计时任务。 参考文献:[1] http://github.com/McGill-NLP/nano-aha-moment[2] https://huggingface.co/McGill-NLP/nano-aha-moment-3b (文:NLP工程化) 欢迎分享