nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练

nanoAhaMoment:单文件强化学习库,专为LLM设计,不到700行代码即可实现高效训练。亮点:

  1. 单GPU即可训练3B参数模型;

  2. 从零开始的详细视频教程,快速上手;

  3. 高效训练,10小时内完成R1-zero倒计时任务。

参考文献:
[1] http://github.com/McGill-NLP/nano-aha-moment
[2] https://huggingface.co/McGill-NLP/nano-aha-moment-3b



(文:NLP工程化)

欢迎分享

发表评论