一个简单高效的 LLM 强化学习库:nanoAhaMoment

在 GitHub 上发现一个简单高效的 LLM 强化学习库:nanoAhaMoment。仅需单个 80G GPU,无需 RL 库,使用 3B 基础模型,全参数微调,就能实现类似 DeepSeek R1-zero 的风格训练,而且整个过程只需不到 10 小时。提供了 Jupyter notebook 笔记和通俗易懂的代码,并且附有详细教程视频,轻松上手学习。

参考文献:
[1] GitHub:https://github.com/McGill-NLP/nano-aha-moment
[2] https://huggingface.co/McGill-NLP/nano-aha-moment-3b



(文:NLP工程化)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往