DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目

DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用。亮点:

  1. 仅用单个H100 GPU,400步训练即可显著提升模型性能;

  2. 完全自研实现,不依赖外部RL库;

  3. 提供多脚本结构,易于学习和扩展。

参考文献:
[1] https://github.com/brendanhogan/DeepSeekRL-Extended


(文:NLP工程化)

欢迎分享

发表评论