DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用。亮点:
-
仅用单个H100 GPU,400步训练即可显著提升模型性能;
-
完全自研实现,不依赖外部RL库;
-
提供多脚本结构,易于学习和扩展。



参考文献:
[1] https://github.com/brendanhogan/DeepSeekRL-Extended
(文:NLP工程化)
DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用。亮点:
仅用单个H100 GPU,400步训练即可显著提升模型性能;
完全自研实现,不依赖外部RL库;
提供多脚本结构,易于学习和扩展。
参考文献:
[1] https://github.com/brendanhogan/DeepSeekRL-Extended
(文:NLP工程化)