DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目 上午8时 2025/02/18 作者 NLP工程化 DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用。亮点: 仅用单个H100 GPU,400步训练即可显著提升模型性能; 完全自研实现,不依赖外部RL库; 提供多脚本结构,易于学习和扩展。 参考文献:[1] https://github.com/brendanhogan/DeepSeekRL-Extended (文:NLP工程化) 欢迎分享