DeepSeekRL-Extended：从零实现DeepSeek R1的强化学习项目

上午8时 2025/02/18 作者 NLP工程化

DeepSeekRL-Extended：从零实现DeepSeek R1的强化学习项目，探索GRPO算法的应用。亮点：

仅用单个H100 GPU，400步训练即可显著提升模型性能；
完全自研实现，不依赖外部RL库；
提供多脚本结构，易于学习和扩展。

参考文献：
[1] https://github.com/brendanhogan/DeepSeekRL-Extended

（文：NLP工程化）

发表评论取消回复