DeepSeekRL-Extended:从零实现DeepSeek R1的强化学习项目 上午8时 2025/02/18 作者 NLP工程化 从零实现DeepSeek R1的强化学习项目,探索GRPO算法的应用,仅用单个H100 GPU400步训练提升模型性能,完全自研且提供多脚本结构。