强化学习（Reinforcement Learning, RL）归档 - 每时AI

DeepSeekRL-Extended：从零实现DeepSeek R1的强化学习项目

2025年2月18日8时作者 NLP工程化

从零实现DeepSeek R1的强化学习项目，探索GRPO算法的应用，仅用单个H100 GPU400步训练提升模型性能，完全自研且提供多脚本结构。