7G显存,训练自己的DeepSeek-R1,GRPO资源暴降80% 下午7时 2025/02/10 作者 PaperAgent Unsloth AI 提供了 GRPO 训练算法,使用户能够在仅 7GB VRAM 上重现 DeepSeek R1-Zero 的‘顿悟时刻’,相比传统方法减少约80%的 VRAM 使用量。