nanoGRPO:一个轻量的GRPO实现 2025-03-09 作者 NLP工程化 nanoGRPO:一个轻量的Group Relative Policy Optimization (GRPO) 实现,仅需8GB显存即可运行,显著提升语言模型表现。