nanoGRPO:一个轻量的GRPO实现 上午8时 2025/03/09 作者 NLP工程化 nanoGRPO:一个轻量的Group Relative Policy Optimization (GRPO) 实现,仅需8GB显存即可运行,显著提升语言模型表现。