完归档 - 每时AI

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

2025年3月9日16时作者量子位

elScope魔搭社区。
随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛