100次迭代归档 - 每时AI

32B击败DeepSeek-R1、o3-mini，成本暴降100倍！GRPO让小模型称霸推理

2025年3月7日16时作者新智元

o1、o3-mini、DeepSeek-R1，核心秘密武器便是GRPO，最关键的是训练成本暴降100