32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理 下午4时 2025/03/07 作者 新智元 o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100