32B击败DeepSeek-R1、o3-mini,成本暴降100倍!GRPO让小模型称霸推理 2025年3月7日16时 作者 新智元 o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100