超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场 下午12时 2025/03/13 作者 机器之心 高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型