MRT归档 - 每时AI

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

下午12时 2025/03/13 作者机器之心

高推理能力的潜力，比如 OpenAI 的 o1 系列。
通常来说，这些方法在训练模型时可以产生比典型