GRPO奖励归档 - 每时AI

地平线提出AlphaDrive，首个基于GRPO强化学习和规划推理实现自动驾驶大模型

下午4时 2025/03/23 作者机器之心

OpenAI的o1和DeepSeek的R1模型在复杂领域达到人类专家水平，AlphaDrive提出一种强化学习和推理训练框架用于自动驾驶规划，显著提升规划准确率并降低成本。