地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型 下午4时 2025/03/23 作者 机器之心 OpenAI的o1和DeepSeek的R1模型在复杂领域达到人类专家水平,AlphaDrive提出一种强化学习和推理训练框架用于自动驾驶规划,显著提升规划准确率并降低成本。