把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源 下午12时 2024/12/27 作者 机器之心 本文介绍了一种名为GRAPE的新算法,用于改善视觉-语言-动作模型在机器人任务中的泛化能力。通过偏好对齐提升策略的灵活性和适应性,支持多种目标如安全性和效率。