真机实验归档 - 每时AI

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

2024年12月27日12时作者机器之心

本文介绍了一种名为GRAPE的新算法，用于改善视觉-语言-动作模型在机器人任务中的泛化能力。通过偏好对齐提升策略的灵活性和适应性，支持多种目标如安全性和效率。