机器人泛化能力大幅提升:HAMSTER层次化方法和VLA尺度轨迹预测,显著提升开放世界任务成功率

近年来,人工智能在视觉和自然语言处理方面取得了惊人的泛化能力,但在机器人操作领域,端到端方法往往需要大量昂贵的本域数据,且难以在不同硬件平台与开放场景下推广。为此,HAMSTER(Hierarchical Action Models with Separated Path Representations)通过层次化架构,在高层利用域外数据微调的大模型(VLM)生成二维路径,中间表示解耦了任务规划与具体执行,让低层控制模块专注于实际动作控制。实验表明,HAMSTER 在多种操作任务中都体现出更高的任务成功率与更好的跨平台泛化性能,并显著降低了对昂贵机器人演示数据的依赖。

  • 论文标题:HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation
  • 论文主页:https://hamster-robot.github.io/
  • 论文链接:https://arxiv.org/abs/2502.05485
  •  Demo: http://hamster.a.pinggy.link

HAMSTER 这一研究成果获得了业界专家的高度评价。谷歌 DeepMind 高级研究科学家 Ted Xiao 在社交媒体上表示:「在构建机器人基础模型时,超越简单的自然语言具有巨大的潜力。轨迹是一种很好的实现方式,而HAMSTER已经将轨迹条件策略扩展到了VLA模型的规模!祝贺整个HAMSTER团队。



1. 背景与挑战

在机器人操作中,收集真实环境下的演示数据成本往往极高,且对环境设置和硬件平台有很强依赖性。因此,若要实现开箱即用、跨平台的机器人操作能力,仅仅依靠本域数据远远不够。另一方面,近年快速发展的多模态大模型(VLM)在视觉与语言理解方面已展现较好泛化能力,可通过微调来适应机器人任务。然而,若让大模型直接输出低层动作信号,通常仍需海量且昂贵的机器人数据,并且在实时控制与不同硬件迁移上存在诸多难点。

HAMSTER 针对上述问题提出了一种层次化思路:让大模型只负责高层语义推断与大体轨迹生成,而将精细的动作控制交给低层模块来完成。这不仅能充分利用外部(域外)数据的丰富性,也能在跨平台环境下保持较强的可迁移性。
2. HAMSTER 的层次化方法
2.1 高层规划:VLM 生成二维路径



HAMSTER 的高层使用一个视觉 – 语言模型(VLM)来理解环境图像和语言指令,并输出 “二维路径” 这一中间表示。具体来说,二维路径记录了末端执行器在图像平面上的运动轨迹以及抓取器的开合状态。由于该表示与机器人具体关节、动力学特性无关,因而具备以下优势:

  • 低歧义性、易标注:可以从视频、仿真或其他数据源中自动提取手部或末端执行器在图像中的运动轨迹。

  • 跨平台适用性:二维路径不涉及具体硬件细节,高层模型在不同机械臂或移动平台上都能保持一致的输出形式。

  •   丰富表达能力:二维路径不仅适用于简单的pick and place任务,还能扩展到诸如擦桌子、开抽屉、折毛巾、避障等更复杂的操作场景。

高层模型通过在大量 “域外” 数据上进行微调,学会将视觉与语言信息转化为合理的操作轨迹。域外数据包括可从互联网上获取的视频、仿真环境里机器人演示、以及其他机器人平台的历史数据等。这样一来,系统对真实机器人数据的需求量显著减少,却能在新环境和新任务中保持较好的泛化能力。

2.2 低层执行:基于路径的精细控制


得到高层输出的二维路径后,低层控制模块才会将其转化为实际的动作命令,包括抓取、放置等操作。低层通常结合少量本域机器人数据进行训练,学习如何在真实环境中根据三维信息实时调整,让执行轨迹与高层给出的二维路径对齐并完成任务目标。

这种 “高层规划 + 低层执行” 的分工,避免了端到端方案对昂贵数据的极度依赖,也利用了大模型的强泛化能力来处理更抽象和复杂的视觉与语言推理问题。
3. 实验设计与主要结果


研究团队在模拟环境与真实机器人平台上对 HAMSTER 进行了多组测试,涵盖多种类型的操作任务(如抓取、放置、推、按压等),并在不同的视觉和指令变化条件下,验证其泛化性能。

  • 泛化能力:由于二维路径与硬件无关,同一高层 VLM 可以直接迁移到新的环境和硬件设置上,仅需对低层控制做少量适配;在视觉背景、光照条件以及语言指令多样化的测试中,HAMSTER 依然能够输出合理的路径规划。由于低层控制只需跟随高层 VLM 输出的二维轨迹,所以能将技能泛化到新的任务,对于各类环境变化的鲁棒性也更强。

  • 数据效率:高层在海量域外数据上完成微调,而低层只需少量真实机器人演示数据,即可学到足够的执行能力,显著降低了对昂贵本域数据的需求。

  • 任务成功率提升:与端到端大模型或传统模仿学习方法相比,HAMSTER 在多个复杂操作任务上的成功率平均提升约 20%~30%。在一些高难度场景如涉及新物体时,传统端到端模型成功率不到 20%,HAMSTER 可达 80% 左右。

  • 推理速度与灵活度:高层只需在任务开始时或关键节点调用一次大模型来生成路径,避免了在每一步动作都调用大模型所带来的计算开销。在不牺牲精度的前提下,显著提升了系统执行效率和灵活性。

4. 未来展望


HAMSTER 在泛化能力和执行效率上展现出显著优势,但仍有进一步优化的空间,以提升其在复杂环境中的适应性和任务执行能力:

1. 增强轨迹表示与高低层交互

目前的二维路径难以表达深度、速度、力控制和旋转角度等信息,低层模型需依赖额外推断。未来可探索更丰富的轨迹表示,同时优化高低层交互方式,提高信息传递的精度与效率。

2. 实现动态路径更新

现有高层模型通常在任务开始时生成路径,缺乏对环境变化(如障碍物、目标位置偏移等)的实时调整能力。未来可引入在线重规划机制,使系统具备更强的自适应性与鲁棒性。

3. 利用大规模人类视频数据

当前高层模型训练主要依赖机器人数据,而人类演示数据涵盖更丰富的操作模式和任务类型。未来可探索直接从大规模人类视频训练 VLM,以提升其对多样化任务的理解与泛化能力。

随着机器人基础模型的发展,HAMSTER 的持续优化将进一步提升其在开放世界任务中的泛化能力,并增强跨环境、跨任务的稳定性和扩展性。
5. 结语


HAMSTER 通过引入一种易标注且跨平台友好的二维路径作为中间表示,成功地将大模型的高层语义推理与底层的精细控制解耦开来,不仅减轻了对昂贵机器人操作数据的依赖,也在开放环境中展现了更强的泛化能力。实验结果证实,HAMSTER 在任务成功率、数据效率和跨平台适用性方面都具有显著优势。

随着多模态数据与模型能力的进一步提升,类似 HAMSTER 的层次化架构有望成为未来机器人系统的关键思路,在更多真实场景中实现跨平台、跨任务的通用操作。通过让高层专注于对任务语义和大致轨迹的推理,而低层则关注具体的运动与执行细节,机器人在可解释性、可扩展性与可靠性上都将迈出坚实一步,为迈向真正的开放世界机器人操作奠定基础。
© 

(文:机器之心)

欢迎分享

发表评论