RSS 2025|物理驱动的世界模型PIN-WM:直接从视觉观测估计物理属性,可用于操作策略学习


第一作者李文轩目前就读于国防科技大学计算机学院,硕士二年级,导师为徐凯教授,研究方向包括世界模型、可微物理仿真等。共同第一作者赵航,现为武汉大学计算机学院博士后,博士期间导师为徐凯教授,研究方向为工业具身智能。本文通信作者为深圳大学胡瑞珍教授与国防科技大学徐凯教授。


在机器人操作中,物体运动往往涉及摩擦、碰撞等复杂物理机制。准确的物理属性描述可以实现对物体运动结果更准确的预测,并提升机器人在操作技能学习中的表现。


然而,一般用于训练机器人操作策略的仿真交互环境,其物理属性与真实环境往往存在明显差异且难以校准,机器人控制策略的虚拟到现实迁移(Sim2Real)一直是困扰社区的问题。


为解决上述问题,国防科大、深圳大学、武汉大学团队提出 PIN-WM(Physics-INformed World Models)——一种物理驱动的世界模型。



  • 论文标题:PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation

  • 论文地址:https://arxiv.org/abs/2504.16693

  • 项目主页:https://pinwm.github.io


基于可微物理和可微渲染,PIN-WM 以真实世界运动结果为监督信号,可以从视觉观测中直接辨识刚体物理属性。由于可微物理提供了物理系统的动力学基础描述和有效的梯度引导,PIN-WM 仅需少量且任务无关的交互轨迹进行学习,随后可以基于未见「状态动作对」实现对下一时刻状态的良好泛化估计。


进一步,团队提出物理感知的数字表亲 PADC(Physics-Aware Digital Cousins),在辨识参数附近局部扰动,生成具有近似且多样视觉和物理特性的世界模型变体,以建模未被观测的潜在偏差,进一步提高策略学习的鲁棒性。


基于 PIN-WM 和 PADC,团队在世界模型中训练非抓取式操作技能,无需策略微调即可直接实现操作技能的 Sim2Real 迁移。



论文创新点


  • 一种物理驱动的世界模型:使用可微仿真和可微渲染技术从视觉观测中直接辨识刚体的物理参数。

  • 一种物理感知的数字表亲:在辨识参数附近进行小范围扰动,生成多组具有近似且多样视觉和物理特性的世界模型变体,以应对未建模误差,提升策略在真实环境中的鲁棒性。

图 1:PIN-WM 仅需少量任务无关交互轨迹辨识物理属性,以支持机器人操作技能学习与 Sim2Real 迁移


技术路线


该团队提出一种从现实到虚拟再到现实的框架,以学习非抓取操作相关的技能策略。该框架可分为两大阶段:系统辨识和策略训练。


  • 从现实到仿真(Real2Sim):系统辨识


    • 渲染属性估计:收集物体的多视角图片,并计算 Rendering loss,然后使用 2DGS 对其渲染参数进行优化。 

    • 物理属性估计:收集机器人与物体的交互视频,同样基于 Rendering loss,使用 2DGS 和可微 LCP 传播梯度,从而对物理参数进行优化(此时固定渲染参数)。


  • 从仿真到现实(Sim2Real):策略训练与部署 


    • 结合数字表亲学习策略:在辨识参数附近进行小范围扰动,生成多组具有视觉和物理特性差异的世界模型变体,并在此基础上训练策略。

    • 策略部署:将世界模型中学习到的策略部署到真实场景中,完成虚拟到现实迁移。


图 2:Real2Sim2Real 框架用于学习非抓取操作策略


实验结果


「推」(Push)和「翻转」(Flip)作为经典的非抓取式任务,对摩擦、碰撞等复杂物理机制非常敏感。PIN-WM 在这两项代表性任务上进行实验评估:「推」指通过推的方式将平面上的物体移动到目标姿态,「翻转」指通过戳的方式将物体翻转(图 3)。通过统计各方法在两项任务中的成功率及完成步数,对其性能进行对比评估。


图 3:仿真场景中「推」和「翻转」任务轨迹


在仿真实验方面,PIN-WM 分别与数据驱动的方法、预设物理参数的方法和辨识物理参数的方法进行对比。团队在更具挑战性的低摩擦场景下学习世界模型以及机器人操作策略,物理参数估计误差造成的机器人操作失准会在低摩擦的场景下进一步放大导致任务失败。


实验结果说明:数据驱动方法(DreamerDiffusion Policy)在使用更多交互数据的情况下泛化能力依然不足,策略测试性能欠佳;预设物理参数方法(RoboGSimDomain Randomization)底层动力学与真实物理有明显差异,而其他辨识物理参数的方法依赖简化的物理模型(2D Physics)或者缺少梯度引导(ASID),动力学的拟合效果相对较差,失准的动力学建模导致策略表现依然欠佳;可微物理梯度引导下PIN-WM 能够实现更准确的物理参数辨识,在「推」和「翻转」两项非抓取式操作任务上的策略表现均明显优于其他方法(表 1)。


表 1:仿真场景中的非抓取策略性能对比


在真机实验方面,PIN-WM 同样与上述主要基线对比,在真实场景「推」和「翻转」两项任务上的性能优势得到验证(表 2)。


表 2:真实场景中的非抓取策略性能对比


图 4 展示了真实场景中不同方法执行「推」任务时的轨迹对比图。


图 4:真实场景中不同方法执行「推」任务时的轨迹对比


图 5 展示了真实场景中不同方法执行「翻转」任务时的轨迹对比图。


图 5:真实场景中不同方法执行「翻转」任务时的轨迹对比


PIN-WM 执行系统辨识后,在光滑玻璃平面上「推」T 形物体的测试结果,机器人可以准确地将物体推入目标位置。


未执行系统辨识时,策略在光滑玻璃平面上「推」T 形物体,机器人在目标位置反复尝试,始终无法将物体正确推入目标位置。


PIN-WM 执行系统辨识后,在光滑玻璃平面上「推」正方体的测试结果。正方体的质量和体积更小,机器人操作更加困难,而 PIN-WM 训练出的策略能够准确完成任务。


未执行系统辨识时,策略在光滑玻璃平面上「推」正方体,无法将正方体正确推入目标位置。


PIN-WM 执行系统辨识后,在粗糙平面上「戳」正方体使其翻转。


未执行系统辨识时,在粗糙平面上「戳」正方体,正方体轻微抬升,却始终无法有效翻转。


PIN-WM 执行系统辨识后,在粗糙平面上「推」任务的测试结果(轨迹 1)。


PIN-WM 执行系统辨识后,在粗糙平面上「推」任务的测试结果(轨迹 2)。


在更大尺寸物体上验证 PIN-WM 的有效性,执行系统辨识后,在粗糙平面上「推」T 形物体的测试结果(轨迹 1)。


PIN-WM 执行系统辨识后,在粗糙平面上「推」更大尺寸 T 形物体的测试结果(轨迹 2)。


总结


国防科大、深圳大学、武汉大学团队提出了一种物理驱动的世界模型 PIN-WM(Physics-INformed World Models),可以从视觉观测(少量且任务无关的交互轨迹)中辨识刚体的物理属性。


同时,团队提出具备物理感知的数字表亲 PADC(Physics-Aware Digital Cousins),在辨识参数附近进行局部扰动以建模潜在的偏差,从而进一步提高虚拟到现实的迁移性能。团队通过广泛的实验证明了 PIN-WM 的有效性,其提出的方法有效提升了非抓握式操作技能从仿真到现实迁移的性能。


©

(文:机器之心)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往