PUGS项目组 投稿
量子位 | 公众号 QbitAI
理解物体的物理属性,对机器人执行操作十分重要,但是应该如何实现呢?
光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——
PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)
无需训练、零样本,它就能够从多视角图像中重建物体,并对各种指定的物理属性进行密集重建。
该论文已被ICRA 2025接收。
在非结构化环境中,准确理解物体的物理属性不仅能帮助机器人更好地规划抓取策略,还能避免因错误估计导致的操作失败(比如下手太重导致物体损坏)。
现有的方法如NeRF2Physics利用NeRF来对物体进行重建,并结合视觉语言模型(VLM)与大语言模型(LLM)进行物理属性预测。
但是,此类方法存在预测结果碎片化、物理属性不连续不合理的问题。
研究团队通过3D高斯溅射作为重建表征,并引入区域感知特征来增强区域区分的能力。
在此基础上,结合基于VLM的物理属性预测和基于特征的属性传播,可以达到更好的物体重建和更加合理的物理属性预测结果。
为了保持重建结果的几何一致性,研究团队还引入了几何感知的正则化损失和稀疏损失,确保高斯分布与物体的实际空间形状分布一致。
高斯溅射+视觉大模型,理解物理属性
PUGS框架分为三个阶段——形状与区域感知的3DGS重建、基于视觉语言模型(VLM)的物理属性预测,以及基于区域特征的属性传播。
对于物体级别的物理属性(例如质量),则还包含高斯体积积分模块以得到整体的物理属性结果。
PUGS以物体的多视角图像作为输入,同时允许给定需要预测的物体属性(如密度、硬度系数、杨氏模量等),最终输出则是物体的重建结果,其中包含了物体的RGB信息,以及任意位置的物理属性。
形状与区域感知的3DGS重建
PUGS首先使用3DGS来从多视角RGB图像中重建物体。
但是原始的3DGS重建通常会出现Floater,这导致重建结果的细节表现不佳,并且在几何的准确性上存在问题。
研究团队参考现有方法,引入几何感知的正则化损失和稀疏损失,损失项如下(如显示不完整,请左右滑动):
其中,是图像中的像素集合,是归一化到0到1的图像梯度;
是基于像素点的局部平面计算得到的法向量,是基于PGSR提出的无偏深度渲染计算得到的法向量,是每个高斯的不透明度。
这里是几何感知的正则化损失,是稀疏损失。
前者通过两种不同方式来渲染法线图,并鼓励输出结果尽可能一致,从而确保高斯分布与物体的实际空间形状一致;
而后者则鼓励每个高斯的不透明度靠近0或1,减少中间结果的存在。
引入几何感知的正则损失(Geometry-Aware Regularization Loss, GARL)后,可以有效缓解Floater问题,增强几何的准确性。
此外,PUGS还引入了区域感知的特征对比损失,通过对比学习训练高斯分布的特征,使其能够区分物体的不同区域。
在现实场景中,物体表面可能存在不同的材料,如金属、木材、塑料等,而这些材料在物体上通常表现为不同的区域。
对区域的区分有助于提高物理属性预测的准确性。
研究团队首先向每个Gaussian上引入一个新的可学习特征,并使用-blending来渲染出不同视角下的特征图,然后使用SAM对多视角图像进行分割,以区分物体的不同区域。
之后,利用对比学习来训练该特征。损失函数如下:
其中,表示两个像素是否属于同一个区域,是两个像素点在特征空间中的余弦相似性。
直观来说,如果两个像素点属于同一个区域,那么它们在特征空间中的余弦相似性应该越大越好,反之则应该越小越好。
△几何感知损失与形状感知特征训练的示意图
基于VLM的物理属性预测
在重建阶段完成后,PUGS利用视觉语言模型(VLM)进行零样本物理属性预测。
NeRF2Physics采用两阶段的方法来进行物理属性预测。
它首先通过VLM来从物体的图像预测物体的文本描述,然后将该文本描述输入给LLM来预测材质和物理属性。
与NeRF2Physics不同,PUGS直接使用VLM对多视角图像中的某一张进行材质和物理属性预测,避免了图像到文本转换过程中的信息丢失。
该阶段VLM输出的结果包括物体可能的材质,以及这些材质的物理属性范围等。
这些属性在后续会通过CLIP特征传播到重建的3DGS中。
基于区域特征的属性传播
为了将预测的物理属性传播到重建结果中,PUGS使用CLIP特征作为基础进行映射,并使用区域感知特征作为依据进行属性传播。
首先研究团队从3DGS中随机采样一些高斯点作为source point,并计算这些source point投影到多视角图像上得到的patch对应的CLIP特征。
这些特征与上一阶段得到的候选材质进行相似性的计算,以分配不同的材质到对应的source point上。计算方式如下:
其中,是source point 的物理属性值,是source point 的CLIP特征与候选材质的CLIP特征之间的余弦相似性,是一个温度参数。
△基于形状感知特征的物理属性传播
为了完成密集的物理属性预测,研究团队使用区域特征作为依据进行属性传播。计算方式如下:
其中,和分别是高斯和的区域感知特征。
基于区域感知特征的属性传播方式使得物理属性预测结果更加均匀和精确。
高斯体积积分
通过上面三个阶段,PUGS已经可以完成物体的重建以及密集的物理属性预测,即在物体表面的每个点都能够得到相应的物理属性。
而对于物体级别的物理属性(如质量),PUGS提出了基于高斯体积积分的模块来进行计算。
以物体质量的预测为例,通过上述阶段,PUGS可以得到每个3D高斯点对应的物理属性,即密度值。
之后每个3D高斯被视为一个3D椭球体,通过其不透明度进行加权,同时结合预测的密度值进行累积计算,得到物体的初步体积预测。
这个初步体积预测结果是存在误差的,因为3DGS重建结果通常只会对物体的表面进行建模,而物体内部表现出空洞。
为了进一步提高精度,PUGS引入了“pure volume”概念,这代表一个物体忽略空洞区域后的体积,一般会远小于通常意义下物体的体积。
PUGS通过提示VLM来获取物体的pure volume,并以此修正最终的预测结果。
预测准确性大幅提升
定性结果显示,NeRF2Physics的材质预测表现出碎片化等不合理的情况,PUGS的预测结果则更加准确和合理。
在物体的抓取实验中,PUGS准确预测了一个棉布包裹的杨氏模量(0.5+GPa),使机械臂的夹持器能够以合适的开口大小成功抓取物体。
相比之下,NeRF2Physics错误地预测了该物体的杨氏模量(30+GPa),导致夹持器开口接近物体宽度,最终抓取失败。
研究团队还在ABO-500数据集上进行了物体质量估计的实验,并与NeRF2Physics进行了对比,结果PUGS在多个指标上都表现更优。
此外,研究团队还对上述PUGS的Pipeline中的不同模块进行消融实验,包括几何感知的正则化损失、区域感知的特征训练以及基于高斯体积积分模块,结果表明这些模块都有助于提升定量结果。
其中不仅在ABO-500数据集上整体有所提升,并且在一些具有特殊特征的物体上提升更加明显。
下表的subset A指的是ABO-500中一些具有较为精细结构的物体组成的子集,而subset B指的是那些具有多种区域和材质的物体子集。
这表示几何感知的正则化损失对具有精细结构的物体提升较大,而区域感知模块则对多种材质和区域的区分更加有效。
总之,PUGS不仅能够准确重建物体的几何形状,还能保持物理属性预测的材质一致性,这对于实际的机器人应用具有重要意义。
同时该重建结果也能够作为一种携带相关物理属性的重建资产,用于其他相关的下游任务。
论文地址:
https://arxiv.org/pdf/2502.12231
项目主页:
https://evernorif.github.io/PUGS/
GitHub:
https://github.com/EverNorif/PUGS
投稿请工作日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文/项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 👇 点亮星标
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
(文:量子位)