​卡内基梅隆大学机器人研究所开发Hamba新模型 实现单视角手部3D形状重建

近年来,随着计算机视觉和图形学领域的快速发展,单视角3D手部重建任务逐渐成为研究热点。该技术在机器人技术、动画制作、人机交互以及增强现实/虚拟现实(AR/VR)等领域拥有较为广阔的应用前景。然而,由于手部关节的复杂运动、自遮挡以及与物体的交互等因素,单视角3D手部重建依然是一项相对复杂的任务。尽管现有的基于注意力机制的Transformer模型在3D手部姿态和形状学习上取得了显著进展,但它们在空间关系建模上的效率仍有待提高。

          

          

近日卡内基梅隆大学机器人研究所,设计了一个新模型Hamba,并在温哥华举行的第 38 届神经信息处理系统年会( NeurIPS 2024 )上进行了展示。Hamba 提供了一种特别有趣的方法,可以从单个图像重建 3D 手部,无需事先了解相机的规格或人体的情况。

          

Hamba 的独特之处在于它摆脱了传统的基于 Transformer 的架构。相反,它利用基于Mamba的状态空间建模,这是首次将这种方法应用于关节式 3D 形状重建。该模型还通过引入图形引导的双向扫描改进了 Mamba 的原始扫描过程,该扫描利用图形神经网络的图形学习功能以惊人的精度捕捉手关节之间的空间关系。   

          

Hamba框架方法概述:

          

Hamba框架的核心逻辑是将Mamba的扫描过程重构为图引导的双向扫描,以有效利用少量有效令牌进行3D重建。具体来说,该方法设计了一个图引导的状态空间(GSS)块,用于学习图结构化的关节关系和空间序列,并且比基于注意力的方法使用的令牌数减少了88.5%。此外,通过融合模块整合状态空间特征和全局特征,Hamba能够同时考虑全局和局部特征,从而提高重建性能。

          

          

GSS块是Hamba框架中的关键组件,它结合了图卷积网络(GCN)和Mamba块的优势。GCN用于学习手关节之间的图结构化关系,而Mamba块则通过状态空间建模来捕捉关节的空间序列。这种结合使得GSS块能够有效地学习手关节之间的空间关系,进而提高3D手部重建的准确性。

              


在GSS块中,首先通过令牌采样器(TS)从输入图像中提取与手关节相关的有效令牌。这些令牌随后被输入到GCN层中,以学习手关节之间的图结构化关系。GCN层的输出与全局平均令牌(即下采样图像令牌的均值)进行拼接,并提供全局上下文信息。拼接后的序列随后被输入到Mamba块中,经过层归一化(LN)、前馈网络(FFN)和残差连接等步骤,最终输出更新后的令牌序列。

              


为了避免在训练早期阶段GSS块受到背景和不必要特征的影响,Hamba框架设计了一个令牌采样器(TS),用于从输入图像中提取与手关节相关的有效令牌。TS利用由关节回归器(JR)预测的2D手关节位置,通过双线性插值从下采样图像令牌中提取与关节位置对应的令牌。这种方法能够有效地减少需要扫描的令牌数量,从而提高计算效率。


          

此外,Hamba框架提出了一种图引导的双向扫描(GBS)方法。与传统的单向扫描方法不同,GBS方法通过两个方向的扫描(前向和后向)来捕捉手关节之间的空间关系。这种双向扫描方式不仅减少了需要处理的令牌数量(从192减少到22,即减少了约88.5%),而且能够更好地捕捉手关节之间的局部和全局关系。

          

Hamba框架在多个评价指标上取得不俗成绩

          

为了验证Hamba框架的有效性,研究人员在FreiHAND、HO3Dv2和HO3Dv3等基准数据集上进行了实验,并与现有的先进方法进行了比较。

              

与FreiHAND数据集上的SOTA的比较

          

在FreiHAND、HO3Dv2和HO3Dv3等基准数据集的测试中,Hamba框架在PA-MPVPE和F@15mm等评价指标上均取得了最优或次优的性能。特别是在FreiHAND数据集上,Hamba框架的PA-MPVPE达到了5.3mm,F@15mm达到了0.992,显著优于其他方法。

          

在HO3Dv2上与SOTAs的比较


HO3Dv3基准评估

          

为了评估Hamba框架在野外场景下的泛化能力,研究人员在HInt基准数据集上进行了实验。HInt数据集包含了在不同视觉条件、视角和手与物体交互下的手部图像。实验结果表明,Hamba框架在野外场景下仍然能够取得显著优于现有方法的性能,特别是在PCK@0.15等评价指标上。这表明Hamba框架具有较强的鲁棒性和泛化能力。

                   

在HInt的基准数据集评估结果

          

此外研究人员还提供了Hamba框架在野外场景下的定性重建结果。结果表明,即使在严重遮挡和截断的情况下,Hamba框架仍然能够准确地重建手部网格。这进一步验证了Hamba框架在捕捉手关节之间空间关系方面的有效性。

          

消融模块研究 分析Hamba框架对各个组件的贡献

          

消融研究的主要目的是验证Hamba模型中各个组件对3D手部重建性能的具体贡献。这些组件包括Token Sampler(TS)、双向扫描(Bidirectional Scan)、图卷积网络(GCN)、以及Graph-guided State Space(GSS)块等。通过系统地移除这些组件,并比较移除前后模型的性能变化,可以直观地展示每个组件在模型整体架构中的重要性。

          

              

研究人员通过移除Token Sampler分支来评估其对性能的影响。Token Sampler的作用是从初始的图像特征中提取出对手部关节关系建模有效的令牌。实验结果显示,当移除Token Sampler分支后,模型的性能出现了明显下降。这表明Token Sampler在有效选择令牌、去除背景干扰和无关特征方面起到了关键作用,对于提高3D手部重建的准确性至关重要。

          

此外,研究人员还探讨了双向扫描机制的有效性。与传统的单向扫描相比,双向扫描通过前向和后向两个方向的扫描,能够更全面地捕捉手部关节的空间关系。数据显示,当将双向扫描替换为单向扫描时,模型的重建误差明显增加。该结论证明双向扫描机制在利用图学习和状态空间建模捕捉手部关节空间关系方面具有突出优势。

          

          

图卷积网络(GCN)在模型中用于对图结构进行建模,从而捕捉手部关节之间的空间关系。消融研究通过移除GCN来评估其对性能的影响。当移除GCN后,模型的性能出现了大幅下降。结果显示GCN在建模手部关节的图结构关系和空间序列方面起到了关键作用,对于提高3D手部重建的准确性至关重要。

              

          

最后研究人员还评估了Graph-guided State Space(GSS)块的有效性。GSS块结合了图卷积网络和Mamba块,通过图学习和状态空间建模来捕捉手部关节的空间关系。消融研究通过移除GSS块中的不同组件(如GCN、Mamba块等)来评估其对性能的影响。实验结果显示,当移除GCN或Mamba块时,模型的性能均出现了下降情况。该结论充分证明GCN和Mamba块在GSS块中各自扮演着重要角色,共同决定了模型的整体性能。

          

结语与未来:

          

卡内基梅隆大学机器人研究所项目负责人表示,Hamba框架虽然在单视角3D手部重建任务上拥有不俗的性能表现,但目前依然有几个问题需要进一步完善,当前的Hamba框架主要关注于单帧图像的手部重建,缺乏对视频数据的时序特征建模能力。卡内基梅隆大学机器人研究所未来的重点会放在探索如何将Hamba框架扩展到视频手部重建任务中,以捕捉手部运动的时序特征。

          

此外,尽管在HInt数据集上取得了显著优于现有方法的性能,但在一些极端情况下(如严重遮挡、极端视角等)仍然可能出现重建失败的情况。下一步如何改进模型的结构和训练策略,提高其在野外场景下的鲁棒性和泛化能力将会是研发团队的研发重点。   

          

当前的Hamba框架主要依赖于监督学习方法进行训练,需要大量的标注数据,时间成本高,未来探索如何将Hamba框架与其他先进技术(如深度图估计、点云处理等)相结合,以进一步提高3D手部重建的准确性和鲁棒性也是一个需要继续改进的方向。

             

(文:机器人大讲堂)

欢迎分享

发表评论