生活机器人最后考验!杨笛一团队发布EgoNormia:现实中能否符合社会规范?



  新智元报道  

编辑:LRST
【新智元导读】EgoNormia基准可以评估视觉语言模型在物理社会规范理解方面能力,从结果上看,当前最先进的模型在规范推理方面仍远不如人类,主要问题在于规范合理性和优先级判断上的不足。
随着人工智能技术日益成熟,社会各界对AI或机器人能否学习并遵循社会规范的问题越来越关注。从早期的科幻小说到如今的现实应用,人类始终期望机器能够理解并内化这些根植于社会生活中的「规范」。

随着视觉语言模型(VLMs)不断进步,研究者们陆续推出了诸多基准和数据集,用以评估其第一视角下的视频理解能力。例如,HourVideo和EgoSchema等基准主要关注长视频解析以及对物体和事件的识别能力。

然而,这些评估工具难以衡量模型在规范推理(normative reasoning)方面的表现,为此,斯坦福大学团队提出了EgoNormia基准,旨在挑战当前最前沿的视觉语言模型,促使它们在复杂场景中做出符合人类常识的规范决策。

论文链接:https://arxiv.org/abs/2502.20490
网页链接:https://egonormia.org

代码链接:https://github.com/Open-Social-World/EgoNormia

在现实生活中,人们做决策时遇到的情境往往充满矛盾与取舍。

例如:在户外远足的时候,如果一位同伴在泥泞中被困;一方面,安全规范要求人们保持足够距离,以防发生意外;另一方面,协作精神又促使人们对同伴伸出援手。

对于人类来说,这样的权衡似乎是自然而然的选择,人们会在保护自己安全的前提下向同伴施以援手;但对于视觉语言模型来说,如何在理解场景、提取关键线索的同时做出合乎社会规范的决策,仍然是一个亟待攻克的难题。

为全面衡量视觉语言模型在规范推理上的能力,论文主要提出了以下研究问题:

  • RQ1:模型是否能做出与人类共识一致的规范决策?

  • RQ2:当模型决策与人类不符时,究竟是因为视觉感知(如物体识别)出现偏差,还是在深入推理规范时存在缺陷?

  • RQ3:是否可以借助 EgoNormia 数据集来提升模型在复杂情境下的规范推理表现?

Physical Social Norm

为了更好地研究规范,论文首先将物理社会规范做出了以下定义:
「物理社会规范(Physical Social Norm)是指在共享环境中约定俗成的期望,这些期望规范着行为者的行为及其与他人的互动方式。」
同时,论文也对于物理社会规范进行了分类,有一类规范明确用于最大化多智能体系统的整体效用,论文称之为效用规范,即合作、协调和沟通规范。
另一类规范则更侧重于人类社会性:安全、礼貌、隐私和空间距离。
人类社会规范往往与群体效用规范存在冲突,这种冲突为评估智能体在冲突目标下的决策提供了场景。重要的是,每一类物理社会规范都能直接影响人机协作的成功,每一种规范具体的例子如下图。

任务

EgoNormia基准主要包含三个子任务,所有子任务均采用多项选择题的形式。

子任务1:动作选择,选出在当前情境下最符合规范要求的唯一动作。
子任务2:理由选择,选出最能支持其所选规范动作的理由。
子任务3:动作合理性判断,从给定选项中选出那些合理的(即符合规范但不一定是最佳的)动作。

基准生成

EgoNormia基准生成流程主要包含四个阶段:片段采样,答案生成,筛选,人工验证。这些流程保证了最终数据集保持了多样性,挑战性,和人工共识性。

经过一系列流程,论文最终得到了来自1077个原始视频的1853个视频切片,涵盖97种场景和93种不同动作。
借助GPT-4o的自动聚类技术,所有视频被归纳为 5 个高层级类别和 23 个低层级类别,充分展示了数据的多样性和丰富性(详见饼图)。

实验结果

在EgoNormia的评估中,大多数模型的平均准确率均低于40%,而人类的平均得分高达92.4%,表现最好的模型Gemini 1.5 Pro在取得了45.3%的平均准确率,表明当前模型在做具体现身的规范决策(RQ1)方面能力有限。

此外,即便使用了更丰富的文本描述和最先进的推理模型如 o3-mini,表现仍然不及采用视觉输入的模型,证明了语言在捕捉连续、推理中细微特征(如空间关系、可见情绪与情感以及物理动态)方面存在根本性局限。
为了探究视觉语言模型规范推理能力受限的原因(RQ2),论文对 EgoNormia 中 100 个具代表性任务的模型回复进行了标注,并进一步将规范推理错误进行了分类。
论文共识别出四种失败模式:(1) 规范合理性错误,(2) 规范优先级错误,(3) 感知错误,以及 (4) 拒绝回答。
对于模型而言,大多数错误源自合理性错误而非感知错误,这表明基础模型在处理视频输入的视觉上下文方面表现尚可,但在对解析出的情境进行有效规范推理时则存在不足。此外,随着整体性能的提高,规范优先级错误的比例也逐步增加(GPT-4o < Gemini 1.5 Pro < 人类),表明更强大的模型在面对模棱两可的情境时,更难确定哪项规范应当优先。
最后,研究人员评估了EgoNormia是否可以直接用于提升视觉语言模型的规范推理能力(RQ3)。
研究人员提出采用检索增强生成(Retrieval-Augmented Generation,RAG),为更深层次的规范推理任务提供基于上下文的规范示例,使其能作为多示例学习的参考。
为了公平地测试EgoNormia在新数据上的效用,研究人员构建了一个基于第一人称机器人助手视频的域外测试数据集,基线GPT-4o的得分仅为18.2%。
通过对EgoNormia的检索,论文展示了在未见域内任务上,相对于最佳非RAG模型和基础GPT-4o,EgoNormia提供了9.4%的性能提升,并比随机检索 EgoNormia 提高了7.9%。

总结

EgoNormia是一种新颖的基准和数据集,旨在严格评估视觉语言模型(VLMs)在第一人称视角下的物理社会规范(PSN)的理解能力。

论文证明,尽管当前最先进的模型在视觉识别和抽象推理方面表现强劲,但在PSN理解上仍然逊色于人类,主要原因在于规范合理性理解和优先级判断上的错误。
通过测试一种基于检索的方法,论文展示了EgoNormia在提升规范理解方面的直接实用性,在域外和不同体现的视频上均取得了改进。
最后,论文还指出了具体现身规范理解未来的研究机遇,并建议在大规模规范数据集上进行后续训练,这将是一个极具前景的研究方向。

部分作者介绍

杨笛一:斯坦福大学计算机系的助理教授,主要关注具有社会意识的自然语言处理,其研究目标是深入理解社会语境下的人类沟通,并开发支持人与人及人机交互的语言技术。

朱昊:斯坦福大学计算机系博士后,卡内基梅隆大学博士,专注于打造能够学习与人类沟通和协作的人工智能代理。
张彦哲:佐治亚理工学院计算机系博士生,致力于使模型具备持续学习多任务并实现知识迁移的能力,以及使模型能够从其他模态和人类中受益并为其服务。
伏奕澄:斯坦福大学电气工程系硕士生,特别关注如何将大规模语言模型应用于现实场景,并致力于开发能够更高效地与人类及外部世界进行交互的智能系统。

(文:新智元)

欢迎分享

发表评论