在认知科学和人工智能领域,如何使机器人能够像人类一样,在有限的学习经验下,将所学行为泛化到未学习的情景中,是一个长期存在的挑战。组合性(compositionality)作为语言能力的核心特征之一,是实现泛化能力的关键。
学习概括的一个重要里程碑是组合性:将整体组合和分解为可重复使用的能力,我们如何获得这种能力是发育神经科学和人工智能研究中的一个关键问题。
最早的神经网络后来演变成彻底改变人类社会的大型语言模型(LLM)。它是为了研究大脑如何处理信息而开发的。然而讽刺的是,随着这些模型变得越来越复杂,其中的信息处理路径也变得越来越不透明,如今有些模型有数万亿个可调参数。
针对这个问题,冲绳科学技术研究所(OIST)认知神经机器人研究组的成员创建了一种具有新颖架构的具身智能模型,该模型允许研究人员访问神经网络的各种内部状态,并且它似乎可以像儿童一样学习如何概括。目前该研究最新成果已发表在《Science Robotics》期刊上。
▍研究方法与模型架构设计
人类在自然环境中展现出卓越的学习与泛化能力,这种能力在很大程度上依赖于组合性——即将整体分解为可重用的部分,并将这些部分重新组合以应对新情景的能力。在机器人领域,如何使机器人通过关联学习同时发展语言组合性和感觉运动技能,特别是在只学习部分语言组合及其对应感觉运动模式的情况下,是一个需要解决的问题。
神经网络模型和由该模型生成的实现给定语言目标的计划
现有的深度学习模型虽然在处理语言任务时表现出色,但它们在理解人类语言如何发展方面提供的见解有限。特别是,这些模型缺乏与语言相关的感觉运动模式的访问能力。
Prasanna Vijayaraghavan
该论文的第一作者Prasanna Vijayaraghavan带领研究小组提出了一种受大脑启发的神经网络模型,该模型基于自由能原理,整合了预测编码和主动推断框架。模型架构包括基于递归神经网络(RNN)的生成网络,用于预测视觉、本体感觉和语言。这些模态通过关联网络进行集成。具体来说,模型使用了一个由预测编码启发的变分RNN(PV-RNN)来整合语言与视觉-本体感觉序列。
潜在状态PB表示
在模型中,语言潜在变量通过参数化偏差(PB)向量表示,该向量在训练多个时间模式时自我组织,使得每个时间模式在PB向量空间中由特定点编码。这种设计有助于将词序和相应的行为时间模式绑定在一起,从而促进语言组合性的发展。
关联式PV-RNN和语言LSTM的图形表示
模型还引入了视觉注意和工作记忆机制,以增强视觉预测能力。视觉注意通过缩放和焦点位置参数化,这些参数由本体感觉多层LSTM生成,并接收来自关联PV-RNN的高层信号。工作记忆则通过两个视觉工作记忆模块(VWM-1和VWM-2)实现,它们分别负责保存静态和动态视觉信息,以支持准确的视觉预测。
使用AIF进行目标导向的规划
模型通过主动推断(Active Inference, AIF)实现目标导向规划。AIF是一个通过最小化预测行动结果与期望感觉之间的误差来推断行动的过程。在模型中,这一过程用于生成实现语言表示目标所需的视觉-本体感觉序列计划。通过这种方法,模型能够在未学习的对象位置和语言组合上表现出良好的泛化能力。
▍实验设计与结果分析
研究团队使用了一个机器人手臂进行基于视觉的对象操作任务,包括抓取、移动(左、右、前、后)和堆叠。这些任务通过如“grasp X”、“move X left”等句子进行语言表示。实验数据集分为四组,每组包含不同数量的语言组合,以评估模型在不同训练稀疏度下的泛化能力。
训练中的变化和稀疏性对泛化的影响
实验结果表明,随着训练组合变化数量的增加,模型在未学习语言组合上的泛化能力显著提高。这一发现支持了研究假设,即增加任务组合变化有助于提高泛化能力。此外,通过分析语言LSTM的参数化偏差(PB)空间,研究团队发现,当学习中的任务组合变化较多时,不同概念(动作和对象名词)之间的关系结构更加一致,这表明语言潜在表示中的组合结构受到了感觉运动学习的显著影响。
位置泛化与组合泛化的比较
研究还发现,位置泛化能力并不依赖于学习中使用的组合大小。这一结果可以通过考虑位置泛化能力应在网络模型的较低层次发展,而这些层次并不直接与语言组合处理交互来解释。此外,模型在未学习位置和学习语言组合上的表现优于在未学习组合上的表现,这表明组合泛化比位置泛化更具挑战性。
通过消融实验,研究团队评估了视觉注意和工作记忆对模型性能的影响。结果显示,当移除视觉注意或工作记忆模块时,模型在生成准确视觉预测方面的能力显著下降,从而导致泛化性能大幅下降。这一发现强调了视觉注意和工作记忆在模型性能中的关键作用,以及它们在支持语言与视觉-本体感觉行为序列绑定中的重要性。
▍结语与未来:
冲绳科学技术研究所通过构建一个整合视觉、本体感觉和语言的神经网络模型,为理解语言组合性和行为组合性如何通过它们的相互作用而共同发展提供了新的视角。模型的成功在于其基于自由能原理的框架,该框架允许语言与感觉运动模式在预测编码和主动推断的框架下共同发展。此外,通过引入视觉注意和工作记忆机制,模型能够生成准确的视觉预测,从而支持有效的目标导向规划。该研究的重要意义在于深入理解语言组合性的神经机制,并为开发具有人类级语言能力的认知机器人铺平道路。
(文:机器人大讲堂)