这篇名为「AGENT AI:多模态交互系统的全面框架」的论文来自李飞飞团队,在 2024 年一月联合微软研究院撰写,从“空间智能”的视角讨论了 Agent 在物理和虚拟环境中的交互性。
论文将“Agent AI”定义为一类交互式系统,它能够感知视觉刺激、语言输入和其他环境相关的数据,并能产生有意义的具身行为。通过在具身环境中开发智能体 AI 系统,还可以减轻大型基础模型的“幻觉”问题,以及它们生成与环境不符的输出的倾向。在未来,人们可以轻松创建任何虚拟现实或模拟场景,并与嵌入虚拟环境中的智能体进行交互。
下图是论文开篇的一个智能体应用概述全貌框架图,Agent AI 可以在物理世界、虚拟世界、具身化和各种软件产品中存在与应用。底部闭环系统展示了其核心组件:
-
Environment(环境感知) -
Perception(感知) -
Cognition(认知处理) -
Action(行动执行) -
Learning(学习) -
Memory(记忆)
这些组件形成了一个闭环系统,通过Controller(控制器)进行协调。系统可以通过与环境的交互不断学习和改进,包括预训练、零样本学习和小样本学习等多种学习方式。Agent AI 的关键特点:
-
具有跨现实性,可以同时在物理和虚拟环境中运作; -
采用多模态方式,整合了视觉、音频、传感器等多种输入; -
强调了认知能力,包括思维、意识、感知和推理等方面具有完整的学习和记忆机制;
这个框架展示一个能够在不同领域和应用中感知和行动的Agent AI系统,也是通向 AGI 的一个可能路径。
参考文献:
[1] https://arxiv.org/abs/2401.03568
(文:NLP工程化)