本报告由斯坦福大学李飞飞教授领衔,携手微软研究院、加州大学洛杉矶分校、华盛顿大学等机构的顶尖 AI 学者,深入探讨了 Agent AI 这一新兴领域。报告聚焦于多模态交互,定义了 Agent AI 的概念,并提出了新的训练范式和框架。报告涵盖了 Agent AI 的集成、学习、分类、应用、跨模态/跨领域/跨现实研究,以及持续学习和数据集/排行榜等关键议题。特别关注了 Agent AI 在游戏、机器人和医疗保健领域的应用潜力,旨在推动 Agent AI 领域的未来发展。
目录提纲:
-
• 1. 导言 -
• 1.1 研究动机 -
• 1.2 相关背景 -
• 1.3 内容概述 -
• 2. 智能体 AI 集成 -
• 2.1 无限 AI 智能体 -
• 2.2 与大型基础模型结合的智能体 AI -
• 2.2.1 幻觉问题 -
• 2.2.2 偏见与包容性 -
• 2.2.3 数据隐私与使用 -
• 2.2.4 可解释性与可说明性 -
• 2.2.5 推理增强 -
• 2.2.6 监管问题 -
• 2.3 智能体 AI 的涌现能力 -
• 3. 智能体 AI 范式 -
• 3.1 大型语言模型 (LLMs) 与视觉语言模型 (VLMs) -
• 3.2 智能体 Transformer 定义 -
• 3.3 智能体 Transformer 创建 -
• 4. 智能体 AI 学习 -
• 4.1 策略与机制 -
• 4.1.1 强化学习 (RL) -
• 4.1.2 模仿学习 (IL) -
• 4.1.3 传统 RGB -
• 4.1.4 上下文学习 -
• 4.1.5 智能体系统中的优化 -
• 4.2 智能体系统 (零样本与少样本级别) -
• 4.2.1 智能体模块 -
• 4.2.2 智能体基础设施 -
• 4.3 智能体基础模型 (预训练与微调级别) -
• 5. 智能体 AI 分类 -
• 5.1 通用智能体领域 -
• 5.2 具身智能体 -
• 5.2.1 行动智能体 -
• 5.2.2 交互式智能体 -
• 5.3 仿真与环境智能体 -
• 5.4 生成式智能体 -
• 5.4.1 AR/VR/混合现实智能体 -
• 5.5 知识与逻辑推理智能体 -
• 5.5.1 知识智能体 -
• 5.5.2 逻辑智能体 -
• 5.5.3 情感推理智能体 -
• 5.5.4 神经符号智能体 -
• 5.6 LLMs 与 VLMs 智能体 -
• 6. 智能体 AI 应用任务 -
• 6.1 游戏智能体 -
• 6.1.1 NPC 行为 -
• 6.1.2 人机交互 -
• 6.1.3 基于智能体的游戏分析 -
• 6.1.4 游戏场景合成 -
• 6.1.5 实验与结果 -
• 6.2 机器人技术 -
• 6.2.1 用于机器人技术的 LLM/VLM 智能体 -
• 6.2.2 实验与结果 -
• 6.3 医疗保健 -
• 6.3.1 当前的医疗保健能力 -
• 6.4 多模态智能体 -
• 6.4.1 图像-语言理解与生成 -
• 6.4.2 视频与语言理解与生成 -
• 6.4.3 实验与结果 -
• 6.5 视频-语言实验 -
• 6.6 自然语言处理智能体 -
• 6.6.1 LLM 智能体 -
• 6.6.2 通用 LLM 智能体 -
• 6.6.3 指令跟随 LLM 智能体 -
• 6.6.4 实验与结果 -
• 7. 跨模态、领域和现实的智能体 AI -
• 7.1 用于跨模态理解的智能体 -
• 7.2 用于跨领域理解的智能体 -
• 7.3 用于跨模态和跨现实的交互式智能体 -
• 7.4 从模拟到真实的迁移 -
• 8. 智能体 AI 的持续和自我改进 -
• 8.1 基于人类的交互数据 -
• 8.2 基础模型生成的数据
-
• 参考文献 -
• 附录 -
• A. GPT-4V 智能体提示细节 -
• B. 用于 Bleeding Edge 的 GPT-4V -
• C. 用于微软飞行模拟器的 GPT-4V -
• D. 用于刺客信条:奥德赛的 GPT-4V -
• E. 用于战争机器 4 的 GPT-4V -
• F. 用于星空的 GPT-4V -
-
-
5万字必读长文!推荐使用微信读书阅读!
1. 导言
1.1 研究动机
历史上,AI 系统在 1956 年的达特茅斯会议上被定义为可以从环境中收集信息并以有用的方式与之交互的人工生命形式。受此定义的启发,明斯基的麻省理工学院小组在 1970 年构建了一个名为“复制演示”的机器人系统,该系统观察“积木世界”场景并成功重建观察到的多面体块结构。该系统包括观察、规划和操作模块,揭示了这些子问题中的每一个都具有很高的挑战性,需要进一步研究。人工智能领域分裂成专门的子领域,这些子领域在很大程度上独立地在解决这些和其他问题方面取得了巨大进展,但过度还原主义模糊了人工智能研究的总体目标。为了超越现状,有必要回到亚里士多德整体论所激发的人工智能基础。幸运的是,大型语言模型 (LLM) 和视觉语言模型 (VLM) 的最新革命使得创建符合整体理想的新型 AI 智能体成为可能。抓住这个机会,本文探讨了整合语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型。它探讨了使用 LLM 和 VLM 完成这种整体综合的可能性。在我们的探索中,我们还重新审视了基于亚里士多德的最终原因的系统设计,即目的论的“系统存在的原因”,这可能在之前的 AI 开发过程中被忽视了。随着强大的预训练 LLM 和 VLM 的出现,自然语言处理和计算机视觉的复兴被催化。LLM 现在表现出令人印象深刻的破译现实世界语言数据细微差别的能力,通常实现与人类专业知识相当甚至超越的能力 (OpenAI, 2023)。最近,研究人员已经表明,LLM 可以扩展为在各种环境中充当智能体,当与特定领域的知识和模块配对时,执行复杂的动作和任务 (Xi 等人, 2023)。这些场景的特点是复杂的推理、对智能体角色及其环境的理解,以及多步骤规划,测试智能体在其环境约束内做出高度细微和复杂决策的能力 (Wu 等人, 2023; Meta Fundamental AI Research (FAIR) Diplomacy Team 等人, 2022)。在这些初步努力的基础上,人工智能界正处于重大范式转变的风口浪尖,从为被动、结构化任务创建人工智能模型转变为能够在多样化和复杂环境中承担动态、智能体角色的模型。在这种背景下,本文研究了使用 LLM 和 VLM 作为智能体的巨大潜力,强调具有语言能力、视觉认知、上下文记忆、直觉推理和适应性混合的模型。利用 LLM 和 VLM 作为智能体,特别是在游戏、机器人和医疗保健等领域,不仅为最先进的 AI 系统提供了一个严格的评估平台,而且预示了以智能体为中心的 AI 将在整个社会和行业中产生的变革性影响。当充分利用时,智能体模型可以重新定义人类体验并提升操作标准。这些模型预示的全面自动化潜力预示着行业和社会经济动态的巨大转变。正如我们将在第 11 节中详细阐述的那样,这些进步将与多方面的排行榜交织在一起,不仅是技术方面的,还有伦理方面的。我们在图 1 中深入探讨了智能体 AI 的这些子领域的重叠领域,并说明了它们的相互关联性。
1.2 相关背景
现在,我们将介绍支持智能体 AI 的概念、理论背景和现代实现的相关研究论文。
大型基础模型: LLM 和 VLM 一直在推动开发通用智能机器的努力 (Bubeck 等人, 2023; Mirchandani 等人, 2023)。尽管它们是使用大型文本语料库进行训练的,但它们卓越的问题解决能力并不局限于规范的语言处理领域。LLM 有可能解决以前被认为是人类专家或特定领域算法专属的复杂任务,从数学推理 (Imani 等人, 2023; Wei 等人, 2022; Zhu 等人, 2022) 到回答专业法律问题 (Blair-Stanek 等人, 2023; Choi 等人, 2023; Nay, 2022)。最近的研究表明,可以使用 LLM 为机器人和游戏 AI 生成复杂的计划 (Liang 等人, 2022; Wang 等人, 2023a,b; Yao 等人, 2023a; Huang 等人, 2023a),这标志着 LLM 作为通用智能智能体的一个重要里程碑。
具身 AI: 许多工作利用 LLM 执行任务规划 (Huang 等人, 2022a; Wang 等人, 2023b; Yao 等人, 2023a; Li 等人, 2023a),特别是 LLM 的 WWW 规模领域知识和新兴的零样本具身能力来执行复杂的任务规划和推理。最近的机器人研究还利用 LLM 执行任务规划 (Ahn 等人, 2022a; Huang 等人, 2022b; Liang 等人, 2022),通过将自然语言指令分解为一系列子任务,无论是自然语言形式还是 Python 代码,然后使用低级控制器来执行这些子任务。此外,他们还结合了环境反馈来提高任务性能 (Huang 等人, 2022b), (Liang 等人, 2022), (Wang 等人, 2023a), 和 (Ikeuchi 等人, 2023)。
交互式学习: 专为交互式学习而设计的 AI 智能体使用机器学习技术和用户交互的组合进行操作。最初,AI 智能体是在大型数据集上训练的。此数据集包含各种类型的信息,具体取决于智能体的预期功能。例如,专为语言任务设计的 AI 将在大量的文本数据语料库上进行训练。训练涉及使用机器学习算法,其中可能包括神经网络等深度学习模型。这些训练模型使 AI 能够根据训练数据识别模式、进行预测和生成响应。AI 智能体还可以从与用户的实时交互中学习。这种交互式学习可以通过多种方式进行:1) 基于反馈的学习:AI 根据直接的用户反馈调整其响应 (Li 等人, 2023b; Yu 等人, 2023a; Parakh 等人, 2023; Zha 等人, 2023; Wake 等人, 2023a,b,c)。例如,如果用户更正了 AI 的响应,则 AI 可以使用此信息来改进未来的响应 (Zha 等人, 2023; Liu 等人, 2023a)。2) 观察学习:AI 观察用户交互并隐式学习。例如,如果用户经常提出类似的问题或以特定方式与 AI 交互,则 AI 可能会调整其响应以更好地适应这些模式。它允许 AI 智能体理解和处理人类语言、多模型设置、解释跨现实上下文,并生成人类用户的响应。随着时间的推移,随着更多的用户交互和反馈,AI 智能体的性能通常会持续提高。此过程通常由人工操作员或开发人员监督,他们确保 AI 学习得当,并且不会产生偏差或不正确的模式。
1.3 内容概述
多模态智能体 AI (MAA) 是一系列系统,可以根据对多模态感官输入的理解在给定环境中生成有效动作。 随着大型语言模型 (LLM) 和视觉语言模型 (VLM) 的出现,在从基础研究到应用的各个领域都提出了许多 MAA 系统。虽然这些研究领域通过与每个领域的传统技术 (例如,视觉问答和视觉语言导航) 相结合而迅速发展,但它们也有着共同的兴趣,例如数据收集、基准测试和伦理视角。在本文中,我们重点关注 MAA 的一些代表性研究领域,即多模态、游戏 (VR/AR/MR)、机器人技术和医疗保健,我们的目标是提供有关这些领域中讨论的共同关注点的全面知识。因此,我们期望学习 MAA 的基础知识,并获得进一步推进其研究的见解。具体的学习成果包括:
-
• MAA 概述: 深入探讨其在当代应用中的原理和作用,使研究人员能够全面掌握其重要性和用途。 -
• 方法论: 通过游戏、机器人技术和医疗保健领域的案例研究,详细说明 LLM 和 VLM 如何增强 MAA。 -
• 性能评估: 使用相关数据集评估 MAA 的指南,重点关注其有效性和泛化性。 -
• 伦理考虑: 讨论部署智能体 AI 的社会影响和伦理排行榜,强调负责任的开发实践。 -
• 新兴趋势和未来排行榜: 对每个领域的最新发展进行分类,并讨论未来的方向。
基于计算机的动作和通用智能体 (GA) 对许多任务都很有用。一个 GA 要真正对用户有价值,它需要能够自然地与之交互,并泛化到广泛的上下文和模态。我们的目标是培育一个充满活力的研究生态系统,并在智能体 AI 社区中建立共同的身份认同感和目标感。MAA 有可能广泛应用于各种上下文和模态,包括来自人类的输入。 因此,我们相信这个智能体 AI 领域可以吸引各种各样的研究人员,培养一个充满活力的智能体 AI 社区和共同的目标。在我们期待下,在学术界和工业界知名专家的带领下,本文将是一次互动和丰富的体验,包括智能体指导、案例研究、任务会议和实验讨论,确保为所有研究人员提供全面和引人入胜的学习体验。本文旨在提供有关智能体 AI 领域当前研究的一般和全面的知识。为此,本文的其余部分组织如下。
-
• 第 2 节概述了智能体 AI 如何受益于与相关新兴技术,特别是大型基础模型的集成。 -
• 第 3 节描述了我们提出的用于训练智能体 AI 的新范式和框架。 -
• 第 4 节概述了广泛用于智能体 AI 训练的方法。 -
• 第 5 节对各种类型的智能体进行了分类和讨论。 -
• 第 6 节介绍了智能体 AI 在游戏、机器人技术和医疗保健领域的应用。 -
• 第 7 节探讨了研究界为开发一种通用的智能体 AI 所做的努力,该智能体 AI 能够应用于各种模态、领域,并弥合模拟到现实的差距。 -
• 第 8 节讨论了智能体 AI 的潜力,它不仅依赖于预训练的基础模型,还通过利用与环境和用户的交互来持续学习和自我改进。 -
• 第 9 节介绍了我们专为训练多模态智能体 AI 而设计的新数据集。 -
• 第 11 节讨论了 AI 智能体的伦理考虑、局限性和社会影响的热门话题。
2. 智能体 AI 集成
如先前的研究所提出的,基于 LLM 和 VLM 的基础模型在具身 AI 领域仍然表现出有限的性能,特别是在理解、生成、编辑和交互未见环境或场景方面 (Huang 等人, 2023a; Zeng 等人, 2023)。因此,这些限制导致 AI 智能体的输出不佳。当前的以智能体为中心的 AI 建模方法侧重于直接可访问和明确定义的数据 (例如,世界状态的文本或字符串表示),并且通常使用从其大规模预训练中学习到的领域和环境无关的模式来预测每个环境的动作输出 (Xi 等人, 2023; Wang 等人, 2023c; Gong 等人, 2023a; Wu 等人, 2023)。在 (Huang 等人, 2023a) 中,我们研究了通过结合大型基础模型来进行知识引导的协作和交互式场景生成的任务,并展示了有希望的结果,表明知识接地的 LLM 智能体可以提高 2D 和 3D 场景理解、生成和编辑的性能,以及其他人机交互 (Huang 等人, 2023a)。通过集成智能体 AI 框架,大型基础模型能够更深入地理解用户输入,从而形成一个复杂且自适应的 HCI 系统。LLM 和 VLM 的涌现能力在生成式 AI、具身 AI、多模型学习的知识增强、混合现实生成、文本到视觉编辑、游戏或机器人任务中 2D/3D 模拟的人机交互中不可见。智能体 AI 在基础模型方面的最新进展为解锁具身智能体中的通用智能提供了迫在眉睫的催化剂。
2.1 无限 AI 智能体
AI 智能体有能力根据其训练和输入数据进行解释、预测和响应。虽然这些能力很先进并且在不断改进,但重要的是要认识到它们的局限性以及它们所训练的基础数据的影响。AI 智能体系统通常具有以下能力:
-
1. 预测建模: AI 智能体可以根据历史数据和趋势预测可能的结果或建议后续步骤。例如,它们可能会预测文本的延续、问题的答案、机器人的下一个动作或场景的解决方案。 -
2. 决策: 在某些应用中,AI 智能体可以根据其推论做出决策。通常,智能体会根据最有可能实现指定目标的内容做出决策。对于像推荐系统这样的 AI 应用,智能体可以根据其对用户偏好的推断来决定推荐哪些产品或内容。 -
3. 处理歧义: AI 智能体通常可以通过根据上下文和训练推断最可能的解释来处理歧义输入。但是,它们的能力受到其训练数据和算法范围的限制。 -
4. 持续改进: 虽然一些 AI 智能体能够从新数据和交互中学习,但许多大型语言模型在训练后不会持续更新其知识库或内部表示。它们的推断通常仅基于上次训练更新时可用的数据。
我们在图 2 中展示了增强的交互式智能体,用于多模态和跨现实无关的集成,并具有涌现机制。AI 智能体需要为每个新任务收集广泛的训练数据,这对于许多领域来说可能是昂贵的或不可能的。在本研究中,我们开发了一个无限智能体,它学习将记忆信息从通用基础模型 (例如,GPT-X、DALL-E) 迁移到新领域或场景,用于物理或虚拟世界中的场景理解、生成和交互式编辑。RoboGen (Wang 等人, 2023d) 是这种无限智能体在机器人技术中的一个应用。在这项研究中,作者提出了一种自主运行任务提议、环境生成和技能学习周期的流水线。RoboGen 是一项将大型模型中嵌入的知识迁移到机器人技术的努力。
2.2 与大型基础模型结合的智能体 AI
最近的研究表明,大型基础模型在创建充当基准的数据方面发挥着至关重要的作用,这些基准用于确定智能体在环境施加的约束内的行动。例如,使用基础模型进行机器人操作 (Black 等人, 2023; Ko 等人, 2023) 和导航 (Shah 等人, 2023a; Zhou 等人, 2023a)。为了说明,Black 等人采用图像编辑模型作为高级规划器来生成未来子目标的图像,从而指导低级策略 (Black 等人, 2023)。对于机器人导航,Shah 等人提出了一种系统,该系统采用 LLM 从文本中识别地标,并采用 VLM 将这些地标与视觉输入相关联,从而通过自然语言指令增强导航 (Shah 等人, 2023a)。人们对根据语言和环境因素生成条件化的人类运动也越来越感兴趣。已经提出了几种 AI 系统来生成针对特定语言指令 (Kim 等人, 2023; Zhang 等人, 2022; Tevet 等人, 2022) 并适应各种 3D 场景 (Wang 等人, 2022a) 的运动和动作。这组研究强调了生成模型在增强 AI 智能体在不同场景中的适应性和响应能力方面不断增长的能力。
2.2.1 幻觉问题
生成文本的智能体通常容易产生幻觉,即生成的文本与提供的源内容不符或不忠实 (Raunak 等人, 2021; Maynez 等人, 2020)。幻觉可以分为两类,内在幻觉和外在幻觉 (Ji 等人, 2023)。内在幻觉是与源材料相矛盾的幻觉,而外在幻觉是指生成的文本包含原始源材料中未包含的其他信息。减少语言生成中幻觉率的一些有希望的途径包括使用检索增强生成 (Lewis 等人, 2020; Shuster 等人, 2021) 或通过外部知识检索来接地自然语言输出的其他方法 (Dziri 等人, 2021; Peng 等人, 2023)。通常,这些方法试图通过检索额外的源材料和提供检查生成的响应和源材料之间是否存在矛盾的机制来增强语言生成。在多模态智能体系统的背景下,VLM 也被证明会产生幻觉 (Zhou 等人, 2023b)。基于视觉的语言生成产生幻觉的一个常见原因是过度依赖训练数据中对象的共现和视觉线索 (Rohrbach 等人, 2018)。完全依赖预训练的 LLM 或 VLM 并使用有限的环境特定微调的 AI 智能体特别容易产生幻觉,因为它们依赖预训练模型的内部知识库来生成动作,并且可能无法准确理解它们部署所在的世界状态的动态。
2.2.2 偏见与包容性
基于 LLM 或 LMM(大型多模态模型)的 AI 智能体由于其设计和训练过程中固有的几个因素而存在偏见。在设计这些 AI 智能体时,我们必须注意包容性并了解所有最终用户和利益相关者的需求。在 AI 智能体的背景下,包容性是指为确保智能体的响应和交互具有包容性、尊重性和对来自不同背景的广泛用户敏感而采取的措施和原则。我们在下面列出了智能体偏见和包容性的关键方面。
-
• 训练数据: 基础模型是在从互联网上收集的大量文本数据上训练的,包括书籍、文章、网站和其他文本源。这些数据通常反映了人类社会中存在的偏见,模型可能会无意中学习和复制这些偏见。这包括与种族、性别、民族、宗教和其他个人属性相关的刻板印象、偏见和倾斜的观点。特别是,通过对互联网数据进行训练并且通常只对英文文本进行训练,模型隐含地学习了西方、受过教育、工业化、富裕和民主 (WEIRD) 社会 (Henrich 等人, 2010) 的文化规范,这些社会在互联网上的存在不成比例地大。但是,必须认识到,由人类创建的数据集不可能完全没有偏见,因为它们经常反映社会偏见和最初生成和/或编译数据的个人的倾向。 -
• 历史和文化偏见: AI 模型是在来自不同内容的大型数据集上训练的。因此,训练数据通常包含来自各种文化的历史文本或材料。特别是,来自历史来源的训练数据可能包含代表特定社会的文化规范、态度和偏见的冒犯性或贬损性语言。这可能导致模型延续过时的刻板印象或不完全理解当代的文化转变和细微差别。 -
• 语言和上下文限制: 语言模型可能难以理解和准确表示语言中的细微差别,例如讽刺、幽默或文化参考。这可能导致在某些上下文中出现误解或有偏见的响应。此外,纯文本数据无法捕获口语的许多方面,从而导致人类对语言的理解与模型对语言的理解之间存在潜在的脱节。 -
• 政策和指南: AI 智能体在严格的政策和指南下运行,以确保公平性和包容性。例如,在生成图像时,有规则可以使人的描绘多样化,避免与种族、性别和其他属性相关的刻板印象。 -
• 过度概括: 这些模型倾向于根据在训练数据中看到的模式生成响应。这可能导致过度概括,即模型可能会产生似乎对某些群体存在刻板印象或做出广泛假设的响应。 -
• 持续监控和更新: AI 系统会不断受到监控和更新,以解决任何新出现的偏见或包容性问题。来自用户的反馈和 AI 伦理方面的持续研究在此过程中发挥着至关重要的作用。 -
• 放大主导观点: 由于训练数据通常包含来自主导文化或群体的更多内容,因此模型可能更偏向于这些观点,从而可能低估或歪曲少数群体的观点。 -
• 道德和包容性设计: AI 工具的设计应将道德考虑和包容性作为核心原则。这包括尊重文化差异、促进多样性,并确保 AI 不会延续有害的刻板印象。 -
• 用户指南: 还指导用户如何以促进包容性和尊重的方式与 AI 交互。这包括避免可能导致有偏见或不适当输出的请求。此外,它还可以帮助减轻模型从用户交互中学习有害材料的情况。
尽管采取了这些措施,AI 智能体仍然存在偏见。智能体 AI 研究和开发方面的持续努力的重点是进一步减少这些偏见,并增强智能体 AI 系统的包容性和公平性。减轻偏见的努力:
-
• 多样化和包容性的训练数据: 努力在训练数据中包含更多样化和包容性的来源。 -
• 偏见检测和纠正: 正在进行的研究侧重于检测和纠正模型响应中的偏见。 -
• 道德准则和政策: 模型通常受旨在减轻偏见并确保尊重和包容性互动的道德准则和政策的约束。 -
• 多样化代表: 确保 AI 智能体生成的内容或提供的响应代表广泛的人类经验、文化、种族和身份。这在图像生成或叙事构建等场景中尤为重要。 -
• 偏见减轻: 积极努力减少 AI 响应中的偏见。这包括与种族、性别、年龄、残疾、性取向和其他个人特征相关的偏见。目标是提供公平和平衡的响应,不延续刻板印象或偏见。 -
• 文化敏感性: AI 被设计为具有文化敏感性,承认并尊重文化规范、习俗和价值观的多样性。这包括理解并适当地回应文化参考和细微差别。 -
• 可访问性: 确保 AI 智能体可供具有不同能力的用户(包括残疾人)访问。这可能涉及结合使交互更容易的功能,适用于有视觉、听觉、运动或认知障碍的人。 -
• 基于语言的包容性: 为多种语言和方言提供支持以迎合全球用户群,并对语言中的细微差别和变化保持敏感 (Liu 等人, 2023b)。 -
• 道德和尊重的互动: 智能体被编程为与所有用户进行道德和尊重的互动,避免可能被视为冒犯、有害或不尊重的响应。 -
• 用户反馈和适应: 结合用户反馈以不断提高 AI 智能体的包容性和有效性。这包括从交互中学习以更好地理解和服务于多样化的用户群。 -
• 遵守包容性准则: 遵守 AI 智能体包容性的既定准则和标准,这些准则和标准通常由行业团体、道德委员会或监管机构制定。
尽管做出了这些努力,但重要的是要意识到响应中存在偏见的可能性,并以批判性思维对其进行解释。AI 智能体技术和道德实践的持续改进旨在随着时间的推移减少这些偏见。智能体 AI 包容性的总体目标之一是创建一个尊重所有用户且所有用户都可以访问的智能体,无论其背景或身份如何。
2.2.3 数据隐私和使用
AI 智能体的一个关键道德考虑因素涉及理解这些系统如何处理、存储和可能检索用户数据。 我们在下面讨论关键方面:
数据收集、使用和目的。 当使用用户数据来提高模型性能时,模型开发人员会访问 AI 智能体在生产和与用户交互时收集的数据。一些系统允许用户通过用户帐户或向服务提供商提出请求来查看其数据。重要的是要认识到 AI 智能体在这些交互过程中收集了哪些数据。这可能包括文本输入、用户使用模式、个人偏好,有时还包括更敏感的个人信息。用户还应该了解如何使用从他们的交互中收集的数据。如果出于某种原因,AI 掌握了关于特定个人或群体的错误信息,则一旦发现,用户应该有一种机制来帮助纠正这些信息。这对于准确性和尊重所有用户和群体都很重要。检索和分析用户数据的常见用途包括改善用户交互、个性化响应和系统优化。对于开发人员来说,确保数据不用于用户不同意的目的(例如未经请求的营销)极为重要。
存储和安全。 开发人员应该知道用户交互数据存储在哪里,以及采取了哪些安全措施来保护数据免遭未经授权的访问或泄露。这包括加密、安全服务器和数据保护协议。确定智能体数据是否与第三方共享以及在什么条件下共享极为重要。这应该是透明的,并且通常需要用户同意。
数据删除和保留。 对于用户来说,了解用户数据的存储时间以及用户如何请求删除数据也很重要。许多数据保护法赋予用户被遗忘的权利,这意味着他们可以请求删除他们的数据。AI 智能体必须遵守欧盟的 GDPR 或加利福尼亚州的 CCPA 等数据保护法。这些法律规定了数据处理实践和用户对其个人数据的权利。
数据可移植性和隐私政策。 此外,开发人员必须创建 AI 智能体的隐私政策来记录和向用户解释如何处理他们的数据。这应该详细说明数据收集、使用、存储和用户权利。开发人员应确保他们获得用户同意进行数据收集,尤其是对于敏感信息。用户通常可以选择退出或限制他们提供的数据。在某些司法管辖区,用户甚至可能有权以可以转移到另一个服务提供商的格式请求其数据的副本。
匿名化。 对于用于更广泛的分析或 AI 训练的数据,理想情况下应该对其进行匿名化以保护个人身份。开发人员必须了解他们的 AI 智能体如何在交互过程中检索和使用历史用户数据。这可能是为了个性化或提高响应相关性。总之,了解 AI 智能体的数据隐私涉及了解如何收集、使用、存储和保护用户数据,并确保用户了解他们访问、更正和删除其数据的权利。了解用户和 AI 智能体的数据检索机制对于全面了解数据隐私也至关重要。
2.2.4 可解释性和可说明性
模仿学习 → 解耦。智能体通常使用强化学习 (RL) 或模仿学习 (IL) 中的连续反馈循环进行训练,从随机初始化的策略开始。然而,这种方法在陌生的环境中获得初始奖励方面面临着挑战,特别是当奖励稀疏或仅在长步骤交互结束时才可用时。因此,一个更好的解决方案是使用通过 IL 训练的无限记忆智能体,它可以从专家数据中学习策略,通过涌现的基础设施改进对未知环境空间的探索和利用,如图 3 所示。利用专家特征来帮助智能体更好地探索和利用未见的环境空间。智能体 AI 可以直接从专家数据中学习策略和新的范式流。传统的 IL 让智能体模仿专家演示者的行为来学习策略。然而,直接学习专家策略可能并不总是最好的方法,因为智能体可能无法很好地泛化到未见的情况。为了解决这个问题,我们建议学习具有上下文提示或隐式奖励函数的智能体,该函数捕获专家行为的关键方面,如图 3 所示。这为无限记忆智能体配备了从专家演示中学习到的用于任务执行的物理世界行为数据。它有助于克服现有的模仿学习缺点,例如需要大量的专家数据以及复杂任务中的潜在错误。智能体 AI 背后的关键思想有两个部分:1) 收集物理世界专家演示作为状态-动作对的无限智能体,以及 2) 模仿智能体生成器的虚拟环境。模仿智能体产生模仿专家行为的动作,而智能体通过减少专家动作和学习策略生成的动作之间差异的损失函数来学习从状态到动作的策略映射。
解耦 → 泛化。智能体不是依赖于特定于任务的奖励函数,而是从专家演示中学习,这些演示提供了一组涵盖各个任务方面的不同的状态-动作对。然后,智能体通过模仿专家的行为来学习将状态映射到动作的策略。模仿学习中的解耦是指将学习过程与特定于任务的奖励函数分离,从而允许策略在不同的任务中泛化,而无需明确依赖于特定于任务的奖励函数。通过解耦,智能体可以从专家演示中学习并学习适应各种情况的策略。解耦支持迁移学习,其中在一个领域中学习到的策略可以以最少的微调适应其他领域。通过学习与特定奖励函数无关的通用策略,智能体可以利用它在一项任务中获得的知识在其他相关任务中表现良好。由于智能体不依赖于特定的奖励函数,因此它可以适应奖励函数或环境的变化,而无需进行大量的重新训练。这使得学习到的策略在不同的环境中更加稳健和通用。在这种情况下,解耦是指学习过程中两个任务的分离:学习奖励函数和学习最优策略。
图 3:使用智能体从候选者中识别与图像相关的文本的涌现交互机制的示例。该任务涉及使用来自网络的多模态 AI 智能体和人工注释的知识交互样本来结合外部世界信息。
泛化 → 涌现行为。泛化解释了涌现属性或行为如何从更简单的组件或规则中产生。关键思想在于识别支配系统行为的基本元素或规则,例如单个神经元或基本算法。因此,通过观察这些简单的组件或规则如何相互作用。这些组件的相互作用通常会导致复杂行为的出现,而这些复杂行为是单独检查单个组件无法预测的。跨不同复杂性级别的泛化允许系统学习适用于这些级别的通用原则,从而导致涌现属性。这使系统能够适应新的情况,展示从更简单的规则中涌现出更复杂的行为。此外,跨不同复杂性级别进行泛化的能力有助于将知识从一个领域转移到另一个领域,这有助于系统适应时在新环境中出现复杂的行为。
2.2.5 推理增强
AI 智能体的推理能力在于其根据训练和输入数据进行解释、预测和响应的能力。虽然这些能力很先进并且在不断改进,但重要的是要认识到它们的局限性以及它们所训练的基础数据的影响。特别是在大型语言模型的背景下,它指的是其根据训练数据和接收到的输入得出结论、做出预测和生成响应的能力。AI 智能体中的推理增强是指使用额外的工具、技术或数据来增强 AI 的自然推理能力,以提高其性能、准确性和实用性。这在复杂的决策场景中或处理细微或专门的内容时尤其重要。我们在下面列出了推理增强的特别重要的来源:
-
• 数据丰富。结合额外的(通常是外部的)数据源以提供更多上下文或背景可以帮助 AI 智能体做出更明智的推断,尤其是在其训练数据可能有限的领域。例如,AI 智能体可以从对话或文本的上下文中推断含义。他们分析给定的信息并使用它来理解用户查询的意图和相关细节。这些模型擅长识别数据中的模式。他们利用这种能力根据他们在训练期间学习到的模式对语言、用户行为或其他相关现象进行推断。 -
• 算法增强。改进 AI 的底层算法以做出更好的推断。这可能涉及使用更先进的机器学习模型,集成不同类型的 AI(如将 NLP 与图像识别相结合),或更新算法以更好地处理复杂的任务。语言模型中的推理涉及理解和生成人类语言。这包括掌握细微差别,如语气、意图和不同语言结构中的微妙之处。 -
• 人在环 (HITL)。在 AI 的推断中加入人工输入在人类判断至关重要的领域(如道德考虑、创造性任务或模棱两可的场景)特别有用。人类可以提供指导、纠正错误或提供智能体无法自行推断的见解。 -
• 实时反馈集成。使用来自用户或环境的实时反馈来增强推断是另一种在推理过程中提高性能的有前途的方法。例如,AI 可能会根据实时用户响应或动态系统中不断变化的条件来调整其建议。或者,如果智能体在模拟环境中采取违反某些规则的行动,则可以动态地向智能体提供反馈以帮助其自我纠正。 -
• 跨领域知识迁移。利用来自一个领域的知识或模型来改进另一个领域的推断在特定学科内生成输出时特别有用。例如,为语言翻译开发的技术可以应用于代码生成,或者医学诊断的见解可以增强机械的预测性维护。 -
• 特定用例的定制。为特定应用或行业定制 AI 的推理能力可能涉及在专门数据集上训练 AI 或微调其模型以更好地适应特定任务,例如法律分析、医学诊断或财务预测。由于一个领域中的特定语言或信息可能与其他领域的语言形成很大反差,因此对特定领域的信息进行微调可能是有益的。 -
• 伦理和偏见考虑。重要的是要确保增强过程不会引入新的偏见或道德问题。这涉及仔细考虑额外数据的来源或新的推理增强算法对公平性和透明度的影响。在进行推断时,尤其是关于敏感话题时,AI 智能体有时必须考虑道德因素。这包括避免有害的刻板印象、尊重隐私和确保公平。 -
• 持续学习和适应。定期更新和完善 AI 的能力,以跟上新的发展、不断变化的数据环境和不断变化的用户需求。
总之,AI 智能体中的推理增强涉及可以通过额外数据、改进的算法、人工输入和其他技术来增强其自然推理能力的方法。根据用例,这种增强通常对于处理复杂任务和确保智能体输出的准确性至关重要。
2.2.6 监管
最近,智能体 AI 取得了重大进展,其与具体化系统的集成通过更身临其境、动态和引人入胜的体验开辟了与智能体交互的新可能性。为了加快流程并简化智能体 AI 开发中的繁琐工作,我们建议开发下一代 AI 赋能的智能体交互流水线。开发人机协作系统,使人和机器可以进行有意义的交流和互动。该系统可以利用 LLM 或 VLM 对话功能和广泛的行动来与人类玩家交谈并识别人类的需求。然后,它将根据请求执行适当的行动来帮助人类玩家。当将 LLM/VLM 用于人机协作系统时,必须注意这些系统充当黑匣子,会生成不可预测的输出。这种不确定性在物理设置中(例如操作实际机器人)可能变得至关重要。解决这一挑战的一种方法是通过提示工程来限制 LLM/VLM 的焦点。例如,在根据指令进行机器人任务规划时,据报道,在提示中提供环境信息比仅依靠文本产生更稳定的输出 (Gramopadhye and Szafir, 2022)。
图 4:在 (Wake 等人, 2023c) 中开发的机器人教学系统。(左) 系统工作流程。该过程包括三个步骤:任务规划,其中 ChatGPT 根据指令和环境信息规划机器人任务;演示,其中用户直观地演示动作序列。所有步骤都由用户审查,如果任何步骤失败或显示出缺陷,则可以根据需要重新访问先前的步骤。(右) 一个 Web 应用程序,支持上传演示数据以及用户和 ChatGPT 之间的交互。
该报告得到了明斯基的 AI 框架理论 (Minsky, 1975) 的支持,该理论表明 LLM/VLM 要解决的问题空间由给定的提示定义。另一种方法是设计提示,使 LLM/VLM 包含解释性文本,以允许用户了解模型关注或识别的内容。此外,实施一个更高层,允许在人类指导下进行执行前验证和修改,可以促进在人类指导下运行的系统 (图 4)。
2.3 智能体 AI 的涌现能力
尽管交互式智能体 AI 系统越来越多地被采用,但大多数提出的方法在未知环境或场景中的泛化性能方面仍然面临挑战。当前的建模实践要求开发人员为每个领域准备大型数据集以微调/预训练模型;但是,如果该领域是新的,则此过程成本高昂,甚至不可能实现。为了解决这个问题,我们构建了利用通用基础模型 (ChatGPT、Dall-E、GPT-4 等) 的知识记忆的交互式智能体,用于新场景,特别是用于生成人与智能体之间的协作空间。我们发现了一种涌现机制——我们将其命名为具有知识推理交互的混合现实——它促进了与人类的协作以解决复杂现实环境中的挑战性任务,并支持探索未知环境以适应虚拟现实。对于这种机制,智能体学习
-
1. 跨模态的微反应:从显式网络源和通过隐式推断预训练模型的输出来收集每个交互任务 (例如,理解未知场景) 的相关个体知识; -
2. 现实不可知的宏观行为:改进语言和多模态领域中的交互维度和模式,并根据特征角色、特定目标变量进行更改,影响混合现实和 LLM 中协作信息的多样化。
我们研究了知识引导的交互式协同效应对协作场景生成的任务,并结合各种 OpenAI 模型,并展示了交互式智能体系统如何在我们的设置中进一步提升大型基础模型。它集成并提高了复杂自适应 AI 系统的泛化深度、意识和可解释性。
图 5:我们提出的用于多模态通用智能体的新智能体范式。如图所示,有 5 个主要模块:1) 具有任务规划和技能观察的环境和感知;2) 智能体学习;3) 记忆;4) 智能体行动;5) 认知。
3. 智能体 AI 范式
在本节中,我们讨论了用于训练智能体 AI 的新范式和框架。我们试图通过我们提出的框架实现几个目标:
-
• 利用现有的预训练模型和预训练策略来有效地引导我们的智能体,使其能够有效地理解重要的模态,例如文本或视觉输入。 -
• 支持足够的长期任务规划能力。
(文:子非AI)