264页最强 Agents 发展与挑战综述,微软&谷歌&MetaGPT联合出品!

MetaGPT&微软&港科大&斯坦福&谷歌等20个机构联合发表长达264页的最强基础 Agents 发展与挑战从受大脑启发的智能到进化、协作和安全的系统, 提供了一个全面的概述,将智能 Agents 置于一个模块化、受大脑启发的架构中,整合了认知科学、神经科学以及计算研究的原则。
按主要脑区划分的关键人类大脑功能的示意图,标注了其在 AI (大型语言模型LLMs、AI Agent)研究中的当前探索水平。突出了现有成就、差距以及推动 AI 能朝着更全面、受大脑启发的能力发展的潜在机会。
主张从人脑中汲取灵感,系统地分析和设计 AI Agents 框架:生物系统通过将专业化的组件(用于感知、推理、行动等)紧密整合来实现通用智能——这种方法可以作为加强当前基于LLM的 Agents 的蓝图
描述智能Agents循环和Agents社会的总体框架概览
更多信息:《动手设计AI Agents:CrewAI版》、《高级RAG之36技》、新技术实战:中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读(GPT4-o/数字人/MCP/Gemini 2.5 Pro)
将探索分为四个相互关联的部分:
  • 首先,深入研究智能Agents的模块化基础,系统地将其认知感知操作模块映射到类似人类大脑的功能,并阐明记忆世界建模奖励处理以及类似情感系统等核心组件。
  • 其次,讨论自我增强和适应性进化机制,探讨如何通过自动化优化范式(包括新兴的AutoML和LLM驱动的优化策略)自主完善其能力、适应动态环境并实现持续学习。
  • 第三,研究协作和进化multi-Agent系统,调查从Agent互动、合作以及社会结构中涌现的集体智能,并强调其与人类社会动态的相似之处。
  • 最后,着重讨论构建安全、可靠且有益的AI系统
一、智能Agents的模块化基础
  • 认知(Cognition)首先探讨学习,研究它在心理状态内部发生的空间以及它所服务的具体目标。随后,研究推理,分析结构化和非结构化的方法,最后专门探讨规划能力作为一种特殊的推理行为。

  • 记忆(Memory):首先简要概述人类记忆,重点关注编码、巩固和检索等关键阶段。然后,将探讨设计人工智能代理记忆系统的多样化方法,从传统的符号表示到前沿的基于神经网络的方法。最后,将考虑如何从神经科学和认知心理学中汲取原则以指导未来研究。
  • 世界模型(World Model):探讨了人类认知研究中的“心理模型”与人工智能中的AI世界模型之间的关系,并将其归类为四种范式:隐式范式、显式范式、基于模拟器的范式以及一类其他新兴方法(例如,指令驱动范式)。
  • 奖励(Reward):奖励帮助代理区分有益和有害的行动,塑造其学习过程并影响其决策制定。
  • 感知(Perception):感知是人类和智能Agent获取信息、解释周围环境并最终做出明智决策的基础途径
  • 行动系统(Action System)基础模型为Agent奠定了基础,而行动系统决定了它们实现复杂目标的最终潜力
二、智能Agent系统的自我进化
所有手工设计的Agent人工智能系统最终都将被可学习和自我进化的系统所取代,这最终可能会将Agent人工智能的开发和改进置于一个自主、自给自足的循环中。
关键概念的示意图:包括优化空间、优化器和优化目标。优化器在优化空间内迭代地细化组件,以增强代理系统,直到达到满意的结果,从而在LLM代理系统中实现自我改进。
为了实现自动化人类努力的目标,许多研究提出了利用LLM作为驱动力,以实现代理系统的自我进化。特别是,LLM为传统的优化方法(如基于梯度和基于强化学习的方法)提供了一种高效的替代方案。它们将优化空间从数值扩展到更多样化的领域,自然语言作为通用桥梁。
LLM能够优化复杂的、异构的参数,如指令和工具实现,并且可以在包括开源和闭源模型在内的各种LLM上运行。这种方法的一个显著例子是AFLOW,它自动化了整个代理系统工作流程的生成和优化。该系统采用蒙特卡洛树搜索来利用LLM的全面能力。在这个框架中,传统手工制作的代理系统被算法生成的系统所取代,标志着一种范式的转变。

  • 最近在代理系统研究中探索的各种优化空间,包括提示、工具和工作流程。
  • 优化算法,讨论了传统的优化范式和元优化,其中优化过程也会影响底层的优化算法本身。
  • 自我进化场景,将其分为两种类型:在线优化和离线优化。
  • 大型语言模型(LLM)代理自我改进技术的应用,特别是在人工智能用于科学(AI-for-science)领域的知识发现。
三、协作和进化multi-agent系统
系统地调研了基于LLM的multi-agent系统的协作机制和进化能力。
  • 不同的系统目标如何塑造代理的角色、行为模式和协作策略。
  • 分析了各种通信结构,包括促进有效代理间和人机通信的交互协议。
  • 探讨了协作决策制定方法,以及代理如何利用其独特的专业知识和视角,
  • 讨论了集体智能和进化机制以及进化过程,重点介了适应性学习方法、持续的知识共享以及共同提升MAS性能的迭代改进机制。
https://arxiv.org/pdf/2504.01990Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systemshttps://github.com/FoundationAgents/awesome-foundation-agents

(文:PaperAgent)

发表评论