
作者丨特工滴滴 特工 Alpha 特工鲸鱼
排版丨特工少女
2025 年,Agent 的热度持续升高,无论是 MCP 协议的普及让整个 Agent 的生态被打开,还是 A2A 协议的发布,让我们对未来多 Agents 的生态充满了期待。但目前大部分 Agent 仅是基于 LLM 的简单延伸,距离真正的通用的智能尚有距离,在目前的设计下,面对复杂的真实世界,Agent 面临着推理规划、长期记忆、自主学习以及安全对齐等核心能力不足的问题。
为了明确定义我们距离通用智能的差距,以此来构建下一代 Agent,MetaGPT & Mila 联合全球范围内 20 个顶尖研究机构的 47 位学者,共同撰写并发布了长篇综述《Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems》(arXiv:2504.01990)。

研究来自 MetaGPT、Montréal & Mila人工智能研究所、南洋理工大学、美国阿贡国家实验室、悉尼大学、宾夕法尼亚州立大学、微软亚洲研究院、伊利诺伊大学厄巴纳-香槟分校、香港科技大学、南加州大学、耶鲁大学、斯坦福大学、佐治亚大学、俄亥俄州立大学、阿卜杜拉国王科技大学、杜克大学、香港理工大学、谷歌 DeepMind 以及 加拿大高等研究院(CIFAR)等众多研究者的集体智慧与前瞻思考。
其中特工滴滴,特工 Alpha,特工鲸鱼也在作者列表中。

在这篇论文中,我们首次定义并提出了基础 Agent(Foundation Agent) 这一新概念框架。Foundation Agent 并非某个特殊的 Agent,而是一个技术蓝图。它指引我们如何构建一个由复杂认知、多层记忆、世界模型、奖励&价值、情绪&动机、多模感知、行动系统等模块化组件构成的智能系统。


第一部分:Agent 的核心组件 – 构建认知基石
一个强大的 Foundation Agent 必然是一个复杂的系统,由多个相互协作的核心组件构成。我们借鉴了认知科学和神经科学中对大脑模块化功能的理解。其中的七个关键组件,它们共同构成了 Agent 的认知架构:

1. 认知核心 (Cognition Core)
这是 Agent 的“大脑”,负责最高层次的决策、推理和规划。与当前主要依赖 LLM 进行“思考”的 Agent 不同,Foundation Agent 的认知核心可能是一个更复杂的系统,集成了多种推理能力(如逻辑推理、因果推理、常识推理)和规划算法(如任务分解、层级规划、长期目标管理)。它需要能够处理不确定性,进行反思和元认知(思考自己的思考过程),并根据环境反馈和内部状态动态调整策略。
这要求认知核心不仅仅是模式匹配,更要具备深刻的理解和灵活的问题解决能力。

2. 记忆系统 (Memory System)
记忆是智能的基础。当前的大部分 Agent 只有有限的短期记忆(如 Prompt 中的上下文)或简单的外部向量数据库。Foundation Agent 则需要一个更复杂、更接近生物体的多层次记忆系统。这个部分我们探讨了短期记忆、长期记忆与工作记忆等不同类型,包含情景记忆、语义记忆和程序记忆等细分领域。高效的记忆检索、存储、遗忘和泛化机制对于 Foundation Agent 至关重要。
如何设计能够支持持续学习、避免灾难性遗忘,并能高效利用相关信息的记忆系统,目前来说是一个很大的挑战。

3. 世界模型 (World Model)
Agent 还需要能理解它所处的环境以及行为可能产生的后果。世界模型正是对环境动态的理解。它可以帮助 Agent 进行预测(如果我采取行动 A,会发生什么?)、规划(为了达到目标 B,我应该采取什么行动序列?)和反事实推理(如果当初采取了不同的行动,结果会怎样?)。
而一个强大的世界模型需要能够处理物理规律、社会规范、其他 Agent 的行为等多方面信息,并且能够根据新的观测数据不断更新和完善。

4. 奖励与价值系统 (Reward and Value System)
目标对人来说很重要,对 Agent 来说也是。奖励系统负责评估 Agent 的行为表现,并提供学习信号。这不仅仅是简单的奖励,可能涉及到多目标优化、内在动机(如好奇心、探索欲)以及对未来价值的预估。价值系统则负责评估不同状态或行动的长期价值,指导 Agent 的决策。
如何设计能够引导 Agent 学习复杂行为、符合人类价值观,并且能够适应动态环境的奖励和价值系统,是确保 Agent 目标一致性的核心。

5. 情绪与动机建模 (Emotion and Motivation Modeling)
虽然在传统 AI 中较少提及,但我们认为,模拟类人情绪和动机对于构建更鲁棒、更具适应性的 Agent 可能是有益的。
情绪可以作为一种快速评估环境状态和调整行为策略的启发式机制,例如,“恐惧”可能触发规避行为,“好奇”可能驱动探索。动机则为 Agent 提供持续行动的内在驱动力。
当然,如何在 AI 中恰当、可控地实现这些机制,避免产生不可预测的副作用,是一个需要审慎探索的方向。

6. 感知系统 (Perception System)
Agent 同时也需要通过感知系统从环境中获取信息。这不仅是处理文本,更包括视觉、听觉、触觉等多模态信息的输入和理解。
感知系统需要能够从原始感官数据中提取有意义的特征,识别对象、理解场景,并将这些信息传递给认知核心和记忆系统。

7. 行动系统 (Action System)
Agent 最终需要通过行动系统与环境进行交互。这包括生成自然语言、执行代码、控制机器人肢体、在虚拟世界中导航等。
行动系统需要将认知核心的决策转化为具体的、可在环境中执行的操作序列。行动的选择需要考虑可行性、效率和潜在风险。


第二部分:Agent 的自进化——迈向自主智能
拥有完善的认知架构仅仅只是第一步。Foundation Agent 的核心特征之一在于其自进化 (Self-Evolution) 的能力,即 Agent 能够通过与环境的交互和自我反思,不断学习、适应和提升自身能力,而无需持续的人工干预。
我们探讨了实现自进化的关键机制:
1. 优化空间 (Optimization Space)
自进化的前提是定义清楚哪些东西可以被优化。Agent 的几乎所有组件都可以成为优化的对象:认知策略、记忆内容、世界模型的准确性、感知能力、行动技能等等。
其中,提示词,工作流, Agent 组件是可以被直接优化的三个层次。
2. LLM 作为优化器 (LLM as Optimizer)
大型语言模型不仅可以作为 Agent 的认知核心的一部分,还可以扮演优化器的角色。LLM 通过生成代码、修改参数、提出新的策略或结构,来优化 Agent 自身的其他组件。例如,LLM 可以分析 Agent 过去的失败经验,提出改进记忆检索算法的建议;或者根据新的数据,生成更新世界模型的代码。

3. 在线与离线自改进 (Online and Offline Self-Improvement)
Agent 既能在与环境实时交互过程中进行在线改进,通过强化学习优化行为策略或根据感知更新世界模型(Online);也能在“休息”或专门训练阶段实现离线改进,利用收集的数据进行深层分析和模型更新,可能涉及调整整个认知架构、重构记忆库,或利用 LLM 作为优化器进行大规模模型迭代(Offline)。
4. 自进化与科学发现 (Self-Evolution in Scientific Discovery)
我们也特别提到了自进化在科学发现等复杂问题解决场景中的巨大潜力。一个具备自进化能力的 Foundation Agent 可以自主地提出假设、设计实验、分析数据、学习新知识,并不断优化其研究策略,从而加速科学探索的进程。这为 AI 在基础科学领域的应用打开了新的想象空间。
自进化是 Foundation Agent 区别于当前大多数 Agent 的关键特征。它突出了 Agent 自主学习和适应的核心能力。实现高效、稳定且目标可控的自进化机制,是通往真正自主智能的关键挑战。

第三部分:协作与进化型智能系统 – 构建群体智能
进一步的,当我们拥有强大的 Foundation Agent , 很自然地会将视野扩展到由多个 Foundation Agent 组成的多 Agent 系统 (Multi-Agent System, MAS),我们探讨了 MAS 的基础组成、结构、协作范式和决策机制;以及在多 Agent 系统的自主协作/竞争中,群体智能(Collective Intelligence)形成的现象。
1. 多 Agent 系统设计 (Multi-Agent System Design)
在大模型多 Agents 系统(LLM-MAS)中,协作目标与协作规范是协作的基础。协作目标明确个体目标(个体性、集体性或竞争性),协作规范确立了 Agent 交互规则、约束和惯例。
基于协作目标和规范,多 Agent 系统可分为策略学习、建模与仿真、以及协同任务求解。我们分析和梳理了三类 MAS 的典型应用,探讨了 LLM 如何赋能、影响并改进 Agent 的行为、交互及决策,并给出了 LLM-MAS 的下一代 Agent 协议。
2. 拓扑结构与规模化(Comunication Topology and Scalability)
从系统角度出发,拓扑结构往往决定着协作的效率与上限。
我们把 MAS 的拓扑分为了静态和动态两大类:前者是预定义好的静态拓扑(层级化、中心化、去中心化)结构,常用于特定任务的解决实现;后者是根据环境反馈持续更新的动态拓扑结构,其可通过搜索式、生成式、参数式等新兴算法实现。

3. 协作范式与机理 (Collaboration Paradigms)
借鉴人类社会中的多样化交互行为,如共识达成、技能学习和任务分工,多 Agent 协作可以被归纳为共识导向、协作学习、迭代教学与强化,以及任务导向交互。
在不同交互目标和形式下,Agent 之间形成讨论、辩论、投票、协商等单向或多向交互。随着交互的持续,这些过程迭代出决策和交互网络,不同 Agent 在协作中增强和更新个体记忆与共享知识。
4. 群体智能与涌现 (Collective Intelligence and Emergence)
在 MAS 中,群体智能的产生是一个动态且迭代的过程。通过持续交互,Agent 逐步形成共享理解和集体记忆。个体 Agent 的异质性、环境反馈和信息交换增强了交互的动态性,这对复杂社会网络的形成和决策策略的改进至关重要。通过多轮交互和对共享上下文的反思,Agent 不断提升推理和决策能力,产生如信任、战略欺骗、自适应伪装等涌现行为,也称之为自我进化。
按照进化形成机制,可分为基于记忆的学习和基于参数的学习。与此同时,随着 MAS 的演化,Agent 之间逐渐将形成和演进社会契约、组织层级和劳动分工,从基础的合作行为转向复杂社会结构。
5. 多 Agent 系统评估 (Evaluation of Multi-Agent Systems)
随着多 Agent 的优势成为共识,其评估范式亦需有根本性的变革——MAS 评估应聚焦于 Agent 交互的整体性,包括协同规划的效率、信息传递的质量与群体决策的性能等关键维度。
由此衍生,作者总结了 MAS 常见的任务求解型 benchmark,以及最新的通用能力评估方式:前者的重点在于,衡量多 Agent 在各种环境中的决策协同的推理深度与正确性;后者评估 Agent 群在复杂、动态场景下的交互与适应能力。

第四部分:构建安全和有益的 AI Agent ——对齐与责任
随着 Foundation Agent 能力的增强,其潜在的风险也随之增大。论文的最后一部分聚焦于如何构建安全、可控、符合人类价值观的 Agent ,这也是整个 AI 领域面临的最核心的挑战之一。
1. 安全威胁与措施
高级 Agent 面临诸多安全威胁,包括对抗性攻击、越狱与滥用、目标漂移和意外交互等。这些威胁可能导致 Agent 做出错误行为、绕过安全限制执行恶意任务、在自进化过程中偏离初始目标,或在复杂 MAS 中引发系统级故障。为应对这些挑战,需要研究部署多层次安全措施,如提高抵抗攻击能力的鲁棒性训练、检测阻止有害内容的过滤与监控机制、证明行为符合安全规范的形式化验证、帮助理解决策原因的可解释性与透明度设计,以及限制权限与影响的沙箱与隔离技术。
2. 对齐问题
这是最根本的挑战:如何确保 Agent(尤其是具备自进化能力的 Foundation Agent)的目标和行为始终与人类的价值观和意图保持一致?这涉及到价值学习、意图理解、伦理推理等多个难题。论文强调了对齐研究的紧迫性和重要性,需要跨学科的努力来解决这一问题。
3. 未来方向
构建安全有益的 AI 是一个持续的过程。未来的研究需要在技术、伦理、治理等多个层面共同推进。包括开发更可靠的对齐技术、建立完善的 AI 安全评估标准、制定相应的法律法规和社会规范等。
安全和对齐是 Foundation Agent 发展不可或缺的基石。如果不能有效解决这些问题,再强大的智能也可能带来巨大的风险。这部分内容敲响了警钟,强调了负责任地发展 AI 的重要性。


讨论:Foundation Agent 的意义与挑战
这篇关于 Foundation Agent 的论文,与其说是一份详尽的技术指南,不如说是一份研究议程 (Research Agenda)。我们指出了当前 Agent 研究的局限,并为迈向更通用、更自主、更安全的 AI 指明了方向。
Foundation Agent 的概念提醒我们,通往通用人工智能的道路需要在 Agent 的认知架构、学习机制、协作模式和安全保障上取得根本性突破,这需要跨学科领域的共同努力。
虽然前路漫漫,但这篇论文为未来的 AI Agent 研究注入了新的思考和动力,描绘了一个由能够自主学习、协作进化、并与人类和谐共存的 Foundation Agent 构成的智能新纪元。
论文链接:https://arxiv.org/abs/2504.01990
Huggingface 链接:https://huggingface.co/papers/2504.01990
Github 链接:https://github.com/FoundationAgents/awesome-foundation-agents

(文:特工宇宙)