

大型语言模型(LLMs)的出现引发了人工智能领域的深刻变革,推动了具备复杂推理能力、强大感知能力和多样化行为能力的高级智能体的发展。这些智能体正日益成为推动人工智能研究与实际应用的核心力量,其设计、评估与持续优化也带来了复杂且多维的挑战。
本综述提供了一个全面的视角,将智能体置于一种模块化、类脑启发式的架构之中,融合了认知科学、神经科学与计算研究的核心原理。我们的讨论分为四个相互关联的部分:
第一部分,我们探讨智能体的模块化基础,系统性地将其认知、感知与执行模块映射到人脑的功能结构上,并详细解析诸如记忆、世界建模、奖励处理以及类情感系统等关键组成部分。
第二部分,我们聚焦于智能体的自我增强与适应性进化机制,研究其如何通过自动优化范式实现能力的自主提升、对动态环境的适应与持续学习,涵盖新兴的AutoML技术与LLM驱动的优化策略。
第三部分,我们考察协作式与进化式多智能体系统,探索由智能体间的交互、合作与社会结构所涌现出的集体智能,并指出其中与人类社会行为的诸多相似之处。
第四部分,我们讨论构建安全、可靠与有益的人工智能系统的紧迫性,强调内在与外在安全威胁、伦理对齐、系统鲁棒性以及实际可行的风险缓解策略,从而实现可信赖的现实部署。
通过融合模块化AI架构与多学科的研究洞见,本综述明确了关键的研究空白、挑战与机遇,旨在激发技术创新,推动技术进步与社会福祉的有机结合。
项目的 GitHub 链接为:
https://github.com/FoundationAgents/awesome-foundation-agents。
大型语言模型(LLMs)在自然语言与多模态理解、推理与生成等方面展现出前所未有的能力,彻底革新了人工智能(AI)领域。这些模型在大规模数据集上进行训练,展现出诸如推理、上下文学习、甚至初步规划等涌现能力。尽管它们在实现智能机器方面迈出了重要的一步,但尚未完全具备一个“智能体”所需的全部能力。
自人工智能诞生以来,研究人员便一直追求构建真正“智能”的系统,这种系统应能够学习、规划、推理、感知、交流、行动、记忆,并具备各种类似人类的能力与灵活性。这类系统即为“智能体”(intelligent agents),它们应当能够兼顾短期与长期思维,执行复杂任务,并与人类及其他智能体进行交互。虽然LLMs是实现智能体的重要基础,但我们仍未完全抵达终点。
本书稿对当前基于LLM的智能体研究现状进行了系统性的综述。过去已有大量关于智能体或LLMs的研究论文与专著,但鲜有文献能够全面覆盖二者的结合。虽然LLMs可为智能体提供诸多关键能力,但它们仅是构建更高级功能的基础。例如,LLMs虽然能辅助生成如旅行计划之类的方案,但尚无法为复杂的专业任务生成完整的规划,也无法在不产生幻觉的前提下维持长期记忆。此外,它们在自主执行现实世界任务方面的能力依然有限。
我们可以将LLMs视为“引擎”,而智能体则是基于这些引擎构建的“汽车”、“船只”或“飞机”。在这个引擎与载具的类比中,我们自然地思考:当前的LLM技术到底能为智能体提供多少能力?又有哪些功能尚无法实现?除了LLMs之外,还需要哪些技术才能构建一个真正能够在物理世界中自主行动与交互的智能体?全面集成LLM的智能体还面临哪些挑战?为了构建能够有效与人类协作、沟通的智能体,还需要哪些进一步的发展?有哪些是LLM智能体领域的“低垂果实”?当全面智能的LLM智能体出现后,它们将对社会产生哪些影响?我们应如何为这一未来做好准备?
这些问题不仅涉及当前对LLMs与智能体的工程实践扩展,也揭示了未来潜在的研究方向。为深入探讨这些问题,我们邀请了来自人工智能前沿领域的研究者,涵盖LLM开发、智能体设计等多个方向。
本书共分为四个部分。第一部分阐述了单个智能体的能力需求,并将其与人类在感知与行动方面的能力进行比较。第二部分探讨了智能体的进化能力,以及这种能力对智能工具(如工作流管理系统)的潜在影响。第三部分聚焦于“智能体社会”,强调其协作与集体行动的潜力。第四部分则讨论了伦理与社会层面的议题,包括智能体的安全性与责任问题。
本书面向研究人员、学生、政策制定者与行业实践者,同时也欢迎对人工智能、LLMs与智能体感兴趣的非专业读者。无论是本科生、研究生,还是科研与产业界的从业人员,都可以从本书中获得启发。本书不仅希望解答读者关于AI与智能体的现有疑问,更旨在激发他们提出新的问题。最终,我们希望有更多人能够加入这一充满潜力的研究领域,共同探索未来的智能系统。

人工智能(AI)自诞生以来,始终受到人类渴望创造具有人类智慧、适应性与目标导向行为之实体的驱动。这种迷恋的根源可追溯至古代神话与早期工程奇迹,体现了人类赋予人工造物以智能与自主意识的持久梦想。例如克里特岛上的青铜巨人塔洛斯(Talos)的故事中,这位由神明打造的巨型自动人巡逻海岸、抵御入侵者,象征着人类希望赋予人工造物以类人意图与行动能力的愿望。
类似地,文艺复兴时期的机械发明也试图将这种神话愿景具体化。列奥纳多·达·芬奇设计的仿人机器人,旨在模仿人类的动作与结构,是将幻想转化为可操作人工物的早期尝试之一。这些原始的想象与原型体现了将想象力与技术相融合的深层追求,也为后来的机器智能研究奠定了基础,最终在艾伦·图灵1950年提出的著名问题“机器能思考吗?”中达到高潮。
为回应这一问题,图灵提出了“图灵测试”作为评估机器是否能通过对话展现类人智能的框架,从而将AI研究的焦点从纯粹计算转向更广义的智能概念。几十年来,AI逐步从依赖预设逻辑的符号系统,演化为能够从数据中学习并适应新情境的机器学习模型。随着大型语言模型(LLMs)的兴起,这一演进迈入全新阶段,LLMs展现了在人类语言理解、推理与生成方面的惊人能力。
这一系列进展的核心在于“智能体”(agent)的概念——一个不仅能处理信息,还能感知环境、做出决策并自主行动的系统。起初,智能体仅是理论概念,而如今,它已成为现代AI的基石,推动了从对话助手到具身机器人等多个领域的发展,使AI系统能够更好地应对动态的现实世界环境。
1.1 智能体的兴起与发展
“智能体”这一概念是现代人工智能的重要支柱,代表一种能够感知环境、做出决策并采取行动以实现特定目标的系统。尽管这一理念在20世纪中叶才在AI领域被正式定义,但其思想源头早已体现在关于自主性与智能交互的早期探索中。
[3] 提出的一项广为引用的定义指出:智能体是“任何可通过传感器感知环境并通过执行器作用于环境的实体”。这一定义强调了智能体的双重特性——既是观察者也是行动者,能够动态适应环境,而非仅依赖静态规则。这一视角也体现了AI的发展方向从单纯“计算”系统向“交互”系统的转变。
智能体的发展史几乎伴随着AI本身的演进。早期的符号系统(如Newell与Simon提出的一般问题求解器 General Problem Solver [4])试图通过逻辑推理步骤模拟人类的问题解决过程,但这些系统受限于结构化环境与预定义规则的约束。为克服这些限制,智能体范式应运而生,其核心在于自主性、适应性与对现实世界的交互能力。
Rodney Brooks 在1980年代提出的“子层架构”(subsumption architecture)是这一范式转变的重要实例,该架构支持基于行为驱动的实时响应机器人,与早期依赖详尽模型的系统不同,这类智能体不再需要穷尽的环境建模,展现出更强的灵活性与可扩展性。
如今,智能体作为一种通用框架已广泛应用于AI各个子领域。在机器人学中,它们支持自主导航与操作;在软件系统中,它们构成多智能体系统的基础,用于模拟与协调任务 [6]。通过将感知、推理与行动整合为统一结构,智能体范式持续地连接理论AI与实际应用之间的桥梁,推动了我们对智能系统在动态复杂环境中运行方式的理解与实践发展。

大型语言模型(LLMs)的出现重新定义了智能体的能力,彻底改变了它们在人工智能中的角色,并为其应用开辟了新的前景。曾经仅限于执行狭义任务或遵循僵化规则框架的智能体,如今借助诸如 OpenAI 的 ChatGPT [7]、DeepSeek AI 的 DeepSeek [8]、Anthropic 的 Claude [9]、阿里巴巴的 Qwen [10] 以及 Meta 的 LLaMA [11] 等模型的强大泛化能力、推理能力与适应性,已演变为能动态响应的智能系统。
这些基于 LLM 的智能体不再是静态的信息处理器,而是能够理解自然语言、跨复杂领域推理、并以高度流畅的方式适应新情境的动态实体。它们已经转变为主动型协作者,能够处理多步骤任务,甚至以类似人类问题解决方式与环境进行交互。
LLM 时代的一个关键进展,是语言理解与可执行能力的无缝整合。现代LLMs配备函数调用 API,使得智能体能够识别何时需要调用外部工具或系统,推理其用途,并执行精确动作以达成具体目标。例如,一个由 ChatGPT 驱动的智能体可以自主查询数据库、提取相关信息,并在理解任务上下文的前提下输出可行建议。抽象推理与具体执行的有机结合,使智能体得以在认知理解与现实行动之间架起桥梁。
此外,LLMs 在少样本学习(few-shot)与零样本学习(zero-shot)方面的泛化能力极大提升了智能体的适应性,使其无需大量特定任务训练即可处理多样化任务——从数据分析与内容创作,到实时协作式问题解决。正因其强适应性与语言流畅性,这些基于LLM的智能体愈发成为人机交互中的智能中介,精准融合人类意图与机器执行,在日益复杂的工作流中展现出巨大潜力。
1.2 人脑与人工智能体的类比
大型语言模型迅速融入智能体架构,推动人工智能飞速发展,也凸显出AI系统与人类认知之间的根本差异。如表 1.1 所示,在“硬件”基础、意识状态、学习方式、创造力与能效等维度上,基于LLM的智能体与人类认知存在显著不同。然而,这种比较仅提供了一个高层次的概览,远非对人类智能的全面刻画,同时也未能穷尽AI智能体所具备的全部特性。
人类智能运行于生物硬件——大脑之上,其能效极高,能够以极低的代谢成本实现终身学习、推理与适应性决策。而当前AI系统则依赖高计算资源,在执行类似认知任务时能源消耗显著更高。这一性能差异突显了“能效”作为未来AI研究的重要突破口。
在意识与情感体验方面,LLM智能体缺乏真正的主观状态与自我意识,这是人类认知不可或缺的一部分。虽然复制人类意识在AI中可能既非必要也非理想目标,但理解情感与主观体验在推理、动机、伦理判断与社会互动中的核心作用,有助于引导AI研究朝着更具对齐性、可信性与社会价值的方向发展。
人类的学习过程是持续性的、交互性的,并强烈受社会、文化与经验因素影响。而LLM智能体的训练方式主要为离线的大规模批量训练,其持续适应能力有限。尽管诸如指令微调(instruction tuning)与人类反馈强化学习(RLHF)[12] 等方法有所改善,当前的LLM智能体仍未达到人类那样的灵活性。终身学习、个性化适应与交互式微调等方向被认为是实现更高类人适应性的关键研究路径。
人类的创造力源于个体经验、情感洞察与跨领域联想的复杂交织;而LLM的“创造”更多表现为对已有数据的统计重组——即所谓的“统计式创造力”,在深度、原创性与情感共鸣方面仍有差距。这一差异提示我们,可通过引入更丰富的上下文理解、模拟情感状态与经验基础,来推动更深层次的AI创造力发展。
从时间尺度来看,人类大脑经过数百万年的自然选择与环境适应才形成了今日的高效、灵活与创造力,而AI智能体的技术发展不过80年,自最初的计算机模型起步至今。这种人类认知与AI系统的并行比较极具价值,不仅揭示了它们之间的类比与根本差异,也为未来AI智能体技术的发展提供了有益的指导。
最终,从人类智能中汲取灵感,将有望进一步提升AI能力,造福医疗、教育、可持续发展等多个关键领域,为人类社会带来广泛的积极影响。




(文:机器学习算法与自然语言处理)