Agent综述论文火了,10大技术路径一文看尽

智能体研究要往何处去?
作者 |  陈骏达
编辑 |  心缘
智东西5月28日报道,近日,来自美国康奈尔大学等高校研究团队的一篇智能体研究综述论文爆火出圈,相关推文在社交媒体平台X上收获超70万阅读量,过万收藏。这篇长达32页的综述,深度分析了Agent(智能体)研究中最容易混淆的一组核心概念——AI Agents和Agentic AI,并讨论了智能体技术发展过程中几大堵点问题的技术解决思路。
该团队认为,AI Agents与Agentic AI存在本质区别:AI Agents是以大模型为基础、执行特定任务的自主体,更适用于单一任务的自动化处理;而Agentic AI是由多个协作智能体组成的系统,具备更强大的复杂任务拆解、自主决策和多步骤协同能力,更接近人类的组织式智能。
从场景来看,AI Agents的典型应用包括客服自动化、邮件分类、日程助手等等。Agentic AI的典型应用包括多智能体研究助手、智能机器人协作、游戏中的多角色NPC协同等。
作为Agentic AI系统的组成模块,AI Agents仍面临幻觉、推理深度有限、无因果建模、上下文窗口受限等挑战。Agentic AI系统则需要解决智能体间的协同失败、错误传播和安全风险。
为解决上述问题,开发者可以引入如RAG(检索增强生成)、因果建模、多智能体记忆架构(如向量记忆)与更强的规划机制(如思维树,Tree of Thoughts)。
未来,AI Agents将通过模块化设计和智能能力的提升,逐步演变为具备“主动智能”的智能体,Agentic AI的多智能体协作框架则会进一步成熟与精细化,形成具备高度组织能力的“系统智能”

01.
GenAI奠定现代AI Agents基础,执行能力依赖外部组件


研究团队在文章中首先探讨了AI Agents的定义与核心特征。
AI Agents是指能够在限定数字环境中自主感知、理解输入、并基于目标执行任务的软件实体。它们超越传统自动化脚本,不再依赖固定流程,而具备一定程度的环境适应与智能行为,常用于信息检索、客服自动化、日程管理等实际场景。AI Agents具有三大核心特征:
(1)自主性(Autonomy):具备在部署后独立运作的能力,人类干预较少,支持大规模自动化。
(2)任务专一性(Task-Specificity):通常专注于单一、明确的任务,如邮件分类、数据库查询等,便于优化效率与可解释性。
(3)反应性与适应性(Reactivity & Adaptation):能够对用户指令或环境状态作出动态响应,有些系统甚至能通过反馈机制逐步优化行为。
现代AI Agents的核心通常是大语言模型(LLM)和大图像模型(LIM)。其中,大语言模型主要支持AI Agents的自然语言理解、推理、计划和响应生成,是AI Agents“思考”的基础。诸如CLIP和BLIP-2等大图像模型使AI Agents具备视觉感知能力,广泛应用于机器人、自动驾驶、内容审核等场景。
这些模型通常通过API调用方式接入,使得开发者无需从零训练模型即可构建AI Agents。
文章中用农业无人机的案例展现了AI Agents感知、推理与行动三位一体的运作方式。AI Agents可通过图像识别功能识别果园中的病果或坏枝,并在无人干预的情况下触发报警或处理机制。
虽然生成式AI模型为现代AI Agents奠定了技术基础,但其仍然存在重要局限,例如主动性或目标意识差、无持续记忆与状态更新能力、无法直接与外部系统交互等。
为弥补生成式AI的不足,AI Agents引入了工具调用(Tool-Use)、函数执行、上下文记忆、任务规划等模块,演化成具备初步“认知结构”的系统,例如AutoGPT、LangChain等。这标志着系统架构从“内容生成”过渡到“任务执行”,是Agentic AI发展的基础步骤。
如今的AI Agents通常由四个主要子系统构成:感知、推理、行动和学习。感知模块负责接收来自用户(如自然语言提示词)或外部系统(如API、文件上传、传感器数据流)的输入信号,并将其预处理为智能体推理模块可以理解的格式。知识表征与推理(KRR)模块是智能的核心模块,负责对输入数据应用符号、统计或混合逻辑进行处理。
行动选择与执行模块将推理得出的决策转换为外部行动,如发送信息、更新数据库、调用API或生成结构化输出。AI Agents还具备基础的学习与适应能力,如启发式参数调整或基于历史的上下文保留。

AI Agents的定制化通常通过领域特定的提示工程、规则注入或工作流模板实现,它与硬编码的自动化脚本的区别在于有上下文感知的决策能力。以ReAct系统为例,其采用推理与行动的迭代框架,使智能体在执行前能进行内部“思考”。


02.
AI Agent可扩展性有限,Agentic AI成下一代AI基础设施


尽管AI Agents已经在自动化特定任务方面取得了突破,但这类系统在复杂、多步骤或协作场景中的可扩展性受到限制。这些限制最终催生了更先进的范式——Agentic AI。
从定义上来看,Agentic AI系统由多个AI Agents组成,Agentic AI系统的自主性要高于单个Agent,能够管理多步骤的复杂任务,并处理需要协作的任务。Agentic AI还涉及多智能体之间的信息共享,与AI Agents相比,能够在更广泛的任务和环境中进行学习和适应。

Agentic AI系统继承了AI Agents的模块化结构,但在此基础上引入了分布式智能、智能体间通信和递归规划等增强能力。文献中总结了多项关键架构改进,这些改进构成了Agentic AI相较于AI Agents的本质区别:

(1)专责智能体协作体系(Ensemble of Specialized Agents):Agentic AI不再是单一智能体运行,而是由多个专责智能体组成,每个负责不同功能,如摘要、检索、规划等。这些智能体通过消息队列、黑板机制或共享内存等方式进行通信。例如MetaGPT采用模拟公司部门(如CEO、CTO、工程师)角色的方式构建智能体,角色模块化、可复用、职责清晰。

(2)高级推理与规划能力(Advanced Reasoning and Planning):Agentic AI系统内嵌递归推理机制,如ReAct、思维链(Chain-of-Thought, CoT)和思维树(Tree of Thoughts)等框架。这些机制允许智能体将复杂任务分解为多个推理阶段,评估中间结果,并动态调整行动计划,从而提升系统应对不确定性或任务失败的能力。

(3)持久化记忆架构(Persistent Memory Architectures):与传统智能体不同,Agentic AI具备持久记忆子系统,能够在多个任务周期或智能体会话间保留知识。记忆类型包括情景记忆(记录任务相关的交互历史)、语义记忆(长期事实或结构化数据)以及向量记忆(用于检索增强生成,RAG)。例如AutoGen智能体使用草稿本记录中间计算结果,支持任务的逐步推进。

(4)编排层 / 元智能体(Orchestration Layers / Meta-Agents):Agentic AI的一项关键创新是引入了编排器或元智能体,负责协调各子智能体的生命周期、管理依赖关系、分配角色并解决冲突。这类元智能体通常包含任务管理器、评估器或协调者角色。例如在ChatDev系统中,一个虚拟CEO元智能体将子任务分配给不同部门智能体,并整合它们的输出形成统一的策略响应。

这些架构方面的调整使Agentic AI能够胜任需要持续上下文、多智能协作、多模态协调及策略适应的复杂任务场景。典型应用包括:多个智能体协同完成检索、摘要、文稿撰写的研究助理(如AutoGen流水线);或监控物流、供应商绩效与动态定价模型的智能供应链系统。

研究团队认为,Agentic AI正在成为下一代AI基础设施,其能力不仅限于执行预设流程,更能构建、调整和管理复杂目标,实现最小人工干预下的自主运行。


03.
AI Agents继承大模型短板,Agentic AI缺乏统一标准


在当下令人眼花缭乱的智能体应用中,究竟哪些属于AI Agents,又有哪些属于Agentic AI呢?这篇综述为我们归纳了AI Agents与Agentic AI的典型应用场景。
AI Agents目前广泛应用于客服自动化、企业内部搜索、电子邮件分类与优先级管理、内容推荐以及日程安排等场景
广为人知的AI Agents包括Manus、NotebookLM、 ChatGPT深度搜索等。此外,智能营销产品Salesforce Einstein、智能协作与内容生成平台Notion AI、个性化内容推荐系统(如亚马逊、YouTube、Spotify的推荐系统)和日程安排助手Reclaim AI等也属于AI Agents。

▲业内有代表性的AI Agents

Agentic AI具备更高层次的认知和任务协作能力,目前的应用包括科研助手、多机器人协调系统、医疗辅助诊断系统、网络安全风险处理系统等
不过,无论是从客观的基准测试还是用户的主观体验来看,AI Agents和Agentic AI距离无需人类干预的高度自主化系统仍有一定距离。
现有的AI Agents主要存在因果推理能力差、幻觉较多、推理深度较浅、知识更新滞后等问题,其中部分问题是从大语言模型继承而来的。AI Agents还缺乏自主目标设定能力、反思能力、上下文记忆、持久性控制,这些问题导致其在长期规划和故障恢复方面表现不佳。
Agentic AI面临的挑战更多出现在智能体的协作环节,包括智能体间的错误传播(单个子智能体的错误在系统中被层层放大)、系统稳定性差等问题。Agentic AI系统的基础研究尚处早期阶段,缺乏统一的标准架构、通信协议与可验证机制,难以进行跨平台集成与通用化开发,可扩展性因此受限。

04.
从RAG到自我批判架构,堵点问题10大解法


这篇论文还总结了解决AI Agents与Agentic AI所面临的多样问题的10大解决方案。
(1)检索增强生成(RAG):通过结合实时数据检索,RAG能够减少AI Agents的幻觉问题,并扩展其静态知识库。例如,在企业搜索和客户支持中,RAG可以确保生成的响应基于外部事实。
在多Agent系统中,RAG作为共享的“事实基础”,能确保Agent之间的一致性,并减少因上下文不一致导致的错误传播。
(2)工具增强的推理(Tool-Augmented Reasoning):AI Agents如果能通过调用外部API、运行本地脚本或访问结构化数据库,就可以转变为交互式的问题解决者。
在多Agent系统中,工具增强的推理让每个Agent可以根据其角色调用特定的API,支持更清晰的行为边界,并减少任务交接中的模糊性。
(3)Agent行为循环(Agentic Loop):Agent行为循环指的是推理、行动、观察这三者间的迭代。通过引入迭代循环,Agent可实现更谨慎、更适应上下文的行为。例如,Agent在生成摘要之前会验证检索到的数据。
在多Agent系统中,这种循环对于协作一致性至关重要。每个Agent的观察结果需要与其他Agent的输出进行协调。要实现这一点,共享内存和一致的日志记录是关键。
(4)记忆架构(Memory Architectures):记忆架构的升级可以帮助AI Agents解决长期规划和会话连续性的问题。例如,Agents可以回忆之前的动作和反馈,从而实现个性化和适应性决策。
Agentic AI需要更复杂的记忆模型来管理分布式状态。此类模型允许每个Agent可以维护本地内存,同时访问共享的全局内存,以支持长期的系统级规划。
目前,研究者正探索情景记忆(Episodic Memory)、语义记忆(Semantic Memory)和向量记忆(Vector Memory)等不同架构。
(5)角色专业化的多Agent编排(Multi-Agent Orchestration with Role Specialization)即使在单Agent系统中,开发者也可以通过将任务分解为子组件(例如,规划者、总结者)并进行模拟分隔推理,来实现轻量级的编排。
在Agentic AI系统中,编排是一项核心技术。元Agent或编排者在专业化的Agent之间分配任务,每个Agent都有不同的能力。
(6)自反思与自我批判机制(Reflexive and Self-Critique Mechanisms)引入自我评估能力后,Agent在完成任务时可以使用二次推理过程来审查自己的输出,从而提高鲁棒性和减少错误率。
这项能力也可以扩展到Agent之间的相互评估。例如,一个验证Agent可以审计总结Agent的工作,确保协作质量控制。
(7)程序化提示工程管线(Programmatic Prompt Engineering Pipelines):自动化任务模板、上下文填充和检索增强变量等技术可以减少手动调整提示词的不稳定性。这些动态提示词可以根据任务类型、AI Agents角色或用户查询进行结构化。
在Agentic AI系统中,每个Agent类型(例如,规划者、检索者、总结者)可以根据其功能生成或使用结构化的提示词。
(8)因果建模与基于模拟的规划(Causal Modeling and Simulation-Based Planning):通过嵌入因果推断,AI Agents将能够区分相关性和因果关系,从而更稳健地进行干预模拟和规划。而在Agentic AI系统中,因果推理对于安全协调和错误恢复至关重要。
(9)监控、审计与可解释性管线(Monitoring, Auditing, and Explainability Pipelines):通过记录提示词、工具调用、内存更新和输出,日志系统可以对AI Agents进行事后分析和性能调整。这些记录有助于开发人员跟踪故障、优化行为,并确保符合使用指南。
在Agentic AI系统中,日志和可解释性同样至关重要。审计跟踪对于识别哪个Agent导致错误以及在什么条件下发生错误是十分关键的。
(10)治理感知架构(Governance-Aware Architectures):开发者可以为AI Agents引入基于角色的访问控制、沙箱和身份解析,以确保Agent在其范围内行动,并且其决策可以被审计或撤销。
在Agentic AI系统中,这一治理感知架构必须扩展到角色、Agent和工作流中,角色隔离可以防止AI Agents超出权限,而责任机制可以为决策分配责任并跟踪因果关系。

05.
结语:AI Agents与Agentic AI的未来:从被动响应到自主进化


研究团队认为,未来,AI Agents的发展将朝着更加自主化、智能化的方向演进。它们不再局限于被动响应,而是能基于上下文和目标主动推理,具备主动智能(Proactive Intelligence)。
通过深度集成外部工具(Tool Integration)和因果推理能力(Causal Reasoning),AI Agents可以更高效地处理复杂问题。持续学习(Continuous Learning)机制让它们能不断优化自身表现,而信任与安全(Trust & Safety)机制的完善则确保其输出可靠、无偏见。
与此同时,Agentic AI将推动多智能体扩展(Multi-Agent Scaling)和统一编排(Unified Orchestration),让多个AI Agents高效协作,解决更宏大的挑战。持久记忆(Persistent Memory)和模拟规划(Simulation Planning)让AI具备长期任务管理能力,而伦理治理(Ethical Governance)则确保其发展符合人类价值观。
文章还特别提到了清华大学、北京通用人工智能研究院与宾夕法尼亚州立大学提出的的AZR(绝对零数据推理)框架的突破。这一框架有望让AI摆脱对人类标注数据的依赖,通过自我生成任务和验证反馈实现完全自主进化。

(文:智东西)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往