2025年,科技领域暗流涌动,一个神秘而又充满潜力的发力点正悄然崛起——Agent!如今,基础模型的能力正以惊人的速度进化,而今年的AI Agent也毫无悬念地成为了热门话题的“宠儿”。更令人瞩目的是,众多最新的学术研究都紧紧围绕着Agent展开,这背后究竟隐藏着怎样的科技密码和发展机遇?
站在这个炙手可热的风口之上,仿佛只要轻轻搭个“顺风车”,就能在未来的科技赛道上抢占先机。但问题来了,到底什么是Agent呢?相信每个人心中都有自己的答案,却又似乎都不够全面和准确。
别着急,今天我们就来一场Agent知识的深度探索之旅,从它的组成架构,到各部分面临的棘手痛点,再到那些令人惊叹的应用场景,以及充满无限可能的未来发展,甚至连相关的开源框架都一一为你揭晓,让你彻底揭开Agent的神秘面纱!

在AI的发展历程中,我们最初接触到的AI模型,就像是一位严格遵循指令的“执行者”。我们向它输入明确的指令,模型便按照既定的步骤,亦步亦趋地执行任务,直至达成目标。这种模式下,AI模型的表现高度依赖于指令的清晰程度和完整性,一旦指令模糊或缺失关键信息,模型可能就会陷入困境,无法给出理想的结果。
然而,Agent的出现,宛如AI领域的一场变革,为我们带来了全新的认知。Agent与传统AI模型截然不同,它摆脱了对明确指令的依赖,而是基于目标展开一系列自主的思考、规划、执行与反思过程,最终实现既定目标。打个形象的比喻,Agent就如同一位经验丰富的智者,面对复杂问题时,它会先对问题进行深入剖析,梳理出清晰的思路,然后依据思路有条不紊地解答问题。
在这个过程中,它还会像人类一样,灵活运用各种工具,比如书籍、搜索引擎等,来获取所需的信息,助力问题的解决。待得出答案后,它还会对结果进行仔细核算,确保答案的准确性和可靠性。

再举个简单的例子,假设你正在计划一次旅行,你需要了解目的地天气、航班信息,并预订酒店。如果你单独使用 AI 模型,它只能根据已有的训练数据提供建议,可能无法给出实时准确的信息。

但如果这个 AI 模型配备了天气 API、航班查询工具和酒店预订系统,它就可以实时获取最新的天气情况、查询最佳航班,并直接帮你完成预订操作。这个AI 体系就可以理解为一个智能代理(Agent)。
大家都在提Agent,例如AutoAgent、Dify、Manus等,突然想到一个问题,那么什么才是Agent,有没有明确的定义呢?为此关于Agent的定义,网上搜索了一圈,说其最早“Agent”这个词可以追溯到古罗马时期,并且还能够从一些哲学家的哲学作品找到影子。
在人工智能领域应用方面,作者主要接触下面两种类型智能体(小工具智能体除外):
一种是基于小模型+规则的智能体,通过模型做意图分类、实体识别、情感分类等,然后人为添加流程控制和固定外调接口,让智能体在不同的流程节点,给出对应的答案,就比如当前大多数公司使用的智能客服,首层一般都是一个意图分类模型做菜单导航,每个业务都对应的业务流程节点,每个节点人为配置,通过实体识别、意图识别进入下一个节点,最终实现业务办理或者介绍。尽管每家都说智能客服准确率怎么样,解决了多少问题,节约了多少人力,但对于实际用户来说,还是人工方便。
一种是基于大模型+规则智能体,由于大模型(LLM)具备逻辑推理、任务规划、工具调用等相关能力,相当于融合了小模型的实体识别、意图分类、人为流程编排、接口外调等功能。为此,目前主流的AI Agent以大模型为核心,Agent能够自主感知、规划、执行和反馈,从而完成复杂任务,比如最近的Manus就引起了大家的注意。相比 传统的AI 仅限于被动响应,Agent更强调自主决策和任务执行能力。(未来发展方向基本都会依赖大模型能力吧~)
然而,不管Agent最早出自哪里,你是怎么理解Agent。我们参考一下去年Google发布了一篇Agent的白皮书,给出了Agent的定义:Agent 是一个能够自主决策并采取行动的软件系统,它能够观察环境、使用工具,并以目标为导向执行任务。
Agent 由多个组件协同工作,以实现高效决策和任务执行。看到很多文章都提到说:大模型Agent由规划、记忆、工具与行动四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。但实际上现在的大模型Agent最主要几个关键部分为:base大模型的动态推理规划、工具模块、记忆模块。

Agent中的工具(Tools),主要用于扩展 Agent 访问外部世界的能力,例如 API、数据库等,使其能够执行检索、计算、数据存储等操作,注意:在多Agent情况下,其它Agent也可以理解为工具。它是现代AI发展的关键方向,它显著扩展了模型的能力边界,使AI能够执行原本无法完成的操作,如网络搜索、复杂计算和API调用等。
1)传统方式写好API代码接口,让模型解析出代码接口所需要的参数,然后调用接口拿到结果。比如:写了一个机票查询的接口。用户说:我要买一张北京到上海的机票,让模型提取文中上海、北京两个地址,才能调用接口拿到结果。但是如果直接说:我要买一张到上海的机票,这个时候API接口就无法调用,可见这种方法维护性和扩展性都很差。
2)大模型function call,当前大模型基本上都具备了外调function的能力。大模型识别用户意图后,从预定义的函数列表中自动选择合适的函数,生成结构化的JSON格式参数,然后系统执行实际的函数调用。这允许模型以标准化方式与外部API和服务交互,是目前商业API中最常见的工具使用形式。下图是一个工具应用流程。

3)工具增强型提示,在提示词中直接描述可用工具及其使用方法,让模型生成调用工具的指令。这种方法简单直接,但对提示工程要求较高。
4)工具库将大模型可能用到的工具存储起来,当面对不同的问题的时候,去工具箱中检索,并选择合适的工具。其实RAG技术,只是向量数据库中存储的工具API的详细介绍。如下图所示:

5)模型微调通过特定的训练或微调,教会模型如何使用特定工具。这种方法将工具使用能力直接编入模型参数,使模型在特定工具上表现更佳。

记忆模块主要负责存储和管理信息,从而实现更精准、更个性化的响应。具体来说:它不仅维护即时对话上下文,更承担着知识持久化、经验累积与信息检索的关键功能。在复杂任务处理过程中,记忆模块可以让Agent能够处理超出上下文窗口的长期依赖问题,同时记录工具调用历史与结果,避免重复操作并支持结果整合。
2025年,提出了解耦知识推理三个关键方向,助力构建一个结合训练有素的检索系统和大型外部记忆库的推理系统,以克服现有架构在学习新场景推理时的局限。

2024年,记忆力压缩方面,斯坦福设计了一个名为HippoRAG的新型检索增强模型。装备了这一”类脑”记忆系统的大模型在多种需要知识整合的任务中展现出了惊人的性能提升。HippoRAG的诞生,为大模型赋予”类脑”的知识整合和长期记忆能力开辟了一条全新的路径。

下面介绍一些Agent常用的开源框架。
LangChain
•网址: https://www.langchain.com
•GitHub: https://github.com/langchain-ai/langchain
•功能: 构建基于LLM的应用程序,提供链式调用、工具整合和代理功能
AutoGen
•网址: https://microsoft.github.io/autogen
•GitHub: https://github.com/microsoft/autogen
•功能: 多代理对话框架,支持代理间协作
LlamaIndex
•网址: https://www.llamaindex.ai
•GitHub: https://github.com/jerryjliu/llama_index
•功能: 数据连接和检索增强框架
CrewAI
•网址: https://www.crewai.io
•GitHub: https://github.com/joaomdmoura/crewai
•功能: 协作代理框架,专注于角色分配和工作流
XAgent
•GitHub: https://github.com/OpenBMB/XAgent
•网址: https://x-agent.net
•功能: 自主智能体框架,强调规划和执行
LangGraph
•网址: https://python.langchain.com/docs/langgraph
•GitHub: https://github.com/langchain-ai/langgraph
•功能: 基于状态机的代理编排框架
CAMEL
•GitHub: https://github.com/camel-ai/camel
•功能: 基于角色的代理通信框架
DSPy
•网址: https://dspy.ai
•GitHub: https://github.com/stanfordnlp/dspy
•功能: 以编程方式优化LLM提示和链接
Haystack
•Cold网址: https://haystack.deepset.ai
•GitHub: https://github.com/deepset-ai/haystack
•功能: 模块化NLP框架,专注于问答系统和搜索
Agentverse
•GitHub: https://github.com/OpenBMB/AgentVerse
•功能: 多代理模拟环境,支持复杂交互
未来,Agent发展:潜力无限,前景可期。
1)模型能力持续进化
通过参数规模扩大与架构优化,大模型将突破语言理解、逻辑推理等能力边界。例如,在任务规划、工具使用等方面,效率能力更高;在模型思考推理速度等方面模型响应将更快。难点:千亿级参数模型的分布式推理优化,降低模型所需硬件功耗。
2)多模态融合成为标配
未来的Agent将整合文本、图像、语音等多模态输入输出能力,例如医疗Agent可同时分析CT影像(视觉)和病历文本(语言),生成综合诊断报告。
3)协作生态体系形成
多Agent系统将建立分工协作机制,通过博弈论框架实现动态任务分配。例如在物流调度场景中,路径规划Agent、库存管理Agent等可基于强化学习算法形成协同决策。难点:多Agent协作时的通信容错与冲突消解。
4)知识增强与成本优化
采用RAG(检索增强生成)技术,无需重新训练即可更新知识库。例如金融Agent通过实时接入市场数据源,快速响应政策变化。这就需要了解模型对本身知识和外挂知识整合能力,有研究显示:如果给模型的知识与本身的知识差距不大,模型会更倾向于自己的知识;同时模型更倾向于模型生成的数据知识。
5)伦理安全更加规范
随着应用普及,需解决数据隐私、算法偏见等问题。可以通过联邦学习实现数据隐私保护,目前了解到有一种方案是将模型分块,模型主体放在远程,降低本地资源要求。在客户端和模型服务端,进行加解密转换。
(文:AI技术研习社)