AI系统正逐步获得在现实世界中独立行动的能力。过去一年,我们在推理、计算机控制和记忆系统方面取得了重大进展,这些技术推动了这一转变。本文分析了这些发展的技术基础、不同领域中AI Agent的现状,以及确保其可靠性所需的基础设施。我们将探讨推动这一变革的技术进步,以及尚待解决的挑战。
第一部分:巨大的转变——从模型到 Agent
2024年,我们见证了AI Agent关键能力的崛起。OpenAI的o1和o3模型表明,机器可以分解复杂任务。Claude 3.5展示了其像人类一样使用计算机的能力——控制界面并运行软件。这些进展,再加上记忆和学习系统的改进,使AI正从简单的聊天界面迈向自主系统。
AI Agent已经在例如法律分析、科学研究和技术支持这些特定领域中发挥作用。在具有明确规则的结构化环境中,它们表现出色,但在不可预测的情境和开放性问题上仍然面临挑战。当任务涉及异常处理或适应变化条件时,其成功率会显著下降。
该领域正从对话式AI向能够独立推理和行动的系统演进。每一步都需要更强的计算能力,并带来新的技术挑战。本文将探讨AI Agent的工作原理、当前能力以及保障其可靠运行所需的基础设施。
什么是AI Agent?
AI Agent是一个能够推理问题、制定计划并使用工具执行任务的系统。与传统仅响应提示的AI模型不同,AI Agent具备以下特性:
-
自主性:能够独立追求目标并做出决策
-
工具使用:可直接与软件、API和外部系统交互
-
记忆:保持上下文并从过去的经验中学习
-
规划:将复杂任务分解为可执行的步骤
-
适应性:通过经验学习,提高决策能力和执行效率
理解AI从被动响应者到自主Agent的演进,对于把握未来的机遇与挑战至关重要。接下来,我们将探讨促成这一变革的关键技术进展。
基础:2024年的突破
2024年,三项关键技术进步为自主AI Agent的崛起奠定了基础:
-
首先,OpenAI的o系列模型在推理能力上取得突破。o3在ARC-AGI基准测试中达到了87%的准确率,该测试评估AI解决类人问题的能力。这些模型通过生成多个并行解决方案,并利用共识机制选择最可靠的答案,从而实现这一成就。这种通过多种推理路径系统性地解决新问题的能力,为AI Agent的自主行动奠定了基础。
-
其次,AI模型获得了视觉能力和基础的计算机控制能力。主流模型开始普遍具备视觉能力,使其能够处理屏幕截图并理解软件界面。Claude 3.5展示了控制计算机的能力——它可以移动光标、点击界面元素并执行简单指令。尽管仍低于人类水平且仅限于基础操作,但这些进展表明AI系统可以与标准软件界面交互,从而扩展其应用范围。
-
第三,模型架构的进步彻底改变了AI系统处理记忆和上下文的方式。新的方法突破了传统的注意力机制,引入了更复杂的记忆管理——结合扩展的上下文窗口、显式工作记忆以及高效的知识缓存。这一演进使得AI Agent能够在更长时间、更复杂的交互中保持连贯的理解能力。
现状:AI Agent正在崛起
如今,这些能力正在带来实际成果。我们正见证AI Agent在特定领域扩展人类能力的崛起。早期应用已初见成效:
-
Harvey正在构建法律AI Agent,可与律师协作完成复杂任务,如S-1文件编制。它利用o1的高级推理能力来拆解并规划多阶段的法律工作。
-
OpenHands等开发平台允许AI Agent编写代码、与命令行交互,并像人类开发者一样浏览网页。
-
研究团队正在使用多Agent系统进行科学实验的设计与验证,特定的Agent负责假设生成、实验设计和结果分析。
-
医疗团队部署AI Agent作为医疗记录助手,从医生与患者的对话中自动生成临床笔记。
-
航空公司使用AI Agent处理复杂的机票变更,协调航班可用性、票价规则和退款政策。
-
采购团队采用AI Agent进行供应商协议谈判。
近期研究表明,这些系统正在迅速成熟。AI Agent已经能够在自然对话中同时处理复杂的业务规则和多个后台系统——这标志着AI从实验性原型向实际部署的转变。
关键问题
在这场变革中,三个核心问题浮现:
- 自主AI Agent何时能够超越传统的AI工具?
- 实现AI Agent成功部署所需的技术和组织基础设施是什么?
- 如何确保AI Agent的运行可靠、安全且具备成本效益?
接下来的内容将深入探讨:
-
现有AI Agent的能力范围 -
不同行业中AI Agent带来的实际变革 -
成功部署AI Agent所需的技术基础设施 -
现存的局限性与挑战 -
未来发展方向
理解这些方面至关重要,因为AI Agent技术正在改变我们解决复杂任务和做出决策的方式。接下来,我们将探讨支撑这些能力的核心构建模块。
第二部分:理解Agent频谱
当前的AI Agent在能力和自主程度上存在差异。一些任务仅需要基础的工具使用和响应生成,而另一些则需要复杂的推理和自主决策。理解这些能力层级有助于判断何时应使用更简单、可预测的系统,何时需要完全自主的Agent。
构建模块
三大核心能力使AI Agent区别于更简单的AI工具:
-
推理与规划
-
将复杂任务拆解为多个步骤 -
系统性地探索多种解决方案 -
根据结果调整策略 -
从成功和失败中学习
-
工具使用
-
直接与软件界面交互 -
调用API和函数 -
生成并执行代码 -
进行网页浏览和数据访问
-
记忆与学习
-
在多轮交互中保持上下文 -
构建可复用的技能 -
从过去的经验中学习 -
随时间推移提升性能
Agent能力频谱
从简单的AI工具到完全自主的Agent,其发展遵循一个逐步增加复杂性和能力的频谱:
1. 单工具系统
-
依赖单个语言模型进行基础工具使用 -
交互简单且明确 -
受限于特定的API或函数 -
示例:基于搜索的聊天应用
2. 多工具编排
-
在单个模型内集成多个工具 -
结构化API交互 -
预定义工作流和模式 -
示例:带插件的ChatGPT
3. 组合系统
-
多个模型协同工作 -
迭代式处理,支持循环执行 -
更复杂的编排逻辑 -
示例:多Agent协作开发系统
4. 通用访问Agent
-
直接访问系统(屏幕、键盘、CLI) -
超越结构化API的限制 -
可处理开放式任务 -
示例:计算机控制Agent
并非所有问题都需要最高级别的Agent。像工具使用模型或编排系统这样的简单方案通常更合适且成本更低。
上下文与控制的作用
在增强Agent自主性的同时,保持能力与控制的平衡至关重要,需考虑以下因素:
-
安全与治理
-
访问控制与权限管理 -
活动监控与日志记录 -
资源使用限制 -
安全约束
-
可靠性与可信度
-
行为验证机制 -
决策透明度 -
错误处理与恢复 -
性能监控
-
成本与资源管理
-
计算资源优化 -
API调用效率 -
存储与内存管理
在这一能力频谱中,理解自身需求至关重要。并非所有任务都需要完全自主的Agent,有时一个简单的工具使用系统更合适且成本更优。
第三部分:现实世界的变革
AI Agent的真正潜力在于其实际应用。让我们看看不同行业如何利用Agent能力来解决现实问题。
软件开发
从简单的代码补全到自主开发的演进,展示了AI Agent不断扩展的能力。GitHub Copilot在2021年推出实时代码建议,而如今的Agent(如Devin)已经能够处理从环境搭建到部署的端到端开发任务。
MetaGPT(一种多Agent协作框架)展示了专业化Agent如何高效协作:
-
产品经理:负责定义需求
-
架构师:设计系统结构
-
开发者:实现解决方案
-
QA Agent:进行结果验证
AI Agent虽然没有人类的局限性,但这也引发了一个根本性问题:过去50-60年来,软件开发活动一直围绕人类能力设计,而如今AI正在改变这一模式。尽管它们在原型开发和自动化测试等任务上表现出色,但真正的机遇在于重新定义软件开发本身,而不仅仅是加速现有流程。
这种变革已经影响到招聘趋势。Salesforce宣布2025年将不再招聘软件工程师,因为AI Agent技术已提升了30%的生产力。Meta CEO马克·扎克伯格预计,到2025年,AI将具备中级软件工程师的能力,能够生成生产级代码用于应用和AI系统。
然而,近期对Devin的现实测试揭示了开发Agent的局限性:
-
优势:在API集成等孤立任务上表现优异
-
劣势:在复杂开发工作中仍然存在困难,20个端到端任务中仅成功完成3个
-
替代方案:更简单的、由开发者驱动的工具(如Cursor)可以避免许多自主Agent遇到的问题
客户服务
从简单的聊天机器人到复杂的服务Agent的演进,标志着AI Agent在部署上的显著成功。研究表明,现代Agent可以处理过去需要多个人工客服才能完成的复杂任务——从航班改签到多步骤退款——同时还能保持自然的对话交互。
这些系统的核心能力包括:
-
协调多个后台系统(如预订、支付、库存管理)
-
在复杂的多轮对话中保持上下文
-
遵循业务规则,并在记录过程中确保合规
-
处理常规案例,平均加快40%至60%的解决速度
然而,政策例外和需要同理心的情况仍然是重大挑战。一些实施方案通过限制Agent访问已批准的知识库并设定明确的人工升级路径来解决这些问题。实践表明,这种混合模式(Agent处理常规事务,复杂情况交由人工客服)在实际生产环境中最为高效。
销售与市场营销
销售和市场营销Agent现在处理结构化的工作流程,如潜在客户资格审核、会议安排和营销活动分析。这些系统在CRM平台和通信渠道之间协调,同时遵循可配置的业务规则。例如,Salesforce的Agentforce可以处理客户互动,保持对话上下文,并在需要时将复杂案例转交给人工客服。
最近的基准测试显示,Agent在以下两个领域取得了可衡量的成果:
-
销售发展
-
自主的潜在客户资格审核和外展——例如,11x的Alice Agent可以识别潜在客户并安排会议,同时根据互动进行调整。 -
多模态通信处理——例如,11x的Mike Agent可以处理28种语言的语音和文本互动。 -
与CRM平台和业务工具的系统编排,按照可配置的参数操作,确保合规性。 -
营销操作
-
内容生成和优化。 -
性能跟踪。 -
数据分析和报告。
这些系统的关键能力包括:
-
理解并回应跨渠道的复杂客户查询 -
协调多个业务系统和数据源 -
在长期互动中保持对话上下文 -
在需要时将问题升级给人工Agent -
在可配置的参数范围内操作,以与业务目标和合规标准对齐
这些解决方案的集成和采用面临一些挑战:
-
在自动化与人际关系建设之间找到平衡 -
随着规模扩大,确保质量的一致性 -
在自动化互动中保持个性化
销售和营销的成功需要一种平衡的方法,其中Agent处理常规互动和数据驱动任务,而人工团队则专注于关系建设和复杂决策。
法律服务
法律Agent现在在严格的监管框架内处理复杂的文档。Harvey的系统能够将像S-1申报表这样的多月项目分解为结构化步骤,协调多个利益相关方,并在不同司法管辖区内保持合规性。然而,这些系统仍然需要谨慎的人类监督,特别是对于需要主观判断或依赖上下文的推理任务。
关键特点:
-
处理和分析成千上万的法律文档,同时保持文档的一致性。 -
将像S-1申报表这样复杂的任务分解为结构化的工作流程,并设定清晰的检查点。 -
跟踪不同司法管辖区的监管要求。 -
保留所有修改和推理的详细审计追踪。
验证和责任问题仍然是部署中的重大障碍。所有Agent输出都需要人工审查,且AI辅助的法律工作中的责任问题尚未解决。虽然Agent在文档处理和研究方面表现出色,但战略性的法律决策仍然掌握在人工手中。
法律AI Agent的未来可能在于人类律师和AI系统之间的增强协作,Agent负责常规的文档处理和分析,而律师则专注于战略、谈判和最终的验证。
金融
金融服务已成为Agent技术的早期试验场,应用范围从市场分析到自动化交易不等。
主要应用场景:
-
市场分析与研究
-
分析公司报告、新闻和市场数据——例如,Decagon通过详细的市场趋势分析帮助分析师评估投资机会。 -
基于多模态数据分析生成投资洞察和建议。 -
处理多种数据源,包括市场数据、证券交易委员会(SEC)文件和新闻。 -
交易与投资
-
基于定义的策略执行交易。 -
管理投资组合。 -
最近的基准测试显示,专有模型已达到95%的买入持有收益,而开源替代方案则达到了80%。 -
风险管理
-
监控投资组合风险指标。 -
生成合规报告。 -
在人工监督下保持性能一致性。
当前的局限性包括:
-
单一资产聚焦(大多数系统在复杂的投资组合管理中表现不佳)。 -
市场条件下的可靠性变化。 -
长期策略维持的挑战。 -
实时处理和全球市场适应性的问题。
早期的结果是有希望的,但金融应用需要仔细的风险管理和合规性。大多数组织从在人工监督下聚焦于单一资产交易的狭窄应用场景开始,然后逐步过渡到复杂的投资组合管理。
科学研究
科学研究中的AI Agent能够加速发现,同时保持严格的方法论。最近的论文展示了专业Agent如何在整个研究生命周期中协作:
-
文献Agent分析成千上万篇论文,识别模式和空白。
-
假设Agent根据现有知识提出可测试的理论。
-
实验Agent设计实验方案并预测结果。
-
分析Agent解释结果并提出改进建议。
这种多Agent方法在化学领域取得了有希望的成果,Agent帮助识别了新的催化剂和反应路径。随着谷歌最近宣布的Gemini Deep Research,它汇总并分析基于网络的研究,我们可以看到这些能力不仅限于专业领域,还能支持更广泛的研究任务。
主要的挑战包括验证、可重复性和自动化质量评估——Agent的输出在专家评审中评分低于人工工作。虽然Agent能够通过处理常规任务加速发现,但人类科学家在创意指导和结果验证方面依然是不可或缺的。成功的关键在于将Agent能力与现有的研究方法论进行有效集成,同时保持科学的严谨性。
新兴模式
尽管Agent的应用因行业而异,但有三个共同的主题出现:
-
改进的记忆
-
在更长时间的互动中保持更丰富的上下文。 -
保留相关信息以改善决策。 -
复杂的规划
-
将任务分解为可执行的逻辑步骤。 -
协调多步骤的工作流程或业务流程。 -
直接工具集成
-
与外部API和软件环境进行互动。 -
处理专业任务(如代码生成、数据分析等)。
虽然AI Agent的潜力巨大,但大多数行业仍处于实验性采用阶段。组织通常从建立的方式开始,如检索增强生成(RAG),然后过渡到更高级的Agent实现。
一个关键挑战是识别出Agent在传统的AI方法上能提供可衡量优势的场景。虽然Agent提供了扩展的能力,但它们也通过所需的安全控制、集成和基础设施开销引入了复杂性。
一些任务需要更简单的工具,而其他任务则从多步骤规划、先进的记忆或专业协作中受益。有效的实施要求评估何时Agent能力值得其在开发努力和运营开销方面的复杂性。
第四部分:引擎舱
之前讨论的基础构建模块——规划、工具使用和记忆——在生产环境中高效运行需要复杂的基础设施。尽管技术在不断发展,但一些关键组件已经成为成功部署Agent的必要条件。
开发框架与架构
Agent开发框架生态系统已经成熟,出现了几家关键玩家:
-
微软的AutoGen擅长灵活的工具集成和多Agent编排。 -
CrewAI专注于基于角色的协作和团队模拟。 -
LangGraph提供强大的工作流定义和状态管理。 -
Llamaindex提供先进的知识集成和检索模式。
虽然这些框架各有不同,但成功的Agent通常需要三个核心架构组件:
-
记忆系统:能够保持上下文并从过去的互动中学习。
-
规划系统:将复杂任务分解为逻辑步骤,同时验证每个阶段。
-
工具集成:通过函数调用和API接口访问专业功能。
尽管这些框架提供了坚实的基础,但生产环境中的部署通常需要进行大量定制,以处理高规模工作负载、安全需求和与现有系统的集成。
规划 & 执行
处理复杂任务需要先进的规划能力,通常包括:
-
计划生成:将任务分解为可管理的步骤。
-
计划验证:在执行前评估计划,以避免浪费计算资源。
-
执行监控:跟踪进度并处理失败情况。
-
反思:评估结果并调整策略。
Agent的成功通常依赖于其以下能力:
-
通过结合工具与实际知识(例如,知道在客户退款请求中按顺序调用哪些API)生成有效的计划。 -
分解并验证复杂任务,在每个步骤进行错误处理,以防止错误积累。 -
在长时间运行的操作中管理计算成本。 -
通过动态重新规划和适应,优雅地从错误和意外情况中恢复。 -
应用不同的验证策略,从结构验证到运行时测试。 -
当其他视角能够提高准确性时,通过工具调用或共识机制与其他Agent协作。
使用多个Agent进行共识可以提高准确性,但计算成本相当高。即使是OpenAI,在为共识答案运行并行模型实例时,也仍然无法盈利,即使在高价位(例如ChatGPT Pro每月$200)的情况下,复杂任务的多数投票系统将成本增加3到5倍,因此,专注于强大的单一Agent规划和验证的简化架构可能在经济上更具可行性。
记忆 & 检索
AI Agent需要复杂的记忆管理来保持上下文并从经验中学习。这涉及多个互补的系统:
上下文窗口
底层语言模型的即时处理能力——这是“物理记忆”,限制了Agent一次能处理的信息量。最近的进展将这些限制扩展到了超过100万个token,从而使单次交互能够支持更丰富的上下文。
工作记忆
在任务过程中,多个LLM调用之间保持的状态:
-
活动目标:跟踪当前目标和子任务
-
中间结果:计算和部分输出
-
任务状态:进度跟踪和状态管理
-
状态验证:在任务执行过程中跟踪已验证的事实和修正
上下文管理能力:
-
上下文优化:通过优先级和组织有效使用有限的上下文空间
-
记忆管理:自动将信息在工作记忆和长期存储之间移动——从预加载整个知识库到维护动态记忆单元以存储相关信息
长期记忆与知识管理
存储系统:
-
知识图谱:像Zep和Neo4j这样的工具能有效表示实体和关系
-
虚拟记忆:像Letta(由MemGPT提供支持)这样的系统提供工作记忆和外部存储之间的分页
管理能力:
-
记忆维护:随着时间推移,自动总结、修剪并整合新信息
-
记忆操作:高效地搜索和检索相关信息
现代记忆系统不仅仅是简单的存储,还能实现:
-
复合任务处理:管理多步操作,确保在每个步骤中保持准确性
-
持续学习:通过持续交互自动构建知识图谱(例如Zep)
-
记忆管理:通过自动化记忆管理提供虚拟“无限上下文”(例如Letta/MemGPT)
-
减少错误:提高信息检索能力,减少幻觉并保持一致性
-
成本优化:有效利用上下文窗口,减少API调用和延迟
记忆系统对Agent至关重要,因为:
-
任务通常需要多个步骤,依赖于先前的结果 -
信息需求通常超过模型的上下文窗口 -
长时间运行的操作需要持久的状态管理 -
在复杂工作流中必须保持准确性
像Anthropic的Model Context Protocol (MCP)这样的集成标准正在提供将Agent与持久记忆系统连接的标准化方法。然而,如何高效地协调这些记忆类型,管理计算成本并保持一致性仍然是挑战。
安全与执行
随着Agent逐渐获得自主性,安全性和可审计性变得至关重要。现代部署需要多个保护层:
-
工具访问控制:谨慎管理Agent能执行哪些操作。
-
执行验证:在执行前验证生成的计划。
-
沙箱执行:像e2b.dev和CodeSandbox这样的平台提供了安全的隔离环境,用于运行不受信任的AI生成代码。
-
访问控制:细粒度的权限和API治理,限制影响。
-
监控与可观察性:通过专用平台(如LangSmith和AgentOps)进行全面的日志记录和性能跟踪,包括错误检测和资源使用。
-
审计日志:详细记录决策过程和系统交互。
这些安全措施必须在保护与允许Agent在生产环境中有效操作之间取得平衡。
实际限制
尽管有了快速进展,但仍然存在几个重要的挑战:
1. 工具调用
-
基本工具调用:尽管模型在规划和推理方面表现出色,但它们在基本工具交互方面存在困难。即使是简单的API调用也常因格式错误和参数不匹配而失败。
-
工具选择:模型经常选择错误的工具,或者在面对大量工具时未能有效地组合多个工具。
-
工具接口稳定性:自然语言接口对工具仍然不可靠,模型会出现格式错误或行为不一致。
2. 多步骤执行
-
工具调用不稳定性:尽管模型在规划和推理方面表现出色,但它们在通过工具调用可靠地执行计划方面存在困难。即使是简单的API交互也因格式错误、参数不匹配和上下文误解而出现较高的失败率。
-
复合错误积累:多步骤任务会加剧这种不可靠性——如果每个工具调用的成功率为90%,一个10步的工作流成功率降至35%。这使得复杂工作流在没有大量人工监督的情况下变得不可行。
-
上下文管理:模型难以在多个工具交互中保持一致的理解,导致在较长序列中的性能下降。
-
规划可靠性:复杂的工作流需要仔细验证生成的计划,因为Agent往往忽略关键依赖关系或对工具能力做出错误假设。
3. 技术基础设施
-
系统集成:缺乏标准化的接口迫使团队为每个部署构建定制的集成层,导致显著的开发开销。
-
记忆架构:尽管有向量存储和检索系统,但有限的上下文窗口限制了历史信息访问和自我反思能力。
-
计算需求:大规模部署需要大量处理能力和内存,导致显著的基础设施成本。
4. 交互挑战
-
计算机接口复杂性:即使是最好的Agent,在简单的项目管理工具中也只能达到约40%的成功率,使用像办公软件套件和文档编辑器等复杂软件时,性能显著下降。
-
协作沟通:Agent在通过协作平台与同事互动时仅能取得21.5%的成功率,在细致的对话和政策讨论中存在困难。
5. 访问控制
-
身份验证与授权:Agent在代表用户执行长时间运行或异步任务时面临重大的身份验证挑战。传统的身份验证流程并不适合需要跨越数小时或数天访问的自主Agent。
解决方案正在出现——例如Okta为GenAI提供的认证解决方案,包括:
-
背景任务的异步认证 -
代表用户的安全API访问 -
细粒度的数据访问授权 -
基于推送通知的人类审批工作流
-
错误恢复:Agent在面对意外错误时难以动态调整计划,使其在从错误中学习方面不如人类强大。 -
跨领域性能变异:Agent在不同任务中的可靠性表现不稳定,即使在明确定义的领域内也是如此。例如,零售中功能调用Agent可以在个别任务上成功完成多达50%的任务,但对于类似任务的变化,其成功率会降至25%以下。这种不一致在不同领域之间表现出来,尤其是在需要技术领域专业知识的任务中,如编码。
当前Agent的能力在不同领域有所差异。在软件开发领域,目标和验证明确,Agent能够自主完成30.4%的复杂任务。这与Graham Neubig在NeurIPS 2024中的评论一致:“我希望Agent解决的30%到40%的问题,它能在我的代码库中自动解决,无需人工干预”。然而,在需要更广泛上下文的领域,表现却不尽如人意,Agent在行政工作中几乎无法完成(0%),在财务分析中也存在困难(8.3%)。这种模式表明,
Agent在有明确验证标准的任务上表现更好,而在需要广泛业务背景或政策解读的工作中会遇到困难。
最近的进展表明,Agent能力正在趋于融合:更丰富的上下文保留的记忆架构、通过较长推理链进行深度理解的推理改进(例如o系列模型)以及分解复杂任务并在步骤之间保持状态的规划系统。这些发展表明,增强的上下文理解可能来自这些技术能力的互动,而不是需要在模型架构上取得突破。挑战在于如何协调这些组件,同时管理增加的计算需求。
第五部分:路在前方
凭借足够的计算能力,下一token预测可能足以实现AGI(通用人工智能)。
近期演变(2025年)
OpenAI CEO Sam Altman表示:“我们现在有信心知道如何构建我们传统理解中的AGI(通用人工智能)”。然而,前进的道路在很大程度上依赖于计算密集型的推理——正如Brown所指出的,解决最困难的问题可能需要“每个解决方案价值百万美元”的计算资源。这表明,尽管我们可能知道如何通过测试时计算扩展智能,但部署的经济学将决定我们能够解决哪些问题。
快速进展没有放缓的迹象。虽然先进的推理能力仍然需要大量的计算,但当前的部署已经具有变革性——Salesforce报告称,AI Agent带来了30%的生产力提升,从而导致2025年暂停工程师招聘。这与行业预测一致——Meta的Zuckerberg预计到2025年,“Meta和其他公司……将拥有一种可以有效地充当中级工程师的AI”。这些影响表明,AGI类似的能力可能首先出现在具有明确成功标准和丰富合成数据的领域,如编程和数学推理。
核心智能
-
推理模型的开发周期压缩(2-4个月) -
数学和编码基准的跨越式进展 -
通过系统化的任务分解、行动路径探索和结果验证提高推理能力
接口与控制
-
人机协作的新模式 -
通过模型上下文协议(Model Context Protocol)实现标准化的数据访问 -
从格式化命令(文本/JSON)转向程序化工具使用 -
改进的视觉感知能力
记忆与上下文
-
新模型具有超大上下文窗口 -
通过较小的模型和重复采样实现成本效益推理 -
使用模型蒸馏和数据策划降低推理成本
基础设施与扩展
-
缺乏足够的计算资源来大规模部署Agent -
电网中的芯片和电力不足以建立更多的计算资源
中期发展(2026年)
核心智能
-
多步规划与验证 -
更好地处理不确定情况和边缘案例 -
推理模型的瓶颈
接口与控制
-
通过系统化的UI探索实现更可靠的计算机控制 -
Agent原生的安全性和权限框架
-
通过代码生成实现动态工具创建 -
多Agent系统在大规模上实现高效协作
记忆与上下文
-
在交互环境中更可靠的状态追踪[记忆调查论文]
虽然当前的Agent在基本的UI交互中表现不佳——在简单的项目管理工具上仅能实现约40%的成功率——但新的学习方法显示出前景。通过允许Agent探索界面并通过“逆任务合成”推导任务,复杂的GUI交互成功率几乎翻倍。这表明,到2026年,我们可能会看到能够通过直接理解界面而非跟随人类指令可靠控制计算机的Agent。
长期可能性(2026年以后)
核心智能
-
新类型的模型出现,能够实现更复杂的世界建模 -
跨领域推理能力 -
科学发现自动化 -
在新领域中的复杂问题解决
接口与控制
-
转向代码优先的Agent范式
基础设施与扩展
-
计算集群和电力基础设施的扩展
AI能力的进展及其经济影响正变得愈加清晰。ChatGPT Plus以每月20美元的价格推出了基础聊天功能,而ChatGPT Pro则以每月200美元的价格提供了更高级的推理能力。OpenAI近期在多Agent研究方面的推动以及Altman对“如何构建AGI”充满信心的表态,暗示着自主Agent可能是下一个发展方向——这一过程可能会带来更高的成本。正如Brown所指出的,我们才刚开始扩展推理能力,一些重要问题可能需要“价值百万美元”的计算资源才能解决。这预示着未来,越来越强大的系统——从自主Agent到创造性问题解决者——可能会以更高的计算成本涌现。
我们现在已经具备了构建AI Agent的核心要素,这些要素模仿了人类如何处理复杂工作的方式:将问题分解为更小的任务、理解上下文、从经验中学习、使用工具并适应反馈。尽管这些能力在受控环境中表现良好,但在面对现实任务的复杂性和不确定性时,它们仍然存在挑战。
接下来的几年将是实验的阶段——发现如何有效地结合这些组件、寻找可靠的模式并确立构建强大Agent的最佳实践。尽管我们已经拥有了核心能力,但要将它们协调成能够应对现实世界复杂性的可靠系统,还需要技术创新和实践经验。AI Agent的时代已经开始,但我们仍处于理解如何有效构建它们的初期阶段。
https://medium.com/@carlrannaberg/state-of-ai-agents-in-2025-5f11444a5c78

(文:PyTorch研习社)