全面拥抱Agent,63%中型企业已上车~

总结2024,迎接2025!Langchain发布了2024 AI Agents状态报告。

介绍 

在2024年,AI agents不再是小众兴趣。各行各业的公司越来越认真地考虑将智能体融入他们的工作流程——从自动化日常任务到协助数据分析或编写代码。
但在幕后真正发生了什么?智能体是否达到了它们的潜力,还是只是另一个流行词?谁在使用它们,是什么阻止其他人全力以赴地投入?
我们调查了超过1300名专业人士,以了解2024年 AI Agents的现状。让我们深入研究以下数据。

洞察 

首先,Agent到底是什么?

在LangChain,我们定义智能体为使用大型语言模型(LLM)来决定应用程序控制流的系统。就像自动驾驶汽车的自主级别一样,智能体能力也有一个范围。
https://blog.langchain.dev/what-is-an-agent/

Agent落地:分化明显——普遍都有计划

智能体竞赛正在升温。在过去的一年里,许多智能体框架获得了巨大的流行——无论是使用ReAct结合LLM推理和行动,多智能体协调器,还是更可控的框架如LangGraph。
并非所有关于智能体的讨论都是Twitter上的炒作。
  • 大约51%的受访者目前正在生产中使用智能体。
  • 当我们按公司规模查看数据时,中型公司(100 – 2000名员工)在将智能体投入生产方面最为积极(占63%)
  • 令人鼓舞的是,78%有积极计划很快将智能体投入生产。尽管对AI智能体的兴趣很强,但实际的生产部署对许多人来说仍然是一个障碍。

我们还看到公司正在超越简单的基于聊天的实现,转向更强调多智能体协作和更自主能力的高级框架。
虽然技术行业通常被认为是早期采用者,但对智能体的兴趣正在所有行业中获得关注。在非技术公司的受访者中,有90%拥有或计划将智能体投入生产(几乎等同于技术公司,为89%)。

Agent核心应用场景

人们使用智能体做什么?智能体处理日常任务,同时也为知识工作开辟了新的可能性。
智能体的顶级用例包括**进行研究和总结(58%)**,其次是为**个人生产力或协助(53.5%)**的任务流程化。
这些表明人们希望有人(或某物)为他们处理耗时的任务。用户可以依靠AI智能体从大量信息中提炼关键见解,而不必自己筛选无尽的数据进行文献综述或研究分析。同样,AI智能体通过协助日常任务如安排和组织,提高个人生产力,让用户专注于重要事项。
效率提升不仅限于个人。客户服务(45.8%)是另一个主要的智能体用例领域,帮助公司处理查询、故障排除,并加快客户响应时间。

你认为智能体最适合执行哪些任务?

安全第一:追踪和人类监督是必要的

能力越大,责任越大——或者至少需要一些刹车和控制来管理你的智能体。**追踪和可观测性工具**排在必备控制列表的首位,帮助开发人员了解智能体行为和性能。大多数公司还采用护栏以防止智能体偏离轨道。
你为智能体设置了哪些控制?
在测试LLM应用程序时,**离线评估(39.8%)**比在线评估(32.5%)更常被提及。这可能说明了实时监控的困难。在手写回复中,许多公司也有人类专家手动检查或评估回复,增加了一层预防措施。
尽管人们对智能体的热情很高,但在允许智能体自由行动的程度上,大多数人采取了更保守的方法。很少有受访者允许他们的智能体自由地读取、写入和删除。相反,大多数团队允许**只读工具权限**或**需要人类批准**更重大的行动,如写入或删除。
你的智能体有哪些工具权限?

不同规模的公司在智能体控制方面的优先级也不同。不出所料,大型企业(2000多名员工)更加谨慎,严重依赖“只读”权限以避免不必要的风险。它们还倾向于将护栏与**离线评估**配对,以在客户看到任何回复之前,在预生产中捕捉回归。
按公司规模分的工具权限

与此同时,小型公司和初创公司(<100名员工)更关注追踪以了解他们的智能体应用程序中发生了什么(而不是其他控制)。从我们的对话中,小型公司倾向于关注发货和通过查看数据来理解结果;而企业则在更广泛的范围内放置更多的控制。

智能体控制由公司规模决定

尽管在非技术和技术公司的受访者中,智能体采用率相似,但在使用智能体控制的生产中,技术公司更有可能使用多种控制方法。**51%的技术受访者目前正在使用2种或更多的控制方法**,而其他行业的受访者只有**39%**。这表明技术公司可能在构建可靠的智能体方面更进一步,因为需要控制以获得高质量的体验。
用于控制或护栏的方法数量

将智能体投入生产的障碍和挑

保持LLM应用程序的性能质量高——无论是回应的准确性还是是否符合正确的风格——并不容易。
性能质量作为受访者最关心的问题——比其他因素如成本和安全的重要性高出两倍多。
使用LLM控制工作流的智能体的固有不可预测性引入了更多的错误空间,使得团队难以确保他们的智能体始终提供准确、上下文适当的回应。
你将更多智能体投入生产的最大限制是什么?

对于小型公司来说,性能质量尤其重要,有45.8%的人将其作为主要关注点,而成本(第二大关注点)仅为22.4%这一差距强调了可靠、高质量的性能对于组织将智能体从开发转移到生产的重要性。
虽然质量仍然是企业最关心的问题,但安全问题对这些必须遵守法规并更敏感地处理客户数据的大型公司也普遍存在。
按公司规模分的部署智能体的障碍

挑战并未随着质量而结束。从手写回复中,许多人对构建和测试智能体的最佳实践感到不确定。特别是,两个主要障碍突出:**知识和时间。**
• **知识:**团队经常为与智能体合作所需的技术知识而挣扎,包括将它们实施用于特定用例。许多员工仍在学习如何有效利用AI智能体。
• **时间:**构建和部署所需的时间投资是显著的,特别是当试图确保智能体可靠地执行时——这可能需要调试、评估、微调等。

Agent成功案例:Cursor抢占风头

在我们调查中最受讨论的AI智能体应用程序
Cursor在我们的调查中成为最受讨论的智能体应用程序,紧随其后的是重量级选手如PerplexityReplit
Cursor是一个AI驱动的代码编辑器,帮助开发人员通过智能自动完成和上下文协助编写、调试和解析代码。Replit也通过设置环境、配置,并让你在几分钟内构建和部署功能齐全的应用程序,加速软件开发生命周期。Perplexity是一个AI驱动的答案引擎,可以回答复杂查询,并在回应中使用网络搜索和链接来源。
这些应用程序正在推动智能体能做什么的界限,表明AI Agents不再是理论上的——它们今天在生产环境中解决实际问题。
https://www.langchain.com/stateofaiagents

(文:PaperAgent)

欢迎分享

发表评论