近日,支付宝百宝箱团队的技术负责人王月凡在 Datawhale 社区带来了 AI Agent 综述分享。从大语言模型的发展历程出发,全面分享了AI Agent现状,包括:AI Agent 出现的原因、构成、核心技术、核心能力、应用场景,以及备受关注的场景落地难点。
同时,在最后探讨了未来的人机交互与智能体发展趋势:“如果人与机器的交互已经发展到通过语言即可实现,那么未来的想象空间将会非常广阔”。
视频链接:
https://www.bilibili.com/video/BV17wrpYKE4V
https://tbox.alipay.com/pro-about
大模型的发展历程
AI Agent的出现是弥补大模型的短板
我们已经见识到了大语言模型带来的强大能力,确实可以解决各种各样的问题。那么,为什么 AI Agent 还会出现呢?
其实,这就涉及到 OpenAI 提出的通用人工智能(AGI)的五级标准。AGI 的终极目标是创造一种能够像人类一样完成各种复杂任务,同时还能自然交流的通用人工智能。根据这个定义,AGI 的发展被分成了五个等级。
目前我们使用的大语言模型,比如 ChatGPT,大多停留在第一级和第二级,可以处理许多知识性的问题,它们的能力主要在于接收指令,根据预训练时学到的知识进行推理并给出答案。这种工作方式虽然和人类的思考有些相似,但它们在许多需要更高认知能力的任务上仍然力有不逮,比如无法长期记住信息,缺乏持续的记忆能力;面对复杂任务,难以像人类那样分解成具体的步骤并逐步完成,更不用说像人类一样灵活地调用各种工具,并将它们组合起来完成目标。
相比之下,AI Agent ,也就是“智能体”,是通向更高级智能的关键一步。通过引入行动能力、长期记忆机制和工具整合能力,AI Agent 能弥补当前大语言模型的短板,使得它们不仅能够回答问题,还可以真正去“做”事情。
更重要的是,AI Agent 能在处理复杂任务时展现出了接近人类的思维方式,比如记住上下文信息,制定详细计划,甚至协同多个工具完成目标。
可以说,AI Agent 的出现不仅让人工智能更接近人类的智能水平,也让它能够进入更多复杂而广泛的应用场景。
AI Agent=大模型+记忆+规划+工具使用
这张图从去年起就出现了,它非常清晰地定义了 AI Agent 本身。接下来我们聊聊智能体本身的几大核心能力。
首先,AI Agent 的基础能力来源于大语言模型。大语言模型在语言理解与生成方面具有显著优势,但也存在一些局限,例如记忆能力的不足。
AI Agent 的目标之一,就是赋予模型更接近人类的记忆能力,包括短期记忆和长期记忆。通过这些能力,AI Agent 能够像人类一样记住曾经与用户的对话以及用户的个性化需求,进而提供更贴合实际的服务。
其次,规划能力(Planning)是 AI Agent 的核心能力之一。智能体需要能够面对复杂问题,进行任务分解,将问题逐步具体化为多个可执行的子任务,并以“逐步完成”的方式解决每一项任务。这种能力使其不仅仅停留在静态的问答层面,而是能够动态处理复杂场景,展现出更强的任务执行能力。
此外,工具使用能力是 AI Agent 区别于传统大语言模型的重要特征之一。这种能力包括调用互联网工具以获取实时信息,例如查询天气、检索搜索引擎中的最新数据,或者与现实生活中的服务系统对接,如下单外卖等功能。这种工具整合能力进一步扩展了 AI Agent 的应用场景,使其能够真正与现实世界产生连接,满足用户的实际需求。
综合来看,AI Agent 的能力已经超越了传统大语言模型的纯粹对话与问答功能,逐步发展为具备规划能力、记忆能力与工具整合能力的智能体。这一过程不仅丰富了 AI Agent 的技术模块,也为其定义提供了更加完整的框架。通过对复杂问题的拆解、对用户需求的记忆与动态响应,以及与现实工具的链接,AI Agent 正在向更加全面、智能和实用的方向发展,为用户提供更高水平的服务。
AI Agent的实际应用场景
AI Agent的三大核心能力
-
Indexing(建立索引)首先,我们需要对私域知识或时效性较强的知识建立索引。具体操作包括提取原始数据,将其通过 Embedding 模型进行编码并转化为向量表示。这些向量随后被存储在向量数据库中,形成一个便于快速检索的知识库结构。 -
Retrieval(知识检索)当用户提出问题(Query)后,系统会通过向量相似度查询匹配相关知识。这个过程中,可以根据具体需求对用户的 Query 进行改写或直接使用原始问题进行检索。向量化的匹配方式确保了系统能够高效地找到与问题相关的知识内容。 -
Generation(生成回答)检索到相关知识后,这些内容会以 prompt 的形式提供给大语言模型。大模型在结合私域知识和上下文信息后,生成一个总结性回复,最终为用户提供准确的答案。
-
文档处理与向量化存储 流程的第一步是对文档(Document)进行处理。具体来说,需要将文档切分成若干小块(Chunk),然后通过 Embedding 模型对每个 Chunk 进行向量化处理。这些向量化的表示随后被存储在向量数据库中,为后续的检索奠定基础。 -
查询相似度召回 当用户提出问题(Query)后,系统会通过向量数据库进行相似度检索,从中召回与用户问题相关的知识块。这一步通过 Embedding 模型生成的向量表示,计算问题与知识块之间的相似性,确保召回内容的相关性和准确性。 -
大语言模型生成回答 检索到的相关知识块被传递给大语言模型,作为 Prompt 的一部分输入模型。大模型利用其语言理解和生成能力,将知识块与用户问题进行关联,通过推理和文本整理生成回答。这一过程中,大语言模型参考知识块与用户问题之间的相关性,从而生成包含私域支持的高质量回答。
AI Agent 的第二大能力:工具调用
落地 AI Agent 的主要挑战
-
行业认知与流程重塑 要成功将 AI Agent 应用于某个行业,首先需要对该行业有深入的了解与认知。这包括对行业原有逻辑和流程的深刻理解,以及对行业知识和数据的充分沉淀。只有在对行业特点和需求有全面掌握的前提下,才能有效地利用 AI Agent 重塑行业流程,真正发挥其价值。 -
效果稳定性与响应时间 AI Agent 的效果稳定性和响应速度是影响用户体验的关键因素。 -
效果稳定性:大语言模型在某些场景下可能表现不够稳定,因此在搭建 AI Agent 时,如何通过工作流(Workflow)提升其稳定性和可控性,成为一个重要目标。 -
响应时间:为了保障用户体验,AI Agent 的首次响应时间(TTFT,Time to First Token)必须在合理范围内,避免因回复过慢而影响用户的使用感受。 -
充分发挥大模型的能力 AI Agent 的落地需要深刻理解大语言模型的优势与不足,并在此基础上制定最佳实践方案。具体而言,需要明确大模型的局限性,并通过优化 Prompt 等方式,充分挖掘和利用其优势。这不仅能提升模型的表现,也能有效规避潜在的问题。
-
明确评测指标与维度 首先,需要定义评测的指标和维度。具体来说,就是明确智能体需要提供的主要能力,以及每项能力的评价标准。需要回答的问题是:哪些能力是关键的?回答的好坏如何定义?这一步是评测的基础,关系到后续数据集的构建与评估。 -
构建评测数据集 根据已定义的能力维度,构建与智能体场景相关的数据集。例如,如果智能体主要应用于文旅景区,需要准备一组与景区相关的问答数据(QA 对)作为评测的基础数据集。这些数据应覆盖智能体的核心功能,确保评测结果具备代表性。 -
评测方式 评测可以采用以下两种方式: 1. 主观评测:通过人工评估模型的回答质量。人工评测的人员根据模型的回答打标签或评分,判断其是否符合预期。 2. 自动化评测:利用更强的模型对智能体的回答进行自动化评价。例如,通过一个更高水平的模型来分析回答的正确性和质量。这种方式可以辅助主观评测,提高效率。 -
生成评测报告 评测结束后,需要生成一份详细的评测报告。报告应包含以下几个方面: 1. 模型效果:包括回答的准确性、相关性等核心指标。 2. 首字耗时(TTFT):评估模型首次响应时间是否满足用户场景的需求,判断是否在合理范围内。 完成评测后,可以通过评测报告明确智能体的不足之处,例如: 1. 哪些案例(bad case)尚未能有效回答用户问题。 2. 哪些场景下首字耗时偏长,用户体验受到影响。
-
文本分类与信息提取 大语言模型能够胜任文本分类任务。例如,当用户输入“我今天想去黄山景区玩”,可以通过模型判断用户的意图。根据输入内容,模型可以识别用户是否想去景区玩、想去哪个景区玩等,这是典型的文本分类任务。 此外,模型还能进行关键信息提取。例如,从用户的输入中提取“黄山景区”,然后将其与后续的流程结合,如引导用户直接购买黄山景区的门票。通过这种方式,模型可以帮助实现从意图识别到具体操作的转化。 -
问答能力(Question-Answering) 问答是大语言模型的经典应用场景。例如,用户提问时,模型能够基于预训练阶段沉淀的知识,通过概率计算生成针对用户问题的适当回答。这是 ChatGPT 等应用中最常见的功能场景,广泛用于解决用户的各类问题。 -
文档总结 大语言模型能够对文档内容进行总结和压缩。例如,用户输入一篇论文,模型可以提取其中的核心观点、使用的方法、数据和验证公式,并生成简明扼要的总结。通过这一功能,模型可以省略与需求无关的内容,将相关信息提炼成简短的表述。 -
文本生成 文本生成是大语言模型最核心的能力之一。通过学习前后文字的概率关系,模型可以根据已知内容预测并生成后续文本。例如,在写作任务中,用户提供开头段落,模型能够根据上下文逻辑生成完整的故事情节。这种能力利用了大模型在语料学习中掌握的语言模式和语义关系。
-
幻觉问题 大模型在生成内容时可能会产生“幻觉”,即生成一些不存在或错误的信息。例如,当被问到“长颈鹿的腿有几只眼睛”时,早期模型可能会尝试回答一个不真实的问题。尽管模型对常见的客观事实已有较好的处理,但在私有领域或专业领域,仍可能对非通用共识的内容存在误判。这需要通过模型微调或额外训练,帮助其识别领域内的客观事实。 -
指令遵循不稳定 在某些任务中,模型可能无法稳定地遵循指令。例如,当用户要求按照指定格式输出内容时,模型有时会偏离预设格式。这种情况通常通过优化 Prompt(指令)设计和精调来提升模型的指令遵循能力。 -
数据的时效性不足 大语言模型的训练数据往往存在滞后性,难以覆盖实时更新的知识。此外,由于预训练耗时长、资源消耗大,无法频繁更新所有知识。为了解决这一问题,需要通过外挂知识库(RAG)技术,为模型提供实时知识和私有领域知识支持。RAG 通过向量化检索增强模型能力,让其能够回答实时性强、领域专属的问题,从而弥补预训练数据的时效性不足。
Prompt 的微调与优化
-
角色定义:明确告知大语言模型其角色、需要负责的内容及背景信息。 -
任务说明:具体描述需要完成的任务以及任务的输出格式。
-
清晰的指令 -
背景和上下文 -
示例和语法 -
逻辑分步 -
容错与反思 -
信息源
-
思维链(Chain of Thought, CoT) CoT 是一种引导模型按照逻辑链条逐步完成任务的思维模式。通过 CoT,模型能够将复杂的任务拆解为多个子任务,并对每个子任务的可执行性进行验证。这种模式确保了模型在解决问题时能够逻辑清晰,并对任务有更强的理解和执行能力。 -
反应式行动(ReAct) ReAct 是另一种思维模式,适用于让模型面对复杂问题时将其分解为具体的行动步骤。模型可以基于问题拆分出每个行动(Action),观察每个行动执行的结果,并根据结果确定下一步要执行的任务。通过这种模式,模型能够自主完成任务拆分,并有效执行外部任务,增强其对复杂问题的处理能力。
未来的人机交互与智能体发展趋势
今天我们已经看到大部分的场景,包括在行业里面落地,都是以对话框,然后以文本文字的方式交互加上卡片的一个方式展示,然后这样的方式去构建智能体与人机进行交互,与 AI 进行交互。
像最新的 ChatGPT 包括智谱的能力,他们已经能做到说视频,我直接跟现实生活,物理世界看到的东西进行一个交互。
ChatGPT 其实演示了一个比较好的场景,就是可能这个人正在做咖啡,那 ChatGPT 能识别的话,他是在做咖啡,然后能够一步一步教他,通过语音指令的方式教他怎么做咖啡,同时他做咖啡的过程中有任何的问题还能够去跟 GPT 进行交互,然后再指导他进行一个优化。
这样的话想象空间就非常大了,想象以后的具身智能,每个人都会拥有一个 AI 的管家,帮大家去做一些相关的现实生活中的问题,可能你正在做饭,我告诉你今天是这个菜应该怎么做,先放什么再放什么放多少克盐,然后煮多少分钟的菜等等。
有了这种实时的音视频的这种交互方式的话,未来整个 AI Agent 加智能硬件,其实也是一个非常明显的趋势。
今年其实有很多厂商像 Meta,然后 Rokid,然后包括闪极,其实已经发布了很多这种智能硬件的一些方案。
可能比较火热的一个场景就是智能眼镜这个方向,因为眼镜它对于人来说它是一个无感佩戴的过程,上面也可以装摄像头,也可以装一些语音的输入输出的一个设备。然后它可以跟手机连接,然后通过手机的计算能力去跟大模型进行交互,包括推出一些耳机场景,包括车机系统这些场景,这些都是未来,明年后年可能会大规模的应用的智能体加硬件的一些落地场景。
好,今天我这边主要的分享就到这里,然后看大家还有没有什么问题,我们可以收集一下大家的一些问题进行回答。
(文:Datawhale)