最新AI Agent万字综述分享!

 Datawhale干货 
分享:王月凡,支付宝百宝箱团队

近日,支付宝百宝箱团队的技术负责人王月凡在 Datawhale 社区带来了 AI Agent 综述分享。从大语言模型的发展历程出发,全面分享了AI Agent现状,包括:AI Agent 出现的原因、构成、核心技术、核心能力、应用场景,以及备受关注的场景落地难点。

同时,在最后探讨了未来的人机交互与智能体发展趋势:“如果人与机器的交互已经发展到通过语言即可实现,那么未来的想象空间将会非常广阔”。

视频链接:

https://www.bilibili.com/video/BV17wrpYKE4V

百宝箱地址: 

https://tbox.alipay.com/pro-about

在不改变原意的情况下,Datawhale 进行了如下微调和整理。

大模型的发展历程

好的,大家好,我是王月凡,我现在是负责蚂蚁集团百宝箱的技术负责人,然后今天我稍微共享一下屏幕,今天由我来给大家带来关于 AI Agent 的一个分享。
大语言模型的发展历程可以追溯到20世纪90年代。当时的自然语言处理(NLP)领域主要研究特定任务,以统计学和概率学为基础,构建出模型来完成诸如词频统计和简单句法分析等基本任务。 
到2013年,NLP 技术开始向任务无关的特征学习方向发展,代表性成果包括 Word2Vec 和神经概率语言模型(NPLM)。这些模型具备一定的上下文建模能力,可以解决如文本分类和信息抽取等特定任务。这一阶段的进步为后续的大语言模型奠定了基础。 
2018年,大语言模型进入了一个新的发展阶段,演化为具有可迁移能力的任务求解器。这一阶段的核心成果是预训练语言模型的出现,代表性模型包括 BERT 和第一、第二代的 GPT。尽管早期的 GPT 模型(如 GPT-2 和 GPT-3)在性能上仍较为局限(它们主要聚焦于特定领域任务的解决),但预训练与微调相结合的技术路线已经展现出强大的迁移学习能力,显著提升了 NLP 系统处理复杂任务的能力。 
进入2020年,以 GPT-3.5 和 GPT-4 为代表的通用大语言模型取得了突破。这些模型凭借更大规模的参数和训练数据,在能力上实现飞跃,推动了诸如 ChatGPT 和 Claude 等模型的广泛应用。这类模型以提示词(Prompt)为交互基础,能够解决多种任务,从文本生成到复杂问题求解,覆盖了更为广泛的应用场景。 
而当下,ChatGPT、千问、Kimi 等国内外的主流大语言模型,已经成为具备强大底层能力的典型代表,为各类 AI Agent 提供了技术支撑。

AI Agent的出现是弥补大模型的短板

我们已经见识到了大语言模型带来的强大能力,确实可以解决各种各样的问题。那么,为什么 AI Agent 还会出现呢? 

其实,这就涉及到 OpenAI 提出的通用人工智能(AGI)的五级标准。AGI 的终极目标是创造一种能够像人类一样完成各种复杂任务,同时还能自然交流的通用人工智能。根据这个定义,AGI 的发展被分成了五个等级。 

目前我们使用的大语言模型,比如 ChatGPT,大多停留在第一级和第二级,可以处理许多知识性的问题,它们的能力主要在于接收指令,根据预训练时学到的知识进行推理并给出答案。这种工作方式虽然和人类的思考有些相似,但它们在许多需要更高认知能力的任务上仍然力有不逮,比如无法长期记住信息,缺乏持续的记忆能力;面对复杂任务,难以像人类那样分解成具体的步骤并逐步完成,更不用说像人类一样灵活地调用各种工具,并将它们组合起来完成目标。 

相比之下,AI Agent ,也就是“智能体”,是通向更高级智能的关键一步。通过引入行动能力、长期记忆机制和工具整合能力,AI Agent 能弥补当前大语言模型的短板,使得它们不仅能够回答问题,还可以真正去“做”事情。

更重要的是,AI Agent 能在处理复杂任务时展现出了接近人类的思维方式,比如记住上下文信息,制定详细计划,甚至协同多个工具完成目标。 

可以说,AI Agent 的出现不仅让人工智能更接近人类的智能水平,也让它能够进入更多复杂而广泛的应用场景。 

AI Agent=大模型+记忆+规划+工具使用

这张图从去年起就出现了,它非常清晰地定义了 AI Agent 本身。接下来我们聊聊智能体本身的几大核心能力。 

首先,AI Agent 的基础能力来源于大语言模型。大语言模型在语言理解与生成方面具有显著优势,但也存在一些局限,例如记忆能力的不足。

AI Agent 的目标之一,就是赋予模型更接近人类的记忆能力,包括短期记忆和长期记忆。通过这些能力,AI Agent 能够像人类一样记住曾经与用户的对话以及用户的个性化需求,进而提供更贴合实际的服务。

其次,规划能力(Planning)是 AI Agent 的核心能力之一。智能体需要能够面对复杂问题,进行任务分解,将问题逐步具体化为多个可执行的子任务,并以“逐步完成”的方式解决每一项任务。这种能力使其不仅仅停留在静态的问答层面,而是能够动态处理复杂场景,展现出更强的任务执行能力。 

此外,工具使用能力是 AI Agent 区别于传统大语言模型的重要特征之一。这种能力包括调用互联网工具以获取实时信息,例如查询天气、检索搜索引擎中的最新数据,或者与现实生活中的服务系统对接,如下单外卖等功能。这种工具整合能力进一步扩展了 AI Agent 的应用场景,使其能够真正与现实世界产生连接,满足用户的实际需求。 

综合来看,AI Agent 的能力已经超越了传统大语言模型的纯粹对话与问答功能,逐步发展为具备规划能力、记忆能力与工具整合能力的智能体。这一过程不仅丰富了 AI Agent 的技术模块,也为其定义提供了更加完整的框架。通过对复杂问题的拆解、对用户需求的记忆与动态响应,以及与现实工具的链接,AI Agent 正在向更加全面、智能和实用的方向发展,为用户提供更高水平的服务。 

AI Agent的实际应用场景

AI Agent 在行业内已经具备多样化的落地场景。 
首先是在高校领域。AI Agent 已经在高校场景中落地应用,且已能够与校园的服务能力相结合。它不仅可以简单地回答一些校园内的常见咨询问题,比如奖学金的申请流程、考试成绩的查询等,还能链接学校的服务系统,例如查询学生的课表、具体课程的上课地点等。这些应用充分结合了大模型的语言理解能力、工具使用能力以及对知识的管理能力。 
第二个是景区场景的落地。AI Agent 与景区平台结合,可以为用户提供智能化的服务。它能够根据用户的自然语言描述完成购票流程,包括订单的自动生成、游玩日期的选择、入园门口的安排等。此外,还能基于用户的个性化需求推荐游玩路线,例如用户只想游览几个特定景点,AI Agent 能够设计出智能化的导航和推荐方案。这一能力显著提升了用户的游玩体验。 
最后是图像生成场景。将 AI Agent 与 MidJourney、Stable Diffusion 等图像生成能力相结合,使其具备通过自然语言完成图像生成的能力。用户只需要通过对话框输入需求,智能体就能生成符合描述的图像。这一功能拓展了 AI Agent 的应用领域,为许多涉及图像设计和创意的行业带来了新的可能性。 
总的来说,从高校到景区,再到图像生成,AI Agent 的能力正在迅速融入各行各业。今年(2024年)也是 AI 技能大规模与实际产业结合的重要年份。通过这些落地应用,AI Agent 正在为行业提供更智能化的服务和更高效的解决方案。 

AI Agent的三大核心能力

了解了应用场景,我们再来看看AI Agent 的三大核心能力。 
AI Agent 的第一大能力:知识库
首先是 知识库能力。这一能力旨在增强 AI Agent 对于私有领域知识的支持和实时信息的获取与理解能力。了解大语言模型训练原理的朋友可能知道,大语言模型的底层是通过大规模的数据预训练形成的。这种训练方式虽然赋予了模型强大的语言生成和理解能力,但也带来了一个天然的局限:模型缺乏实时知识更新的能力。 
同时,在实际行业落地中,很多行业需要依赖私域知识。例如,在景区场景中,有些景区的内部知识(如售票时间、每日游玩路线安排、开放与关闭的景点信息等)是通用大语言模型无法预先掌握的。这些信息对具体场景至关重要,但往往并不包含在大模型的预训练数据中,因此需要通过知识库能力进行补充和支持。 
通过构建和集成行业私域知识库,AI Agent 就可以弥补大语言模型在实时性和领域专属知识方面的不足,显著提升其在特定场景中的适用性和理解能力。 
因此,我们为大语言模型设计外挂知识库的主要目的是弥补其在私域知识和实时知识获取能力上的不足。在介绍知识库能力时,我们又不得不提到 RAG(Retrieval-Augmented Generation),这是一项核心技术,专门用于实现知识库的扩展功能。RAG 的具体过程分为三个步骤,旨在帮助大语言模型通过知识扩充生成更精准的回答。 
  1. Indexing(建立索引)首先,我们需要对私域知识或时效性较强的知识建立索引。具体操作包括提取原始数据,将其通过 Embedding 模型进行编码并转化为向量表示。这些向量随后被存储在向量数据库中,形成一个便于快速检索的知识库结构。
  2. Retrieval(知识检索)当用户提出问题(Query)后,系统会通过向量相似度查询匹配相关知识。这个过程中,可以根据具体需求对用户的 Query 进行改写或直接使用原始问题进行检索。向量化的匹配方式确保了系统能够高效地找到与问题相关的知识内容。
  3. Generation(生成回答)检索到相关知识后,这些内容会以 prompt 的形式提供给大语言模型。大模型在结合私域知识和上下文信息后,生成一个总结性回复,最终为用户提供准确的答案。
通过这一完整的流程,RAG 技术实现了知识的检索增强生成。它不仅让大语言模型能够接入私域知识,还为其增加了实时获取知识的能力。通过 Indexing、Retrieval 和 Generation 这三个关键步骤,AI Agent 可以更高效地支持各种特定场景,提升回答的准确性和实用性。 
刚刚提到的 RAG 的三个步骤其实可以通过一个更加直观的流程图来表达。这张图来源于几篇相关的论文,用具象的方式展示了 RAG 的具体工作机制。 
  1. 文档处理与向量化存储 流程的第一步是对文档(Document)进行处理。具体来说,需要将文档切分成若干小块(Chunk),然后通过 Embedding 模型对每个 Chunk 进行向量化处理。这些向量化的表示随后被存储在向量数据库中,为后续的检索奠定基础。
  2. 查询相似度召回 当用户提出问题(Query)后,系统会通过向量数据库进行相似度检索,从中召回与用户问题相关的知识块。这一步通过 Embedding 模型生成的向量表示,计算问题与知识块之间的相似性,确保召回内容的相关性和准确性。
  3. 大语言模型生成回答 检索到的相关知识块被传递给大语言模型,作为 Prompt 的一部分输入模型。大模型利用其语言理解和生成能力,将知识块与用户问题进行关联,通过推理和文本整理生成回答。这一过程中,大语言模型参考知识块与用户问题之间的相关性,从而生成包含私域支持的高质量回答。
通过这一机制,RAG 弥补了大语言模型缺乏私域知识和实时知识支持的不足,为用户提供更准确、更具针对性的答案。 
Embedding 的向量化原理:
在 RAG 的流程中,Embedding 向量化技术是一个至关重要的环节。无论是文本、图像,还是单词,Embedding 的目标都是将这些内容转化为高维向量表示。这种向量表示捕捉了数据的语义信息,便于在向量数据库中存储和检索。 
向量化的过程实际上是将文本、图像或单词作为一个对象,映射到一个由实数表示的固定向量空间中。可以将这个向量空间想象为一个三维空间,通过一定的向量模型计算完成映射。向量模型需要经过特殊训练,并依赖大量的文本语言和图像语言数据进行训练。训练完成后,可以将对应的字、文本或图像转化为向量空间中的向量。 
模型训练的目的是为了让语义相似的对象在向量空间中的距离尽可能接近。例如,“king”和“queen”,“man”和“woman”之间存在相似性关系,可以通过向量运算表达。例如,“woman”可以通过“man + queen – king”得出。这表示“man”和“woman”语义相近,因此它们在向量空间中的距离也较近。“king”和“queen”同样因语义相似,在空间中的距离更短,而“queen”和“woman”之间的相似性也会导致它们距离较近。 
可以理解为,将具体的文字或图像投射到向量空间后,通过模型的训练,使得语义相似的内容在向量空间中的距离更近,从而实现语义召回,检索出相似的内容。 
对于图像也是类似的。以图中的两个 iPhone 手机图片为例,大模型通过对每个像素的理解和向量化处理,将这两张图片训练到相似的向量空间中,因此这两张 iPhone 手机的图片距离较近。而与球形物体的图片相比,这两张 iPhone 图片的距离明显更近。 
在实际应用中,向量化过程会计算两个实体在向量空间的距离,以表示它们之间的相似度。例如,用户询问“北京大兴机场怎么去”,数据库中可能存有“大兴机场的路线”相关知识。此时,用户问题中的“大兴机场”与数据库中的“大兴机场的路线”在向量空间的距离会较近,因此可以通过相似度计算将相关知识召回。根据相似度距离排序,检索出与用户 Query 相关的知识,并通过大模型整合后,生成完整的回答。 
这就是典型的 Embedding 向量空间在知识库和 RAG 技术中的应用,也是知识库中非常重要的一个核心技术。 
谈到知识库,我们目前可以通过 百宝箱 实现外挂知识的接入。我们可以上传各种类型的文件,例如 Word 文档、Excel 表格、TXT 文件等,甚至能够与语雀实现打通。语雀作为一款高效的文档编辑和管理工具,其上已有的知识内容可以通过一键导入功能轻松加入知识库,作为大模型的外挂知识库,为智能体提供支持。 

AI Agent 的第二大能力:工具调用

除了知识库之外,AI 技能的第二大能力是 工具调用。智能体能够通过调用各种工具和 API 来扩展大语言模型的行动范围,使其不仅限于语言生成和理解,还可以实际参与到现实生活中。比如,智能体可以通过工具调用帮助用户预订景区门票、自动叫车,甚至点一杯星巴克。这种能力让 RAG 不仅能够检索和生成知识,还能够触及现实生活,为用户提供更加实用和全面的服务。 
百宝箱的插件能力(短暂的介绍一下百宝箱~)
百宝箱提供了丰富的插件资源,并计划在未来集成支付宝的一方服务能力,例如发放优惠券、支付功能以及芝麻信用等。通过这些集成功能,百宝箱可以支持实时执行插件任务,自动调用外部服务,并实现诸如互联网接口查询、代码执行、绘图以及高德地图搜索等功能。这些插件的交互界面设计直观便捷,用户可以轻松上手操作。 
AI Agent 的第三大能力:工作流 
除了知识库和工具调用,AI Agent 的第三大核心能力是 工作流。我们在前面提到,AI Agent 的运行需要输入一个 Prompt,结合外挂知识库,让 RAG 调用具体工具来连接现实场景和用户需求。然而,为了确保整个执行流程的可靠性和可控性,工作流的能力显得尤为重要。 
通过工作流,我们可以将 AI Agent 的业务流程通过编排的方式串联起来,使其具备计划性和执行的可控性。目前,百宝箱已经提供了一套简单且高效的配置化工具,能够快速关联每个任务节点。例如,用户可以定义 RAG 的操作顺序:第一步完成知识检索,第二步调用特定工具,第三步生成并执行任务。通过这种方式,将复杂任务拆解为各个节点并逐步串联,实现任务的清晰、流畅且可控的执行。 
这种配置化的工作流能力,不仅提高了 AI Agent 的灵活性,也让用户能够个性化地设计和控制任务执行的逻辑,确保每一步操作都符合预期,为复杂任务的高效执行提供了可靠保障。 
(短暂的介绍一下百宝箱~)百宝箱具备显著的特色,首先在模型能力方面,集成了多种主流大模型,包括 百灵大模型、通义千问、质谱大模型,以及 月之暗面 模型。这些模型的集成为开发者提供了丰富的选择,能够满足不同场景的需求。 
此外,产品还支持快速部署,仅需一分钟即可将开发完成的智能体发布到 支付宝小程序,无需复杂的编码或开发工作。通过一键发布功能,用户可以立即在支付宝小程序上体验智能体的功能。这种高效、便捷的开发与发布流程,大大降低了使用门槛,使开发者能够更专注于创新和功能实现。 
百宝箱还提供了便捷的图像训练功能,支持用户对图片进行风格化训练。通过上传少量的图片(约10~20张),系统会自动解析这些图片的特征和标签,完成模型的快速训练。训练完成后,用户即可使用生图能力,根据指定的图片风格生成具有相似风格效果的图像。这种简单高效的训练方式,大大降低了定制化图像生成的门槛,为用户提供了更多创意和个性化的可能性。 

落地 AI Agent 的主要挑战

在介绍了 AI Agent 的核心能力和功能组成后,接下来让我们探讨一下实际落地过程中的主要挑战。这些挑战主要集中在以下三个方面: 
  1. 行业认知与流程重塑 要成功将 AI Agent 应用于某个行业,首先需要对该行业有深入的了解与认知。这包括对行业原有逻辑和流程的深刻理解,以及对行业知识和数据的充分沉淀。只有在对行业特点和需求有全面掌握的前提下,才能有效地利用 AI Agent 重塑行业流程,真正发挥其价值。
  2. 效果稳定性与响应时间 AI Agent 的效果稳定性和响应速度是影响用户体验的关键因素。
    • 效果稳定性:大语言模型在某些场景下可能表现不够稳定,因此在搭建 AI Agent 时,如何通过工作流(Workflow)提升其稳定性和可控性,成为一个重要目标。
    • 响应时间:为了保障用户体验,AI Agent 的首次响应时间(TTFT,Time to First Token)必须在合理范围内,避免因回复过慢而影响用户的使用感受。
  3. 充分发挥大模型的能力 AI Agent 的落地需要深刻理解大语言模型的优势与不足,并在此基础上制定最佳实践方案。具体而言,需要明确大模型的局限性,并通过优化 Prompt 等方式,充分挖掘和利用其优势。这不仅能提升模型的表现,也能有效规避潜在的问题。
那我们该如何应对这些挑战呢? 
在智能体的实际落地中,一个非常关键的环节是对智能体进行系统化的评测。通过评测,可以明确智能体的能力表现,并发现潜在问题。以下是评测的完整流程: 
  1. 明确评测指标与维度
    首先,需要定义评测的指标和维度。具体来说,就是明确智能体需要提供的主要能力,以及每项能力的评价标准。需要回答的问题是:哪些能力是关键的?回答的好坏如何定义?这一步是评测的基础,关系到后续数据集的构建与评估。 
  2. 构建评测数据集
    根据已定义的能力维度,构建与智能体场景相关的数据集。例如,如果智能体主要应用于文旅景区,需要准备一组与景区相关的问答数据(QA 对)作为评测的基础数据集。这些数据应覆盖智能体的核心功能,确保评测结果具备代表性。 
  3. 评测方式
    评测可以采用以下两种方式: 
    1. 主观评测通过人工评估模型的回答质量。人工评测的人员根据模型的回答打标签或评分,判断其是否符合预期。
    2. 自动化评测利用更强的模型对智能体的回答进行自动化评价。例如,通过一个更高水平的模型来分析回答的正确性和质量。这种方式可以辅助主观评测,提高效率。
  4. 生成评测报告
    评测结束后,需要生成一份详细的评测报告。报告应包含以下几个方面: 
    1. 模型效果:包括回答的准确性、相关性等核心指标。
    2. 首字耗时(TTFT):评估模型首次响应时间是否满足用户场景的需求,判断是否在合理范围内。
    完成评测后,可以通过评测报告明确智能体的不足之处,例如: 
    1. 哪些案例(bad case)尚未能有效回答用户问题。
    2. 哪些场景下首字耗时偏长,用户体验受到影响。
根据这些问题,针对性地优化智能体,包括调整 Prompt、优化工作流(Workflow)或更新知识库中的数据与知识内容。通过这一评测与优化的闭环机制,可以不断提升智能体的效果,使其在回答质量和响应速度上更加贴合实际需求。 
与此同时,深入了解大语言模型能力,将有助于我们更好地面对 AI Agent 落地所带来的挑战。 
大语言模型自训练之初,便是为了解决通用语言问题。本质上,大语言模型是深层次的 API,核心功能是任务生成。从更高的维度来看,它主要具备以下四大能力: 
  1. 文本分类与信息提取
    大语言模型能够胜任文本分类任务。例如,当用户输入“我今天想去黄山景区玩”,可以通过模型判断用户的意图。根据输入内容,模型可以识别用户是否想去景区玩、想去哪个景区玩等,这是典型的文本分类任务。 
    此外,模型还能进行关键信息提取。例如,从用户的输入中提取“黄山景区”,然后将其与后续的流程结合,如引导用户直接购买黄山景区的门票。通过这种方式,模型可以帮助实现从意图识别到具体操作的转化。 
  2. 问答能力(Question-Answering)
    问答是大语言模型的经典应用场景。例如,用户提问时,模型能够基于预训练阶段沉淀的知识,通过概率计算生成针对用户问题的适当回答。这是 ChatGPT 等应用中最常见的功能场景,广泛用于解决用户的各类问题。 
  3. 文档总结
    大语言模型能够对文档内容进行总结和压缩。例如,用户输入一篇论文,模型可以提取其中的核心观点、使用的方法、数据和验证公式,并生成简明扼要的总结。通过这一功能,模型可以省略与需求无关的内容,将相关信息提炼成简短的表述。 
  4. 文本生成
    文本生成是大语言模型最核心的能力之一。通过学习前后文字的概率关系,模型可以根据已知内容预测并生成后续文本。例如,在写作任务中,用户提供开头段落,模型能够根据上下文逻辑生成完整的故事情节。这种能力利用了大模型在语料学习中掌握的语言模式和语义关系。 
尽管大语言模型功能强大,但仍存在以下局限性: 
  1. 幻觉问题
    大模型在生成内容时可能会产生“幻觉”,即生成一些不存在或错误的信息。例如,当被问到“长颈鹿的腿有几只眼睛”时,早期模型可能会尝试回答一个不真实的问题。尽管模型对常见的客观事实已有较好的处理,但在私有领域或专业领域,仍可能对非通用共识的内容存在误判。这需要通过模型微调或额外训练,帮助其识别领域内的客观事实。 
  2. 指令遵循不稳定
    在某些任务中,模型可能无法稳定地遵循指令。例如,当用户要求按照指定格式输出内容时,模型有时会偏离预设格式。这种情况通常通过优化 Prompt(指令)设计和精调来提升模型的指令遵循能力。 
  3. 数据的时效性不足
    大语言模型的训练数据往往存在滞后性,难以覆盖实时更新的知识。此外,由于预训练耗时长、资源消耗大,无法频繁更新所有知识。为了解决这一问题,需要通过外挂知识库(RAG)技术,为模型提供实时知识和私有领域知识支持。RAG 通过向量化检索增强模型能力,让其能够回答实时性强、领域专属的问题,从而弥补预训练数据的时效性不足。 

Prompt 的微调与优化 

随着大语言模型的出现,针对 Prompt 的设计与优化逐渐发展为一个垂直领域,并衍生出一个专门的岗位——Prompt Engineer。这一领域的重点在于研究如何为不同的大语言模型设计最佳的 Prompt 格式,使模型的回答效果达到最优。 
Prompt 的设计需要综合考虑以下几个方面: 
  1. 角色定义:明确告知大语言模型其角色、需要负责的内容及背景信息。
  2. 任务说明:具体描述需要完成的任务以及任务的输出格式。
图中左侧示例展示了一个实际的 Prompt 设计案例。在这个例子中,模型被定义为一名 Java 高级开发工程师,任务是对一组 shopModel 数据进行处理,并生成符合要求的 Map 数据结构。这个设计包含了角色说明、任务描述、具体要求以及明确的输出格式。 
Prompt 的设计需要遵循一些基本原则,这在图中右侧部分进行了总结: 
  • 清晰的指令
  • 背景和上下文
  • 示例和语法
  • 逻辑分步
  • 容错与反思
  • 信息源
此外,不同模型(如 ChatGPT、通义千问、Kimi、Claude 等)在 Prompt 细节上可能存在差异,因此需要结合模型的特点调整设计。 
两种思维方式:CoT和ReAct
除了 Prompt 的结构设计外,还可以通过特定的思维模式让大语言模型遵循更具体的指令,进而优化任务的执行过程。这些模式在 Prompt 工程中被称为 最佳实践,其中包括以下两种经典方法: 
  1. 思维链(Chain of Thought, CoT) CoT 是一种引导模型按照逻辑链条逐步完成任务的思维模式。通过 CoT,模型能够将复杂的任务拆解为多个子任务,并对每个子任务的可执行性进行验证。这种模式确保了模型在解决问题时能够逻辑清晰,并对任务有更强的理解和执行能力。
  2. 反应式行动(ReAct) ReAct 是另一种思维模式,适用于让模型面对复杂问题时将其分解为具体的行动步骤。模型可以基于问题拆分出每个行动(Action),观察每个行动执行的结果,并根据结果确定下一步要执行的任务。通过这种模式,模型能够自主完成任务拆分,并有效执行外部任务,增强其对复杂问题的处理能力。
这些思维模式都可以通过 Prompt 的设计来控制。例如,提示模型“将问题分解为步骤,逐步执行每一步并验证结果”,可以有效地触发 CoT 或 ReAct 模式的应用。 
在 Prompt 工程的学习过程中,我们可以重点研究 CoT 和 ReAct 相关内容。通过深入理解这些思维模式,可以进一步优化 Prompt 的设计,让大语言模型更高效地完成复杂任务。 

未来的人机交互与智能体发展趋势 

如果人与机器的交互已经发展到通过语言即可实现,那么未来的想象空间将会非常广阔。
目前,未来趋势的一些雏形已经在今天得以体现,虽然还未在日常生活中大规模应用,但已有许多具体的案例开始出现。 

今天我们已经看到大部分的场景,包括在行业里面落地,都是以对话框,然后以文本文字的方式交互加上卡片的一个方式展示,然后这样的方式去构建智能体与人机进行交互,与 AI 进行交互。

像最新的 ChatGPT 包括智谱的能力,他们已经能做到说视频,我直接跟现实生活,物理世界看到的东西进行一个交互。

ChatGPT 其实演示了一个比较好的场景,就是可能这个人正在做咖啡,那 ChatGPT 能识别的话,他是在做咖啡,然后能够一步一步教他,通过语音指令的方式教他怎么做咖啡,同时他做咖啡的过程中有任何的问题还能够去跟 GPT 进行交互,然后再指导他进行一个优化。

这样的话想象空间就非常大了,想象以后的具身智能,每个人都会拥有一个 AI 的管家,帮大家去做一些相关的现实生活中的问题,可能你正在做饭,我告诉你今天是这个菜应该怎么做,先放什么再放什么放多少克盐,然后煮多少分钟的菜等等。

有了这种实时的音视频的这种交互方式的话,未来整个 AI Agent 加智能硬件,其实也是一个非常明显的趋势。

今年其实有很多厂商像 Meta,然后 Rokid,然后包括闪极,其实已经发布了很多这种智能硬件的一些方案。

可能比较火热的一个场景就是智能眼镜这个方向,因为眼镜它对于人来说它是一个无感佩戴的过程,上面也可以装摄像头,也可以装一些语音的输入输出的一个设备。然后它可以跟手机连接,然后通过手机的计算能力去跟大模型进行交互,包括推出一些耳机场景,包括车机系统这些场景,这些都是未来,明年后年可能会大规模的应用的智能体加硬件的一些落地场景。

好,今天我这边主要的分享就到这里,然后看大家还有没有什么问题,我们可以收集一下大家的一些问题进行回答。

一起“三连

(文:Datawhale)

欢迎分享

发表评论