Decagon华裔创始人:构建AI Agent的关键在于使用场景,而非技术

2024年被业界视作AI应用之年。很多人相信,今年将是属于Agent的一年。


今天,OpenAI发布了其首款AI智能体Operator,一款能够在浏览器上执行简单在线任务的网络应用,如预订音乐会门票、在线订购杂货等。

OpenAI的入局,更加印证了这一趋势。

在这种情况下,如何才能打造出一个真正实用且强大的智能体,成为所有人关心的话题。

近期,著名风险投资机构“硅谷初创风向标”A16Z邀请了智能体初创公司Decagon的首席执行官杰西·桑,以及A16Z的合伙人金伯利·谭对上述问题进行了讨论。

Decagon的名字,很多人并不陌生。

这可能是过去一年AI Agent领域最成功的公司之一,主要为大型企业构建AI Agent,用于客户支持和客户体验领域。

成立仅6个月,Decagon就实现了七位数的年度收入(ARR)。去年10月,Decagon完成了一轮6500万美元融资,估值暴涨4倍,达到了6.5亿美元。

相信他的分享会对大家有所帮助。

本文将持有以下观点:

1)大模型,让智能体成为可能
2)构建智能体的关键不在技术,而在实际场景类型
3)智能体时代,如何设置防护措施是一门学问
4)使用智能体,如何设置API的关键
5)构建智能体,用户界面至关重要
6)智能体与SaaS软件构建逻辑的一致性
7)多模态的发展,将推进智能体更进一步
8)智能体定价模式的考量与取舍
9)产品好3倍,才能打败Saas巨头
10)智能体时代,人类最大的职责是“监工”


/ 01 /

大模型,让智能体成为可能

以前的自动化,可能会用到决策树。

你可以进行一些简单的自然语言处理,以确定在决策树中该走哪条路径。

如果,问题无法通过决策树完全解决,你最终可能会被引导到一条与你所问问题有点相关,但实际上并不完全匹配的路径上。

比如,早期的聊天机器人就是这样,体验很不好。

而现在,我们有了大语言模型。大语言模型的神奇之处在于它们非常灵活,能够适应很多不同的情况,并且本身就具备一定的基础智能。

所以,当你将其应用于客户支持、客户咨询当客户提出的问题时,就能够做到更加个性化的解答。

个性化能力的大大提高,全面提升了各项指标,你能够解决更多问题,客户满意度也更高。

接下来就是,既然你拥有了这种智能,那么就应该能够做更多人类能做的事情。

人类能为你实时提取数据、采取行动、进行多步骤推理。

比如,你提出一个相当复杂的问题,也许人工智能只准备好回答第一个问题,但大语言模型足够智能,能够识别出这里有两个问题。

他就会按步骤,一步步解决问题。但在大语言模型出现之前,这基本上是不可能的。

而智能体或多或少是一个由多个大语言模型协同工作的系统。

这就是为什么我们现在看到,由于大语言模型的出现,技术所能实现的一切有了一个质的飞跃。

/ 02 /

构建智能体的关键不在技术,

而在实际场景

我认为,一个人工智能智能体能否真正有效地运作,技术栈并非关键因素。

毕竟,在如今的技术环境下,大多数从业者所使用的技术都大致相同。

真正决定一个人工智能智能体能否发挥作用的核心要素,其实是它所应用的实际场景类型。

不同的应用场景类型,对智能体的功能、性能以及运行逻辑都有着截然不同的要求。

而对于智能体公司来说,有两个维度的判断标准,决定着你的智能体能否从演示阶段走向现实落地

第一点,你所解决的用例,你所应用的场景,能为客户带来多少投资回报率(ROI),这必须是非常可量化的。

这极其重要,因为如果不是这样,就很难说服人们真正使用你的产品并为之付费。

拿我们自己来说,可量化的指标分为两个标准:

其一,解决了百分之多少的客户支持咨询。

其二,是客户满意度。因为投资回报率很容易量化,所以人们实际上会采用我们的产品。

第二点,应用场景必须是渐进式的。

如果,你期盼真智能体能一次性100%解决问题,那是不可能的。

因为,大语言模型具有不确定性,必须有某种备用方案。

幸运的是,客户服务具有这样一个很好的特性,总是可以将问题扔给人工客服。

即使,智能体只能解决一半的问题,对人们来说也是非常有价值的。

如果一开始就要求它完美无缺,就没有人会真正愿意尝试或使用它。

人们运行模拟程序时,通常的想法是这样的:“如果大语言模型能读懂这个,那就太酷了。”

但难想象有人会直接说:“好吧,人工智能智能体,去做那个吧,我相信你能做好。”因为如果它出了一个小差错,你可能就麻烦了。

在我看来,智能体的个性化赖子两个方面。一方面,来自于对用户的适配。所以你需要了解用户本身的背景信息,这是你需要的额外背景信息。

另一方面,你需要了解客户的业务逻辑背景。

如果你将这两者结合起来,就能提供相当不错的体验。

这听起来很容易,但实际上要获取所需的所有背景信息是相当困难的。

所以我们主要构建的是,合适的原语,以便当有人部署我们的产品时,他们能够很容易地决定:“好的,这是我们想要的业务逻辑。

比如,首先你需要执行这四个步骤,如果第三步失败,就必须转到第五步。”

就是这样,你希望能够很容易地教会人工智能,同时提供给它 “这是用户的账户详细信息” 。

如果,你需要获取更多信息,可以调用这些API。

这是位于模型之上的一层,我猜可以称之为编排层,在这种情况下,它让智能体真正发挥作用。

/ 03 /

构建智能体的关键不在技术,

而在实际场景

智能体时代,如何设置防护措施是一门学问。

随着时间的推移,由于我们进行了大量这样的实施,已经很清楚人们关心哪些类型的防护措施。

例如,最简单的是你必须设置一些智能体要始终遵循的规则。

如果,你与一家服务公司合作,你不能提供财务建议,因为这是受监管的。

所以,你必须对智能体进行调整,确保它永远不会这样做。

通常,你可以做的是设置一个监督模型或某种系统,在结果输出之前运行这些检查。

另一种防护措施是,如果有人发现这是一个生成式系统,想要捣乱。

你也需要能够检查这种情况。

在我们部署这些智能体的几个月到一年的时间里,发现了很多这类情况。
对于每一种情况,你可以进行分类处理。

随着你构建的防护措施越来越多,这个系统就会变得越来越稳固。

几年后,智能体将无处不在。

所以,真正重要的是为人们提供工具,赋予下一代工作岗位(比如智能体监督员)权力,为他们提供构建智能体的工具。

同时,让他们能够添加自己的防护措施,因为我们不会为他们定义防护措施。

每个客户最了解自己的防护措施和业务逻辑。

所以,我们的工作实际上是最擅长为他们构建工具和基础设施,以便他们能够构建智能体。

这就是为什么我们一直在强调:

“你的智能体不应该是一个黑匣子。你应该能够控制如何构建这些防护栏、构建规则以及构建你想要的逻辑。”

我认为在未来几年,这将是评估工具时的首要标准之一。

无论你评估的是哪种类型的智能体,因为你希望随着时间的推移,能够有能力让它变得越来越好。

当我们谈论AI政策时,其中一个重要的方面是应用层,将责任放在大语言模型的用户和运行应用程序的人身上,而不是将模型本身视为危险的东西。

通过模拟攻击,找出具体的用例、攻击方式和漏洞,然后针对性地进行防范,而不是仅仅依赖OpenAI或其他公司设置的措施。

我也认为可能会出现新的认证标准。

就像大家都知道不同行业有SOC 2和HIPAA等标准一样,大多数时候,当你销售普通的SaaS产品时,人们会要求进行渗透测试,我们也总是让供应商进行渗透测试。

对于AI智能体,可能也会出现类似的情况,有人会给它起个新名字,这将是一种针对智能体稳健性的测试。

/ 04 /

使用智能体,如何设置API的关键


如今,人工智能领域的很多事物对我们而言都相当新颖。

可一旦和现有的旧系统产生关联,就如同其他涉及新旧交替的情况一样,会出现各种混乱和东拼西凑的现象。

不过,要是有人打算从零开始搭建人工智能相关系统,其实有不少最佳实践方法能让事情变得更简单。

就拿构建知识库来说,在很大程度上依赖于把知识库构建成高度模块化的小块,而不是写成一篇包含海量答案的大文章。

这就是人们在设置API时能采用的一种实用手段。

我们可以让API对智能体更友好,比如通过特定方式设置权限和输出格式,这样智能体就能更轻松地摄取信息,随后也不用经过大量计算就能快速找到答案。

类似这样的做法有很多,但不是说为了使用智能体就非得做这些不可。

显然,更完善的文档总归是有益的。

在信息组织方面,要是想让用户能够按照最契合自身客户需求或特定应用场景的方式,去引导智能体行动,那么在用户界面和用户体验层面,还有大量的实验等待开展,也有许多全新的领域有待探索。

毕竟,这和传统软件有很大差别。

/ 05 /

构建智能体,用户界面至关重要


当我们有一个智能体,首先要做的是,了解它是如何做决策的。

然后,就可以利用这些信息来决定对它进行哪些更新,以及应该给人工智能提供什么样的反馈。

这就是用户界面发挥作用的地方。

随着时间的推移,它将越来越基于自然语言,这就是智能体的思维方式。或者说,这基本上就是大语言模型的训练内容。

从极限情况来讲,如果你有一个完全超级智能的智能体,它基本上就像人类一样,你可以给它展示东西、向它解释事情、给它反馈,它会在脑海中进行更新。

就像你团队中有一个非常自信的人,他来了之后,你教他一些东西,他开始工作,然后你给他反馈,还能给他展示新文档或新图表之类的新东西。

所以,我认为从极限情况看,它会朝着更具对话性、更基于自然语言的方向发展,人们不再只是采用构建庞大复杂决策树这种权宜之计,这种决策树虽能大致体现你的需求,但很容易出问题。

过去只能这么做,因为没有大语言模型。

但现在随着智能体不断完善,用户体验和用户界面会更具对话性。

/ 06 /

智能体与SaaS软件构建逻辑的一致性


智能体的软件栈有不同的层次。

最底层是大语言模型,从应用层的角度看,大语言模型处于基础位置。

中间可能有一些工具,帮助你管理大语言模型、进行评估等等。

而我们主要构建的是最上层的部分,这其实和普通的SaaS软件没太大区别。

所以,我们做的大部分工作与普通软件并无太大不同。

只是由于大语言模型变化太快,我们多了一个研究环节。

我们要研究不同的大语言模型能用它们做什么,它们擅长什么,针对特定任务应该使用哪个模型。

这是个重要问题,OpenAI不断推出新成果,Anthropic也有新进展,Gemini现在也在不断改进。

所以,你必须有自己的评估体系,确定每个模型的优势,以便在合适的场景使用合适的模型。

有时,你可能想进行微调,这就涉及到何时进行微调,何时值得进行微调的问题。

这些可能是与大语言模型相关的一系列研究问题,但至少到目前为止,感觉变化还没有那么快,因为我们目前对中间层的依赖程度不是特别高。

即使有变化,大多也是升级。

比如3.5 Turbo几个月前有一次更新,我们就会考虑:“好吧,我们是不是应该直接替换使用新的版本?”

然后,运行一系列评估,如果没问题,就可以切换。之后,就不用再担心,因为已经使用了新模型。

当GPT – 4.0发布时,情况类似,要考虑用它来做什么。

在我们的案例中,对于大多数面向客户的用例,它有点慢,所以我们可以在一些后端任务中使用它。

对我们来说,归根结底就是要建立良好的系统,对模型进行研究。

基本上,只要有新模型发布,我们就会评估。

你必须确保即使新模型更智能,也不会破坏你基于现有案例构建的某些功能。

这种情况可能会发生,比如模型整体更智能,但在某些边缘情况下,可能在你的某个工作流程中,它不擅长在A和B之间做出选择。这就是评估的作用。

总体而言,我们非常关注的一种智能类型是指令跟随能力,我们希望模型在指令跟随方面越来越出色。

如果是这样,对我们来说绝对是有益的。

似乎最近很多研究都集中在推理类型的智能上,比如在编码、数学方面表现得更好。

这对我们也有帮助,但不像指令跟随能力那么重要。

/ 07 /

多模态的发展,将推进智能体更进一步


对我们来说,拥有所有模态并扩大市场是很有意义的。

我们基本上对每种模态都有相应的智能体。

一般来说,限制因素有两个,一是我们的客户是否准备好采用新模态。

我认为从文本开始很有意义,因为人们更积极地采用文本交互,对他们来说风险更低,也更容易监控和理解。

另一个重要的模态显然是语音。我认为在市场上,人们对语音的接受度仍有提升空间。

我们看到现在已经有早期采用者开始使用语音智能体,这很令人兴奋。

另外,从技术角度来说,我想大多数人都会认同语音交互的门槛更高。

如果,你和某人通电话,对延迟要求非常高。他们必须非常自然地回应,所以延迟要低。你必须在计算方式上更加巧妙。

如果你在聊天时,回复需要5到8秒,你可能几乎注意不到。

但如果在电话中回复需要5到8秒,就会感觉很奇怪。

所以,语音方面存在更多技术挑战。

随着这些技术挑战的解决,以及市场对采用语音交互的兴趣增加,将开启一种新的模态。

/ 08 /

智能体定价模式的考量与取舍


从历史上看,很多SaaS软件是按席位销售的。因为,你销售的是工作流软件,为的是提高单个员工的生产力。

但AI智能体与单个员工的生产力并无关联。

对于大多数AI智能体来说,它们提供的价值并非与人数成比例,而是与工作量产出相关。

这与我之前说的一致,如果投资回报率很容易衡量,那么就能清楚看到工作量产出水平。

我们认为,按席位定价肯定不合理,可能会根据工作量产出定价。

智能体的定价模式也就是,完成的工作量越多,收费越高。

对我们来说,有两种明显的方式,一种是按对话付费,另一种是按AI实际解决的对话付费。

我们发现一个有趣的现象,大多数人选择了按对话付费模式。

原因是,按实际解决的对话付费,主要优点是你为AI实际完成的工作付费。

但接下来会出现一个问题,什么是“解决”?

没人想深入探讨这个问题,因为可能会出现这样的情况:

智能体几句话就把客户打发走了,并未落到实处。

这很奇怪,而且这会给AI供应商带来奇怪的激励,因为他们会想“我们按解决的对话付费,那为什么不尽量解决更多问题呢?”

即使,在很多情况下,最好的做法可能是将问题升级,但供应商可能会选择直接打发客户,而客户并不喜欢这样。

所以按对话付费模式更简单、更可预测。

我认为,智能体的收费方式,很可能主要和劳动力成本有关系。

智能体最让人激动的地方就在于,以前在服务方面花的钱可能是花在软件上的钱的10到100倍呢。

现在,这些钱有很大一部分会转到软件这边来。

所以,自然而然地,就会把劳动力成本当作重要参考,来决定智能体怎么收费。

对客户来说,账很好算。要是用了能体解决方案,能省下好几百万的劳动力成本,那客户肯定觉得用这个方案很划算。

不过,智能体的价格可能不会太高也不会太低,会在一个中等水平。

因为,市场上会出现各种各样的智能体,有些可能没那么好,但它们也会定个价格。

这就跟平常说的软件即服务(SaaS)那种竞争情况差不多,大家都在竞争,价格就不会太离谱,就会处在一个中间的范围。

/ 09 /

产品好3倍,才能打败SaaS巨头


鉴于智能体公司的产品可能并非为原生AI架构设计,且定价方式基于席位,因此不太适应以结果为导向的定价模式。

这对行业巨头来说有点棘手,如果它们尝试推出智能体,就需要分析其基于席位的模式。

如果,不再需要那么多席位,而新推出的产品又蚕食了当前的收入,那就会很麻烦。

这是行业巨头面临的一个问题。

但也很难说,因为它们拥有分销渠道的优势,产品可能不需要那么好,但人们也不想费力去采用新的供应商,只要当前产品能达道80%的效果就行。

所以,第一,如果我们这样的公司想要成功,产品必须比行业巨头的产品好3倍。

这就是经典的行业巨头与初创公司的竞争局面。

行业巨头自然风险承受能力较低,因为它们有大量客户,如果快速扩张但出现问题,对它们来说损失巨大。

而初创公司总是能更快地迭代,迭代过程会带来更好的产品。这就是一个循环。

对我们来说,我们一直以产品的交付速度、质量以及团队在交付产品时的全力以赴而自豪,这也是我们赢得当前业务的方式。

/ 10 /

智能体时代,人类最大的职责是“监工”


我们坚信,未来人们在工作场所花费在构建和管理智能体上的时间,比如类似人工智能监督员这类角色的时间,会大幅增加。

即便,你的职位名称并非正式的人工智能监督员。

但你过去所做的很多工作,现在都将用于管理智能体,因为智能体赋予了你很大的影响力。

我们在很多部署案例中都看到了这一点,团队中的领导者会花大量时间监控人工智能,检查是否有需要改进的地方,做出调整并监控其运行情况,比如“整体数据看起来如何?

是否有特定领域需要我们关注?

知识库中是否存在能让人工智能表现更好的差距?人工智能能否帮我填补这个差距?”等。

与智能体协作会带来很多工作,人们花在这上面的工作时间会直线上升。

这就是我们公司的核心观点,正如我之前提到的,这就是为什么我们的整个产品都围绕着为人们提供工具,让他们能够观察、解释、控制人工智能智能体。

我认为在未来一年,这将成为一件大事。我认为在很多工作中,对错误的容忍度极低。

在这种情况下,任何人工智能最终可能更多地扮演辅助角色,而不是完全替代人类,比如在医疗或安全等更敏感的行业,几乎要求做到完美。

在这些行业中,智能体的自主性会较低,但这并不意味着它们没有用处,只是风格会有所不同。

而在我们所处的领域,主要是部署智能体让它们自主完成整个工作。

文/树一


PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。


(文:乌鸦智能说)

欢迎分享

发表评论