AI创业者的惨痛教训:押注模型准确性是产品陷阱,利用模型灵活性才是答案

随着越来越多AI产品落地,很多投资人心中都有一个疑问:


到底什么样的AI应用才值得投资?

关于这个问题,我们或许能在Andon Labs联合创始人(YC 24W孵化)Lukas Petersson的一篇文章中找到答案。

最近,Lukas Petersson在YC Hacker News发布了一篇文章,内容是其在调研了100多个YC校友项目并复盘了Richard Sutton著名的文章《痛苦的教训》后提出:

现在大量AI产品在当前模型的局限性上投入过多精力,但从长期看,创业公司更应该押注那些能够充分利用大模型自主性与灵活性的机会。

这个文章一经发布就引发了广泛的讨论。今天,乌鸦君就为您编译了这篇文章,以下是该文章的核心观点:

1)从历史角度来看,通用方法总能在人工智能领域胜出。
2)现在人工智能应用领域的创始人正在重蹈过去人工智能研究人员所犯的覆辙。
3)更出色的人工智能模型将催生通用型人工智能应用。与此同时,围绕人工智能模型的软件附加值将会减少。


/ 01 /

通用方法总能胜出

2019年,理查德·萨顿(Richard Sutton)以如下文章作为其著名文章《痛苦的教训》的开篇:

“从70年的人工智能研究中可以得到的最大教训是,利用计算的通用方法最终是最有效的,而且优势巨大”。

他提到,在人工智能的发展历程中,研究人员曾屡次尝试将人类领域的知识融入系统,进而推动AI技术进步。

但后来大家发现,一个拥有更强算力的系统,效果远远好于其他精心设计的解决方案。这种趋势并没有停止,未来仍将延续。

这个《痛苦的教训》基于以下历史观察:

1、人工智能研究人员经常试图将知识构建到他们的智能体中;
2、这在短期内总是有帮助的,并且让研究人员个人感到满足;
3、但从长远来看,它会停滞不前,甚至阻碍进一步的进步;
4、而突破性的进展最终会通过一种基于扩展计算资源的相反方法实现。

本文着眼于应用层的人工智能产品,其中“更好”既指性能,也指市场接受度。更好的性能意味着处理更复杂的问题,从而释放更多价值。

图 1,不同类型的 AI 产品说明


目前,人工智能产品通常是将人工智能模型封装在某些配套软件中。你可以通过两种方式提高其性能:

通过工程设计:通过单一领域知识输入,在软件上实现特定的功能
通过更好的模型:等待人工智能实验室发布更强大的模型

对于创业者来说,这两条路并不冲突。但问题在于,随着模型的改进,工程工作的价值会降低,甚至最后根本不用复杂的工程设计,模型就能解决大部分问题。

图2说明了在应用层构建 AI 产品时工程投入的回报递减。随着工程投入的增加和更好的模型的发布,价值也会减少。

上图显示了随着模型的改进,工程工作的价值如何降低。

当前的模型存在很大的局限性,这意味着公司仍然可以从工程工作中获得很多收益。

在YC校友演示日上,我看到很多产品都利用这点实现了成功。这些工程层面的成功大致可以分为两类:

一类是产品已大规模投入生产(解决相对简单的问题)——目前来看是少数;另一类则瞄准稍微复杂的问题。第二类公司表现良好,因为他们的概念验证表明,通过足够的工程努力,他们可以实现相应的目标。

但这些公司面临的关键问题是:下一个模型发布是否会让所有这些工程工作变得毫无意义,进而彻底摧毁它们的竞争优势?

OpenAI的o1模型的发布就说明了这种风险。

我和很多AI应用的创始人聊过,他们都很担心。因为他们在优化提升上投入了大量的资源,但随着o1发布,提示工程的重要性逐渐下降。

从本质上讲,这项工程努力旨在限制人工智能并减少其错误。通过观察许多解决方案,我发现了两种主要类型的限制:

特异性:指的是解决方案的专注程度。垂直解决方案的配套软件是为解决特定问题而构建的。相比之下,通用型产品可以处理多种不同类型的问题。

自主性:衡量人工智能独立运作的程度。按Anthropic的术语,我们将其分为Workflow(LLM和工具遵循预定义代码路径的系统)和Agent(LLM控制自身流程和工具的使用,自主决定如何完成任务的系统)

这两种类型构成了一个对人工智能产品进行分类的框架:

表 1:著名AI产品分类。请注意,ChatGPT可能遵循每条消息的预定义代码路径,使其成为工作流而不是代理。

让我们来探索一下如何针对同一项任务实施每个类别:业务分析师制作投资路演幻灯片。以下是每种方法的一种可能方法:

Vertical workflow:固定的步骤顺序:首先,对公司数据库进行RAG查询,将其传递给小型LLM进行汇总,然后传递给更强大的LLM,提取关键数字并使用计算器工具。LLM在编写幻灯片内容之前检查这些数字是否有意义。最后,幻灯片生成器创建演示文稿。每次都按此顺序运行。

Vertical agent:LLM循环运行,使用一次迭代的输出作为下一次迭代的输入。它可以访问与工作流版本相同的工具,但自行决定何时使用它们。循环持续进行,直到代理确定结果符合其质量阈值。

Horizontal workflow:ChatGPT和类似工具可以协助完成部分任务,但无法端到端地完成任务。它们既缺乏完成全部工作所需的专业化,也缺乏自主性。

Horizontal agent:Claude 计算机使用可以访问标准的办公软件。分析师用自然语言提供指令,代理像人类一样操作计算机,根据需要调整其方法。

演示日上几乎所有的产品都属于垂直工作流程类别。这是有道理的——目前的模型对于其他方法来说不够可靠。

即使是对于垂直Workflow而言过于复杂的问题,也被被迫采取这种模式。因为这是当前模型能力下接近可接受性能的唯一方法。

虽然工程可以改进这些解决方案,但它所能实现的效果有明显的上限。对于当前模型无法解决的问题,更好的策略是等待一个更强大的模型。

正如利奥波德·阿申布伦纳 (Leopold Aschenbrenner)在《情境意识》中所说,对于许多问题,工程工作将比等待更好的模型花费更长的时间:

“看起来,这种拖延需要的时间会比放松需要的时间更长,也就是说,当即插即用的远程工作者能够自动化大量工作时,中间模型尚未得到充分利用和整合。”

这种模式听起来应该很熟悉。

人工智能研究人员反复尝试设计出“可接受的性能”,但最终却被更通用的解决方案所取代,而这些解决方案只需要更多的计算。

这与当今人工智能产品的构建方式惊人地相似。我们可以通过研究《痛苦的教训》如何应用于我们提出的两种约束类型,我们可以更清晰地理解这种联系:


对于解决路径不明确的问题,自主性更强的产品将取得更好的效果。同样,在处理大型、复杂的输入空间时,特定性较低的产品将表现更好。

我们观察到一种历史模式:利用领域知识的垂直模型始终被利用计算的AI模型所取代。当今的AI产品与这种模式有着惊人的相似之处。

在我看来,考虑到模型正在高速进化,构建软件来弥补当前模型的局限性,注定会失败。

正如YC合伙人Jarred在Lightcone播客中所说:

“第一波LLM应用程序(垂直工作流程)大多被下一代GPT打败了。”

此前,Sam Altman也一再强调,创业者应该对更好的模型发布而感到兴奋,而不是害怕。

我接触的许多人工智能应用层的创始人都对模型发布感到兴奋,但实际上,如果从公司发展角度来说,对他们未必是一件好事。

因为他们忽略了一件事:

更好的模型实际上可能会降低你的优势,而不是增强它。当然,从产品性能的角度看,也存在另一个可能——构建能够更有效地解决更困难问题的产品。

/ 02 /

补充附录

附录A:《惨痛教训》统计图:

一种方法可以通过基本统计数据来理解《痛苦的教训》。在构建模型时,你通常会面临一个权衡。你可以创建一个非常精确地处理问题的模型(高偏差),或许可以创建一个更灵活但更不可预测的模型(高方差)。

《痛苦的教训》建议选择灵活的方法,因为模型可靠性问题可能用更多的算力和数据区解决。

回到现在,虽然垂直工作流程和特定约束能让AI产品变得更加可靠,但限制了它最终能达到的水平。相比之下,让AI更自由地运作,在今天看来似乎有风险,但随着模型进化总会找到更好的解决方案。

正如一直强调的观点:从历史上看,押注灵活性一直是一种失败的策略。

附录 B:端到端与特征工程

图 1:传统机器学习需要手动特征工程,而深度学习采用端到端方法。传统方法需要人类定义数据中什么是重要的,而深度学习可以自行找出答案。

传统的机器学习需要人类来决定数据中什么是重要的。你获取原始输入(如图像),然后手动提取有意义的模式或“特征”-例如计算特定形状或测量某些属性。相比之下,深度学习会自动学习这些模式。

图 2:自动驾驶汽车可视化显示特征提取的实际操作。该系统识别并跟踪特定物体,如汽车、行人和车道标记。这代表了将复杂问题分解为更小、明确的部分的传统方法。

让我们以自动驾驶汽车为例。你可以通过两种方式构建它:

特征工程:将汽车所看到的东西分解成具体的部分——其他汽车在哪里、车道在哪里、行人移动的速度有多快?

端到端:将原始视频直接输入神经网络并让其弄清楚如何驱动。

特征工程方法感觉更安全、更可控。这就是它在早期人工智能中占据主导地位的原因。但正如乔治·霍兹所观察到的:“如果人工智能的历史教会了我们什么,那就是特征工程方法将永远被取代,并输给端到端方法。”

图 3:Sholto Douglas 的推文

这直接关系到我们对AI产品的讨论。构建垂直特定工具就像特征工程一样——你要提前决定哪些信息是重要的。当你限制模型的自主性时,你做的也是同样的事情。虽然这在今天可能效果更好,但历史表明,从长远来看,押注端到端方法将会获胜。


‍‍


PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。


(文:乌鸦智能说)

欢迎分享

发表评论