28岁、6个月,打造人类第一个AI程序员、还有20亿估值的AI独角兽

在 AI 代码领域,Cognition 绝对算得上是个「传奇」。

2024 年 3 月份宣布推出第一个 AI 程序员 Devin,视频累积观看量突破 3000 万,引发全网关注;12 月份 Devin 上线,每月 500 美元的订阅价格,可能也是目前 AI 产品的最贵订阅价格了。

公司 Cognition 成立仅 6 个月,硅谷顶级投资机构 Founders Fund 和 Khosla Ventures 便向 Cognition AI 注资了 1.76 亿美元,推动其估值一举突破 20 亿美元,成为又一个 AI 独角兽

创始人&CEO Scott Wu,华裔,从 2012 年到 2014 年,Scott Wu 连续 3 年获得 IOI(国际信息学奥林匹克竞赛)金牌

Cognition 有很多大客户,年收入 3 亿美元的支出管理公司 Ramp,他们用 Devin 编写测试代码并清理死代码;另一个客户是年收入 17 亿美元的数据平台 MongoDB,其首席产品官 Sahir Azam 表示,公司用 Devin 更新过时的代码架构,为客户节省了数百万美元。

Devin 与主流 AI 代码补完工具最大的不同是,它理论上可以无需人类参与自行编写代码,并完成通常分配给人类开发人员的整个项目。而且,用户可以用多个 Devin Agent 并行完成不同的编码项目。

近日,28 岁的 Scott Wu 接受了著名科技播客 Colossus 的长篇访谈,。他与主持人 Patrick 畅谈了 Devin 的构建过程,Devin 如何使软件工程师的生产力提升十倍,以及 AI 编程对整个软件工程行业未来的趋势性影响。

一些有趣的点

  • 我们一直在采用智能体化(agentic)的方法,我认为最大的跃进在于异步与同步的区别。很多代码助手使用语言模型对代码进行自动补全,这节省了工程师的一部分时间,整体上将工程效率提升了 10% 到 20%。但 Devin 能够承担整个编码任务,它的提升是 10 倍,而不是 10%。用户可以将任务交给 Devin,然后继续处理自己的事情,他们可以同时运行其他 Devin,完成不同任务。
  • 我们关心的是以软件为中心构建能力和产品体验。我毫不怀疑 AI 基础模型的智力会继续提升。但我们使用的所有工具的细节、如何在这些工具中做决策,甚至如何与用户沟通,用户界面在哪里,与 Devin 对话、提供反馈、查看 Devin 的进展、检查并确保没有问题,这些流程中有很多细节,它们真正体现了所谓的智能。
  • 我的观点是,不应该在真空中解决问题,要考虑如何将 AI 的智能转化为对软件工程师及其日常工作真正有意义的帮助。因此,需要做大量的工作来适应特定工具和特定技术栈的能力,产品方面也需要做大量工作。
  • 我认为之后 GPU 和 AI 基础模型的主要使用场景将是智能体,因为每个代理查询所需的 AI 基础模型调用量远远超过单一的问答查询。接下来会发生的是,这些 AI 基础模型公司都会思考,如何构建它们的模型以优化代理使用。
  • 我们有一个单位叫做 ACU——代理计算单元。它基本上涵盖了 Devin 做出的所有决策、使用的框架、运行的代码等。大致相当于 Devin 每工作一小时,用户支付大约 8 到 12 美元。Devin 在一小时内可以完成很多事情,我们的设置这个定价的方式是希望它比用户自己完成这些任务便宜 10 倍。当我们开始拥有执行任务而非仅仅回答问题的人工智能时,这将成为新的范式。
  • 无论你的创业基本功多么扎实,总有另一个层次可以提升。比如尽可能快地前进,在我们的案例中,我们一月份成立了公司,开始构建产品的初版;二月份将产品推向第一批初始用户;三月份进行了发布;四月份完成了一轮大规模融资,五月份与微软达成了重大合作。
  • 自动驾驶与 AI 编码之间的区别,是自动驾驶确实需要达到 99.9999% 的可靠性。而在软件工程方面,Devin 并不是一个 99.9999% 的解决方案,它更像是 2014 年的 Waymo。但关键是让 Devin 完成第一次处理,或者让 Devin 发送代码给你审查。如果让 Devin 完成 90% 的工作,你只做 10% 的工作,这仍然非常有用。
点击关注,每天更新深度 AI 行业洞察

01 

Devin 提升的效率是 10 倍,

而不是 10%

Colossus:Scott,能否先描述一下公司的业务?

Scott Wu:我们是大约一年前(2023 年)成立的,专注于构建将软件工程自动化的 AI。我们正在开发的产品叫 Devin,它是第一个完全自主的 AI 软件工程师。Devin 基本上能够完成软件流程的所有部分,因此用户与 Devin 的协作方式和与人类同事合作的方式相同。

Devin 可以在 Slack 和 GitHub 中使用,利用用户所有的工具并在他的本地开发环境中工作。Devin 不仅会编写代码,还会处理所有相关部分,包括运行本地环境、重现漏洞、查看日志、确定问题所在、测试漏洞、添加一些单元测试,然后向用户提交拉取请求,用户只需进行审核。

Colossus:如果将 Devin 视为一个人类工程师,能否用薪资或经验年限来衡量它的能力?

Scott Wu:刚开始的时候,它相当于高中计算机科学的学生,或者实习生。现在,它更像一个初级工程师。

如果用户说:「我需要你重新架构整个代码库,重写所有内容,使其效率提高十倍,然后我将在一周内进行检查。」这可能不是使用 Devin 的正确方式。

它在很大程度上将每个工程师转变为工程经理,用户可以委派 Devin,让它分担任务,例如:「Devin,看看这个,先做一个初步处理。」Devin 的输出结果也许需要用户修复一些其中出现的问题,或者 Devin 会提出一些需要用户回答的问题。但整个理念是,用户在处理自己的事情或单独工作时,能够异步地与他的 Devin 团队合作。

Colossus:通用模型的一个很酷的地方是,很难预测世界将如何使用它们来构建其他事物。现在 Devin 已经全面开放,你最惊讶的是人们如何使用它来做事情?

Scott Wu:许多新兴的使用案例是我们自己无法预测的。我们合作的公司最早使用 Devin 进行迁移、重构系统和版本升级等工作。

例如,我们与银行、医疗保健公司合作,许多客户的代码实际上已经有几十年的历史,他们希望使用最新的技术栈,使其更快、更高效、更安全,也让开发人员更容易进行开发。但如果你的代码库有 30000 个文件,要进行这种代码现代化的工作会非常麻烦,工作量也非常大。这是我们真正看到客户使用 Devin 最初原因之一,许多客户对使用情况进行了内部研究,发现 Devin 将工程团队的效率提升了 8-12 倍。

因此,这意味着用户只需要提出问题并审核代码,而不必亲自编写代码。在这些使用模式中,许多常规的任务 Devin 能够一口气完成。

Colossus:Cursor 与 Devin 这样的工具有何关键区别?

Scott Wu:自我们成立以来,我们一直在采用智能体(agentic)的方法,我认为最大的跃进在于异步与同步的区别。许多 AI 代码助手工具,都是使用语言模型进行代码自动补全,或者编写某些文件或函数。如果它们写得对,用户只需按 Tab 键确认或接受建议,这节省了他们输入的时间。

这些技术整体上将工程效率提升了 10% 到 20%。但 Devin 能够承担的是任务层面,它的提升是 10 倍,而不是 10%。因为用户可以将整个任务交给 Devin,然后继续处理自己的事情。Devin 能够测试自己的代码,实时运行,查阅文档,甚至自行访问网站。他还能在用户的 GitHub、Slack 或 Linear 等团队使用的技术中进行沟通。用户还可以同时运行其他 Devin,完成不同任务,然后只需要进行代码审查就行。这在产品体验上有许多有意义的差异。

坦率地说,我们的客户认为 Devin 与代码自动补全工具是互补的,许多客户同时使用这两者。

Colossus:既然你正在构建一个「智能体(AI Agent)」系统,请告诉我们「智能体」意味着什么,以及为什么在即将到来的技术时代,这是一个如此重要的构造。

Scott Wu:GPT 在两年前出现,这是对所有人的巨大惊喜。有一段时间,所有基于它的产品基本上就是文本补全产品。这是有道理的,因为语言模型的原生形式就是输入文本,输出文本。

第一个大型代码产品,GitHub Copilot,是一个文本自动补完工具,用户输入自己的文件,自己的上下文,它会预测下一行,如果正确,用户只需按 Tab 键,它会节省用户输入那一行的时间。但它不会节省用户思考这行代码的时间,因为显然还是用户在决定什么是正确的,什么不是。

智能体是一种新的范式,模型可以在现实世界中行动和做出决策。在很多方面,它模仿人类的做法,人类会去和现实世界互动,浏览网站,尝试不同的方法,看看什么有效,什么无效。代理会运行代码,查看输出或查看日志等。

在软件编码方面,拥有代码的文本自动完成确实让用户拥有更高效率,但代理就像有一个完整的工程师与用户合作,这就是它的存在意义。


02 

不要在真空中解决问题,

要考虑AI如何真正帮助工程师

Colossus:投资人会问每个创始人,当OpenAI o1 出现后,你们如何避免被取代?所以请告诉我们 Devin 是如何构建的,以及你在构建过程中如何考虑与这些不断发展的AI基础模型协同工作。

Scott Wu:我们 100% 专注于解决软件工程过程中的所有问题。

事实上,软件工程本身就是非常混乱的。我的观点是,不应该在真空中解决问题,要考虑如何将AI的智能转化为对软件工程师及其日常工作真正有意义的帮助。因此,需要做大量的工作来适应特定工具和特定技术栈的能力,产品方面也需要做大量工作。

一个简单的例子是 Devin 必须集成到用户所有的工具中,Devin 必须在用户的 GitHub 中工作,必须在代码库中工作,必须使用 Confluence 文档或其他存储信息的地方,必须读取 Jira 上的错误报告。

除此之外,Devin 需要随着时间的推移学习代码库。即使是非常聪明的软件工程师,他们在第一天加入公司时,可能也不会和那些在公司工作了五年、对整个代码库了如指掌的人一样高效。Devin 需要以同样的方式理解,比如「这个文件的作用是什么,这些函数的用途是什么,如果我想进行模式迁移,步骤 1、2、3 该怎么做」等。

还有所有实际的逐步决策过程,这与文本/代码补全明显不同。修复一个 bug 时,一个非常自然的流程是:首先,我会尝试自己复现这个 bug,我需要在本地运行所有代码,尝试触发这个 bug。如果 bug 确实发生了,我会查看日志,看看错误是什么,变量具体是什么。

然后,我会阅读相关的文件,测试一下,然后再次测试看看是否有效。如果一切正常,我会添加一个单元测试,以确保它不会再次失败。

我认为你问的另一个问题是,作为一个AI创业者对这些不断改进的 AI 模型有何看法。这是一个非常有趣的问题,因为许多技术进步更多是跳跃性的。

手机问世时,第一个问题是,当每个人口袋里都有智能手机时,你会做什么?在某种程度上,这是 Uber、Airbnb、DoorDash 等公司的核心。

你可以这样想,这是技术的转变,让我们思考在未来几年,随着这种转变的到来会发生什么。AI 更多的是一种渐进的事物。从 GPT-3、3.5 到 4,每一个小技术随着时间的推移都会有所改进。这意味着,真的要考虑模型本身随着时间不会做什么。

我们关心的是以软件为中心构建的能力和产品体验。我毫不怀疑 AI 基础模型的智力会继续提升,但我们使用的所有工具的细节、如何在这些工具中做决策,甚至如何与用户沟通,用户界面在哪里,与 Devin 对话、提供反馈、查看 Devin 的进展、检查并确保没有问题,这些流程中有很多细节,它们真正体现了所谓的智能。

我们一直以这样的方式思考:如何确保我们所做的一切都能与模型的提升相辅相成,也与其他所有部分相辅相成,作为专门为软件服务的技术栈的一部分,如何尽可能地做好。

Colossus:你们什么时候发现 Devin 对于软件工程师是真正有用的?

Scott Wu:我认为 Devin 的工作方式在于,它有很多迭代的流程,这些流程非常自然。例如,如果不仅仅是编写一个 demo,而是「我需要你在我的代码库中工作,构建一个新功能,并将其插入所有现有内容并进行测试以确保它工作。」那么显然所有这些迭代步骤,都是 Devin 为你完成的事情。

像 AI 版的 Stack Overflow 那样帮助人们发现问题,并调试软件,实际上是 Devin 的第一个 Aha moment。

Stack Overflow 是一个面向程序员和开发者的问答社区,旨在帮助用户解决编程和技术相关的问题。它是全球最受欢迎的编程问答平台之一,拥有庞大的用户群体和丰富的内容资源。

当我们为自己的工作设置 MongoDB 数据库时,因为每个人的设置方法思路总是有点不同,总有一些小细节会让你卡住。我们花了一段时间试图设置 MongoDB,但一直运行不好。所以我们就交给 Devin 了,我们说,「你能不能帮我把它本地运行起来?」

任何做过的人都知道这个流程基本上是给你一组命令,你尝试,但不起作用。然后你阅读错误,复制粘贴,试图搞清楚发生了什么,Google 一下,找到解决方案,然后运行,接着又遇到另一个错误。你重复 10 次,直到事情正常运作。然后 Devin 做到了。它不会像 Stack Overflow 一样,只是给你一个答案。

Devin 看到错误后会说,「让我看看发生了什么,让我们检查哪些端口是开放的,让我看看数据库的架构,让我看看 socket 连接是否已经设置好了。」它会运行所有这些命令,去查看那些信息,然后决定,「好的,下一步我该尝试什么?」然后它尝试那个,如果遇到新的错误,它就能调试。集成的自主流程,我认为这是最大的区别。

Colossus:你如何在构建 Devin 的过程中使用 Devin?

Scott Wu:在构建 Devin 时,我们大量使用 Devin,它提供一种非常异步化的全新工作流程。

举个例子,我们所有的沟通都是在 Slack 中进行的,也有几个 Slack 频道:crashes 频道,每当有生产环境崩溃时都会报告;front end 频道,在这里讨论任何前端功能请求;bugs 频道,用户在这里提交 bug 报告。在所有频道中,每次有新的报告时我们都会让 Devin 来处理。

Devin 并不完美,它只是一个初级工程师,通常需要指导。大约有 50% 的时间,Devin 输出的是可以直接合并的可用代码;其余 50% 的时间,你需要确定是继续指导 Devin,还是自己进行一些修改,甚至是自己从头开始。

我们还有两种使用 Devin 的场景。第一,既然你无论如何都需要报告 bug,那么不妨在工作流程的最后调出 Devin,这样就可以很快获得一次测试的结果。

另一个例子,作为工程师,你会在审查代码时看到一大堆小问题,比如,「这些代码太混乱了。这个东西在技术上是正确的,但不是最稳定的做法。」这些小问题会分散你的注意力,影响你的专注。你可以从 IDE 中启动 Devin,针对每一个问题说:「你能快速重构这个吗?」;或者「你能把这个改为类型安全吗?」然后 Devin 会帮你修复,进行异步处理,同时你自己继续进行项目。

Colossus:如果 Devin 的部分秘密在于整个过程的迭代性和自主性,那么构建这种能力的最难部分是什么?

Scott Wu:显而易见的是模型能力本身。如果你现在考虑「我正在进行一个逐步的过程来做决策,以最大化我在 100 步后解决问题的机会。」那么显然这是一个完全不同的解决目标。

但我认为不仅如此,基础设施和整体体验也非常复杂。例如,Devin 有它自己的运行机器,你希望支持的很多功能,例如回滚机器状态,快速处理加载,能够立即启动一个新的 Devin 实例,能够导航所有之前的决策,前后切换这些不同的内容,或者能够并行处理不同的 Devin 等。

我认为这归结为软件工程的混乱部分,确实与在真空中解决问题非常不同。Devin 需要使用所有的集成,能够维护用户的机器状态或在用户的 Git 检出中工作。

Colossus:你希望基础模型公司在哪些方面改进,能够使 Devin 在未来比现在更有效?

Scott Wu:基础模型公司都对智能体(agents)非常兴奋,这是有道理的。比如你问 GPT 一个问题,得到一个答案,这是一个单一的模型查询,当然,消费者定价也是如此。但如果按 API 定价计算,那成本是百万分之一美元。

然而,如果你问 Devin:「我有一个新功能需要你构建,能否构建并测试,确保它能够正常运行?」Devin 可能会在接下来的半小时内做出数百甚至数千个决策,而这意味着需要更多的 GPU 推理时间。因此,在接下来的一段时间内,甚至在未来一年内,我认为智能体会变得更加普及。

我认为之后 GPU 和 AI 基础模型的主要使用场景将是智能体,因为每个智能体查询所需的 AI 基础模型调用量远远超过单一的问答查询。接下来会发生的是,这些 AI 基础模型公司都会思考,如何构建它们的模型以优化智能体使用

我认为处理多轮跟踪、能够处理长上下文输出等技术会有很大帮助。上下文是人们花费大量时间思考的一个大问题。对于代理,比如说它有半小时的决策过程,显然了解过去半小时发生了什么会很有帮助。


03 

创业的核心,

是团队聚在一起做一些有意义的事

Colossus:在过去一年创立 Cognition 的过程中,最困难或压力最大的时刻是什么?

Scott Wu:我最喜欢的是产品发布。你知道创业公司的情况,事情总是非常临近 DDL。最近我们会有发布会,在三月份我们也有初始产品发布。对于这两次发布,发布前的几天是最有压力的,但也是最难忘的经历。

三月份的发布非常重要。显然,产品本身需要与早期用户进行测试,确保一切都按预期运作。然后还有拍摄视频、思考博客文章、策划内容、发布信息、与客户合作获取推荐等所有其他事情。

在三月份的发布期间,我们还在进行融资。我们要处理那些在我们视野范围中的、有意义的候选人,进行各种工作。

那次发布有一篇由阿什利·万斯为彭博社撰写的关于我们公司的文章。原本计划在周二早上 6 点发布文章,我们请求他们稍微推迟了一点,改为周二早上 9 点发布——我们需要那额外的几个小时。那天晚上 1、2 点我们还没完成发布视频的拍摄,还必须准备好应对 10 倍甚至更多的用户负载。这些都是我们为了准备发布必须做的事情。

那是一个疯狂的周末,大家聚在一起,真正一起完成所有事情。这也是我们都住在同一所房子里一起工作很棒的原因之一。因为共享的经历有某种特别的意义。我觉得如果在办公室的话,不会有同样的感觉。

Colossus:我对产品发布特别感兴趣。我觉得其中包含了很多商业元素。你能回顾一下这两次发布中,最好的和最糟糕的部分分别是什么吗?

Scott Wu:说实话,团队的经历是最好的部分。能够一起建立和完成这些事情,真的是创业公司的灵魂。

至于最糟糕的部分,发布前一天晚上,我们做了用户负载测试,但 Devin 当时发生了故障,所有信息都崩溃了,我们根本无法应对负载。我们原本预计每分钟能处理非常多的并发的 Devin 会话,但根本不 work。幸好之后解决了,有时候你只能把它推出去,尽力而为。

Colossus:我很想了解你是怎么从一个 IOI 金牌获得者变成一个成功的创业者。你在构建 Lunch Club(Scott Wu 的上一家创业公司)时的过程,以及这段商业生涯对你有哪些启示?

Scott Wu:Lunch Club 是我的第一家公司,我为了创办这家公司辍学了。首先,它是为专业网络搭建的人工智能平台。我们促成了数百万次会议,无论是团队还是产品的构建都很有趣。

我觉得大家常谈的创业智慧,它们几乎变成显而易见的真理,以至于人们容易忽略它们的重要性。比如尽可能快地前进,招聘上绝不妥协,尽可能贴近客户,专注于构建用户喜爱和需求的产品。但事实是,无论你的创业基本功多么扎实,总有有可提升的空间。

比如尽可能快地前进,在我们的案例中,我们一月份成立了公司,开始构建产品的初版;二月份将产品推向第一批初始用户;三月份进行了发布;四月份完成了一轮大规模融资,五月份与微软达成了重大合作。同时,我们获得了许多企业客户,团队也在不断壮大。

无论你前进得多快,尝试推动更快的步伐仍然是值得的。无论你与客户的接触有多紧密,对他们的问题理解得多深入,你可能都不会后悔花更多时间与他们相处,深入了解。此外,无论你在招聘上的标准有多高,你可能都不会后悔追求更高标准的人才。我认为这是我在创业过程中学到的最重要的一课。

Colossus:Lunch Club 在创业上给你带来了什么样的教训?最大的收获是什么,如何将这些经验应用到 Cognition 中的?

Scott Wu:最大的一个教训是,有时候解决一个更大的问题比解决一个更小的问题更容易。人们常说,如果你追求一个真正庞大且令人兴奋的事物,你将能够聚集一群对实现它非常兴奋、充满热情并致力于推动前沿的团队成员,这有时候会使事情变得更容易。

例如,我们的团队现在大约有 20 人,其中 14 人曾经是创始人。我们都曾经创办过公司,这是一个非常非常有才华的团队,很多人如果愿意筹集资金并做自己的事情,完全可以获得一笔空白支票。但很多时候,我们只是想要聚在一起,构建一些真正伟大的东西。

Colossus:在你与投资者沟通时,关于产品、公司或愿景,人们没有问你们但应该问的问题是什么?

Scott Wu:这是个好问题。我认为一个明显的不同点是,人们有时只是在谈论或询问与团队的体验相关的内容。例如,将产品推向市场,看到人们对它的反馈,与用户交流。

我认为我们作为一个团队如何构建 Cognition,是真正特别的。我们有一些最聪明、最有雄心和最有能力的人,但他们都如此低调。我认为对我来说真正的核心,就是 20 个人住在一个房子里,试图做一些有意义的事情。我认为谈论它与真正亲眼看到它,是完全不同的。

所以我们经常做的一件事是让人们来房子里看看那是什么样子。可能是凌晨 1 点或 2 点,人们仍在工作和创造,有很多讨论,事情进展迅速。这大概是构建公司的过程中我最感激的事情。


04 

定价模式,

会从使用量变为效果付费

Colossus:你们是如何思考和制定定价策略的。

Scott Wu:对于智能体(AI Agent)来说,无论好坏,最终都归结为使用量。

这背后有输入和输出的原因。对于输入来说,运行成本确实更高。你需要处理更多的查询和工作,每个任务或作业所需的 GPU 计算也更多。但我认为在输出方面,同样显而易见,当你开始承担任务时,会有真正的端到端任务。

衡量这种东西的具体影响要干净得多,也清晰得多。我们基本是基于价值定价,我们希望让用户在构建项目、修复漏洞或优化功能时成本降低 10 倍,因此我们希望 Devin 的运行成本也降低 10 倍。

我们有一个单位叫做 ACU——代理计算单元。它基本上涵盖了 Devin 做出的所有决策、使用的框架、运行的代码等。大致相当于 Devin 每工作一小时,用户支付大约 8 到 12 美元。Devin 在一小时内可以完成很多事情,我们设置这个定价的方式是希望它比用户自己完成这些任务便宜 10 倍。当我们开始拥有执行任务而非仅仅回答问题的人工智能时,这将成为新的范式。

Colossus:关于我们是否已经实现了通用人工智能(AGI),我很好奇你的看法。

Scott Wu:我认为,某种意义上我们已经拥有 AGI 了。在 2017 年 10 月,如果你问我们是否拥有 AGI,答案是否定的。而在 2024 年,如果你问是否拥有 AGI,答案取决于你如何定义 AGI。我认为 AGI 的定义是循环的,有人会说 AGI 能完成 80% 的人工劳动。但如果 AI 真的能完成 80% 的工作,人类可能会专注于那剩下的 20%,所以这 80% 的说法又变得无效了。

但从实际角度,我认为会有一个过程,我们会不断推动能力的发展,一段时间内会有许多「小事」需要解决,比如人类在某些方面仍然表现得更好。然后 AI 解决了那些问题,人们又会说,人类在另一个方面仍然更擅长。显然,作为人类,我们有很多自豪感,想要找到让我们独特的东西。

从实际意义上说,显然更重要的是人工智能是否足够好,是否被整合到产品中,并且分布得足够广泛,以至于真正影响了世界、经济和人们的日常生活。更重要的问题是,人类是否因为人工智能技术而实际提高了 25 倍的效率。

现在人工智能在解决数学问题上已经令人震惊地优秀,已经可以处于人类的顶尖行列。区别更多在于:这种智力水平是否被全球每个人所使用,并以一种真正为他们带来巨大价值的方式使用。是否实际推动我们实现大规模 GDP 增长、效率提升、生活质量改善的巨大转变。

Colossus:投资者大多痴迷于 Scaling Laws,因为这对AI公司有着巨大的影响,如果你正在关注基础模型领域的动态,你会花时间思考什么、关注什么?

Scott Wu:我认为 Scaling Laws 有点像一个神话。我们确实在这些模型上持续取得进展,推动了能力的提升;而且我们也发现了很多新技术,后训练(Post-Training)的效率也更高,还有诸如强化学习之类的技术。

当然,Scaling Laws 确实存在,但我认为我们看到的很多进展基本上是因为新技术的引入,使得这些技术更加高效,或者允许其在规模上超越之前的水平。因此,人们有时会将 Scaling Laws 描述得好像只要有足够的硬件,模型就会不断变得更好、更强。而我认为达到现在的模型水平,一方面得益于 Scaling Laws,但也是创新的推动作用。

从 AI 基础模型的角度来看,我们总是希望密切关注最新动态以及接下来的发展。我们与所有基础模型公司紧密合作,与他们一起评估早期模型,进行定制化的模型训练。我们认为这是一个渐进的过程,作为决策者,最重要的是要清楚哪些能力会得到提升,以及哪些能力、产品或人类体验需要与这些能力互补,以便为你的客户提供有价值的东西。


05 

未来AI承担 90% 的工作,

人类专注 10% 的创造性部分

Colossus:对于竞争环境,你觉得这是一个充满希望的绿地,还是像战场一样,每一个可用的机会都竞争激烈,充满了激烈的竞争和锋利的角逐?

Scott Wu:我认为这仍然是一个非常有潜力的绿地,技术本身还处于非常早期的阶段。它的实际价值可能还需要一两年的时间才能真正体现出来。我经常想到的一点是,软件领域实在太大了,它有非常多的方面和细节,用 AI 可以完成很多完全不同的事情。

我的一种思考方式是,我们讨论的每一个用例,都有巨大的、非常有意义的业务可以围绕该用例构建。比如数据可观察性的人工智能,有 Datadog,年收入数十亿美元,发展非常迅速。事件响应领域也有很多优秀的企业,比如 PagerDuty。但人工智能将使这些领域再次扩大几个数量级。

测试、代码现代化、客户迁移也是如此。即使在今天,像微软、亚马逊、谷歌等大公司,将客户迁移到他们的平台上所需的努力也是巨大的,每年要花费数十亿甚至数千亿美元。这些领域都是如此庞大,而且关于产品形式因子的许多问题仍然存在。随着技术的不断进步,我们能够支持的用例类型只会变得更大。

Colossus:你认为世界现在对你的领域有哪些高估和低估的地方?特别是在软件工程的自动化方面。

Scott Wu:发展速度可能是一个被高估的方面。如果我们看看人工智能的整体发展,智能体(AI Agents)在各个领域都会真正发挥作用。代码是其中一个,但我几乎可以说,第一个智能体,实际上是自动驾驶汽车。这是一个真正的人工智能,在现实世界中做出决策,接受反馈并进行迭代。

当我 2014 年住在山景城时,经常看到 Waymo 的汽车在街上行驶,我相信我将能够使用它们。我们最终将达到那个阶段(Level 5 级自动驾驶)。当然,仍有很多成长空间,也确实还需花费大量时间。

自动驾驶与 AI 编码之间的区别,是自动驾驶确实需要达到 99.9999% 的可靠性。而在软件工程方面,Devin 并不是一个 99.9999% 的解决方案,它更像是 2014 年的 Waymo。但关键是让 Devin 完成第一次处理,或者让 Devin 发送代码给你审查。如果让 Devin 完成 90% 的工作,你只做 10% 的工作,这仍然非常有用。

Colossus:你在 17 岁左右获得 IOI 金牌,因此,你可以说是世界上最好的程序员之一。那些在竞赛中表现优异的人具备哪些使他们优于他人的品质?竞争的前沿是什么?在这个领域,你试图在哪些方面超越对手?

Scott Wu:这些竞赛更像是算法问题竞赛。但在所有这些事情中,我认为编程的核心就是能够深刻理解抽象,并在抽象层面上工作。

我认为这在今天的软件中依然如此,软件工程的核心部分是将客户的问题或自己的产品问题,真正弄清楚,并找到解决方案。想清楚你将如何表示它,如何架构它,考虑清楚所有情况和细节。

有趣的是,显然这是每个工程师都喜欢的软件部分,我认为这也是,将一个人从普通工程师区分为 10x 甚至 100x 工程师的关键所在。

与此同时,这可能仅占普通工程师工作量的 10% 左右,因为他们其余的 90% 时间用于调试、实现、设置、测试、处理他们的 DevOps、找出数据库崩溃的原因,或处理所有这些看起来更像实现而不是创造性的各种事情。但即便如此,我会说创造性和问题解决实际上真正定义了编程。

Colossus:能否为我们描绘一下,你对未来五到十年计算机编程的猜测?

Scott Wu:首先,你问的是竞技编程。历史上最好的程序员是一个叫做 Gennady Korotkevich 的人。我可以想象,在未来一两年内,我们将有能够在下一个编程竞赛中击败 Gennady 的 AI。我认为这将像 AlphaGo 那样的时刻,人们会感叹,「哇,真的存在这样的东西。」

软件工程整体上会发生什么,我回到我们之前讨论的那个点,所有的编程实际上就是告诉计算机你想要它做什么。许多与 AI 和 AI Agent 相关的工作,实际上只是下一代的人机界面。如果你考虑一种编程语言,比如说 Python,可能是目前最流行的语言,但如果你真正仔细看,它是一个巨大的妥协。

从人类方面来看,显然你必须学会编码。世界上 99% 的人不会编码,而且需要多年时间来学习所有的细节。而你学习这些东西,仅仅是为了与计算机对话。

从计算机方面来看,Python 本身其实出了名的慢和低效。如果你真正了解如何在裸机汇编上运行代码,你可以使所有系统运行速度快十倍甚至一百倍。

我认为 AI 将真正解决的一个重大问题,本质上这是个翻译问题,即任何人,不需要经过编码训练的人,可以准确描述他们想要构建的东西。计算机将构建高效且功能完整的版本。这需要一些时间才能实现。显然,我认为这是我们未来的方向。

Colossus:在五年内,让我这个没有任何计算机科学经验的人,能够以高保真度获得我想要的东西,而无需依赖人类程序员。你认为这可行吗?

Scott Wu:我认为这是可行的。我认为五到十年是一个合理的范围。对此我想补充一点,现在我们假设应用程序必须能够泛化。

或许可以这样说,今天的软件工程成本如此之高,以至于唯一值得构建的软件是能够覆盖数百万人的应用程序,就像 YouTube 或者 DoorDash 之类。

但有很多东西,如果用代码来服务,会更好。几千人的社区,小团体或小众,甚至是为一个人量身定制的个性化产品。

因此,无论你的日常琐事是什么,实际上都更适合用代码来处理。这些代码可以完成您可能需要做的一切,并使所有的执行更加清晰。

我们之所以没有做到这一点,是因为世界上没有人觉得每次想做新事情时,都为自己的个人使用案例编写自定义软件是有意义的。但我认为我们将达到这样的阶段。

Colossus:你之前提到,工程师只有 10% 的时间花在创造性的部分,而 90% 的时间可能用于确保事物正常运行,更像是机械师,而不是创造性、生产性的工程师。那么,这是否意味着在短期内,Devin 和其他类似系统将帮助我们完成那 90% 的工作,让程序员专注于那 10%?

Scott Wu:我认为这完全正确,AI 承担了所有的杂项:实施、调试和迭代,节省 90% 的时间。然后,工程师可以专注于那 10% 中的 10 倍。显然,关于 AI 能力提升后,对人类工作的影响和代替性,人们有很多恐惧。

但我认为软件的一个非常美妙的地方是,如果我们在过去的若干年里有 10 倍的能力,实际上还有 10 倍或更多的软件可以被开发。如果你与任何一个工程团队交流,没有团队会说:「是的,我们已经构建了我们想要构建的一切。」每个团队都有 20 个项目想要做,但由于软件工程师太少,软件开发耗时太长,他们只能选择其中的三个来进行。

我真诚地认为,我们将看到很多杰文斯悖论的情况:随着软件开发变得更容易,我们将不断构建更多的软件。

杰文斯悖论:指的是当技术进步提高了使用资源的效率(减少任何一种使用所需的数量),但成本降低导致需求增加,令资源消耗的速度是上升而非减少。

现在开发软件比上世纪 80 年代大约容易 10 倍左右,类似的转变显然会更快发生。

长期来看,我认为软件工程的核心,还是每个人决定自己要解决哪些问题,以及要构建什么样的解决方案。人工智能不是魔法,显然它不会为你解决所有问题,但它会赋予你精确定义你想要的解决方案的能力,并能够实现和构建它。

Colossus:如果我们之前一直受制于开发能力的供应,而这种情况即将消失,这是否意味着未来那些在需求和分销方面做得更好的人将会胜出?

Scott Wu:我认为在软件领域,我们一直受制于供应而非需求。显然,有很多需求是相对固定的。我认为关于经济会发生什么,会有许多有趣的二阶效应,有很多有趣的问题。

最简单的说法是,科技领域的所有资金流向何处?风险投资的资金流向何处?主要流向软件工程师。因此,当你为每个软件工程师带来 10 倍的效益时,这确实改变了格局——人们能够用产品构建的东西以及能够做的事情有了很大不同。然后,我认为从长远来看,企业会看到许多有趣的影响。

如果我们直白地说,我看到几类不同的企业。我认为最难处的类别是高度依赖转换成本和锁定的企业。很多软件企业之所以能赚取大量收入,是因为切换到其他产品或技术非常痛苦。

如果 Devin 能够完成所有的实施和迁移,且这些成本降为零,显然更多的竞争将转向拥有更好的产品。这将是公司需要应对的真正转变。

同时,这并不是虚无主义的观点。你知道,有很多东西将依然强大,甚至更强。网络效应我认为将永远是金子。数据和个性化将变得更加强大。因此,拥有基础设施的企业,或者拥有所有个人关系和数据的企业,能够为每个人提供真正优化的个性化产品,而不是那种笨拙的、适用于所有人但对任何人都不完美的产品,我认为这些企业将会表现非常出色。

Colossus:技术会带来成本曲线下降。人工智能中最明显已经发生的一点是,边际内容创作的成本在所有不同形式的媒体中都开始趋近于零。看起来在你和你正在构建的东西中,软件本身的成本也在经历同样的曲线。

在这样的现实中,如何建立一家软件企业?如果我快进 10 年,或者足够长的时间,为什么 Devin 还需要成本?为什么不会有一个开源的 Devin 为我做所有事情?如果我们进入一个边际软件创建成本接近于零的时代,我为什么还需要为软件付费?

Scott Wu:我认为现在 Devin 是市场上唯一在做这件事的。但正如你所说,我相信很快就会有很多竞争对手出现。那些想要在代码方面做类似事情的人对消费者来说是好事。我们刚刚讨论了 10x 工程师之类的事情。

事实上,作为软件工程师,你在决策层次、质量和技能层次上的每一个层面,都有这种指数级的回报曲线。其中一件显而易见的事情是,我们能够真正根据每个客户进行高度个性化的 Devin。

例如,对于 Devin 的许多客户来说,Devin 了解整个代码库的每一个细节,Devin 编写了代码库中的一半文件。这些细节,不仅仅是代码行,还有决策过程、思维过程等,这些 Devin 都已经内化并与整个工程团队合作。

这确实是一个权衡:一个可能聪明且敏锐的工程师,今天刚开始接触你的代码库,与一个已经在你的代码库中工作了多年,了解每一个文件,构建了所有这些功能,并且完全理解你的工程师在问某些问题时是什么意思的工程师之间的权衡。

这可以归结为纯粹的技术转换成本,比如将所有文件迁移到某个新平台或转移到某个不同的平台。是的,我认为随着时间的推移,这将变得越来越便宜。与此同时,如果你拥有个性化的水平,如果你拥有网络效应或其他因素,这不仅仅是关于转换成本,而是关于你能够提供更好的产品。




(文:Founder Park)

欢迎分享

发表评论