刚刚,OpenAI发布自主编码代理Codex,程序员的工作将被彻底颠覆?

编码再也不用敲键盘了!

OpenAI刚刚发布了全新的自主编码代理Codex,一个能自己构建功能和修复bug的AI助手!

这已经不是简单的代码补全工具,而是能够独立完成整个编程任务的AI代理。

OpenAI CEO Sam Altman 宣布称:

今天我们推出了codex。它是一个在云端运行的软件工程代理,可以为你执行编写新功能或修复bug等任务。你可以并行运行许多任务。

并且,Plus 账号还得等等(我猜是等你充钱成为Pro 账号):

而Codex 是什么呢?

与其他AI编码工具不同,Codex不是一个聊天界面,而是一个面向任务的工具

你只需描述编码任务,它就会在沙盒环境中启动你的代码库,运行测试和代码检查,确保一切正常运行。

受OpenAI 邀请,Every团队已经提前体验了几天,Dan Shipper对此印象深刻,还特别邀请了Codex产品团队成员Alexander Embiricos进行了深度对话,一起来看看这款革命性工具到底有多强!

注:本文部分内容参考了Dan Shipper 的使用体验文章——

https://every.to/chain-of-thought/vibe-check-codex-openai-s-new-coding-agent

Codex是什么以及它如何工作?

Codex是专为高级工程师设计的自主编码代理,能够自动执行添加功能或修复bug等编码任务。

与其他AI编码工具的最大区别在于,它允许你同时启动多个会话,让多个AI代理并行工作。

用户界面非常简洁,只有一个文本框让你描述编程任务,然后是两个按钮:「Ask」和「Code」。

这种设计很有深意——它不是一个聊天框,而是一个任务委派界面

当你按下「Code」按钮后,Codex会将你的任务加入队列,开始工作。它会在自己的沙盒环境中启动你的代码库,在那里可以运行测试和代码检查工具,以便自己捕捉错误。

但与Devin不同,它还没有访问浏览器的能力,无法使用它编写的代码来检查功能是否正常运行。

当任务完成后,它会给你一个简洁的总结和代码差异,让你清楚看到具体做了哪些更改。

还有一个按钮可以轻松地将这些更改作为PR提交到Github上。

Codex被训练有「品味」

OpenAI通过强化学习对Codex进行了微调,让它掌握了专业软件工程师的技能——

如何编写良好的PR标题和描述,如何处理大型混乱的代码库,如何以及何时运行测试等等。

训练团队向Codex展示了大量代码库——既有干净的也有混乱的——这让它感觉自己拥有更多实际经验,最关键的是,比其他编码模型有更好的品味

这一点很明显:Codex产生的代码简洁、精炼,总结也简明扼要。

Dan 亲自体验了这一点,Codex成功地一次性完成了他们内部应用Paradigm的样式修复。

还有一次,他让Codex给他们的邮件助手Cora添加一个新功能——保存UI展开和折叠状态——Codex也迅速而出色地完成了。

「丰富思维模式」最适合与代理交互

Codex的设计鼓励一种特殊的使用方式:它强调创建小型、自包含的任务,这些任务转化为小型、易于审查的PR。

这使其非常适合在生产环境中工作的专业软件工程师,因为它使跟踪和理解代码库的变化变得更容易。

这种方式让你从程序员变成了管理者,如在最初使用Devin时的体验——就像大学时代玩在线扑克,可以同时运行3-4个桌子,或者,多个窗口倍速同时看不同集的电视剧😂

Dan和Kieran的体验很能说明问题:

我昨晚花了大约一小时与Kieran一起结对编程,我们聊天的同时向Codex发送任务,然后测试返回的结果。这是一种更加社交化的编程模式,因为使用Codex时你可以分散注意力。

这种「丰富思维模式」让用户能够同时委派多个任务而不陷入细节

这允许你将大量代理指向特定任务,比如一个难以解决的bug——即使只有一个成功,也是值得的。

Codex的不足之处

Codex虽然强大,但也有明显的局限性。

首先,它不是聊天产品,它位于与ChatGPT分离的界面中,明显是围绕特定工作流构建的:给它一个编码任务,得到一个完成的结果。

它对后续请求处理不佳

如果你要求它构建一个功能,然后意识到你想添加或修改它所构建的内容,后续请求是否有效完全是个赌博。

因此,它对资历较浅的工程师不太友好,更适合小型、自包含的任务。

如果你像高级工程师一样在脑中了解整个系统的工作原理,并确切知道要构建什么,你可以将请求输入任务框并继续你的一天。如果你更喜欢来回聊天一段时间来确定要构建什么以及如何完成,Codex将无法很好地工作。

此外,它还没有与大多数工程环境(如Github和Slack)完全集成。虽然它可以向Github发布PR,但不能响应PR上的评论告诉它需要更改什么。

这些功能可能会随着时间的推移而添加,但目前增加了一些使用摩擦。

OpenAI对代理的思考

Codex是OpenAI最终想要构建的统一超级助手的一部分——一个能帮助用户轻松完成任务的代理,在幕后为他们选择合适的工具。

而OpenAI似乎正从两个角度攻克编程问题:

考虑到OpenAI报道收购AI编码代理Windsurf,似乎OpenAI正从两个角度攻克编程。一旦Windsurf完全集成到其生态系统中,它将提供程序员和AI之间紧密、协作的编程体验。而Codex则是为自主委派而构建的。

这让我不禁想起OpenAI的另一个产品Operator,它也是分离出来的独立工具,因此用户必须记得使用它。


由于更加专业化,它的灵活性也相对较低。

自Operator五个月前推出以来,我们还没有看到任何重大更新——考虑到OpenAI报道收购Windsurf,我怀疑Codex是否会有同样的命运。

编程的未来

OpenAI 对编程未来的愿景是什么?

未来开发人员可能会花更少的时间编写常规代码,而花更多时间指导代理、审查他们的工作并做出战略决策。

编程将变得更加社交化,让团队可以轻松地同时委派多个任务,让人们专注于想法和协作而不是常规编码。

而Codex 或将是是自主编程的下一步,但我们还需要一段时间才能知道它是否恰好是展现编程未来的产品。

一方面,OpenAI为高级工程师制作了一个编程工具并取得了成功。高级开发人员通过能够同时启动多个构建良好的任务获得了不错的生产力提升。

它还改变了编码的体验,如Dan所述,使用Codex进行编码时可以分散注意力,这是一种更加社交化的编程模式。

但另一方面,发前所述,Codex让我想起OpenAI的计算机使用代理Operator——它被分离成自己的工具,所以必须记得使用它。

或许,Codex 会走向和Operator 同样的结果。

而且因为它更专业化,所以本质上更不灵活。

又或许,用户会希望能够在不同的任务和一天中的不同时间段之间来回切换这两种工具。

伸手测试

伸手测试的结果显示:

  1. Kieran(已接受代理理念的技术领导者):是的,他一直在思考如何使用它。

  2. Dan(技术爱好者CEO,周末编码爱好者):否,但这是因为他通常是在编写全新的想法而不是现有产品。

总体评价:

如果你是技术领导者,在现有代码库上添加功能或修复bug,你会想要使用它。如果你想要创建一个新的「一人十亿美元SaaS公司」,去别处看看吧。

注:伸手测试”Reach Test” 是Dan Shipper提出的一个概念或测试标准,用来评估AI产品的实用性和长期价值。

AI产品长期实用性的最佳领先指标是什么?我称之为“伸手测试”——我是否发现自己自动转向这个工具来完成某些任务?还是我只是把它放在架子上忘记它的存在?

简单来说,这是一个判断AI工具实际价值的直观测试:如果你在需要完成特定任务时会自然而然地“伸手”去使用这个工具,说明它确实有用且融入了你的工作流程;如果你总是忘记使用它,那么不管它多么先进,实际价值都会有限。

这实际上是一个很实用的评估新技术工具价值的方式,关注的是用户的自然倾向和实际使用习惯,而不仅仅是技术规格或能力。

而显然,Codex不是一个「随性编码」的能通过伸手测试的工具。

我能看出它不是为了取代高级软件工程师而构建的,而是作为他们的工具。

但无论如何,Codex的出现标志着自主编程的新时代即将到来。

对于高级开发人员来说,这是一个强大的生产力提升工具;对于整个行业来说,这预示着编程方式的根本转变。

软件工程师的工作即将发生革命性变化!

你,准备好了吗?

(文:AGI Hunt)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往