2025必看!大神Karpathy封神演讲:AI创业不造钢铁侠,而是造钢铁侠的战衣

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

大神Karpathy爆火演讲完整视频公开,被无数网友列为2025必听/必看

这段在YC AI创业学校活动的演讲,受众不仅AI研究者和开发者,Karpathy还引用了许多流行文化和电影来讲解他的观点,让许多非技术背景的观众也受益匪浅。

开场他就扔出一个重磅观点:软件在过去70年基本没怎么变过,但最近几年却连续经历了两次根本性变革。

  • 软件1.0:代码,就是我们熟悉的传统编程,程序员敲代码指挥计算机通过指令执行任务。
  • 软件2.0:权重参数,神经网络时代不再直接写代码,而是调整数据集,让优化器生成神经网络的权重参数。

Karpathy回忆道,“当初很多人觉得神经网络就是个分类器,跟决策树差不多,真正的巨变发生在大模型出现后。

以前的神经网络都是固定功能的机器,比如AlexNet只能做图像识别。但大模型不一样,它们是可编程的!你的提示词(prompt)就是程序,而且还是用英语(或其他自然语言)写的。

这就是Karpathy提出的软件3.0——用自然语言编程大模型的新时代

而这一点,他在ChatGPT刚发布2个月的时候就已预见。

大模型的三重属性:工具、工厂与操作系统

演讲中最让人眼前一亮的,是Karpathy对大模型本质的洞察。他认为大模型同时具备三种看似矛盾的属性。

工具属性:

像OpenAI、谷歌、Anthropic等公司训练大模型,就像建设电力网络——前期投入大量资本(CAPEX)搭建基础设施,后期通过 API 按使用量收费(OPEX)。

我们对大模型的需求类似电力:低延迟、高稳定性、质量一致。比如,当顶尖大模型宕机时,就像全球遭遇 “智能停电”,依赖它们的工作会陷入停滞,这说明我们对其依赖已非常深。

工厂属性:

训练大模型需要巨额资本,类似半导体制造的晶圆厂(Fab)。技术路线复杂,研发秘密集中在少数公司手中。

不过,软件的可复制性使其护城河不如硬件牢固,比如用英伟达GPU 训练模型类似 “无晶圆厂模式”,而Google用TPU自研硬件则类似“英特尔垂直整合模式”。

操作系统属性:

大模型不仅是工具,更是复杂的软件生态系统,类似Windows或Linux。目前有闭源巨头(如 GPT、Gemini)和开源社区并存。

从历史看,我们正处于大模型的 “1960 年代”—— 计算成本高昂,模型集中在云端,个人用户只能通过网络交互,尚未实现 “个人计算机革命”。

不过,Mac Mini等设备已能运行小型模型,或许这是个人智能设备的早期信号。

大模型超人类与局限性并存

Karpathy把大模型形容为一种”people spirits”(人类精神),因为在人类数据上训练,所以涌现出类人的心理特征。

这种心理特征很矛盾。

一方面,大模型拥有百科全书般的记忆。就像电影《雨人》里的自闭症天才能记住整个电话簿,大模型能轻松记住Git提交哈希值这种普通人类根本记不住的东西。

但另一方面,它们又有严重的“认知缺陷”:产生幻觉、缺乏自我认知、展现超出“锯齿状智力”,也就是在某些任务上超越人类,却会犯人类绝不会犯的低级错误,比如大家已经熟悉的9.11大于9.9,或者数错strawberry里R的个数。

大模型还患有“顺行性失忆症”,人类会不断学习组织知识,回家睡觉巩固记忆,变得越来越专业。大模型不会,上下文窗口就是它们的工作记忆,每天早上都会被清空,就像电影《记忆碎片》和《初恋50次》的主角。

AI应用机遇:构建半自主化产品

对于AI应用来说,当前最大的机遇在构建半自主化产品

Karpathy在特斯拉工作了5年研发自动驾驶,对“半自主化”这件事深有体会。

2013年,他第一次坐朋友的Waymo自动驾驶汽车,在硅谷转了30分钟,零接管,完美运行。当时他就觉得,自动驾驶马上就要实现了。

然而12年过去了,人们还在努力,即使现在看到Waymo在路上跑,背后还是有大量远程操作和人工介入。

这给了他一个重要启示:不要造钢铁侠,要造钢铁侠的战衣。

以Cursor这个AI编程工具为例,它不是要完全取代程序员,而是提供了一个“自主性滑块”,可以选择让AI只做代码补全,或者修改一小块代码,或者重构整个文件,甚至重构整个代码库。

控制权始终在人类手上。

另一个例子是AI搜索应用Perplexity,在简单搜索、研究和深入研究之间的自主性滑块,也是由人类来选择。

随后,Karpathy展示了他一条爆火的推文——“Vibe coding”

他称自己发推特15年了,也猜不到究竟哪条会火,以为这条随便发发的推文会石沉大海,结果Vibe coding成了流行词,现在连维基百科页面都有词条了。”

Vibe coding的核心是既然大模型能理解英语,那每个会说话的人都能编程。

他自己也尝试了Vibe coding,虽然不会Swift,但一天就做出了iOS应用。还做了个叫Menu Genie的餐厅菜单图片生成器。

不过他也发现了问题:写代码反而是容易的部分,真正困难的是部署——认证、支付、域名配置这些都要在浏览器里点来点去。”计算机在告诉我该点哪里,这太荒谬了,为什么不是它自己去点?”

这引出了他的下一个观点:需要为AI agent重建基础设施。

现在的软件都是为人类设计的,到处都是”点击这里”的指令,大模型看不懂。一些先驱如Vercel和Stripe已经开始提供大模型友好的文档,用Markdown格式,把所有”点击”都替换成了curl命令。

这就像给网站加robots.txt一样,Karpathy建议加个LLM.txt,直接告诉AI这个网站是干什么的。

激动人心的入行时机

我们正站在软件3.0的起点,这一是激动人心的入行时机。在演讲结尾,Karpathy分享了对想要进入科技行业的人的建议。

我们需要重写海量的代码,专业程序员要写,vibe coder也要写。在接下来的十年里,我们会把自主性滑块从左边推到右边。

短期来看,大量软件需重构为 “人类+大模型” 协同模式,半自主应用爆发。

中期来看,大模型逐步渗透企业级工作流,代码、文档、数据分析全面智能化。

长期来看,类似《钢铁侠》贾维斯的智能助手普及,自主权滑动条从左到右延伸,但人类始终是闭环中的决策者。

这是一个需要同时掌握 Software 1.0(代码)、2.0(模型训练)、3.0(提示词工程)的时代。

视频回放:
https://www.youtube.com/watch?v=LCEmiRjPEtQ

(文:量子位)

发表评论