2025必看！大神Karpathy封神演讲：AI创业不造钢铁侠，而是造钢铁侠的战衣

梦晨发自凹非寺
量子位 | 公众号 QbitAI

大神Karpathy爆火演讲完整视频公开，被无数网友列为2025必听/必看。

这段在YC AI创业学校活动的演讲，受众不仅AI研究者和开发者，Karpathy还引用了许多流行文化和电影来讲解他的观点，让许多非技术背景的观众也受益匪浅。

开场他就扔出一个重磅观点：软件在过去70年基本没怎么变过，但最近几年却连续经历了两次根本性变革。

软件1.0：代码，就是我们熟悉的传统编程，程序员敲代码指挥计算机通过指令执行任务。
软件2.0：权重参数，神经网络时代不再直接写代码，而是调整数据集，让优化器生成神经网络的权重参数。

Karpathy回忆道，“当初很多人觉得神经网络就是个分类器，跟决策树差不多，真正的巨变发生在大模型出现后。

以前的神经网络都是固定功能的机器，比如AlexNet只能做图像识别。但大模型不一样，它们是可编程的！你的提示词（prompt）就是程序，而且还是用英语（或其他自然语言）写的。

这就是Karpathy提出的软件3.0——用自然语言编程大模型的新时代。

而这一点，他在ChatGPT刚发布2个月的时候就已预见。

大模型的三重属性：工具、工厂与操作系统

演讲中最让人眼前一亮的，是Karpathy对大模型本质的洞察。他认为大模型同时具备三种看似矛盾的属性。

工具属性：

像OpenAI、谷歌、Anthropic等公司训练大模型，就像建设电力网络——前期投入大量资本（CAPEX）搭建基础设施，后期通过 API 按使用量收费（OPEX）。

我们对大模型的需求类似电力：低延迟、高稳定性、质量一致。比如，当顶尖大模型宕机时，就像全球遭遇 “智能停电”，依赖它们的工作会陷入停滞，这说明我们对其依赖已非常深。

工厂属性：

训练大模型需要巨额资本，类似半导体制造的晶圆厂（Fab）。技术路线复杂，研发秘密集中在少数公司手中。

不过，软件的可复制性使其护城河不如硬件牢固，比如用英伟达GPU 训练模型类似 “无晶圆厂模式”，而Google用TPU自研硬件则类似“英特尔垂直整合模式”。

操作系统属性：

大模型不仅是工具，更是复杂的软件生态系统，类似Windows或Linux。目前有闭源巨头（如 GPT、Gemini）和开源社区并存。

从历史看，我们正处于大模型的 “1960 年代”—— 计算成本高昂，模型集中在云端，个人用户只能通过网络交互，尚未实现 “个人计算机革命”。

不过，Mac Mini等设备已能运行小型模型，或许这是个人智能设备的早期信号。

大模型超人类与局限性并存

Karpathy把大模型形容为一种”people spirits”（人类精神），因为在人类数据上训练，所以涌现出类人的心理特征。

这种心理特征很矛盾。

一方面，大模型拥有百科全书般的记忆。就像电影《雨人》里的自闭症天才能记住整个电话簿，大模型能轻松记住Git提交哈希值这种普通人类根本记不住的东西。

但另一方面，它们又有严重的“认知缺陷”：产生幻觉、缺乏自我认知、展现超出“锯齿状智力”，也就是在某些任务上超越人类，却会犯人类绝不会犯的低级错误，比如大家已经熟悉的9.11大于9.9，或者数错strawberry里R的个数。

大模型还患有“顺行性失忆症”，人类会不断学习组织知识，回家睡觉巩固记忆，变得越来越专业。大模型不会，上下文窗口就是它们的工作记忆，每天早上都会被清空，就像电影《记忆碎片》和《初恋50次》的主角。

AI应用机遇：构建半自主化产品

对于AI应用来说，当前最大的机遇在构建半自主化产品。

Karpathy在特斯拉工作了5年研发自动驾驶，对“半自主化”这件事深有体会。

2013年，他第一次坐朋友的Waymo自动驾驶汽车，在硅谷转了30分钟，零接管，完美运行。当时他就觉得，自动驾驶马上就要实现了。

然而12年过去了，人们还在努力，即使现在看到Waymo在路上跑，背后还是有大量远程操作和人工介入。

这给了他一个重要启示：不要造钢铁侠，要造钢铁侠的战衣。

以Cursor这个AI编程工具为例，它不是要完全取代程序员，而是提供了一个“自主性滑块”，可以选择让AI只做代码补全，或者修改一小块代码，或者重构整个文件，甚至重构整个代码库。

控制权始终在人类手上。

另一个例子是AI搜索应用Perplexity，在简单搜索、研究和深入研究之间的自主性滑块，也是由人类来选择。

随后，Karpathy展示了他一条爆火的推文——“Vibe coding”。

他称自己发推特15年了，也猜不到究竟哪条会火，以为这条随便发发的推文会石沉大海，结果Vibe coding成了流行词，现在连维基百科页面都有词条了。”

Vibe coding的核心是既然大模型能理解英语，那每个会说话的人都能编程。

他自己也尝试了Vibe coding，虽然不会Swift，但一天就做出了iOS应用。还做了个叫Menu Genie的餐厅菜单图片生成器。

不过他也发现了问题：写代码反而是容易的部分，真正困难的是部署——认证、支付、域名配置这些都要在浏览器里点来点去。”计算机在告诉我该点哪里，这太荒谬了，为什么不是它自己去点？”

这引出了他的下一个观点：需要为AI agent重建基础设施。

现在的软件都是为人类设计的，到处都是”点击这里”的指令，大模型看不懂。一些先驱如Vercel和Stripe已经开始提供大模型友好的文档，用Markdown格式，把所有”点击”都替换成了curl命令。

这就像给网站加robots.txt一样，Karpathy建议加个LLM.txt，直接告诉AI这个网站是干什么的。

激动人心的入行时机

我们正站在软件3.0的起点，这一是激动人心的入行时机。在演讲结尾，Karpathy分享了对想要进入科技行业的人的建议。

我们需要重写海量的代码，专业程序员要写，vibe coder也要写。在接下来的十年里，我们会把自主性滑块从左边推到右边。

短期来看，大量软件需重构为 “人类+大模型” 协同模式，半自主应用爆发。

中期来看，大模型逐步渗透企业级工作流，代码、文档、数据分析全面智能化。

长期来看，类似《钢铁侠》贾维斯的智能助手普及，自主权滑动条从左到右延伸，但人类始终是闭环中的决策者。

这是一个需要同时掌握 Software 1.0（代码）、2.0（模型训练）、3.0（提示词工程）的时代。

视频回放：
https://www.youtube.com/watch?v=LCEmiRjPEtQ

（文：量子位）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

大模型的三重属性：工具、工厂与操作系统

大模型超人类与局限性并存

AI应用机遇：构建半自主化产品

激动人心的入行时机

发表评论 取消回复

梦晨发自凹非寺
量子位 | 公众号 QbitAI

发表评论取消回复