李飞飞自曝详细创业经历:五年前因眼睛受伤,坚定要做世界模型

一水 发自 凹非寺
量子位 | 公众号 QbitAI

因为眼睛受伤暂时失去立体视觉,李飞飞更加坚定了做世界模型的决心。

在a16z的最新播客节目中,“AI教母”李飞飞讲述了五年前因为一次角膜损伤暂时失去立体视觉的经历:

尽管凭借多年经验能想象出三维世界,但一只眼睛看东西时,我开始害怕开车。

但作为一名科学家,她也把这次经历当成一次宝贵的“实验”机会。

这次生病让她明白了立体视觉对空间交互具有决定性作用,“就像语言模型处理文本时需要理解上下文,物理世界的交互也必须建立在三维空间表征基础上”。

整体而言,李飞飞在节目中解释了为什么空间智能是当今AI系统关键且缺失的部分,以及她的新公司如何应对这一挑战

同时,另一位嘉宾Martin Casado( a16z合伙人、李飞飞公司早期投资者)也分享了二人在世界模型上达成共识的故事,并从投资者的角度分析了世界模型的潜力和价值。

省流版如下:

  • “数据驱动范式”所爆发的能量,至今远超李飞飞当初创建ImageNet时的想象;
  • 创办World Labs并非跟风基础模型创业潮,而是源于对智能本质的持续探索;
  • 要实现世界模型这一愿景,需要集结产业级的算力、数据和人才密度;
  • 动物通过5亿年进化出的三维认知系统,远比人类晚近出现的语言系统更精妙;
  • 当前的技术突破点在于,如何让AI像人类一样,从单目视觉输入中重建完整三维场景理解。

值得一提的是,嘉宾们深入浅出的讲解方式也获得了网友一致好评:

下面具体来看。

构建能真正理解物理世界的AI模型

李飞飞自述,其实早在大语言模型(LLM)兴起之前,她就深刻意识到了构建世界模型(LWM)的重要性。

这不仅和她之前生病的经历有关,更主要的是和她一直以来的学术经历相符。

回顾博士和教授生涯,若以今日认知审视过去十年AI的发展轨迹,最令李飞飞震撼的恰恰是她曾倡导的“数据驱动范式”所爆发的能量。

当年她带领团队开发了一个名为ImageNet的视觉识别系统,这个系统收录了超过1000万张经过精确标注的图片,迅速成为全球规模最大的图像资料库之一,以此彻底改变了计算机视觉和深度学习的研究格局。

不过在她看来,如今由大规模数据驱动的模型所展现出的“类思维机器涌现行为”,仍远超其最初的想象

这种矛盾感促使她不断追问:当业界都在追逐语言模型时,我们是否忽略了更本质的维度?

选择创办World Labs,李飞飞自述并非跟风基础模型创业潮,而是源于对智能本质的持续探索。

在她眼里,语言固然是思想和信息的高效编码载体,但它对三维物理世界的表征存在天然缺陷——

我们生存的实体空间充满动物演化史沉淀的感知智能,而语言只是人类文明后期产生的有损压缩符号。

环顾自然,没有漂浮的词汇表,只有具象的物质世界。

这种认知让她确信:真正的通用智能必须建立在对物理空间结构、物体组合关系的理解之上。

这也是World Labs的使命,即构建能真正理解物理世界的AI模型,用集中攻坚的方式,让AI真正理解我们生活的三维世界。

创立World Labs的契机

当李飞飞构思World Labs时,她需要的不仅是资金支持,更渴望找到思想共鸣的伙伴。

而这个人就是a16z合伙人、李飞飞公司早期投资者Martin Casado

作为斯坦福大学2009年入职的年轻助理教授,李飞飞与当时即将获得博士学位的Martin早有交集。不过后来Martin转型成为企业家和投资人,而她则深耕人工智能领域,被誉为“AI教母”。

在一次关于LLM的学术聚会上,当众人热议语言模型时,李飞飞向Martin提出:

我们缺失的是世界模型(world model)。

就是这样一句话,瞬间点燃了二人的合作火花。与其他投资人礼貌性点头不同,他们后来又在斯坦福校园展开深谈,而Martin对三维世界的理解令李飞飞印象深刻。

Martin在节目中解释道,蒙眼状态下仅靠语言描述在房间执行任务几乎不可能成功,因为语言对物理空间的转译是低效且失真的。但摘下眼罩后,大脑瞬间重构三维空间的能力让我们能精准抓取杯子、避开障碍,这种对物理世界的即时建模才是智能的根基。

换句话说,语言适合传递抽象概念,但应对实体世界必须依赖空间智能,这正是当前AI最欠缺的能力。

同时他也提到,自动驾驶行业投入上千亿美元仍未能完美解决二维导航问题,而语言模型却突然以惊人效率处理了文本任务。这种反差让他意识到,生成式AI已经提供了去做其他事情的契机。

这些想法也得到了李飞飞的认同,她表示,“这与我多年的思考完全契合”

尽管ChatGPT等语言模型的成功令人振奋,但我始终坚信世界模型才是智能的下一里程碑。

李飞飞再次表示,这并非否定语言的价值,而是指出其局限性——

当我们需要建造机器人、设计新材料或探索虚拟宇宙时,必须让AI获得类似生物的空间认知能力。从远古动物到现代人类,所有改变物理世界的创造行为,本质上都是三维智能的体现。

一旦世界模型取得突破,我们可以创造无限虚拟宇宙:有些为机器人训练设计,有些用于社交体验,还有些专属于叙事艺术或旅行探索。

这种能力将人类带入真正的多元宇宙时代。想象一下,建筑师能在数字世界瞬间构建城市原型,科学家可以在分子级3D空间模拟新材料的合成。

关键在于突破“视野之外”

在想法上达成一致后,投身创业的李飞飞意识到:

要实现世界模型这一愿景,需要集结产业级的算力、数据和人才密度。

具体到技术层面,世界模型能通过单张2D图像重建完整三维场景,包括视野之外的物体背面。

这种能力带来根本性变革:计算机首次能像人类一样对空间进行测量、堆叠和操纵。无论是从单帧视频生成360度环境,还是让机器人理解深度信息执行抓取任务,三维表征都成为智能交互的基础。

这解释了为何游戏开发、艺术创作和工业设计等领域都在急切等待这项技术突破。

并且,与六岁孩子讨论“树木为何不长眼睛”的经历让李飞飞深刻领悟:进化需求催生了空间感知能力

动物通过5亿年进化出的三维认知系统,远比人类晚近出现的语言系统更精妙。

在她看来,当前AI发展恰似在重演进化历程——我们先攻克了语言处理这类“新技能”,现在才真正挑战空间智能这个古老而核心的命题。

而在尝试发起挑战的人当中,World Labs拥有自己的优势。

据李飞飞介绍,虽然三维AI研究相比语言模型是较新领域,但在计算机视觉领域早有积累。

其联合创始人Ben Mildenhal在伯克利期间开创的神经辐射场(NeRF)技术,四年前就革新了深度学习的三维重建方法;另一位创始人Christoph Lassner在高斯泼溅表示法(Gaussian Splatting)上的先驱工作,也为三维表征提供了新范式。

更早时期,团队成员在GAN图像生成、风格迁移等方向的基础研究,都为当前突破埋下伏笔。

这些分散在学界和工业界的探索,如今在World Labs汇聚成系统化攻关。

李飞飞表示,破解三维智能需要特殊的人才组合:既要AI专家处理数据与模型架构,又需要计算机图形学专家解决内存与渲染问题。

因此,他们组建了可能是全球最顶尖的跨学科团队——涵盖计算机视觉、扩散模型、图形学、优化算法等领域的开拓者。

这种集中火力的方式,与当年LLM发展初期各大公司“各自为战”形成鲜明对比。

李飞飞坚信,唯有将最聪明的大脑聚集在“世界模型”这个北极星问题下,才能实现从实验室技术到产品化的跨越。

p.s. 北极星问题一说出自李飞飞自传《我看见的世界》,指科研中的一些关键问题。

而当前的技术突破点在于:如何让AI像人类一样,从单目视觉输入中重建完整三维场景理解。

这不仅是机器人精准抓取的基础,更是打开无限虚拟宇宙的钥匙。

当计算机能自主补全视野之外的物体结构时,建筑设计将变成空间组合游戏,分子模拟可视作三维拼图,甚至数字孪生世界也能实时生成演化。

这场革命正在发生——而World Labs要做的,就是加速这个进程。

(文:量子位)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往