
黄教主的演讲感觉才没过几天,今年的 GTC 英伟达大会也即将迎来尾声了。
和往年一样,这种科技盛会最受瞩目的都是官方重点宣传的那几场活动,比如去年,英伟达首席科学家比尔·达利(Bill Dally)和“AI 教母”李飞飞来了一场深度对话。
而今年比尔·达利则是对话“AI 教父”杨立昆(Yann LeCun),很有前后呼应的感觉。
但 GTC 并不只有黄仁勋和杨立昆,还有许多精彩的演讲与对话,比方说:
-
比尔·达利自己就在采访杨立昆之后进行了一场演讲,系统性地讲解了英伟达 2024 一整年的四大项目进展,内容干货很多;
-
OpenAI o1 作者诺姆·布朗(Noam Brown)和英伟达的 AI 科学家来了一场对话,他认为现在 AI 圈最需要来一场革命的,就是这些五花八门的基准测试(Benchmark),而且改这个东西还不需要花太多算力资源;
-
2018 年诺贝尔化学奖得主弗朗西斯·阿诺德(Frances Arnold)围绕 AI for Sciense 还有蛋白质工程进行了一场相当硬核的圆桌对话;
-
UC 伯克利教授彼得·阿比尔(Pieter Abbeel)通过演讲方式给大家来了一场人形机器人全面讲解,多次用中国的宇树机器人做案例;
…………
接下来的一段时间,CSDN AI 科技大本营将会在「GTC 2025 大师谈」栏目持续更新这些精华内容的全文整理,尽情期待。
话题回到本期的主角,杨立昆。在以往我们整理的各种采访里,立昆都是直接开喷“自回归模型很差劲,我们搞的 JEPA 才是对的”或者“人工智能不如猫”。
今年他是从多个角度论述,从“视觉派” 的根本理念否定现在主流的“语言派”:「和过往的许多浪潮一样,当前的这波浪潮,我觉得也是错的。那些复杂的生物行为,都和语言无关,它肯定不会是在 token 空间里完成的,而是在心智空间当中。」
采访期间,杨立昆极力赞扬了 DeepSeek 和中国科学家,「现在,中国有很多非常优秀的科学家。最近 DeepSeek 的例子就很好地说明了,好点子可以来自任何地方。」
但面对 DeepSeek-R1 兴起的强化学习浪潮,他还是给出了不同的看法,顺带给黄教主泼了个冷水:「我不太认同黄仁勋说的。我认为目前那些通过增强推理能力的大语言模型,它们所采用的推理方式是错误的。」
对于更遥远的未来,他预测:「在整体智能方面,我们还差得很远——但它可能在十年左右的时间内就会实现。所以也不是那么遥远。
如果只是批判大模型也罢,有意思的是,当比尔问杨立昆怎么评价英伟达本次大会重点宣传的光学计算和量子计算,立昆并没有接上话茬,而是对这两大领域进行了一顿数落:「光学计算,我觉得一直都挺让人失望的。至于量子计算,我对量子计算的应用前景非常怀疑。」
要知道黄仁勋前脚才在主旨演讲介绍完最新的相关产品,立昆大神简直是来砸场了。
此外,本次黄仁勋主旨演讲的核心思想是“token 构成 AI 世界的一切”,杨立昆也进行了否定:「token 不是表示物理世界的正确方式。」
比尔·达利:过去一年人工智能领域发生了很多有意思的事儿,其中最让你觉得兴奋的进展是什么?
杨立昆:太多了,一时半会儿说不完。不过我可以先说一件,可能有些人会觉得挺意外的。我现在对大语言模型(LLM)已经没那么大兴趣了。感觉它们现在已经有点像走到最后一步了,落到了那些搞产业产品的人手里,就有点像是在边边角角上做改进,想办法搞更多数据,更多算力,或者搞点合成数据什么的。
我觉得现在更有意思的问题,主要集中在四个方面:
第一个是怎么让机器理解物理世界?黄仁勋 Keynote 也提到了这个。
第二个是怎么让机器拥有持久记忆,这个好像没太多人聊。
然后最后两个是,怎么让机器能推理和规划?当然,现在也有人在努力让大语言模型去推理,但在我看来,那种推理方式还是太简单粗暴了。我觉得肯定有更好、更高级的方法来做推理。所以,我现在比较兴奋的点,可能是一些在咱们这个圈子里,或者在科技圈里,五年后才会火起来的东西。但现在看起来可能没那么激动人心,因为都还只是些挺冷门的学术论文。
比尔·达利:如果不是大语言模型来推理物理世界,并且具备持久记忆和规划能力,那会是什么呢?你觉得底层的模型会是什么样的?
杨立昆:现在很多人都在研究世界模型。所谓世界模型就是,我们每个人脑子里都有的东西,是它让我们能在脑子里进行思考和操作,我们对现在的世界有个模型。
比如现在桌上有个矿泉水瓶,如果我从上面按这个瓶子,它可能会倒,但如果我从下面推它,它就会滑走。还有,如果我按太用力,它可能会爆掉。所以,我们脑子里有物理世界的模型,这些模型是在我们出生后几个月内就慢慢形成的。就是这些模型让我们能处理现实世界,而且处理现实世界比处理语言要难得多。
所以我觉得,那种真正能处理现实世界的系统,它们需要的架构跟我们现在用的完全不一样。大语言模型是预测 token 的,但 token 可以是任何东西。像我们的自动驾驶模型,它用的是传感器传来的 token,然后输出控制驾驶的 token。从某种意义上说,它也是在对物理世界进行推理,至少是在判断哪里可以安全驾驶,不会撞到电线杆。
那为什么说 token 不是表示物理世界的正确方式呢?token 是离散的,当我们说 token 的时候,通常指的是,一组数量有限的可能性。一般的大语言模型,token 的数量大概在 10 万左右,所以当你训练一个系统去预测 token 的时候,你永远不可能训练它准确预测出一段文字后面会接哪个 token,但你可以让它预测出一个概率分布,也就是预测字典里所有可能 token 的概率。
这就像一个长长的向量,里面有 10 万个 0 到 1 之间的数字,加起来等于 1——这个我们现在已经很会做了。但是对于视频,对于我们熟知的那种高维度、连续的自然数据,就不知道该怎么搞了。
每次我们想训练系统,让它通过预测像素级别的视频来理解世界、构建心智模型,基本上都失败了。哪怕只是训练一个神经网络或者其他什么系统,让它能学到好的图像表示,所有那些通过从损坏或变形的图像中重建图像的技术,基本上都失败了。当然,也不是说完全没用,它们还是有点用的,但效果就是不如另一种架构——“联合嵌入”,这种架构基本上不尝试在像素级别重建图像。它们试图学习一种表示,一种图像、视频或者其他自然信号的抽象表示,这样你就可以在这个抽象表示空间里进行预测。我经常举的例子是,如果我拍一段这个房间的视频,然后我把镜头摇过来,停在这里,我让系统预测,接下来会发生什么,它可能会预测说,这是一个房间,里面坐着一些人,等等。
它不可能预测出你们每个人长什么样,从视频开头那一小段来看,这是完全没法预测的。所以说,世界上有很多东西是根本没法预测的,如果你训练系统在像素级别做预测,它就会把所有资源都花在试图搞清楚那些它根本不可能编造出来的细节上。这完全是浪费资源,而且我们尝试过的所有方法,我研究这个已经 20 年了,用自监督学习通过预测视频来训练系统,都没用。只有当你把预测放在表示层面,而不是像素层面,才有可能有用。这就意味着,世界模型所需要的架构不可能是生成式的。
比尔·达利:你基本上是在说 Transformer 架构没法做到这些,但现在大家都在用视觉 Transformer 啊,而且效果还不错。
杨立昆:我不是这个意思,因为 Transformer 架构是可以用来做这个的,你可以把 Transformer 放到我说的架构里。我说的这种架构,叫做“联合嵌入预测架构”(JEPA),举例来说,你拿一段视频或者一张图片,或者随便什么东西,甚至是文字,把它扔进一个编码器。你得到一个表示,然后你再拿这段文字、视频或者图片的后续部分,或者它的某种变形版本,也扔进一个编码器。现在你尝试在表示空间里做预测,而不是在原始的输入空间里做预测,
比尔·达利:你可以用类似的训练方法,就是填空,但你是在潜在空间里填空,而不是在原始的表示里填空。
杨立昆:完全正确。这里的难点在于,如果你不小心,如果你不用一些巧妙的技巧,系统就很容易崩溃。它会直接忽略输入,然后随便输出一个恒定的表示,这个表示对输入内容没什么信息量。所以你必须要,在五六年前,我们还没什么好办法来避免这种情况。
现在,如果你想把这个东西用在智能体(Agent)系统上,或者用在能推理和规划的系统上,那你需要的就是我说的这个“预测器”。当它看到一段视频,它就能大致了解当前的世界状态。它需要做的是,能够预测接下来世界会变成什么状态,假设我采取了某个行动,或者我正在考虑采取某个行动,所以你需要一个预测器,它能根据当前的世界状态,以及你设想的行动,来预测下一个世界状态。如果你有这么一个系统,你就可以规划一系列的行动,最终达到某个目标。这才是我们人类进行规划和推理的真正方式。我们不是在 token 空间里做这些的。
我再来举个简单的例子,现在有很多所谓的“智能体推理系统”。它们的工作方式是,生成一大堆一大堆的 token 序列,用各种不同的方法随机生成不同的 token。然后用第二个神经网络,从所有生成的序列里选出最好的一个。这有点像,在不会写程序的情况下写程序。你随便写一堆程序,然后一个个测试,留下那个刚好能给出正确答案的。这完全是没指望的。
比尔·达利:实际上现在有些关于“超级优化”的论文,说的就是这个思路。
杨立昆:对,那些是对于短程序的研究,在短程序上当然可以实现,因为这种方法复杂度会随着程序长度指数级增长。所以,程序稍微长一点就完全没戏了。
比尔·达利:所以现在很多人都在说,通用人工智能(AGI),或者我猜你会叫它“高级机器智能”(AMI),马上就要来了。你对此怎么看?你觉得它什么时候会实现?为什么?现在的差距在哪里?
杨立昆:是啊,我不喜欢“通用人工智能”(AGI)这个词,因为,大家用这个词来指代那些拥有人类水平智能的系统。但问题是,人类的智能其实是非常专业化的,所以说它是“通用”的,我觉得有点用词不当。
所以我更喜欢用“高级机器智能”(AMI)这个词,我们发音成“Ami”,就是 Advanced Machine Intelligence 的缩写。
(法语的 ami 是朋友的意思,杨立昆以前接受采访的时候说过)
我说的这种概念,就是系统能够学习世界的抽象心智模型,并用这些模型来进行推理和规划。我觉得我们可能在三到五年内,就能基本搞定,至少在小规模上让它跑起来。然后接下来就是扩展规模等等的问题。直到我们达到人类水平的人工智能。
现在问题的关键是,人工智能的历史上,一代又一代的人工智能研究者,他们每次发现一种新范式,都会说“就是它了!”,说“再过 10 年,或者 5 年,或者随便多久,我们就能实现人类水平的智能了!”“我们将拥有在所有领域都比人类更聪明的机器!” 这种说法已经持续了 70 年了,每隔十年左右就会出现一波新的浪潮,而当前的这波浪潮,我觉得也是错的。
所以,那种认为“只需要扩大模型规模,或者让它们生成几十个 token 序列,然后选出就能达到人类水平智能”的想法,认为“几年之内,两年之内,我记得有些人预测说,数据中心里就会出现一个天才国家”,引用某个不愿透露姓名的人的话。我觉得这完全是胡扯。纯粹是胡扯。在很多应用领域,在不久的将来,系统当然可能会达到博士水平(如果你想这么说的话)。但在整体智能方面,我们还差得很远——但它可能在十年左右的时间内就会实现。所以也不是那么遥远。
比尔·达利:那么,人工智能已经在很多方面得到了应用,这些应用,改善了人类的状况,让人们的生活更轻松。你觉得人工智能的哪种应用,是最有说服力、最有利的?
杨立昆:当然有一些很明显的应用。我认为人工智能对科学和医学的影响,可能会比我们现在能想象到的还要大得多,尽管现在已经很厉害了。不只是在蛋白质折叠、药物设计这类研究方面,在理解生命的运作机制方面,而且在短期内也会有很大影响。
现在在美国,你经常会做医学影像检查,里面就有人工智能参与。如果是乳房 X 光检查,很可能就先用深度学习系统预先筛查一下,看看有没有肿瘤。如果你去做核磁共振(MRI),你在 MRI 机器里待的时间能减少四倍左右,因为现在我们可以,用更少的数据恢复出 MRI 图像的高分辨率版本。
所以,像这种短期的好处就有很多。当然,我们每个人的汽车——英伟达是这方面的一大惊喜,现在大多数新车都配备驾驶辅助系统或者自动紧急刹车系统。而在欧洲,这些东西现在已经是强制标配好几年了。这些系统能减少 40% 的碰撞事故。它们能救命。这些显然都是非常重要的应用。而且这些都不是生成式人工智能,这些不是大语言模型,这些基本上都是感知 AI 方面的应用。当然,汽车控制也有一点。现在,很明显,不管是现在的大语言模型,还是未来几年会发展成什么样,在工业界、服务业等等领域,都有很多应用。
但是我们也必须考虑到这些应用的局限性,也就是说,部署和应用那些达到预期准确性和可靠性水平的系统,其实比大多数人想象的要难。自动驾驶肯定就是这样,“我们什么时候能实现 L5 级自动驾驶?”这个问题,就像一个不断后退的地平线一样。
我觉得很多领域都会遇到类似的情况。通常人工智能会失败的地方,不是在基础技术上,不是在那些花哨的演示上,而是在你真正需要部署它、应用它,并且让它足够可靠,能和现有系统整合的时候,这时候就会变得非常困难、非常昂贵,而且比预期要花更多时间。
比尔·达利:确实,自动驾驶汽车必须一直保持正确,不然就可能有人受伤或者丧命,所以它的准确率必须接近完美。但也有很多应用,只要它大部分时候是正确的,就非常有用了。甚至像一些医疗应用,医生还会再检查一遍,当然还有娱乐、教育等等领域,你只需要它做好事多于坏事,而且就算出错了,后果也不会是灾难性的。
杨立昆:没错。所以,对于大多数系统来说,真正最有用的,是那些能提高人们生产力或者创造力的系统。
比尔·达利:比如代码助手。
杨立昆:基本上就是辅助人们的那种工具,比如在医学领域、艺术领域、写作……
比尔·达利:如果人工智能不是要取代人类,那它基本上就是在给人类提供更强大的工具。
杨立昆:它可能在某个时候会取代人类,但我不觉得人们会愿意接受这个事实。基本上,我们和未来人工智能系统的关系,包括超级智能,超人类级别的系统,应该是让我们来当老板,并让一群超级智能的虚拟员工为我们工作。我不知道你们感觉怎么样,反正我挺喜欢和比我聪明的人一起工作的,这简直是世界上最棒的事儿。
比尔·达利:我也是。所以,反过来说,就像人工智能能在很多方面造福人类一样,它也有阴暗面,有些人会用它来做坏事,比如制造深度伪造视频、传播假新闻,如果使用不当,它可能会造成情感伤害。你最担心人工智能被用在哪些方面?我们应该怎么减轻这些风险?
杨立昆:Meta 很熟悉用人工智能来对抗各种攻击,不管这些攻击是不是也来自人工智能。可能有点出乎意料的是,虽然大语言模型和各种深度伪造技术已经出现好几年了,但我们那些负责检测和处理这类攻击的同事告诉我们,我们并没有看到,社交网络上出现大量增加的生成内容。或者至少没有以一种恶意的方式发布,而且通常都会被标记为是合成内容。
总之,我们并没有看到大家之前担心的那些灾难性场景,人们在三四年前警告说,人工智能会“摧毁所有的信息”或者会怎么怎么样。
这里有个挺有意思的故事,我得跟你们说说,在 2022 年秋天,我在 Meta 的同事,一个小团队,做了一个大语言模型,这个模型是用所有科学文献来训练的。他们把能找到的所有技术论文都用上了。这个模型叫 Galactica。他们把它放出来,还附带一篇长论文,详细介绍了它是怎么训练的,开源代码,还有一个演示系统,大家可以直接试用——结果这东西在 Twitter 上被骂惨了。
大家都在说,“太可怕了!”“这会害死我们的!”“这会毁掉科学交流体系!”“现在随便哪个白痴都能,写出一篇听起来很科学的论文,鼓吹吃碎玻璃的好处了!”等等。网上铺天盖地都是负面评价,以至于,我那些可怜的同事们,一个五人小团队,晚上都睡不着觉,最后他们只好把演示系统撤下来了。他们保留了开源代码和论文,但演示系统下线了。
我们当时的结论是,“世界还没有准备好迎接这种技术。”“而且没人感兴趣。”
结果,三个星期后,ChatGPT 就横空出世了,那简直就像弥赛亚再临一样,我们当时都互相看着对方,心想,“什么鬼?这是怎么回事?”
我们完全无法理解公众对 ChatGPT 的热情,考虑到之前大家对 Galactica 的反应,简直是天壤之别。而且我觉得,OpenAI 实际上也对 ChatGPT 在公众中取得的成功感到非常意外。所以,很多时候都是认知问题。但 ChatGPT 并没有试图写学术论文,或者搞科学研究。它基本上就是一个你可以对话的东西,你可以问它任何问题,它更加通用,所以在某种程度上,它对更多人来说更有用,或者说更接近于有用。
总之,危险肯定是存在的,各种滥用 AI 的可能性都有。但我想再强调一遍,对抗滥用的对策,就是更好的人工智能。确实会存在不可靠的系统,而解决这个问题的方法,就是更好的人工智能。我们需要的是可能具备常识的系统,它具备推理能力,能够检查答案是否正确,并且能够评估自身答案的可靠性,而这些都是目前系统所不具备的。至于那些灾难性的情景,说实话,我不相信它们会发生。
比尔·达利:所以说,人类会适应 AI 的。我也更愿意相信,人工智能总体上是利大于弊的,即使其中会掺杂一些坏的东西。作为一个在大西洋两岸都有家的人,你拥有非常全球化的视野。你觉得未来人工智能的创新会来自哪里?
杨立昆:创新可以来自任何地方。哪里都有聪明人。没有人能垄断好点子。有些人可能觉得自己高人一等,觉得他们可以不跟任何人交流,就能想出所有好主意。但根据我作为科学家的经验,情况并非如此。
好点子往往来自很多人的互动,来自思想的交流,而且,在过去十年或者更久的时间里,也包括代码的交流。所以,这也是为什么,我一直非常提倡开源人工智能平台,也是 Meta 在一定程度上也采纳了这种理念的原因之一。我们不可能垄断好点子。就算我们自认为有多聪明,也不可能做到。最近 DeepSeek 的例子就很好地说明了,好点子可以来自任何地方。
现在,中国有很多非常优秀的科学家。有一个故事很多人应该知道,如果你问自己,“过去十年里,所有科学论文中,引用次数最多的论文是哪一篇?”
答案是一篇发表于 2015 年的论文,正好是十年前。它是关于一种特定的神经网络架构,叫做 ResNet,残差网络。这篇论文是微软亚洲研究院在北京的研究人员写的,作者都是中国科学家。第一作者是何恺明。一年后,他加入了 Meta 在加州 Menlo Park 的 FAIR 实验室,在那里工作了大约八年。
比尔·达利:他现在去麻省理工学院了。
杨立昆:没错,去了 MIT。所以,我只是想说明,世界各地都有很多优秀的科学家。好点子可能在任何地方冒出来。但是,要把这些好点子真正变成现实,你需要,庞大的基础设施,大量的计算资源,而且你需要给你的朋友、同事们很多钱,才能买得起这些东西。
比尔·达利:但是,拥有一个开放的知识交流社区,能让进步更快,因为,可能有人在这里想出了一半的好点子,另一个人在那里想出了另一半,如果他们能互相交流,那事情就能成,但如果大家都各自封闭,互不交流,进步就很难发生。
杨立昆:没错。还有一点是,为了让创新想法涌现出来,作为英伟达的首席科学家,你应该很清楚,你需要给人们足够的自由空间,你需要让人们真正地去创新,而不是给他们压力,让他们每三个月或者每六个月就必须拿出点成果。
事实上,DeepSeek 的例子就是这样。Llama 也是如此。
有一个故事可能很多人都不知道,在 2022 年,Meta 的 FAIR 实验室里,有好几个大语言模型项目在同时进行。其中一个项目投入了大量资源,得到了领导层的支持,各方面条件都很好。另一个项目,规模比较小,有点像“小作坊”项目,是巴黎的十几个人搞的,他们基本上是想自己做一个大语言模型,因为他们出于某种原因需要用到。
结果这个“小作坊”项目,反而成了后来的 Llama。而那个资源充足的大项目,你甚至都没听说过,因为它被砍掉了。
所以,即使你没有所有的资源支持,你也能想出好点子。关键在于,如果你能在某种程度上和管理层保持一点距离,让他们别来管你,你反而可能比那些被要求按计划创新的人,更容易想出更好的点子。
当年那十几个人,他们做出了 Llama 1。然后,Meta 决定选择 Llama 作为主要平台,而不是另一个项目。再然后,我们又围绕 Llama 组建了一个大型团队,开发出了 Llama 2,最终开源,这基本上在整个行业掀起了一场小小的革命。再后来就是 Llama 3。截至这场对话前,Llama 的下载量已经超过 10 亿次了。我觉得这太不可思议了,并且你们(英伟达)肯定认识他们,因为他们肯定都买了英伟达的硬件,才能跑得动这些模型。我们得感谢你卖出了这么多 GPU。
比尔·达利:所以,我们再来聊聊开源。我觉得,Llama 在开源方面做得非常创新,它是一个最先进的大语言模型,它提供了开放权重,这样大家就可以下载并在本地运行。这样做有什么优点和缺点?Meta 显然投入了巨额资金来开发、训练和微调这个模型,然后又免费把它放出来。这样做的好处是什么?缺点又是什么?
杨立昆:我觉得,如果你是一家指望直接从这项服务中赚钱的公司,那开源肯定是有缺点的。如果那是你唯一的商业模式,那当然,对你来说,公开你所有的秘密可能是不划算的。但如果你是一家像 Meta,或者在某种程度上像 Google 这样的公司,你的收入来源就不是这个。
比尔·达利:比如广告。
杨立昆:像 Meta,收入主要来自广告,Google 的收入来源就比较多样了。也许未来还会有其他收入来源。但是,重要的不是你在短期内能赚多少钱,而是,你能否构建出你想要构建的产品所需要的功能?你能否吸引全世界尽可能多的聪明人来参与贡献?为了整个世界。比如,如果其他公司把 Llama 用在其他用途上,对 Meta 来说也没什么损失。比如,他们又没有社交网络可以基于 Llama 来构建。所以,开源对 Google 来说可能威胁更大一些,因为很明显,你可以用 Llama 来构建搜索引擎。
这可能也是为什么 Google 对这种开源模式的态度没有那么积极的原因。但是,我们已经看到了 Pytorch 最开始开源的影响,它对整个行业、对整个社区的影响,以及 Llama 2 开源的影响,它基本上,一下子就带动了整个创业生态系统的发展。我们也看到这种情况在更大的行业范围内出现,有些人一开始可能会用一些专有的 API 来做人工智能系统的原型,但到了真正要部署的时候,他们发现最划算的方式还是用 Llama,因为你可以在本地或者其他开源平台上运行它。
但从更宏观的角度来看,从哲学层面来说,我认为想要拥有开源平台,最重要、最根本的原因是,在不久的将来,我们与数字世界的每一次互动,都将由人工智能系统来调解。我现在就戴着 Ray-Ban Meta 智能眼镜。我可以通过它和 Meta AI 对话,问它任何问题。我们不认为人们会只想要一个助手,而且这些助手都来自美国西海岸或者中国的少数几家公司。我们需要的是极其多样化的助手。他们需要说世界上所有的语言,理解世界上所有的文化、所有的价值体系、所有的兴趣点。他们需要有不同的偏见、政治观点等等。
所以,我们需要多样化的助手,就像我们需要多样化的媒体一样。不然的话,我们所有人都会从相同的来源获取相同的信息,这对民主,以及其他各方面来说,都不是好事。所以,我们需要一个平台,让任何人都可以用它来构建这些助手,构建一个由各种各样的助手组成的生态系统。而现在,唯一能做到这一点的途径,就是开源平台。
我认为开源平台在未来会变得更加重要,因为如果我们想要基础模型能说世界上所有的语言,能理解各种文化,等等,没有任何一个单一的实体能够独自完成这项任务。谁会收集世界上所有语言的所有数据,然后直接交给,OpenAI、Meta、Google 或者 Anthropic 呢?没人会这么做。大家都想保留自己的数据。所以,世界各地的不同地区,都希望把自己拥有的数据贡献到一个全球性的基础模型中,但实际上并不想直接交出数据。他们可能会参与到训练全球模型的过程中。我认为这才是未来的模式。基础模型将会是开源的,将会以分布式的方式进行训练,世界各地的数据中心可以访问不同的数据子集,然后共同训练出一个“共识模型”。所以,开源平台是完全不可避免的,而那些专有平台,我认为最终会逐渐消失。
比尔·达利:而且开源模式不仅对语言和文化的多样性有意义,对应用的多样性也有意义。比如,一家公司可以下载 Llama,然后在他们不想上传的专有数据上进行微调。
杨立昆:现在大家基本上都是这么做的。现在大多数人工智能创业公司的商业模式,基本上都是围绕这个思路展开的,就是,基于开源模型,为一些非常酷的应用场景,构建专门的系统。
比尔·达利:所以,在黄仁勋的 Keynote 里,他举了一个很棒的例子,用一个智能体大语言模型来做婚礼策划,来决定婚礼上谁应该和谁坐一桌,这个例子很好地说明了,在训练上投入精力和在推理上投入精力之间,存在着一种权衡关系。
也就是说,你可以选择训练一个非常强大的模型,为此投入大量的资源,或者你可以选择构建一个相对没那么强大的模型,但让它多次运行,通过多次推理来完成任务。你觉得在构建一个强大的模型时,训练时间和推理或测试时间之间,应该如何权衡?最佳的平衡点在哪里?
杨立昆:首先,我认为,黄仁勋说得完全正确,一个能够进行推理的系统,最终会拥有更强大的能力。但我不太认同他说的另一点。我认为目前那些通过增强推理能力的大语言模型,它们所采用的推理方式是错误的。
比尔·达利:你是说,这种方法现在能用,但不是正确的方法?
杨立昆:对,不是正确的方法。我认为,当我们进行推理,当我们思考的时候,我们是在某种抽象的心智状态下进行的,这种状态和语言没什么关系。
比尔·达利:不太像是通过输出 token 来推理。你觉得应该在潜在空间里进行推理,而不是在……
杨立昆:对,应该在潜在空间里,如果我跟你说,“想象一个立方体漂浮在你面前,现在让这个立方体绕着垂直轴旋转 90 度”,你可以在脑子里完成这个操作。这和语言没什么关系。猫也能做到这一点。我们当然没法用语言给猫描述这个问题。但是,当猫计划跳到家具上的时候,它们会做比这复杂得多的事情,它们做的事情比这复杂得多。
而以上这些,都和语言无关,它肯定不是在 token 空间里完成的,token 空间可能对应的是一些动作。这些推理和规划,都是在某种抽象的心智空间里进行的。所以,这就是未来几年我们要面临的挑战,就是要找到新的架构,能够实现这种类型的能力。这也是我过去一直在研究的方向。
比尔·达利:那么,我们是不是可以期待出现一种新的模型,能让我们在这种抽象空间里进行推理?
杨立昆:我们把它叫做 JEPA,或者 JEPA 世界模型。我们,我和我的同事们已经发表了一系列关于这方面的论文,算是,在过去几年里,朝着这个方向迈出的初步探索。JEPA 的意思是“联合嵌入预测架构”。这就是我说的那些世界模型,它们学习抽象的表示,这些表示能够被操纵,并且可能进行推理,产生一系列的行动,最终,达到特定的目标。我认为,我认为这才是未来。我大概在三年前写过一篇长文,详细解释了这种架构可能的工作方式。
比尔·达利:所以,要运行这些模型,你需要非常强大的硬件,在过去十年里,GPU 的性能提升了,大概 5 到 1 万倍,基本上在人工智能模型的训练和推理方面,从 Kepler 架构到 Blackwell 架构,我们今天也看到了,未来还会有更大的进步。再加上横向扩展和纵向扩展,又能提供更强的计算能力。
在你看来,未来硬件会朝着什么方向发展?你觉得什么样的技术进步,能让我们构建出你的 JEPA 模型,以及其他更强大的模型?
杨立昆:多多益善。因为我们将需要尽可能多的计算资源。所以,这种在抽象空间中进行推理的想法,在运行时计算量会非常大。这和我们都很熟悉的一个概念有关,心理学家会说 System 1(快思考)和 System 2(慢思考)。
System 1 指的是那些你不需要怎么思考就能完成的任务。你已经习惯了它们,你可以不怎么动脑子就能完成。比如,如果你是一个经验丰富的司机,即使没有驾驶辅助系统,你也能开车。你可以不用怎么思考就能开车,你还可以同时和别人聊天,你可以,做其他事情。
但如果你是第一次开车,或者刚开始学开车的几个小时,你坐在驾驶座上,就必须全神贯注,集中注意力,你会预想各种各样的灾难场景,想象各种各样的事情。这就是 System 2。你调动了整个前额叶皮层,调用你的内部世界模型,来搞清楚接下来会发生什么,然后规划行动,确保好事发生。
而当你对开车这件事已经很熟悉之后,你就可以只用 System 1,有点像自动驾驶一样完成任务。所以,最开始的推理过程,是 System 2,而那种自动的、潜意识的、反应式的策略,就是 System 1。
大语言模型现在可以做到 System 1 的水平,并且正在努力向 System 2 迈进,但最终,我认为我们需要一种不同的架构来实现 System 2。
比尔·达利:你觉得能实现 System 2(慢思考)的架构会是你的 JEPA 吗?
杨立昆:我认为,如果你想让系统理解物理世界,它就不会是一个生成式架构。物理世界比语言要复杂得多,也难理解得多。我们总是觉得语言是人类智慧的巅峰,是人类智力的最高体现。但实际上,语言很简单,因为它本质上是离散的。之所以是离散的,是因为语言是一种交流机制,它必须是离散的,不然就没法抗干扰。
如果语言不是离散的,你就没法听清楚我现在在说什么。所以,语言的简单性,是源于它的本质。但现实世界就复杂得多了。
这里有一个例子,你们有些人可能以前听我说过。目前的大语言模型,通常是用大约 30 万亿个 token 来训练的,一个 token 大概是 3 个字节。所以 30 万亿个 token,就是 0.9 * 10^13 字节,我们算它 10^14 字节吧。如果让人来阅读这么多文本,即使是阅读速度很快的人,也需要超过 40 万年的时间,因为这几乎相当于互联网上所有文本的总量,现在,心理学家告诉我们,一个四岁的孩子,总共清醒的时间大约是 16000 个小时,而且我们通过视神经,每秒钟大约有 2 兆字节的数据进入视觉皮层,大概每秒 2 兆字节。把这个数字乘以 16000 小时,再乘以 3600 秒,结果大约是 10 的 14 次方字节。
也就是说,一个四岁小孩通过视觉在四年内接收到的数据量,和你需要花 40 万年才能读完的文本量是差不多的。这说明,无论你对 AGI 的定义是什么,仅仅通过文本训练,我们永远不可能实现通用人工智能(AGI)。这根本不可能发生。
比尔·达利:回到硬件方面,脉冲神经网络系统也取得了很大进展,有些人非常推崇这种系统,并且研究生物系统的工作原理,他们认为神经形态硬件,在人工智能领域可以发挥作用。你觉得神经形态硬件在人工智能领域,在补充或者取代 GPU 方面,有什么应用前景吗?
杨立昆:近期内是看不到的。我得给你们讲个关于这个的故事。
我 1988 年刚去贝尔实验室的时候,我所在的那个小组,实际上就是研究用于神经网络的模拟硬件的。他们,做了好几代完全模拟的神经网络,然后又做了混合模拟数字的,最后在 90 年代中期,转向了完全数字化的神经网络。那时候大家对神经网络的热情已经消退了,所以继续研究模拟硬件也没什么意义了。
像这种基于比较特殊的底层原理的硬件,问题在于,目前的数字 CMOS 技术已经发展到了一个非常深的局部最优解,想要用其他技术赶上它,需要很长时间,而且需要大量的投资。而且,从原理层面来说,其他技术是否真的有优势,也还不清楚。像模拟电路,或者脉冲神经元和脉冲神经网络,它们可能在某些方面有内在的优势,但问题是,它们让硬件的复用变得非常困难,我们现在用的硬件,在某种意义上都太大了,速度也太快了。
所以我们必须尽可能地复用同一块硬件,通过分时复用的方式,让同一块硬件计算神经网络的很多不同部分,如果你用模拟硬件,基本上就没法做分时复用了。你必须在你的虚拟神经网络里,为每个神经元都配备一个物理神经元,这意味着你没法把一个像样规模的神经网络塞进单个芯片里。你必须用多芯片互联的方式。一旦你真的能做到这一点,速度肯定会非常快,但效率会很低,因为你需要做芯片间的通信,而且,内存管理也会变得很复杂,而且最终你还是需要用数字信号来通信,因为这是在抗干扰方面,实现高效通信的唯一方法。
事实上关于大脑,这里有一个有趣的信息。大多数动物的大脑,或者说大部分动物的大脑,神经元之间都是通过脉冲信号来通信的。脉冲信号是二进制信号。所以它是数字信号,不是模拟信号。神经元内部的计算可能是模拟的,但神经元之间的通信实际上是数字的。当然,微小的动物除外。比如,秀丽隐杆线虫,那种 1 毫米长的蠕虫。它有 302 个神经元。它们的神经元不产生脉冲信号。它们不需要脉冲信号,因为它们不需要远距离通信。
所以,在那种尺度下,它们可以用模拟信号进行通信。这告诉我们,即使我们想用模拟计算这种比较特殊的硬件技术,我们也仍然需要以某种方式使用数字通信。至少为了内存管理,也需要数字通信。所以,现在还不太明朗。你肯定已经多次做过相关的计算,我知道我可能在这方面没有你了解得多,但是,我不认为神经形态硬件会在近期内有什么大的应用。也许在一些边缘计算的场景下,会有一些应用空间。比如,如果你想要一个超便宜的微控制器,用来运行你的吸尘器或者割草机的感知系统,那如果你能把整个系统都集成到单个芯片里,并且可以用相变存储器或者其他类似的存储技术来存储权重,那模拟计算可能就有意义了。我知道有些人正在认真地研究这些东西。
比尔·达利:就像你说的,这涉及到人们常说的 PIM,或者叫“内存计算”技术,包括模拟和数字的混合。你觉得这种技术有应用前景吗?它有希望吗?
杨立昆:当然有。我的一些同事实际上对这个非常感兴趣,因为他们想开发智能眼镜的后继产品,而智能眼镜需要的是一些视觉处理功能,基本上要一直运行。但现在这还做不到,因为功耗是个大问题。像一个传感器,比如图像传感器,你不可能让它一直开着,放在像这样的智能眼镜里,那样电池几分钟就没电了。
因此,一个可能的解决方案是,直接在传感器芯片上进行处理,这样你就不用把数据从芯片里搬出来,而数据搬运才是耗电大户,而不是计算本身。所以,现在有很多关于这方面的研究,但我们还没能真正实现。
比尔·达利:但你认为这是一个很有希望的方向。
杨立昆:我认为这是一个很有希望的方向。事实上,生物系统早就搞定了这个问题,也就是我们的视网膜。
视网膜大约有 6000 万个光感受器,在我们的视网膜前面,还有四层神经元,是透明的神经元,它们负责处理光感受器传来的信号,把信号压缩到 100 万根视神经纤维,然后传到我们的大脑视觉皮层。所以,视网膜本身就做了压缩、特征提取……各种各样的处理,目标就是尽可能从视觉系统中提取出最有用的信息。
比尔·达利:那么,其他新兴技术呢?你觉得,量子计算或者超导逻辑,或者其他什么技术,在未来有可能给我们的人工智能处理能力带来巨大的飞跃吗?
杨立昆:超导计算也许有可能。我对这方面了解不多,没法给出确定的判断。
光学计算,我觉得一直都挺让人失望的。已经有好几代人在研究光学了。我记得在 1980 年代,我听到关于神经网络光学实现的报告时,感觉非常惊艳,但结果一直都没能真正实现。技术肯定是在不断进步的,所以也许未来情况会有所改变。我认为光学计算的很多成本,都和模拟计算类似。在与数字系统接口的时候,信号转换过程中会损失很多性能。
至于量子计算,我对量子计算的应用前景非常怀疑。我认为量子计算在中期内唯一有应用前景的领域,就是模拟量子系统。比如,如果你,如果你想做量子化学模拟或者其他类似的模拟,也许可以用得上。但对于其他任何应用,比如通用计算,我个人非常怀疑。
比尔·达利:你之前提到过,要构建能像幼年动物一样从观察中学习的人工智能。你觉得要实现这个目标,对硬件会有什么要求?你认为我们需要在硬件方面做哪些发展,才能支持这种人工智能?
杨立昆:你们能给我们提供多少硬件?
比尔·达利:这取决于你们愿意买多少,买得越多,省得越多。而且,正如我们今天听到的,你们用得越多,我们赚得越多。
杨立昆:这肯定不会便宜,哈哈。
我来跟你们说一个实验,我的一些同事,大概在一年前做的。当时有一种自监督学习技术,可以用重建的方法来学习图像表示。就是我之前说的那些“没用”的技术,这是一个叫做 MAE 的项目,掩码自编码器。它基本上就是一个去噪自编码器,很像 U-Net 用的那种,就是说你拿一张图片,通过移除其中的一部分,实际上是很大一部分,来破坏它,然后你训练一个巨大的神经网络,基本上在像素级别,或者 token 级别,重建出完整的图像。
然后,你把这个神经网络学到的内部表示,作为下游任务的输入,比如做有监督的对象识别,或者其他任务。这种方法效果还行。但为了运行这个模型,你得先煮沸一个小池塘,才能给那些液冷 GPU 集群降温。但它的效果,远不如那些联合嵌入架构。你可能听说过 DINO,DINO V2,I-JEPA 等等。这些都是联合嵌入架构,它们的效果往往更好,而且实际上训练成本也更低。
比尔·达利:所以,在联合嵌入架构里,你基本上是为两个输入类别分别设置了潜在空间,而不是把所有东西都转换成同一种 token。
杨立昆:与其用一张图像,然后用它的一个损坏或者变形的版本,再训练模型从损坏或变形的版本重建出完整图像,不如直接用完整图像和损坏或变形的版本,把它们都扔进编码器,然后你尝试把这两个编码器的输出表示联系起来。就是说,从部分可见的、损坏的版本中学习完整图像的表示。这就是联合嵌入预测架构。这种方法效果更好,而且成本更低。
现在 MAE 团队说,“好吧,这个方法看起来对图像还行,我们试试用它来处理视频。”结果,你要对视频进行 token 化,基本上把视频变成,16×16 的图像块,即使是很短的视频,也会有很多图像块。然后训练一个巨大的神经网络,来重建视频中缺失的图像块,或者预测未来的视频帧。为了做这个实验,你需要煮沸的就不是一个小池塘了,而是一个小湖。而且结果基本上是失败的。那个项目被砍掉了。
所以,我们现在找到的替代方案,是一个叫做 V-JEPA 的项目,我们正在开发 V-JEPA 的第二个版本,它基本上也是一种联合嵌入预测架构,它可以在视频上做预测,而且是在表示层面上做预测,效果看起来非常好。我们有一个例子,V-JEPA 的第一个版本,是用非常短的视频片段(只有 16 帧)训练的,它试图基本上从部分被遮挡的视频版本中,预测出完整视频的表示。而且这个系统,似乎能够判断一个特定的视频在物理上是否合理,至少在一些受限的场景下可以做到。
比尔·达利:那么,系统输出的是非黑即白的判断吗?比如,直接给出“这个视频是合理的”或者“这个视频是不合理的”这样的结果?
杨立昆:不,其实比这更精细。判断的依据是系统预测产生的误差大小。具体来说,就是在视频上滑动一个 16 帧的窗口,然后观察系统是否能预测出接下来的几帧,并测量预测的误差值。当视频中出现非常不寻常的情况时,例如物体突然消失或变形,或者物体凭空出现,又或者出现违反物理规律的现象,预测误差就会显著升高。
比尔·达利:所以,这个系统实际上是通过观看视频,自主学习物理世界的规律,从而判断什么是符合物理法则的,什么是合理的。
杨立昆:训练时,我们使用真实的自然视频;测试时,则使用人工合成的视频,并在合成视频中人为地制造一些非常违反常理的事件。
比尔·达利:我明白了。那么,如果用那些“违反常理的事件”频繁发生的视频来训练系统,系统是不是就会认为那些“违反常理的事件”是正常的了?
杨立昆:你说的没错。那样的话,系统就不会再认为那些事件是奇怪的了。所以我们当然不会那样做。这有点类似于人类婴儿学习“直觉物理学”的过程。例如,婴儿需要一段时间才能认识到“物体在没有支撑的情况下会掉落”,也就是理解重力。
婴儿大约在九个月大的时候才能掌握这个概念。如果你给五六个月大的婴儿看一个物体悬浮在空中的场景,他们并不会感到惊讶。但是,当婴儿长到八九个月,或者十个月大的时候,如果再看到类似的场景,他们就会非常惊讶地盯着看。
这种反应是可以被测量到的,心理学家有专门的方法来测量婴儿的注意力。这表明,婴儿的内部世界模型,也就是他们对世界的认知模型,受到了挑战。婴儿看到了某些他们认为不可能发生的事情。
比尔·达利:也就是和他们的预期不符,是这样吧。
杨立昆:完全正确。所以婴儿会进行观察,以便修正他们自己的内部世界模型,告诉自己,“也许我需要重新认识和学习这种现象”。
比尔·达利:你之前提到过,要在这个联合嵌入空间中进行推理和规划。你认为为了实现这个目标,在模型和硬件层面,分别存在哪些瓶颈和挑战?
杨立昆:目前来看,最大的挑战仍然是让这个方法真正有效地运行起来。我们需要找到一个有效的“配方”。就像在大家找到训练简单卷积神经网络的有效“配方”之前一样。
回想一下,在 2000 年代末期之前,Geoffery Hinton 一直强调“使用反向传播训练深度网络非常困难”,“只有 Yann 能够用 Cornet 做到,而且他可能是世界上唯一能做到的人”。
当然,这在当时有一定的事实依据,但实际上也并非完全如此。后来的研究表明,训练深度网络并没有想象中那么困难,但确实需要掌握很多技巧,例如工程上的技巧、直觉性的理解,以及选择合适的非线性激活函数。
还有像 ResNet 提出的“残差连接”的思想,那篇论文在过去十年中被引用了 25 万次,是所有科学论文中引用次数最多的。但其核心思想却非常简洁:在网络中加入跨层连接,使得每一层默认情况下都倾向于计算恒等函数,而神经网络的学习目标则转变为对这种恒等函数进行微小的调整和偏离。这个想法非常简单,但却使得构建更深的网络成为了可能。
比尔·达利:残差连接可以有效防止反向传播过程中的梯度消失。
杨立昆:的确如此。残差连接使得训练上百层的神经网络成为可能。而现在,我们已经能够构建更深的网络了。
比尔·达利:因为在那之前,为了避免梯度消失,人们尝试了很多技巧,比如从中间层引出输出,并在这些中间层添加损失函数,因为梯度很难直接反向传播到网络的底层。
杨立昆:网络中某些层可能会死亡,导致整个网络失效,不得不重新开始训练。因此,很多人在早期很快就放弃了,因为他们没有掌握足够的技巧。所以,在大家找到一个有效的“配方”,并掌握了所有这些技巧之后,包括残差连接、Adam 优化器、归一化等等,顺便说一句,我们最近发表的一篇论文证明,Transformer 架构实际上并不需要归一化。

https://arxiv.org/pdf/2503.10622
以及其他类似的技巧,在这些完整的“配方”和技巧被充分掌握之前,深度学习技术的发展确实举步维艰。
自然语言处理(NLP)领域也经历了类似的阶段。在 2010 年代中期,那些基于去噪自编码器的系统,例如 Bert 类型的系统,其核心思想是破坏文本,然后训练大型神经网络来恢复缺失的词语。但最终,这种方法被 GPT 风格的架构所超越。GPT 架构直接在完整的文本序列上进行训练,本质上是训练一个自编码器,但无需手动破坏输入,因为其架构本身是因果的。这同样是一个“配方”的成功案例。事实证明,这个“配方”非常有效,并且具有良好的可扩展性。
因此,我们现在需要做的,就是为 JEPA 架构找到一个类似的有效“配方”,使其能够像 GPT 一样,实现良好的扩展性。而这正是我们目前所欠缺的。
比尔·达利:结束之前,你还有什么最后想对听众(各位读者们)说的吗?
杨立昆:我想再次强调我之前的一个观点。我认为,人工智能的进步,以及迈向人类水平人工智能,或者高级机器智能,或者通用人工智能(AGI),无论你怎么称呼它,都需要每个人的共同努力。它不会凭空产生,也不会仅仅依靠某个机构秘密研发就能实现。这几乎是不可能的。而且,人工智能的进步不会是一个突然爆发的事件,而是一个渐进的过程,会经历持续不断的进步。人类也不会在人工智能实现后的短时间内就被毁灭,因为它不会是一个突如其来的事件。
更重要的是,人工智能的发展需要全球范围内的共同参与和贡献,因此,开放研究和基于开源平台至关重要。如果训练模型需要大量的计算资源,那么更经济实惠的硬件就显得尤为重要。所以,英伟达可能需要考虑降低硬件价格了,抱歉。
比尔·达利:这个建议你可能需要直接向黄仁勋提出。
杨立昆:展望未来,我们将会拥有各种各样的人工智能助手,它们将在日常生活中为我们提供帮助,可能会通过智能眼镜或其他智能设备,时刻伴随在我们身边。而我们人类将成为这些人工智能助手的主导者。它们将服务于我们,为我们工作。未来的社会,或许会变成一个我们每个人都扮演管理者的角色,这听起来似乎也是一种有趣的未来景象。
比尔·达利:就以此作为我们今天的结尾吧。非常感谢你今天带来的这场精彩绝伦、富有启发性的对话。期待未来能有机会再次与你交流。
* 本文由 CSDN 精编整理。
* 本场对话发生于 GTC 2025,对话时间为北京时间 2025 年 3 月 19 日 5:00 AM – 5:40 AM。

【活动分享】2025 全球机器学习技术大会(ML-Summit)将于 4 月 18-19 日在上海举办。大会共 12 大主题、50+ 海内外专家,聚焦下一代大模型技术和生态变革技术实践。详情参考官网:http://ml-summit.org/。
(文:AI科技大本营)