谷歌最重磅的两位AI学者:Jeff Dean与Noam Shazeer四万字畅谈谷歌25年AI历史

这可能是谷歌AI团队里最重要的2个人了,谷歌首席科学家 Jeff Dean 和现代LLM核心架构Transformer的发明者之一 Noam Shazeer,后者多次创业后返回谷歌,最近一次创业是Character.AI。

他们共同执掌谷歌最前沿的AI项目 Gemini。在本次深度访谈中,他们回顾了在谷歌并肩走过的25年,从早期的PageRank、MapReduce,到如今的Transformer、MoE,直至最新的Gemini,展望了通往通用人工智能(AGI)的未来图景。

这不仅仅是一次技术复盘,更是一场关于AI未来发展方向的深刻对话。两位大神不仅分享了对摩尔定律、TPU发展趋势的独到见解,更揭示了谷歌在硬件与算法协同设计上的宏大布局——Pathways。Noam Shazeer更是语出惊人,预言“世界GDP将在不久的将来增长百倍”,并憧憬着“在谷歌数据中心运行百万AI研究员,活到3000年”。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
进群之后,你有机会得到:
  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。

文章目录:
  1. 从25人到科技巨头:谷歌早期往事
  2. 算力与算法的共舞:摩尔定律与AI发展
  3. Transformer的诞生:突破性架构背后的故事
  4. AI研究的突破:从理论到实践
  5. 从TPU到量化:AI硬件的演进之路
  6. 代码、数据与未来:AGI研发的挑战与机遇
  7. 思考与推理:下一代AI的发展方向

01 

从25人到科技巨头:谷歌早期往事

主持人: 好的,第一个问题。两位都在谷歌工作了25年,或者接近25年。在公司早期,你们可能对一切运作方式都了如指掌。那么,这种情况是什么时候开始改变的?你们是否感觉有一个明显的转折点?

Noam: 我加入谷歌是在2000年底,那时公司有导师制度:每个人都会分配一位导师。我当时什么都不懂,就问我的导师所有问题,而我的导师似乎什么都懂。后来我发现,我的导师就是杰夫。

并非谷歌的每个人都无所不知,只是杰夫无所不知,因为基本上所有代码都是他写的。

Jeff: 你太客气了。我认为,随着公司发展,你会经历不同的阶段。我刚加入时,公司只有25、26人左右。所以你最终会记住每个人的名字,即使公司在扩张,你也能记住所有新加入的人。

但到了某个阶段,你开始记不住公司所有人的名字,但至少还认识所有从事软件工程工作的人。再后来,你连软件工程团队所有人的名字也记不住了,但至少还了解每个人在做的不同项目。然后,公司变得足够大,你就会收到一封邮件,说“鸭嘴兽项目”将在周五发布,你就会想,“‘鸭嘴兽项目’到底是什么鬼?”

Noam: 通常这会是一个惊喜。你会想,“哇,‘鸭嘴兽项目’!我完全不知道我们在做这个。”

Jeff: 但我认为,即使不了解所有细节,也应该在高层次上掌握公司的发展动态,这很重要。而且,认识公司里不同部门的人也很有好处,这样你就可以向他们询问更多细节,或者找到应该和谁交流。只要通过一层关系,通常你就能在公司里找到合适的人,前提是你长期建立了一个良好的人脉网络。

主持人: 顺便问一下,谷歌是如何招募到你们的?

Jeff: 实际上,是我主动联系了他们。

主持人: 诺姆,你是怎么被招募的?

Noam: 我在1999年的一次招聘会上看到了谷歌,当时我以为它已经是一家规模庞大的公司,加入也没什么意义,因为我认识的每个人都在用谷歌。我想那是因为我当时是伯克利的研究生。我好像退学过几次研究生项目。

事实证明,谷歌实际上并没有那么大。我并没有在1999年申请,而是在2000年一时兴起给他们发了一份简历,因为我觉得谷歌是我最喜欢的搜索引擎,而且我应该多申请几家公司的工作。但后来发现谷歌真的很有趣,感觉是一群聪明人在做有意义的事情。他们还在墙上贴了一张用彩色蜡笔画的图表,记录着每天的搜索查询数量,而且有人一直在维护这张图表。图表看起来呈指数增长。我想,“这些人肯定会非常成功,而且他们似乎有很多好的问题需要解决。” 所以我就想,“好吧,也许我可以先去那里工作一段时间,然后赚到足够的钱,就可以一直从事AI研究了。”

主持人: 嗯,嗯,某种程度上你确实做到了,对吧?

Noam: 是的,完全按照计划进行。

主持人: 你在1999年就在考虑AI了吗?

Noam: 是的,那是2000年左右。我记得在读研的时候,我的一个朋友告诉我,他2000年的新年愿望是活到3000年,他打算通过发明AI来实现这个目标。我觉得,“哦,这听起来不错。”

我当时并没有想到可以在一家大公司做这件事。但我认为,“嘿,很多人似乎在创业公司赚了很多钱。也许我可以先赚点钱,然后就有足够的钱生活,并长期从事AI研究了。” 但实际上,谷歌后来被证明是从事AI工作的绝佳场所。

Jeff: 我喜欢谷歌的一点是,我们的目标一直都是那种需要非常先进的AI才能实现的事情。因为我认为,组织世界信息并使其人人皆可访问且有用,实际上包含着非常广泛的任务。谷歌并非只做一件小事就止步不前。而且你可以看到,我们最初所做的事情只是朝着这个方向迈进了一步,但实际上可以朝着这个方向做更多的事情。


02 

算力与算法的共舞:

摩尔定律与AI发展

主持人: 在过去的二三十年里,摩尔定律如何改变了你在设计新系统、评估项目可行性时需要考虑的因素?现在的限制是什么?现在能做哪些以前明显无法做到的事情?

Jeff: 我认为,在过去的几十年里,情况实际上发生了很大的变化。在20年前到10年前这段时间,情况非常棒,因为你只需要等待,大约18个月后,你就能得到速度快得多的硬件,而且你什么都不用做。

但最近,我觉得基于通用CPU的机器扩展性已经不如以前了,例如,制造工艺的改进现在需要三年时间,而不是之前的两年。多核处理器等架构上的改进,也没有像20年前到10年前那样给我们带来同样的性能提升。但我认为,与此同时,我们看到了更多专门的计算设备,例如机器学习加速器TPU,以及最近更多专注于ML的GPU,这些设备使我们能够从更现代的计算类型中获得真正的高性能和良好的效率,这与试图运行Microsoft Office之类的复杂C++代码有所不同。

Noam: 感觉算法似乎在追随硬件的发展。基本上,现在的情况是,算术运算非常非常廉价,而移动数据则相对昂贵得多。深度学习的兴起大致就是因为这个原因。你可以用矩阵乘法来构建深度学习模型,其运算复杂度为N立方,而数据通信量基本上是N平方字节。

Jeff: 嗯,我会说,转向以这种方式为导向的硬件是一个重要的转变,因为在此之前,我们拥有的CPU和GPU并非特别适合深度学习。然后,我们在谷歌开始构建TPU,它实际上只是一个降低精度的线性代数机器。一旦你有了TPU,你就会想要充分利用它。

Noam: 这似乎完全是关于识别机会成本。就像拉里·佩奇,我记得,过去总是说:“我们的第二大成本是税收,而最大的成本是机会成本。” 如果他没说过这句话,那我就多年来一直误传他了。

但基本上就是,你错失了哪些机会?在这种情况下,我想机会就是你拥有所有这些芯片面积,但你只在上面放置了非常少量的算术单元。把芯片填满算术单元!你可以完成数量级更多的算术运算。

现在,还需要改变什么?好吧,算法、数据流以及其他一切都需要改变。

Jeff: 而且,哦,对了,算术运算可以使用非常低的精度,这样你就可以塞进更多的乘法器单元。

主持人: 诺姆,我想追问一下你刚才说的,算法一直在追随硬件的发展。如果你想象一个反事实的世界,假设内存成本下降幅度超过了算术运算,或者说,你所看到的动态完全反过来。

Noam: 好的,数据流动极其廉价,而算术运算则不然。

主持人: 那么今天的AI会是什么样子?

Jeff: 你会看到更多对超大内存的查找操作。

Noam: 是的,它可能更像20年前的AI,但方向相反。我不确定。我记得我是在2012年加入谷歌大脑团队的。我离开谷歌几年,碰巧回去和妻子共进午餐,我们碰巧坐在杰夫和早期的谷歌大脑团队旁边。我想,“哇,这是一群聪明人。”

Jeff: 我想我说的是,“你应该考虑一下深度神经网络。我们在那里取得了一些相当不错的进展。”

Noam: “听起来很有趣。” 好的,所以我又跳了回去……

Jeff: 我把他劝回来了,太棒了。

Noam: ……加入杰夫的团队,那是2012年。我似乎每隔12年就会加入谷歌一次:我在2000年、2012年和2024年重新加入了谷歌


03 

从TPU到量化:

AI硬件的演进之路

主持人: 2036年会发生什么?

Noam: 我不知道,我想我们拭目以待吧。

主持人: 在考虑未来版本的TPU时,为了整合你们对算法的思考,你们正在考虑改变哪些权衡因素?

Jeff: 我认为一个总体的趋势是,我们在量化方面做得越来越好,或者说我们拥有了精度更低的模型。我们从TPUv1开始,当时我们甚至不太确定是否可以用8位整数来量化模型并用于服务。但我们有一些早期的证据表明这似乎是可能的。所以我们就想,“太棒了,让我们围绕这一点来构建整个芯片。”

然后随着时间的推移,我认为你已经看到人们也能够使用更低的精度进行训练。而且推理精度也在不断降低。人们现在正在使用INT4或FP4,如果20年前你对一个超级计算浮点数专家说我们要使用FP4,他们会说,“什么?太疯狂了。我们喜欢用64位浮点数。”

甚至更低的精度,有些人正在将模型量化到2位或1位,我认为这是一个肯定的趋势——

主持人: 1位?就像0或1?

Jeff: 是的,只是0-1。然后你为一组位设置一个符号位或其他什么。

Noam: 这真的必须是一个协同设计的产物,因为如果算法设计者没有意识到,使用较低的精度可以大大提高性能和吞吐量,那么算法设计者当然会说,“我当然不想要低精度。那会带来风险。” 然后就会增加麻烦。

然后如果你问芯片设计师,“好的,你想构建什么?” 然后他们会问今天正在编写算法的人,他们会说,“不,我不喜欢量化。这很麻烦。” 所以你实际上需要看到全局,并弄清楚,“哦,等等,我们可以通过量化大大提高我们的吞吐量与成本比率。”

Jeff: 然后你就会说,是的,量化很麻烦,但你的模型会快三倍,所以你必须接受。


04 

Transformer的诞生:

突破性架构背后的故事

主持人: 在你们的职业生涯中,在不同的时期,你们都从事过与我们现在用于生成式AI的技术有着惊人相似之处的工作。1990年,杰夫,你的毕业论文是关于反向传播算法的。2007年——这是我在为这次访谈做准备时才意识到的——2007年你们训练了一个两万亿token的N-gram模型用于语言建模。

请你们讲讲在开发那个模型的时候。当时你们脑子里在想什么?你们认为自己当时在做什么?

Jeff: 先从本科论文说起吧。我在大四时选修的一门并行计算课程中接触到了神经网络。我需要写一篇论文才能毕业,一篇荣誉论文。所以我找到了教授,对他说,“做一些关于神经网络的东西会很有趣。”

于是,教授和我决定,我将实现几种不同的并行化反向传播训练神经网络的方法,那是在1990年。我在论文中给它们起了些有趣的名字,比如“模式划分”之类的。但实际上,我在一台32处理器Hypercube机器上实现了模型并行和数据并行。

在模型并行中,你将所有示例分成不同的批次,每个CPU都拥有模型的副本。在数据并行中,你将一批示例流水线式地输送到拥有模型不同部分的处理器上。我对它们进行了比较和对比,这很有意思。

我对这种抽象概念感到非常兴奋,因为我觉得神经网络是正确的抽象。它们可以解决当时其他方法无法解决的微型玩具问题。我当时天真地认为,32个处理器就能训练出非常棒的神经网络。

但事实证明,我们需要大约一百万倍的算力,神经网络才能真正开始解决实际问题。不过,从2008年末、2009年、2010年开始,由于摩尔定律,我们开始拥有足够的算力,使神经网络能够真正应用于实际场景。那是我重新开始关注神经网络的时候。

但在那之前,在2007年……

主持人: 抱歉,实际上我可以问一下关于这篇论文的事情吗?

Jeff: 哦,当然可以。

主持人: 首先,与学术界的其他作品不同,这篇论文实际上只有四页,而且很容易读懂。

Jeff: 论文只有四页,但后面还有30页的C代码。

主持人: 但它是一件制作精良的作品。请你讲讲2007年的那篇论文是如何诞生的。

Jeff: 哦,好的。当时我们在谷歌有一个机器翻译研究团队,由弗兰茨·奥克领导,他大约在一年前加入谷歌,还有其他一些人。他们每年都会参加DARPA的竞赛,将几种不同的语言翻译成英语,我想是中文译成英语和阿拉伯语译成英语。

谷歌团队提交了一个参赛作品,比赛规则是,你在周一收到500个句子,必须在周五提交答案。我看到了比赛结果,我们以相当大的优势赢得了比赛,评分标准是Bleu评分,这是一种衡量翻译质量的指标。

所以我联系了弗兰茨,这位获胜团队的负责人。我说,“太棒了,我们什么时候发布这个成果?” 他说,“哦,嗯,我们不能发布这个。它实际上不是很实用,因为翻译一个句子需要12个小时。” 我说,“嗯,这似乎太久了。我们该如何解决这个问题?”

事实证明,他们显然没有针对高吞吐量进行设计。它在一个大型语言模型中进行了10万次磁盘寻道,他们在该模型上计算了一些统计数据——我不会真的说是“训练”——用于他们想要翻译的每个单词。

显然,进行10万次磁盘寻道速度不会很快。但我说,“好吧,让我们深入研究一下。” 所以我和他们一起花了大约两三个月的时间,设计了一种N-gram数据的内存压缩表示方法。

我们当时使用的是N-gram模型,N-gram基本上是统计每个N词序列在大型语料库中出现的频率。在这个例子中,我们使用了2万亿个单词。当时大多数N-gram模型都使用二元语法或三元语法,但我们决定使用五元语法。

所以,我们统计了每个五词序列在当天我们能处理的尽可能多的网页中出现的频率。然后你得到一个数据结构,它会告诉你,“‘我真的很喜欢这家餐厅’在网络中出现了17次,或者类似的数字。”

所以我构建了一个数据结构,可以将所有这些数据存储在200台机器的内存中,并提供一个批处理API,你可以说,“这是我在本轮中需要查找的10万个东西,用于这个词”,我们会并行地把它们全部返回给你。这使我们能够将翻译一个句子的时间从一晚上缩短到大约100毫秒。

主持人: 有一份Jeff语录清单,就像查克·诺里斯语录一样。例如,其中一条是“对于Jeff来说,NP等于‘没问题’”。其中一条,现在我听你这么说,实际上有点道理,很有趣。其中一条是,“在Jeff决定在一个周末优化光速之前,光速是每小时35英里。” 仅仅是将时间从12小时缩短到100毫秒,我就得算算这其中的数量级。

Jeff: 所有这些都非常令人受宠若惊。它们很有趣。它们就像我的同事们开的一个愚人节玩笑,结果却流传开来。

主持人: 显然,现在回过头来看,通过仅仅考虑单词之间的关系来开发整个互联网的潜在表示的想法,就像是:是啊,这就是大型语言模型。这就是Gemini。当时,这只是一个翻译的想法,还是你认为这是一个不同范式的开端?

Jeff: 我认为,一旦我们为翻译构建了那个模型,大型语言模型的服务就开始用于其他事情,比如补全……你开始输入,它就会建议有意义的补全内容。

因此,这绝对是谷歌语言模型在许多方面应用的开端。诺姆在谷歌也从事过许多其他工作,比如使用语言模型的拼写纠错系统。

Noam: 那大约是2000年、2001年,我认为所有计算都在一台机器的内存中完成。

Jeff: 是的,我想是在一台机器上完成的。他在2001年构建的拼写纠错系统非常出色。他向全公司发送了这个演示链接。

我尝试了所有我能想到的、对几个词的查询进行拼写破坏的方式,比如“scrumbled uggs Bundict”——

Noam: 我记得那个,是的,是的。

Jeff: ——而不是“scrambled eggs benedict”(班尼迪克蛋),但它每次都能准确识别。

Noam: 是的,我想那就是语言建模。

主持人: 但是,当你们当时开发这些系统时,你们是否意识到,“听着,你让这些东西变得越来越复杂,不要只考虑五个词,考虑100个词,1000个词,那么潜在的表示就是智能”。基本上,这种洞察力是什么时候出现的?

Noam: 实际上并没有。我不认为我曾觉得,好吧,N-gram模型将会——

Jeff: ——席卷世界——

Noam: ——是的:“成为”人工智能。我认为当时很多人对贝叶斯网络感到兴奋。那似乎令人兴奋。

当然,看到早期的神经语言模型,既看到了其中的魔力,“好吧,这正在做一些非常酷的事情”,而且,它给我的印象是世界上最好的问题,因为它非常非常容易陈述:给我下一个词的概率分布。而且,那里有近乎无限的训练数据。有网络的文本;你有数万亿的无监督数据训练样本。

Jeff: 是的,或者说是自监督。

Noam: 自监督,是的。

Jeff: 这很好,因为你有了正确的答案,然后你可以用除了当前词之外的所有词进行训练,并尝试预测当前词。这是一种惊人的能力,可以从对世界的观察中学习。

Noam: 然后它就成为了AI完备的。如果你能在这方面做得非常出色,那么你几乎可以做任何事情。


05 

AI研究的突破:

从理论到实践

主持人: 在科学史上,有一个有趣的讨论,关于思想是仅仅存在于空气中,大思想的出现是否具有某种必然性,还是它们是从某种边缘方向被挖掘出来的。就目前的情况而言,我们以非常符合逻辑的方式来阐述,这是否意味着,基本上,这种必然性有多大……

Noam: 感觉它确实存在于空气中。肯定有一些,比如神经图灵机,一些关于注意力机制的想法,比如拥有这些键值存储可能在神经网络中很有用,可以专注于某些事物。我认为在某种意义上,它存在于空气中,而在某种意义上,你需要某个团队去做这件事。

Jeff: 我喜欢把许多想法看作是部分存在于空气中的,当你试图解决一个新问题时,你会同时关注一些不同的、也许是独立的研究想法。你从这些想法中汲取一些灵感,然后会发现一些尚未解决的方面,你需要弄清楚如何解决。现有事物的某种变形和一些新事物的结合,导致了一些新的突破或以前不存在的新研究成果。

主持人: 有没有让你印象深刻的关键时刻,当你研究一个研究领域,突然冒出一个想法,然后你有一种感觉,“我的天哪,真不敢相信这竟然奏效了?”

Jeff: 我记得在Brain团队早期的时候,我们专注于“让我们看看是否可以构建一些基础设施,让我们能够训练非常非常大的神经网络”。那时,我们的数据中心里没有GPU;我们只有CPU。但我们知道如何让大量的CPU协同工作。

因此,我们构建了一个系统,使我们能够通过模型并行和数据并行来训练相当大的神经网络。我们有一个系统,可以在1000万个随机选择的YouTube帧上进行无监督学习。这是一种空间局部表示,因此它会基于尝试从高层表示中重建事物来构建无监督表示。

我们让这个系统在2000台计算机上使用16000个核心进行训练并运行起来。过了一段时间后,该模型实际上能够构建一个最高级别的表示,其中一个神经元会被猫的图像激活。它从未被告知什么是猫,但它在正面猫脸视图的训练数据中看到了足够的例子,以至于该神经元会为猫的图像而激活,而不会为其他图像激活。

类似地,你会看到其他神经元对人脸和行人的背影等事物做出反应。这很酷,因为它来自无监督学习原则,构建了这些真正高层次的表示。然后,我们在有监督的ImageNet 20000类别挑战赛中取得了非常好的结果,使当时的最新技术水平相对提高了60%,这在当时是非常不错的。

那个神经网络可能比之前训练过的神经网络大50倍,并且取得了很好的效果。这似乎在告诉我,“嘿,实际上扩大神经网络的规模似乎是个好主意,而且似乎确实如此,所以我们应该继续推进。”

主持人: 这些例子说明了这些AI系统如何契合你刚才提到的:谷歌从根本上说是一家组织信息的公司。在这种背景下,AI正在寻找信息之间、概念之间的关系,以帮助你更快地获得想法,更快地获得你想要的信息。

现在我们正在使用当前的AI模型。显然,你可以在谷歌搜索中使用BERT,你可以提出这些问题。它们仍然擅长信息检索,但更根本的是,它们可以为你编写整个代码库并完成实际工作,这超越了信息检索的范畴。

你是如何看待这一点的?如果你们正在构建AGI,那么谷歌仍然是一家信息检索公司吗?AGI可以进行信息检索,但它也可以做许多其他事情。

Jeff: 我认为我们是一家“组织世界信息”的公司,这比信息检索更广泛。也许更准确地说应该是:“组织信息,并根据你给出的指导创建新信息”

“你能帮我给我的兽医写一封关于我的狗的信吗?它有这些症状”,然后它会起草这封信。或者,“你能输入这个视频,然后生成一个每隔几分钟对视频中发生的事情的摘要吗?”

我认为我们的多模态能力表明,它不仅仅是文本。它是关于理解世界中以各种不同模态存在的信息,既包括人类的模态,也包括非人类导向的模态,例如自动驾驶汽车上奇怪的激光雷达传感器,或者基因组信息,或者健康信息。

然后,如何提取和转换这些信息,使其成为对人们有用的见解,并利用这些见解来帮助他们完成他们想做的各种事情?有时是,“我想通过与聊天机器人聊天来获得娱乐。” 有时是,“我想要回答这个非常复杂的问题,没有单一的来源可以检索。” 你需要从100个网页中提取信息,弄清楚发生了什么,并制作一个有组织的、综合版本的数据。

然后处理多模态事物或与编码相关的问题。我认为这些模型的能力非常令人兴奋,而且它们正在快速改进,所以我对未来的发展方向感到兴奋。

Noam: 我也对未来的发展方向感到兴奋。我认为,组织信息绝对是一个万亿美元的机会,但万亿美元已经不够酷了。酷的是万万亿美元。

显然,我们的目标不仅仅是积累一大堆钱,而是要在世界上创造价值,当这些系统能够真正为你做一些事情,编写你的代码,或者解决你自己无法解决的问题时,就能创造出更多的价值。

为了大规模地做到这一点,随着我们不断提高这些模型的能力,我们将必须非常灵活和动态。

Jeff: 是的,我对许多基础研究问题感到非常兴奋,这些问题的出现是因为你看到如果我们尝试这种方法或大致朝着这个方向努力,某些方面可能会得到显著改善。也许会奏效,也许不会。

但我也认为,看到我们能为终端用户实现什么,以及我们如何从终端用户的需求倒推,来实际构建能够实现这些目标的系统,这很有价值。举个例子:组织信息,这意味着世界上的任何信息都应该可以被任何人使用,无论他们说什么语言。

我认为我们在这方面已经做了一些工作,但这远未达到“无论你说什么语言,在数千种语言中,我们都可以让你获得任何内容,并让你使用它。任何视频都可以用任何语言观看”的愿景。我认为那将非常棒。我们还没有完全实现,但这绝对是我在未来可预见的事情。

主持人: 说到你可能尝试的不同架构,我知道你现在正在研究的一件事是更长的上下文。如果你想到谷歌搜索,它拥有整个互联网的索引作为上下文,但它是一种非常浅层的搜索。而现在的语言模型,上下文仍然有限,但它们真的可以思考。这就像黑魔法,上下文学习。它们可以真正思考它们所看到的东西。

你是如何看待将谷歌搜索和上下文学习这样的东西结合起来的?

Jeff: 是的,我先来谈谈我的看法,因为——我对此思考了一段时间。你在这些模型中看到的一件事是,它们相当出色,但它们有时会产生幻觉,并且存在事实性问题。部分原因是,你可能已经在数万亿的token上进行了训练,并将所有这些token混合在一起,融入到你的数百亿或数千亿参数中。

但这一切都有点模糊,因为你已经将所有这些token混合在一起。模型对这些数据有一个相当清晰的视图,但它有时会感到困惑,并会给出错误的日期。

然而,上下文窗口中的信息,即模型的输入,却非常清晰,因为我们在Transformer中使用了非常好的注意力机制。模型可以关注事物,并且它知道它正在处理的确切文本或视频、音频或任何内容的精确帧。

目前,我们拥有的模型可以处理数百万个token的上下文,这已经相当多了。它可以是数百页的PDF文件,或者50篇研究论文,或者数小时的视频,或者数十小时的音频,或者这些东西的某种组合,这非常酷。但如果模型能够关注数万亿个token,那就真的太好了。

它可以关注整个互联网,并为你找到正确的东西吗?它可以关注你的所有个人信息吗?我希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。

当我要求它做某事时,它可以利用这些信息(在我的允许下)来帮助解决我想要它做的事情。但这将是一个巨大的计算挑战,因为朴素的注意力算法是二次方的。在相当多的硬件上,你勉强可以让它处理数百万个token,但天真地扩展到数万亿个token是没有任何希望的。

因此,我们需要大量有趣的算法近似来接近你真正想要的东西:一种让模型在概念上关注更多token(数万亿token)的方法。也许我们可以将所有谷歌代码库都置于每个谷歌开发人员的上下文中,将世界上所有的源代码都置于任何开源开发人员的上下文中。那将是非常惊人的。

Noam: 那将是不可思议的。模型参数的优点在于,它们在记忆事实方面非常节省内存。你可能每个模型参数可以记住大约一个事实或类似的东西。

然而,如果你在上下文中放入一些token,那么每一层都有大量的键和值。每个token可能占用千字节、兆字节的内存。

Jeff: 你拿一个词,然后把它放大到10千字节或更多。

Noam: 是的。实际上,现在有很多创新围绕着,好吧,A,你如何最小化这种情况?B,你需要在这里放哪些词?是否有更好的方法来访问这些信息片段?

杰夫似乎是解决这个问题的不二人选。好吧,从SRAM一直到全球数据中心级别,我们的内存层次结构是什么样的?

主持人: 我想更多地谈谈你提到的事情:谷歌是一家拥有大量代码和大量示例的公司。如果你只考虑这一个用例以及它所蕴含的意义,那么你们有谷歌的单体代码仓库。也许你们解决了长上下文的问题,就可以把整个代码仓库都放进去,或者在上面进行微调。为什么还没有这样做呢?

你可以想象谷歌拥有专有访问权限的代码量,即使你只是在内部使用它来提高开发人员的效率和生产力。

Jeff: 需要明确的是,我们实际上已经对Gemini模型进行了进一步的训练,使用了我们内部的代码库,供我们内部的开发人员使用。但这与关注所有代码库是不同的,因为它有点像将代码库混合在一起,融入到了一堆参数中。将代码库放在上下文中,可以使事情更清晰。

即使是在内部进一步训练的模型也已经非常有用。桑达尔(Sundar Pichai,谷歌CEO)我认为说过,我们现在代码库中25%的字符是由我们基于AI的编码模型生成的,并经过人工监督。

主持人: 根据你看到的未来一两年左右的能力,以及你自己的个人工作,你如何想象?在谷歌做研究员会是什么样子?你有一个新的想法或者其他什么。在一年内,你与这些模型互动的方式会是什么样的?

Noam: 嗯,我假设我们将拥有更好的模型,并希望能够大大提高生产力。

Jeff: 是的,除了研究背景之外,任何时候你看到这些模型被使用,我认为它们都能够提高软件开发人员的生产力,因为它们可以接受一个高层次的规范或句子描述,说明你想要完成什么,并给出一个相当合理的初步方案。从研究的角度来看,也许你可以说,“我真的希望你探索一下类似于这篇论文中的想法,但也许我们可以尝试将其卷积化或其他什么。”

如果你能做到这一点,并让系统自动生成一堆实验代码,然后你查看这些代码,你可能会想,“嗯,看起来不错,运行它。” 这似乎是一个很好的梦想方向。

看起来在未来一两年内,你可能会在这方面取得很大进展。

主持人: 这似乎被低估了,因为你可能拥有数百万额外的员工,而且你可以立即检查他们的输出,员工之间也可以互相检查输出,嘿,立即流式传输token。

Jeff: 抱歉,我不是想低估它。我认为这非常令人兴奋。我只是不喜欢炒作尚未完成的事情。

主持人: 我确实想进一步探讨这个想法,因为它似乎意义重大,如果你拥有某种类似于自主软件工程师的东西,特别是从研究人员的角度来看,他们会想,“我想构建这个系统。” 好的,让我们来探讨一下这个想法。作为一位职业生涯中一直致力于开发变革性系统的人,假设你不再需要像今天开发MapReduce或Tensorflow的等价物那样编写代码,而是直接说,“这是我想要的分布式AI库的样子。为我编写出来。”

你认为你的生产力可以提高10倍吗?100倍?

Jeff: 我印象非常深刻。我记得在Reddit上看到,我们有一个新的实验性编码模型,它在编码和数学方面都更出色。一位外部人士尝试了一下,他们基本上提示模型说,“我希望你实现一个没有外部依赖的SQL处理数据库系统,请用C语言完成。”

据那个人说,模型实际上做得相当不错。它生成了一个SQL解析器、一个分词器、一个查询计划系统,以及用于磁盘数据存储的某种存储格式,并且实际上能够处理简单的查询。从这个提示(大约是一段文字)开始,就能得到一个初步的方案,这对于软件开发人员来说,似乎是一个巨大的生产力提升。

我认为你最终可能会得到其他类型的系统,这些系统可能不会尝试以单一的半交互式、“40秒内响应”的方式来完成任务,而是可能会运行10分钟,并在5分钟后打断你,说,“我已经完成了大部分工作,但现在我需要获得一些输入。你关心处理视频还是只处理图像或其他内容?” 看起来,如果你有很多这样的后台活动正在发生,你需要一些方法来管理工作流程。

主持人: 你能详细谈谈吗?如果你真的可以按需启动数百万员工,数十万员工,他们打字速度惊人,而且——这几乎就像你从1930年代的票据交易一下子跳到现在现代的Jane Street(华尔街顶级自营交易公司)一样。你需要某种界面来跟踪所有正在发生的事情,让AI融入到这个庞大的单体代码仓库中,并发挥它们自身的优势,让人类能够跟踪正在发生的事情。基本上,在三年后的日常工作中,成为杰夫或诺姆会是什么样子?

Noam: 这可能与我们现在的情况有些相似,因为我们已经将并行化作为一个主要问题来考虑。我们有许多非常非常出色的机器学习研究人员,我们希望他们都能协同工作,构建AI。

所以实际上,人与人之间的并行化可能类似于机器之间的并行化。我认为,这绝对有利于那些需要大量探索的事情,比如,“提出下一个突破。”

如果你有一个绝妙的想法,并且肯定会在ML领域奏效,那么即使你很聪明,成功的几率也只有2%。大多数情况下,这些想法都会失败,但如果你尝试100个、1000个或100万个想法,那么你可能会碰巧找到一些惊人的东西。我们有足够的计算资源。现在顶级的实验室可能拥有比训练Transformer所需的计算资源多一百万倍的计算资源。

主持人: 是的,实际上,这是一个非常有趣的想法。假设在今天的世界里,大约有1万名AI研究人员,这个社区每年都会有一个突破——

Jeff: 可能不止这个数字。上周在NeurIPS(神经信息处理系统大会)上有15000人。

Noam: 哇。

主持人: 10万,我不知道。

Jeff: 嗯,也许吧。抱歉。

主持人: 不不,了解正确的数量级很好。这个社区每年在Transformer规模上取得突破的几率,假设是10%。现在假设这个社区扩大了一千倍,并且在某种意义上,它就像这种并行搜索,寻找更好的架构、更好的技术。

我们是否会——

Jeff: 每天都有突破?

主持人: ——每年或每天都有突破?

Noam: 也许吧。听起来可能不错。

主持人: 但这感觉像是ML研究的样子吗?如果你能够尝试所有这些实验……

Noam: 这是一个好问题,因为我不确定人们是否已经做了那么多。我们肯定有很多很棒的想法涌现出来。每个人似乎都想以最大规模运行他们的实验,但我认为这是一个人的问题。

Jeff: 拥有一个1/1000规模的问题,然后在上面验证10万个想法,然后扩展那些看起来有希望的想法,这非常有帮助。

主持人: 所以,世界可能没有认真对待一件事:人们意识到,要制造一个大100倍的模型,难度呈指数级增长。计算量要多100倍,对吧?所以人们担心,从Gemini 2到3,或者更进一步,难度会呈指数级增长。

但也许人们没有意识到另一种趋势,即Gemini 3正在提出所有这些不同的架构想法,进行尝试,你会看到哪些有效,并且你不断提出算法上的进步,这使得训练下一个模型变得越来越容易。你们可以将这种反馈循环推进到什么程度?

Jeff: 我认为人们应该意识到的一件事是,这些模型一代又一代的改进,部分是硬件和更大规模驱动的,但同样重要甚至更重要的是,重大的算法改进和模型架构、训练数据组合等方面的重大变化,真正使模型在应用于模型的每次浮点运算中都变得更好,所以我认为这是一个很好的认识。然后我认为,如果我们能够自动化地探索想法,我们将能够验证更多的想法,并将它们应用到下一代模型的实际生产训练中。

这将非常有帮助,因为这有点像我们目前正在与许多杰出的机器学习研究人员一起做的事情:研究大量的想法,筛选出那些在小规模上效果良好的想法,看看它们在中等规模上是否效果良好,将它们引入更大规模的实验中,然后最终确定将大量新的有趣的东西添加到最终的模型配方中。如果我们能够通过这些机器学习研究人员轻轻地引导一个更自动化的搜索过程,而不是亲自照看大量的实验,从而使这个过程加快100倍,那将真的非常好。

Noam: 唯一不会加速的事情是在最大规模上进行的实验。你最终仍然会做这些N=1的实验。实际上,你只是试图把一群聪明人放在房间里,让他们盯着这些东西,弄清楚为什么这个有效,为什么这个无效。

Jeff: 对于这个问题,更多的硬件是一个很好的解决方案。以及更好的硬件。

Noam: 是的,我们指望你了。

主持人: 所以,粗略地说,有软件,有算法方面的改进,未来的AI可以做到。还有你们正在做的事情。我让你们来描述一下。

但是,如果你们进入这样一种情况,仅仅从软件层面,你们就可以在几周或几个月内制造出越来越好的芯片,并且更好的AI大概可以做得更好,那么这个反馈循环怎么不会最终导致,Gemini 3花费两年时间,然后Gemini 4——或者说同等水平的飞跃现在是六个月,然后Level 5是三个月,然后是一个月?你们比人们可能天真地认为的更快地获得了超人智能,因为这种软件,无论是在硬件方面还是在算法方面的改进。

Jeff: 我最近对我们如何能够大幅加快芯片设计过程感到非常兴奋。正如我们之前讨论的那样,目前设计芯片的方式大约需要18个月才能从“我们应该制造芯片”到你可以交给台积电的东西,然后台积电需要四个月的时间来制造它,然后你把它拿回来,放到你的数据中心里。

所以这是一个相当长的周期,而且今天的制造时间只占其中很小的一部分。但是,如果你能让制造时间成为主要部分,这样,与其用150人花费12到18个月来设计芯片,不如将这个过程缩短到几个人,并采用更自动化的搜索流程,探索整个芯片设计空间,并从芯片设计过程的各个方面获得反馈,以了解系统在高层试图探索的各种选择,那么我认为你可能会获得更多的探索,并更快地设计出你真正想要交给制造厂的东西。

那将非常棒,因为你可以缩短制造时间,你可以通过以正确的方式设计硬件来缩短部署时间,这样你就可以在拿到芯片后直接将它们插入到某个系统中。这将实现更多的专业化,这将缩短硬件设计的周期,这样你就不必对未来有趣的ML算法进行太长远的展望。相反,你只需展望未来六到九个月,应该做什么?而不是两年、两年半。

那将非常酷。我确实认为,如果制造时间在你的改进内循环中,你会喜欢……

主持人: 制造时间有多长?

Jeff: 不幸的是,最先进的节点正在花费越来越长的时间,因为它们比以前的旧节点有更多的金属层。因此,这往往需要三到五个月的时间。

主持人: 好的,但这和训练运行的时间差不多,对吧?所以你们有可能同时做这两件事。

Jeff: 有可能。

主持人: 好的,所以我想你们不可能在三到五个月内完成。但是,你们可以——而且,是的,你们正在快速开发新的算法思想。

Noam: 算法可以快速发展。

Jeff: 算法可以快速发展,可以在现有芯片上运行,并探索许多很酷的想法。

主持人: 所以,这难道不是一种你们……我认为人们有点期望,啊,会有一个S型曲线。再说一次,这不是确定的事情。但就像,这是一种可能性吗?你们是否有可能在人类智能的末端出现能力爆炸,以越来越快的速度变得越来越聪明?

Noam: 很有可能。

Jeff: 是的。我喜欢这样想。目前,我们拥有的模型可以处理相当复杂的问题,并可以在模型内部将其分解为一系列步骤,可以将这些步骤的解决方案拼凑在一起,并且通常可以为你提供你所要求的整个问题的解决方案。

但它不是很可靠,而且它擅长将事物分解为五到十个步骤,而不是100到1000个步骤。因此,如果你们能够从,是的,80%的时间它可以为十个步骤长的事情提供完美的答案,转变为90%的时间它可以为一个包含100到1000个子问题步骤的事情提供完美的答案,那将是这些模型能力上的巨大进步。我们还没有达到那个水平,但我认为那是我们渴望达到的目标。

Noam: 我们不需要新的硬件来实现这个目标,但我们会接受。

Jeff: 永远不要对新的硬件挑三拣四。

Noam: 近期改进的重点领域之一是推理时间计算,即在推理时应用更多的计算资源。我想我喜欢这样描述它:即使是一个巨大的语言模型,即使你每个token执行一万亿次运算(这比现在大多数人做的要多),运算成本也只有大约10的负18次方美元。因此,你每美元可以获得一百万个token。

我的意思是,将其与一种相对廉价的消遣方式进行比较:你出去买一本平装书来阅读,你每美元要支付10000个token。与语言模型对话比阅读平装书便宜100倍。

因此,这里有巨大的提升空间,可以这样说,好吧,如果我们能让它更昂贵,但更智能,因为我们比阅读平装书便宜100倍,我们比与客户支持代理交谈便宜10000倍,或者比雇用软件工程师或与你的医生或律师交谈便宜一百万倍甚至更多。我们能否增加计算量,使其更智能?

我认为我们在不久的将来会看到很多这种形式的爆发。过去,我们一直在大量利用和改进预训练和后训练,这些方面将继续改进。但利用推理时“更努力地思考”将会带来一场爆发。

Jeff: 是的,推理时间的一个方面是,我认为你希望系统能够积极探索一系列不同的潜在解决方案。也许它会自己进行一些搜索,获取一些信息,消化这些信息,并弄清楚,哦,我现在真的想更多地了解这件事。所以现在它迭代地探索如何最好地解决你向这个系统提出的高层次问题。

我认为,拥有一个旋钮,你可以通过增加推理时间计算来使模型给出更好的答案,这似乎我们现在已经掌握了一些可以做到这一点的技术。你把旋钮拧得越大,你在计算方面付出的成本就越高,但答案也会越好。

这似乎是一个不错的权衡,因为有时你想认真思考,因为它是一个非常重要的问题。有时你可能不想花费大量的计算资源来计算“一加一等于多少”。也许系统——

主持人: 不应该决定提出新的集合论公理或其他什么!

Jeff: ——应该决定使用计算器工具,而不是非常大的语言模型。

主持人: 有意思。那么,在增加推理时间方面是否存在任何障碍,比如有没有办法让你能够线性地扩展推理时间计算?或者这基本上是一个已经解决的问题,我们知道如何投入100倍的计算资源,1000倍的计算资源,并获得相应更好的结果?

Noam: 我们正在加紧制定算法。所以我相信,随着超过1万名研究人员(其中许多在谷歌)为此努力,我们将看到越来越好的解决方案。

Jeff: 我认为,在我们自己的实验工作中,我们确实看到了一些例子,在这些例子中,如果你应用更多的推理时间计算,答案会比你只应用x量的推理时间得到更好的答案,甚至比应用10倍的推理时间得到的答案更好。这似乎很有用也很重要。

但我认为我们想要的是,当你应用10倍的计算资源时,答案质量的提升幅度要比我们今天获得的更大。这关系到设计新的算法,尝试新的方法,弄清楚如何最好地利用这10倍而不是x倍的计算资源来改进事物。

主持人: 它看起来更像搜索,还是更像只是沿着线性方向继续更长时间?

Jeff: 我真的很喜欢里奇·萨顿(Rich Sutton)写的关于“苦涩的教训”的论文,“苦涩的教训”实际上是一篇不错的单页论文,但它的本质是你可以尝试很多方法,但两种非常有效的技术是学习和搜索。

你可以算法化或计算化地应用和扩展这些技术,而且你通常会比你应用于各种问题的任何其他类型的方法获得更好的结果。

搜索必须是花费更多推理时间的解决方案的一部分。也许你可以探索几种不同的解决这个问题的方法,这种方法行不通,但这种方法效果更好。我将更深入地探索这种方法。

主持人: 这会如何改变你们未来的数据中心规划等等?这种搜索可以在哪里异步完成?它必须是在线的吗,还是离线的?这会如何改变你们需要的园区规模以及这些方面的考虑?

Jeff: 一个总体的趋势是,很明显,推理时间计算,当你有一个几乎已经训练好的模型,并且你想对其进行推理时,它将成为一个不断增长且重要的计算类别。也许你想围绕这一点更多地专门化硬件。

实际上,第一个TPU是专门为推理而设计的,并没有真正为训练而设计。随后的TPU实际上更多是围绕训练而设计的,但也用于推理。

但当你真正想增加你在推理时使用的计算量时,更专业的解决方案可能会更有意义。

主持人: 这是否意味着你们可以容纳更多的异步训练?

Jeff: 训练?还是推理?

主持人: 或者只是你们可以让不同的数据中心不必互相通信,你们可以让它们做一堆……

Jeff: 我喜欢这样想,你试图做的推理是否对延迟敏感?比如用户是否在积极等待它,还是它只是一个后台任务?也许我有一些推理任务,我试图在一整批数据上运行,但它不是针对特定用户的。只是我想对它运行推理并提取一些信息。

可能有很多我们现在还没有太多涉及的事情,但你正在我们刚刚发布不久的深度研究工具中看到一些端倪,就像一周前发布的那样。你可以给它一个相当复杂、高层次的任务,比如,“嘿,你能去研究一下可再生能源的历史,以及风能、太阳能和其他技术的成本趋势,并将其整理成表格,给我一份完整的八页报告吗?” 它会返回一份八页的报告,其中包含大约50个参考文献条目。

这非常了不起。但你并没有积极地等待一秒钟。它需要一两分钟才能完成。

我认为将来会有相当多的这种计算,而这正是你在UI方面会遇到一些问题的地方。好吧,如果你要让一个用户在后台进行20个这种异步任务,并且每个任务都可能需要从用户那里获得更多信息,比如,“我找到了你去柏林的航班,但没有直飞航班。你可以接受中转航班吗?” 当你需要更多信息时,这种流程是如何运作的,然后你又想把它放回后台,让它继续做,你知道的,比如寻找柏林的酒店或其他什么?我认为这将非常有趣,推理将非常有用。

Noam: 推理将非常有用。推理中的计算效率也高于训练。一般来说,Transformer可以在训练期间使用序列长度作为批次大小,但它们在推理中实际上无法做到这一点,因为当你一次生成一个token时,所以我们可能会设计不同的硬件和推理算法,以提高推理效率。

Jeff: 是的,一个很好的算法改进例子是使用草稿模型。因此,你有一个非常小的语言模型,你在解码时一次处理一个token,它预测四个token。然后你把这四个token交给大模型,说,“好的,这是小模型提出的四个token。检查一下你同意哪些。”

如果你同意前三个,那么你就直接跳过。那么你就基本上能够进行四token宽度的并行计算,而不是大模型中的单token宽度计算。人们正在研究这些方法来提高推理效率,这样你就不会遇到单token解码瓶颈。

Noam: 对,基本上,大模型被用作验证器。

Jeff: 对,“你能验证一下吗”,是的。

Noam: 生成器和验证,你可以做到。

Jeff: 对。“你好,你好吗?” 这听起来很棒。我将跳过它。

主持人: 因此,一个重要的讨论是,我们已经在耗尽核电站的电力,以满足单个园区的电力需求。我们是否必须在一个地方拥有2千兆瓦、5千兆瓦的电力,还是可以更加分布式,仍然能够训练模型?这种新的推理扩展机制是否使不同的考虑因素成为可能?你们现在是如何考虑多数据中心训练的?

Jeff: 我们已经在这样做了。我们支持多数据中心训练。我认为在Gemini 1.5技术报告中,我们说过我们使用了多个城市区域,并在每个地方使用了一些计算资源进行训练。然后在这些数据中心之间建立延迟较长但带宽较高的连接,这样效果很好。

训练有点有趣,因为训练过程中的每个步骤通常,对于大型模型来说,通常是几秒钟或更长时间,至少是这样。因此,50毫秒的延迟并不重要。

Noam: 只是带宽。

Jeff: 是的,只是带宽。

Noam: 只要你能在执行一个步骤所需的时间内,跨不同数据中心同步模型的所有参数,然后累积所有梯度,那就没问题。

Jeff: 然后我们还有很多工作,甚至可以追溯到早期的Brain团队,当时我们使用CPU机器,它们非常慢。我们需要进行异步训练来帮助扩展,每个模型副本都会进行一些本地计算,将梯度更新发送到中央系统,然后异步地应用它们。另一个模型副本也会做同样的事情。

这会让你的模型参数有些波动,并让人们对理论保证感到不安,但它实际上在实践中似乎是有效的。

Noam: 从异步训练转向同步训练真是太令人愉快了,因为你的实验现在可以复现了,而不是你的结果取决于同一台机器上是否运行了网络爬虫。所以我现在在TPU pod上运行得更开心了。

Jeff: 我喜欢异步性。它真的让你能够扩展更多。

Noam: 用这两部iPhone和一台Xbox或其他什么。

Jeff: 是的,如果我们能给你提供异步但可复现的结果呢?

Noam: 哦。

Jeff: 因此,一种方法是有效地记录操作序列,例如哪个梯度更新在何时以及在哪个数据批次上发生。你不一定会在日志中记录实际的梯度更新或其他内容,但你可以重放操作日志,以便获得可重复性。那样我认为你就会满意了。

Noam: 有可能。至少你可以调试发生了什么,但你不一定能够比较两次训练运行。因为,好吧,我对超参数做了一个更改,但我也遇到了一个——

Jeff: 网络爬虫。

Noam: ——网络爬虫搞砸了,而且很多人同时在流式传输超级碗比赛。

Jeff: 导致我们从CPU上的异步训练转向完全同步训练的原因是,我们拥有这些超快的TPU硬件芯片和pod,它们在pod中的芯片之间具有惊人的带宽。然后,为了超越这一点进行扩展,我们拥有非常好的数据中心网络,甚至跨城市区域的网络,使我们能够为我们最大的训练运行扩展到多个城市区域的许多pod。我们可以完全同步地做到这一点。

正如诺姆所说,只要梯度累积和跨城市区域的参数通信相对于步骤时间来说足够快,那就万事大吉了。你真的不在乎。但我认为,随着规模的扩大,我们的系统中可能会出现比现在更多的异步性,因为我们可以让它工作,我们的ML研究人员一直对我们能够将同步训练推进到如此程度感到非常高兴,因为它是一个更容易理解的心理模型。你只是让你的算法与你对抗,而不是异步性和算法在与你作斗争。

Noam: 随着规模的扩大,有更多的事情在与你作斗争。这就是扩展的问题,你并不总是知道是什么在与你作斗争。是你在某个地方把量化推得太远了吗?还是你的数据有问题?

Jeff: 也许是你的对抗机器MUQQ17正在设置你的指数的第七位以及你的所有梯度或其他什么。

Noam: 对。所有这些事情只会使模型略微变差,所以你甚至不知道这件事正在发生。

Jeff: 这实际上是神经网络的一个问题,它们对噪声的容忍度太高了。你可以用很多错误的方式进行设置,它们只是会想办法绕过它或学习。

Noam: 你的代码中可能有bug。大多数时候,这什么都不会发生。有时它会使你的模型变差。有时它会使你的模型变得更好。然后你发现了一些新的东西,因为你以前从未在如此大的规模上尝试过这个bug,因为你没有足够的预算。

主持人: 实际中,调试或解码是什么样子的?你们遇到了这些情况,其中一些情况使模型变得更好,另一些情况使模型变得更差。当你们明天去上班时,你们如何弄清楚最突出的输入是什么?

Noam: 在小规模上,你会做大量的实验。研究的一部分涉及到,好的,我想单独发明这些改进或突破。在这种情况下,你想要一个简洁的代码库,你可以fork和hack,以及一些基线。

我的梦想是,早上醒来,想到一个主意,用一天时间编写出来,运行一些实验,在一天内获得一些初步结果。比如,好的,这看起来很有希望,这些东西有效,而这些东西无效。

我认为这是非常可以实现的,因为——

Jeff: 在小规模上。

Noam: 在小规模上,只要你保持一个良好的实验代码库。

Jeff: 也许一个实验需要一个小时或两个小时才能运行,而不是两周。

Noam: 这很棒。所以研究有那一部分,然后还有一些扩展规模的工作。然后是整合的部分,你想将所有的改进叠加在一起,看看它们是否在大规模上有效,看看它们是否在所有方面都协同工作。

Jeff: 是的,它们是如何相互作用的?是的,你可能认为它们是独立的,但实际上,改进我们处理视频数据输入的方式和我们更新模型参数的方式之间可能存在一些有趣的相互作用。对于视频数据来说,这种相互作用可能比其他一些情况更明显。

可能会发生各种各样的你可能没有预料到的相互作用。因此,你想运行这些实验,在这些实验中,你将一堆东西放在一起,然后定期确保你认为好的所有东西都很好地协同工作。如果不是,那就了解为什么它们不能很好地协同工作。

主持人: 有两个问题。第一,事物最终不能很好地叠加在一起的情况有多常见?这种情况是罕见的还是经常发生?

Noam: 这种情况发生的概率是50%。

Jeff: 是的,我的意思是,我认为大多数东西你甚至都不会尝试叠加,因为最初的实验效果不是很好,或者它显示的结果相对于基线来说没有那么有希望。然后你就会把这些东西拿出来,尝试单独扩大它们的规模。

然后你会想,“哦,是的,这些东西看起来真的很有希望。” 所以我现在要将它们包含在我现在要捆绑在一起的东西中,并尝试推进和与其他看起来有希望的东西结合起来。然后你运行实验,然后你会想,“哦,嗯,它们实际上效果不是很好。让我们尝试调试一下原因。”

Noam: 然后就会出现权衡,因为你想让你的集成系统尽可能地干净,因为复杂性——

Jeff: 代码库方面。

Noam: ——是的,代码库和算法方面。复杂性有害,复杂性会使事情变慢,引入更多风险。

同时,你又希望它尽可能地好。当然,每个研究人员都希望自己的发明能被纳入其中。因此,那里肯定存在挑战,但我们一直合作得很好。

主持人: 好的,那么回到“你们找到越来越好的算法改进,模型随着时间推移变得越来越好”的整个动态,即使你们把硬件部分排除在外。世界是否应该更多地考虑,你们是否应该更多地考虑这一点?

存在这样一种情况,AI在未来二十年内会缓慢地变得更好,你可以慢慢地改进它。如果你搞砸了一些事情,你可以修复它,这没什么大不了的,对吧?它和之前发布的版本相比,并没有好多少。

还有另一种情况,你们有一个巨大的反馈循环,这意味着Gemini 4和Gemini 5之间的两年将是人类历史上最重要的两年。因为由于这种反馈循环,你从一个相当不错的ML研究人员变成了超人智能。在某种程度上,你认为第二种情况是合理的,这会如何改变你处理越来越高的智能水平的方式?

Noam: 我已经停止清理我的车库了,因为我在等待机器人。所以可能我更倾向于第二种情况,即我们将看到大量的加速发展。

Jeff: 是的,我的意思是,我认为理解正在发生的事情和趋势非常重要。我认为目前的趋势是,模型一代又一代地变得越来越好。我预计在未来几代人中,这种情况可能不会放缓。

这意味着,比如说,两到三代之后的模型将能够……让我们回到将一个简单的任务分解为10个子部分并在80%的时间内完成它的例子,转变为可以将一个任务(一个非常高层次的任务)分解为100或1000个部分并在90%的时间内完成它。这对于这些模型的能力来说是一个重大、重大的进步。

因此,我认为人们理解该领域正在发生的进展非常重要。然后这些模型将被应用于许多不同的领域。我认为,确保我们作为一个社会,从这些模型能够做到的事情中获得最大的好处,以改善事物,这真的很好。我对教育和医疗保健等领域,以及让所有人都能获取信息感到非常兴奋。

但我们也意识到,它们可能被用于传播错误信息,它们可能被用于自动化黑客攻击计算机系统,我们希望尽可能多地采取安全措施和缓解措施,并了解模型的能力。我认为谷歌作为一个整体,对我们应该如何应对这种情况有一个非常好的看法。我们的“负责任的AI原则”实际上是一个非常好的框架,可以用来思考在不同背景和设置中提供越来越好的AI系统时需要权衡的因素,同时也要确保我们在确保它们的安全性,不说有害的话和类似的事情方面做对了。

主持人: 我想让我印象深刻的是,如果你放大并审视人类历史的这个时期,如果我们处于这样一种情况,即,如果你对Gemini 3的后训练做得不好,它可能会传播一些错误信息——但你可以修复后训练。这是一个糟糕的错误,但这是一个可以修复的错误,对吧?

Noam: 对。

主持人: 而如果你有这种反馈循环动态,这是一种可能性,那么引发这场智能爆炸的错误就是不对齐,不是试图编写你认为它试图编写的代码,而是[反而]针对某些其他目标进行优化。

在这种非常快速的过程中(持续几年,甚至更短时间)的另一端,你所拥有的东西正在接近Jeff或超越Jeff的水平,或者Noam或超越Noam的水平。然后你有了数百万个Jeff水平的程序员,而且——总之,这似乎是一个更难弥补的错误。

Noam: 随着这些系统变得越来越强大,你必须越来越小心。

Jeff: 我想说的是,在任何一个极端都存在极端的观点。一种观点是,“哦,天哪,这些系统将在所有方面都比人类优秀得多,我们将被淹没。” 另一种观点是,“这些系统将非常棒,我们根本不必担心它们。”

我认为我介于两者之间。我曾是一篇名为《塑造AI》的论文的合著者,你知道,这两种极端观点通常都将我们的角色视为一种放任自流,就像我们将让AI沿着它自己选择的道路发展一样。

但我认为,实际上有一个非常好的论点可以证明,我们将要做的是努力塑造和引导AI在世界上的部署方式,使其在我们想要捕捉和受益的领域(教育、我提到的一些领域、医疗保健)中实现最大的效益。

并尽可能地引导它远离——可能是通过政策相关的措施,可能是通过技术措施和保障措施——远离,你知道,计算机将接管并无限控制它可以做的事情。所以我认为这是一个工程问题:你如何设计安全的系统?

我认为这有点像我们在旧式软件开发中所做的事情的现代等价物。例如,如果你看看飞机软件开发,它在如何严格开发安全可靠的系统来完成一项相当危险的任务方面有着相当好的记录。

主持人: 那里的困难在于,没有一些反馈循环,比如737,你把它放在一个装满计算资源的盒子里几年,它就会出来一个1000版本。

Noam: 我认为好消息是,分析文本似乎比生成文本更容易。因此,我相信,语言模型分析语言模型输出并找出什么是成问题的或危险的能力,实际上将成为解决许多这些控制问题的方案。

我们肯定正在研究这些东西。我们在谷歌有一群杰出的专家正在研究这个问题。我认为,从“为人们做好事”的角度来看,以及从商业角度来看,这一点都将变得越来越重要,因为很多时候,你在部署方面会受到限制,因为你需要保证安全。

因此,真正擅长这一点变得非常非常重要。

主持人: 是的,显然,我知道你们认真对待这里的潜在好处和成本,这真的很了不起。我知道你们因此获得了赞誉,但还不够。我认为,你们已经推出了如此多的应用程序,利用这些模型来改善你们谈到的不同领域,这真的很了不起。

嗯,但我确实认为……再说一遍,如果你遇到一种情况,即可能存在某种反馈循环过程,那么在另一端,你将拥有一个和Noam一样优秀,和Jeff一样优秀的模型。

如果有一个邪恶版本的你在四处游荡,并且假设有数百万个,我认为那真的非常非常糟糕。那可能比任何其他风险都要糟糕得多,也许仅次于核战争或类似的事情。想想看,比如一百万个邪恶的Jeff或其他什么。

Jeff: 我们从哪里获得训练数据?

主持人: 但是,在某种程度上,你认为这是一个快速反馈循环过程的合理输出,你们的计划是什么?好吧,我们有了Gemini 3或Gemini 4,我们认为它正在帮助我们更好地训练未来的版本,它正在为我们编写大量的训练代码。从现在开始,我们只是大致看一下,验证一下。

即使是你谈到的用于查看这些模型输出的验证器,最终也会由你制造的AI来训练,或者很多代码将由AI编写。在让Gemini 4帮助我们进行AI研究之前,你真的想确定什么?我们真的想确保,我们想对它进行这个测试,然后再让它为我们编写AI代码。

Jeff: 我的意思是,我认为让系统探索算法研究思想似乎仍然是人类负责的事情。就像,它正在探索这个空间,然后它会,比如,获得一堆结果,然后我们将做出决定,比如,我们是否要将这个特定的学习算法或对系统的更改纳入到核心代码库中?

因此,我认为你可以设置这样的保障措施,使我们能够获得系统的优势,这些系统可以在人类监督下进行改进或某种程度上的自我改进,而无需让系统在没有任何人关注其所作所为的概念下完全进行自我改进,对吧?这就是我所说的工程保障措施,你希望关注你正在部署的系统的特性,而不是部署那些在某些方面和某些方式上是有害的系统,并且你对它的能力以及它在某些情况下可能做的事情有一个了解。所以,你知道,我认为这绝不是一个容易解决的问题,但我确实认为使这些系统安全是可能的。

Noam: 是的。我的意思是,我认为我们也将大量使用这些系统来检查自身,检查其他系统。即使是人类,识别某件事也比生成它更容易。

Jeff: 我想说的是,如果你通过API或人们与之交互的用户界面来公开模型的功能,我认为你就可以对它的使用方式进行一定程度的控制,并对其可以做的事情设置一些界限。我认为这是确保它将要做的事情在某种程度上符合你心中设定的一组标准的方法之一。

Noam: 是的。我的意思是,我认为目标是赋能人们,但在大多数情况下,我们应该主要让人们使用这些系统做有意义的事情,并尽可能少地关闭空间中的部分。但是,是的,如果你让别人拿走你的东西并创建一百万个邪恶的软件工程师,那么这并不能赋能人们,因为他们会用一百万个邪恶的软件工程师来伤害他人。

所以我反对这样做。

Jeff: 我也是。我同意。

主持人: 我发现你们所做的一些预测非常了不起,你们预测了当时并不明显或显而易见的计算需求水平。TPU就是一个著名的例子,或者说第一个TPU就是一个例子。

你们在2013年或更早时候就有了这种想法,如果你今天以这种方式思考,并估计一下,你们将拥有这些模型,它们将成为我们服务的支柱,我们将不断地为它们进行推理。我们将训练未来的版本。如果你考虑一下到2030年我们需要多少计算资源来满足所有这些用例,费米估算会让你得到什么结果?

Jeff: 是的,我的意思是,我认为你将需要大量的推理。计算资源是对这些强大模型的高层次的粗略估计,因为如果提高模型质量的技术之一是扩大你使用的推理计算量,那么突然之间,目前生成一些token的一个请求现在变成了计算密集程度的50倍、100倍或1000倍,即使它产生的是相同数量的输出。

然后你还会看到这些服务的使用量大幅增加,因为并非世界上每个人都发现了这些基于聊天的对话界面,你可以让它们完成各种惊人的事情。今天世界上可能有10%或20%的计算机用户发现了这一点。随着这个比例接近100%,人们更频繁地使用它,这将带来另外一到两个数量级的扩展。

所以你现在将从那里获得两个数量级,从那里获得两个数量级。模型可能会更大,你将从那里获得另外一到两个数量级。你需要大量的推理计算资源。因此,你希望拥有极其高效的硬件,用于对你关心的模型进行推理。


06 

代码、数据与未来:

AGI研发的挑战与机遇

主持人: 以每秒浮点运算次数(flops)计,2030年全球推理总计算量?

Noam: 我认为更多总是会更好。如果你只是简单地思考一下,好吧,到那时,人们会决定将世界GDP的多少比例用于AI?然后,比如,好吧,AI系统是什么样的?

嗯,也许它是一些个人助理之类的东西,它戴在你的眼镜里,可以看到你周围的一切,并且可以访问你的所有数字信息和世界上的数字信息。也许就像你是乔·拜登,你在内阁会议室里戴着耳机,它可以实时地为你在任何事情上提供建议,为你解决问题,并给你有用的提示。或者你可以和它交谈,它想分析它在你周围看到的任何东西,以了解它对你可能产生的任何有用的影响。

所以我的意思是,我可以想象,好吧,然后假设它就像你的私人助理或你的私人内阁或其他什么,并且每次你在计算资源上花费的钱增加2倍,这个东西就会变得更聪明,比如智商提高5、10分或者类似的东西。好吧,你宁愿每天花10美元拥有一个助手,还是每天花20美元拥有一个更聪明的助手?它不仅是你生活中的助手,而且还是你更好地完成工作的助手,因为它现在让你从一个10倍工程师变成一个100倍或1000万倍的工程师?

好吧,让我们看看:从第一性原理出发,对吧?所以人们会想要将世界GDP的某个比例花在这个东西上。由于我们拥有所有这些人工智能工程师致力于改进事物,世界GDP几乎肯定会大幅上升,比今天高出两个数量级。

到那时,我们可能会解决无限能源和碳排放问题。因此,我们应该能够拥有大量的能源。我们应该能够拥有数百万甚至数十亿的机器人为我们建造数据中心。让我们看看,太阳的功率是多少,大约是10的26次方瓦或其他什么?

我猜想,用于AI来帮助每个人的计算量将是天文数字。

Jeff: 我想补充一点。我不确定我完全同意,但朝着这个方向进行思考实验是非常有趣的。即使你只达到目标的一部分,那也肯定需要大量的计算资源。

这就是为什么拥有一个廉价的硬件平台来使用这些模型并将它们应用于诺姆描述的问题非常重要,这样你就可以以某种形式让每个人都能访问它,并尽可能降低访问这些能力的成本。

我认为通过专注于硬件和模型协同设计等方面,这是可以实现的,我们应该能够使这些东西比今天高效得多。


07 

思考与推理:

下一代AI的发展方向

主持人: 鉴于你们预计的需求增长,谷歌未来几年的数据中心扩建计划是否足够激进?

Jeff: 我不会对我们未来的资本支出发表评论,因为我们的CEO和CFO可能不希望我这样做。但我会说,你可以看看我们过去几年的资本支出,你会发现我们肯定在这个领域进行了投资,因为我们认为它很重要。

我们正在继续构建新的、有趣的、创新的硬件,我们认为这些硬件真的有助于我们在将这些系统部署给越来越多的人方面拥有优势,包括训练它们,以及如何让人们使用它们进行推理?

主持人: 我听你多次谈到持续学习,即你可以拥有一个随着时间推移而不断改进的模型,而不是从头开始。这方面是否存在根本性的障碍?因为理论上,你应该能够不断地微调模型。你认为未来会是什么样子?

Jeff: 是的,我一直在越来越多地思考这个问题。我一直是稀疏模型的忠实拥趸,因为我认为你希望模型的不同部分擅长不同的事情。我们有Gemini 1.5 Pro模型,其他模型是混合专家模型,在这些模型中,模型的部分组件会被某些token激活,而部分组件则完全不被激活,因为你已经确定这是一个面向数学的东西,而这部分擅长数学,这部分擅长理解猫的图像。因此,这使你能够拥有一个功能更强大的模型,但推理时仍然非常高效,因为它具有非常大的容量,但你只激活了它的一小部分。

但我认为目前的问题,好吧,我们今天所做的事情的一个限制是,它仍然是一个非常规则的结构,每个专家的大小都相同。路径合并在一起的速度非常快。它们不会分叉出很多不同的分支用于数学相关的事物,而这些分支不会与猫图像之类的事物合并在一起。

我认为我们可能应该在这些东西中拥有更具生命力的结构。我也希望模型中的各个部分可以稍微独立地开发。就像现在,我认为我们遇到了这个问题,我们要训练一个模型。因此,我们做了大量的准备工作,以确定我们能想出的最棒的算法和我们能想出的最棒的数据组合。

但其中总是存在权衡,比如我们很想包含更多的多语言数据,但这可能会以包含较少的编码数据为代价,因此,模型在编码方面不太擅长,但在多语言方面更擅长,反之亦然。我认为,如果我们能让一小部分关心特定语言子集的人去创建真正好的训练数据,训练一个我们可以连接到更大模型的模块化组件,从而提高模型在东南亚语言或Haskell代码推理等方面的能力,那就太好了。

此外,你还会获得良好的软件工程效益,因为与我们今天所做的事情相比,你已经对问题进行了一些分解,我们今天所做的事情是,我们有一大群人在工作。但是,我们有这种单体式的流程,开始对这个模型进行预训练。

如果我们能够做到这一点,你可以在谷歌周围拥有100个团队。你可以让世界各地的人们共同努力改进他们关心的语言或他们关心的特定问题,并共同努力改进模型。这是一种持续学习的形式。

Noam: 那将非常棒。你可以直接将模型粘合在一起,或者撕下模型的各个部分,然后将它们塞进其他模型中……

Jeff: 升级这个部分,而无需扔掉整个东西……

Noam: ……或者你只是连接一根消防水管,然后你从这个模型中吸取所有信息,塞进另一个模型中。我的意思是,这里存在一种相反的利益,即科学,就好像,好吧,我们仍然处于快速进步的时期,所以,如果你想做一些受控实验,并且,好吧,我想将这个东西与那个东西进行比较,因为这有助于我们弄清楚要构建什么。出于这种考虑,通常最好从头开始,这样你就可以在实际层面将一个完整的训练运行与另一个完整的训练运行进行比较,因为它有助于我们弄清楚未来要构建什么。这不那么令人兴奋,但确实能带来快速的进步。

Jeff: 是的,我认为可能有办法通过模块化的版本系统来获得很多好处。我有一个模型的冻结版本,然后我包含某个特定模块的不同变体,我想比较它的性能或对其进行更多训练。然后,我将其与现在具有版本N’的特定模块(用于Haskell解释)的基线进行比较。

Noam: 实际上,这可能会加快研究进展,对吧?你有一些系统,你做了一些事情来改进它。如果你正在做的改进相对便宜,与从头开始训练系统相比,那么它实际上可以使研究变得更加便宜和快捷。

Jeff: 是的,而且我认为在人与人之间也更易于并行化。

Noam: 好的,让我们弄清楚并接下来这样做。

主持人: 因此,这个看似随意提出的想法实际上将是对今天做事方式的重大体制转变。如果你认为事情正朝着这个方向发展,这是一个关于……你只是有一个blob,东西在其中来回流水线传输——如果你想让某些东西变得更好,你可以像做外科手术一样进行切口。

Jeff: 是的,或者扩展模型,在这里添加一点点。是的,我已经勾勒出这个愿景一段时间了,在Pathways中……

Noam: 是的,你一直在构建……

Jeff: ……我们一直在为其构建基础设施。因此,Pathways系统可以支持的很多功能是这种扭曲的、奇怪的模型,各个部分之间进行异步更新。我们正在使用Pathways来训练我们的Gemini模型,但我们尚未利用它的一些功能。但也许我们应该这样做。

Noam: 哦,也许吧。

主持人: 这太有趣了,我不想失去这个思路,请稍等一下。

Noam: 过去有一些时候,比如TPU pod的设置方式。我不知道是谁做的,但他们做得非常出色。底层软件堆栈和硬件堆栈,好吧,你有了你漂亮的规则的高性能硬件,你有了这些出色的环面互连,然后你有了正确的底层集合通信原语,all-reduce等等,我想这些都来自超级计算领域,但事实证明,这恰好是构建分布式深度学习的基础。

主持人: 好的,所以有几个问题。第一,假设诺姆取得了另一个突破,现在我们有了一个更好的架构。你们会直接将每个组件蒸馏到这个更好的架构中吗?这就是它不断改进的方式?

Jeff: 我确实认为蒸馏是一个非常有用的工具,因为它可以让你将模型从当前的模型架构形式转换为不同的形式。通常,你使用它来获取一个功能非常强大但庞大而笨重的模型,并将其蒸馏成一个较小的模型,你可能希望使用该模型来获得非常好的、快速的延迟推理特性。

但我认为你也可以将此视为发生在模块级别的事情。也许会有一个持续的过程,每个模块都有一些不同的自身表示形式。它有一个非常大的版本。它有一个小得多的版本,并且正在不断地蒸馏到小版本中。

然后,小版本一旦完成,你就可以删除大版本,并添加更多的参数容量。现在,开始通过在更多数据上训练来学习蒸馏后的小版本不知道的所有内容,然后你就可以重复这个过程。如果你在模块化模型的后台运行这种过程数千个不同的地方,那看起来效果会相当不错。

主持人: 这可能是一种进行推理扩展的方式,比如路由器决定你想要多大的模型。

Jeff: 是的,你可以有多个版本。哦,这是一个简单的数学问题,所以我将把它路由到非常小的数学蒸馏模型。哦,这个非常难,所以……

主持人: 首先,至少从公开的研究来看,在混合专家模型中,通常很难解码每个专家都在做什么。如果你有类似这样的东西,你将如何强制执行对我们来说可见且可理解的那种模块化?

Noam: 实际上,在过去,我发现专家相对容易理解。我的意思是,在第一篇混合专家模型的论文中,你可以直接查看专家。

主持人: “我不知道,我只是混合专家模型的发明者。”

Noam: 是的——哦,什么?

Jeff: 是的,是的。

Noam: 是的,你可以直接看到,好的,这个专家,就像我们做的那样,你知道,一千个,两千个专家。好的,这个专家,正在处理指代圆柱形物体的词语。

Jeff: 这个专家非常擅长日期。

Noam: 是的。

Jeff: 谈论时间。

Noam: 是的,很容易做到。

并不是说你需要人类的理解来弄清楚如何在运行时操作它,因为你只需要某种学习到的路由器,它正在查看示例。

Jeff: 我想说的是,有很多关于模型可解释性以及它们内部正在做什么的工作。专家层面的可解释性是更广泛领域的一个子问题。我真的很喜欢我的前实习生克里斯·奥拉(Chris Olah)和其他人在Anthropic所做的一些工作,他们训练了一个非常稀疏的自编码器,并能够推断出一个大型语言模型中某个特定神经元的特征,因此他们找到了一个金门大桥神经元,当你在谈论金门大桥时,它会被激活。

我认为你可以在专家层面做到这一点,你可以在各种不同的层面做到这一点,并获得相当可解释的结果,而且目前尚不清楚你是否一定需要这种可解释性。如果模型只是非常擅长某件事,我们不一定关心Gemini模型中的每个神经元在做什么,只要整个系统的集体输出和特性良好即可。这就是深度学习的魅力之一,你不需要理解或手工设计每一个最后的特征。

主持人: 伙计,这其中有太多有趣的含义了,我可以一直问你关于这个问题——如果我不问你更多关于这个问题的问题,我会后悔的,所以我将继续问下去。一个含义是,目前,如果你有一个拥有数百亿或数千亿参数的模型,你可以在少量的GPU上为其提供服务。

在这个系统中,任何一个查询可能只通过总参数的一小部分,但你需要将整个模型加载到内存中,谷歌在这些TPU上投入的特定类型的基础设施(这些TPU存在于数百或数千个pod中)将非常有价值,对吧?

Noam: 对于任何类型的现有混合专家模型,你都希望将整个模型放在内存中。我想,对于混合专家模型存在一种误解,即,好吧,好处在于你甚至不必遍历模型中的那些权重。

如果某个专家未被使用,这并不意味着你不必检索该内存,因为实际上,为了提高效率,你要以非常大的批次大小进行服务。

Jeff: 针对独立的请求。

Noam: 对,针对独立的请求。所以,实际上并非如此,好吧,在这个步骤中,你要么查看这个专家,要么不查看这个专家。

因为如果那样的话,那么当你查看专家时,你将以批次大小为1运行它,这将非常低效。就像你拥有现代硬件一样,运算强度无论如何,都是数百。所以这不是正在发生的事情。而是你在查看所有专家,但你只需要将一小部分批次通过每个专家。

Jeff: 是的,但你仍然在每个专家处获得一个较小的批次,然后通过它。为了获得合理的平衡,当前模型通常做的一件事是,它们让所有专家的计算成本大致相同,然后你大致运行相同大小的批次通过它们,以便传播你在推理时执行的非常大的批次,并获得良好的效率。

但我认为,在未来,你通常可能希望专家的计算成本相差100倍或1000倍。或者在一种情况下,路径会经过许多层,而在另一种情况下,路径只经过一层,甚至是一个跳跃连接。在那里,我认为你仍然会想要非常大的批次,但你会在推理时稍微异步地推送事物通过模型,这比训练时更容易一些。

这是Pathways旨在支持的事情之一。你有这些组件,这些组件的成本可能会有所不同,你可以说,对于这个特定的例子,我想通过模型的这个子集,对于这个例子,我想通过模型的这个子集,并让系统协调这一切。

主持人: 这也意味着,需要具有一定规模和复杂性的公司才能做到……现在,任何人都可以训练一个足够小的模型。但如果最终情况是,这是训练未来模型的最佳方式,那么你需要一家基本上可以拥有一个数据中心来服务于单个所谓的“blob”或模型的公司。因此,这也将是范式上的一个有趣的变化。

Noam: 你肯定希望至少有足够的HBM来放置你的整个模型。因此,根据你的模型大小,很可能这就是你至少想要拥有的HBM数量。

Jeff: 这也意味着你不需要将整个模型足迹扩展到数据中心的大小。你可能希望它比数据中心略小。

然后,可能拥有一个特定专家的许多重复副本,该专家被大量使用,以便你获得更好的负载均衡。这个专家被大量使用,因为我们收到了很多数学问题,而另一个专家是塔希提岛舞蹈专家,它很少被调用。

对于后者,也许你甚至可以将其分页到DRAM,而不是将其放在HBM中。但你希望系统根据负载特性来弄清楚所有这些东西。

主持人: 对。现在,语言模型,显然,你输入语言,你得到语言输出。显然,它是多模态的。

但是Pathways博客文章谈到了许多不同的用例,这些用例显然不是这种自回归性质的,不是通过同一个模型进行的。你们能否想象,基本上,谷歌作为一家公司,其产品就像谷歌搜索通过这个模型,谷歌图片通过这个模型,Gmail通过这个模型?

就像整个服务器只是一个巨大的混合专家模型,专业化?

Jeff: 你开始看到其中的一些端倪,因为谷歌的许多服务都在使用Gemini模型,这些模型不一定是微调过的。它们只是针对这个特定用例,在这个产品功能设置中给出了指令。

因此,我肯定看到越来越多的服务共享底层模型的能力。我确实认为这是一个非常有趣的发展方向,这是肯定的。

主持人: 是的,我觉得听众可能没有意识到这是一个多么有趣的预测,关于AI的未来发展方向。这就像在2018年请诺姆参加播客,然后说,“是的,所以我认为语言模型将成为一种趋势。”

就像,如果事情朝着这个方向发展,这实际上是非常有趣的。

Jeff: 是的,我认为你可能会看到,这可能是一个大型的基础模型。然后你可能想要定制化版本的模型,其中添加了不同的模块,用于可能存在访问限制的不同设置。

也许我们有一个内部模型供谷歌使用,供谷歌员工使用,我们在内部数据上训练了一些模块,我们不允许其他任何人使用这些模块,但我们可以使用它。也许其他公司,你可以添加其他对该公司设置有用的模块,并在我们的云API中提供服务。

主持人: 是什么阻碍了这种系统的可行性?是系统工程?还是ML?

Jeff: 这与我们目前的Gemini开发方式截然不同。因此,我认为我们将探索这些领域,并在这些领域取得一些进展。

但我们需要真正看到证据表明这是正确的方法,它有很多好处。其中一些好处可能是质量的提高,一些好处可能不太容易量化,比如这种拥有大量并行开发不同模块的能力。但这仍然是一个非常令人兴奋的改进,因为我认为这将使我们能够更快地改进模型在许多不同领域的各种独特能力。

Noam: 即使是数据控制模块化的东西看起来也很酷,因为那样你就可以拥有模型的某个部分,专门为我训练。它知道我的所有私人数据。

Jeff: 为你量身定制的个人模块可能会很有用。另一件事可能是,你可以在某些设置中使用某些数据,但在其他设置中不能使用。

也许我们有一些YouTube数据,只能在YouTube产品界面中使用,而不能在其他设置中使用。因此,我们可以拥有一个针对该特定目的使用该数据进行训练的模块。

主持人: 是的。

Noam: 我们将需要一百万名自动化研究人员来发明所有这些东西。

Jeff: 那将会很棒。

主持人: 是的,好吧,这个东西本身,你构建了这个blob,它会告诉你如何让这个blob变得更好。

Jeff: Blob 2.0。或者也许它们甚至不是版本,它只是一个增量增长的blob。

主持人: 是的,这太令人着迷了。好的,杰夫,请为我解释一下,从宏观角度来看:为什么这是一个好主意?为什么这是下一个发展方向?

Jeff: 是的,这种有机的、不完全是经过精心数学构建的机器学习模型的概念,我已经思考了一段时间了。我觉得在神经网络的开发中,人工神经元,从生物神经元中汲取灵感是一个很好的方向,并且在深度学习领域为我们提供了很好的服务。

我们已经能够在这方面取得很大进展。但我觉得我们并没有像我们可能做的那样,过多地关注真实大脑所做的其他事情,这并不是说我们应该完全模仿它,因为硅和湿件具有非常不同的特性和优势。但我确实认为,我们可以从一个方面汲取更多灵感,那就是拥有不同的专门部分,有点像大脑模型中擅长不同事物的区域。

我们在混合专家模型中已经有了一些这方面的体现,但它仍然非常结构化。我觉得这种更具生命力的专业知识增长方式,当你想要更多这方面的专业知识时,你可以在模型中增加一些容量,让它更多地学习这类东西。

此外,使模型的连接性适应硬件的连接性也是一个好主意。我认为你希望在同一芯片和同一HBM中的人工神经元之间建立令人难以置信的密集连接,因为这不会花费你太多成本。但随后你希望与附近的神经元建立较少数量的连接。因此,比如,一个芯片之外,你应该有一些连接,然后,比如,很多很多芯片之外,你应该有更少数量的连接,你在那里传递非常有限的瓶颈式的东西:模型这一部分正在学习的最重要的事情,供模型的其他部分使用。即使跨越多个TPU pod,你也希望发送更少的信息,但发送最突出的表示形式。然后跨越城市区域,你希望发送的信息更少。

主持人: 是的,然后它就会有机地出现。

Jeff: 是的,我希望它能有机地出现。你可以手动指定这些特征,但我认为你并不完全知道这些连接类型的正确比例是多少,所以你应该让硬件稍微决定一下。比如,如果你在这里进行通信,并且这个数据总是很早就出现,你应该添加更多的连接,然后它会花费更长的时间,并在恰当的时间出现。

主持人: 哦,这里还有另一个有趣的含义:现在,我们认为AI使用的增长是一种横向增长——因此,假设你想知道,谷歌将有多少AI工程师为其工作?你会考虑在同一时间有多少Gemini 3的实例在工作。

如果你拥有这个,不管你想称它为什么,这个blob,并且它可以某种程度上自主决定激活自身的多少部分,那么它就更像,如果你想要10个工程师的输出,它只是激活不同的模式或更大的模式。如果你想要100个工程师的输出,那不像调用更多的代理或更多的实例,而只是调用不同的子模式。

Jeff: 我认为存在一个概念,即你想要在这个特定的推理上花费多少计算资源,这应该在非常容易的事情和非常困难的事情之间相差10000倍,甚至可能达到一百万倍。它可能是迭代的,你可能会通过模型进行一次传递,获得一些东西,然后决定你现在需要调用模型的其他部分。

我想说的另一件事是,这听起来部署起来非常复杂,因为它是一个奇怪的、不断发展的东西,各个部分之间的通信方式可能不是非常优化,但你可以从中蒸馏出来。如果你说,“这是我真正关心的那种任务,让我从这个巨大的、有机的模型中蒸馏出一些我知道可以非常高效地提供服务的东西”,你可以随时进行蒸馏过程,每天一次,每小时一次。这看起来会很好。

Noam: 是的,我们需要更好的蒸馏技术。

Jeff: 是的。

Noam: 任何发明了惊人的蒸馏技术的人,可以立即从一个巨大的blob蒸馏到你的手机上,那将是非常棒的。

主持人: 你们如何描述当前蒸馏技术中缺失的东西?

Noam: 好吧,我只是希望它能更快地工作。

Jeff: 一个相关的事情是,我觉得我们需要在预训练期间使用有趣的训练技术。我不确定我们是否从我们看到的每个token中提取了最大的价值,使用当前的训练目标。也许我们应该更认真地思考一些token。

当你遇到“答案是”时,模型在训练时应该比遇到“这个”时做更多的工作。

Noam: 对。必须有某种方法从相同的数据中获得更多信息,使其正向和反向学习。

Jeff: 以及各种方式。以这种方式隐藏一些东西,以那种方式隐藏一些东西,使其从部分信息中推断。我认为人们在视觉模型中已经这样做了很长时间。你扭曲模型,或者你隐藏模型的部分,并试图让它从一半的图像中猜测鸟类,比如从图像的右上角或左下角来判断它是一只鸟。

这使得任务更具挑战性,我觉得对于更多的文本或与编码相关的数据,也存在类似的道理,你希望迫使模型更努力地工作。你将从中获得更有趣的观察结果。

Noam: 是的,图像领域的人们没有足够的标记数据,所以他们不得不发明所有这些东西。

Jeff: 他们发明了——我的意思是,dropout是在图像上发明的,但我们主要没有将其用于文本。这是你可以获得更多学习的一种方式,在一个更大规模的模型中,而不会过度拟合,只需在世界文本数据上进行100个epoch,并使用dropout。

但这在计算上非常昂贵,但这确实意味着我们不会运行它。即使人们说,“哦,不,我们几乎用完了文本数据”,我真的不相信,因为我认为我们可以从现有的文本数据中获得更强大的模型。

Noam: 我的意思是,一个人已经看过十亿个token了。

Jeff: 是的,他们在很多方面都很出色。

主持人: 所以显然,人类的数据效率为如何……或者我猜,上限,其中之一,也许不是。

Jeff: 这是一个有趣的数据点。

主持人: 是的。所以这里存在一种肯定前件和否定后件的情况。一种看待它的方式是,听着,LLM还有很长的路要走,因此我们预测,如果它们能够与人类匹敌,样本效率将提高几个数量级。另一种看待方式是,也许考虑到数量级的差异,它们显然在做一些不同的事情。你认为要使这些模型像人类一样具有样本效率,需要什么?

Jeff: 是的,我认为我们应该考虑稍微改变训练目标。仅仅从你之前看到的token中预测下一个token,似乎不是人类的学习方式。这在某种程度上与人类的学习方式有关,我认为,但并不完全相同。一个人可能会读完一本书的一章,然后尝试回答后面的问题,这是不同的事情。

我也认为我们没有从视觉数据中学习太多东西。我们正在对视频数据进行少量训练,但我们肯定远未考虑对你可以获得的所有视觉输入进行训练。因此,你有我们尚未真正开始训练的视觉数据。

然后我认为我们可以从我们看到的每一位数据中提取更多信息。我认为人们如此具有样本效率的方式之一是,他们探索世界,并在世界中采取行动并观察发生了什么。你可以看到,非常小的婴儿捡起东西又放下;他们从中了解了重力。当你不主动采取行动时,学习这一点要困难得多。

我认为,拥有一个可以将采取行动作为其学习过程一部分的模型,将比仅仅被动地观察一个庞大的数据集要好得多。

主持人: 那么,Gato是未来吗?

Jeff: 模型可以观察和采取行动并观察相应的结果,似乎非常有用。

Noam: 我的意思是,人们可以从甚至不涉及额外输入的思想实验中学到很多东西。爱因斯坦从思想实验中学到了很多东西,或者像牛顿一样,他被隔离起来,一个苹果掉到他头上或其他什么,然后发明了万有引力。还有数学家——数学没有任何额外的输入。

国际象棋,好吧,你可以让这个东西自己和自己下棋,然后它就会变得擅长下棋。那是DeepMind的工作,但它也只需要国际象棋的规则。因此,实际上可能有很多学习可以在没有外部数据的情况下完成,然后你可以使其完全符合你关心的领域。当然,有些学习需要外部数据,但也许我们可以让这个东西自己和自己对话,让自己变得更聪明。

主持人: 所以我有一个问题。你们在过去一个小时里阐述的内容,可能正是AI的下一个重大范式转变。这可能是一个非常有价值的见解。诺姆,你在2017年发布了Transformer论文,其他公司基于这篇论文创造了数百亿甚至数千亿美元的市场价值,更不用说谷歌随着时间推移发布的所有其他研究成果了,你们在这方面一直相当慷慨。

回过头来看,当你们想到公开这些信息,这些信息对你们的竞争对手有所帮助时,你们会觉得“是的,我们仍然会这样做”,还是会觉得“啊,我们没有意识到Transformer有多么重要。我们应该把它留在内部。” 你们是如何看待这一点的?

Noam: 这是一个很好的问题,因为我认为可能我们确实需要看到这个机会的规模,这通常反映在其他公司的所作所为上。而且,这不是一个固定的馅饼。世界目前的状况与固定馅饼相去甚远。

我认为我们将看到GDP、健康、财富以及你能想到的任何其他方面的数量级改进。因此,我认为Transformer能够传播开来绝对是件好事。

Jeff: 它具有变革性。

Noam: 哇。感谢上帝,谷歌也做得很好。所以现在我们确实发布的东西比以前少了一些。

Jeff: 总是存在这种权衡:我们应该立即发布我们正在做的事情吗?我们应该将其投入到下一阶段的研究中,然后在生产Gemini模型中推出,并且完全不发布吗?还是存在一些中间点?

例如,在我们Pixel手机的计算摄影工作中,我们经常做出这样的决定:开发有趣的新技术,例如在弱光条件下实现超好夜视能力的能力或其他什么,将其投入到产品中,然后在产品发布后发布一篇关于实现该系统的真实研究论文。

不同的技术和发展有不同的处理方式。有些我们认为非常关键的东西,我们可能不会发布。有些我们认为非常有趣,但对于改进我们的产品很重要;我们会将它们应用到我们的产品中,然后做出决定:我们是否发布它,或者我们是否对其进行轻描淡写的讨论,但可能不会透露所有最后的细节?

我认为,其他一些东西,我们会公开地发布,并尝试推进这个领域和社区的发展,因为这就是我们所有人从参与中受益的方式。我认为参加像上周NeurIPS这样的大会,有15000人分享大量伟大的想法,这很棒。我们像过去一样在那里发表了很多论文,看到这个领域取得进步,这非常令人兴奋。

主持人: 你们如何解释……显然,谷歌在内部很早就有了所有这些见解,包括顶尖的研究人员。现在Gemini 2也发布了。我们没有太多机会谈论它,但人们知道这是一个非常出色的模型。

Jeff: 非常出色的模型。正如我们在微型厨房里所说,“非常出色的模型,非常出色的模型”。

主持人: 它在LMSYS Chatbot Arena排行榜上名列前茅。所以现在谷歌处于领先地位。但你们如何解释在几年内提出所有伟大的见解?尽管如此,其他竞争对手的模型有一段时间表现得更好。

Jeff: 我们长期以来一直在研究语言模型。诺姆在2001年关于拼写纠错的早期工作,关于翻译的工作,2007年非常大规模的语言模型,以及seq2seq和word2vec以及最近的Transformer,然后是BERT。

诸如内部Meena系统之类的东西,实际上是一个基于聊天机器人的系统,旨在引导人们进行有趣的对话。实际上,甚至在ChatGPT问世之前,我们就已经有了一个内部聊天机器人系统,供谷歌员工试用。实际上,在疫情期间,很多谷歌员工都很喜欢花时间与Meena聊天,你知道,每个人都被封锁在家,所以他们在午餐时间享受与Meena聊天,因为它就像一个很好的午餐伙伴。

我认为我们有点……我们从搜索的角度来看待事物,这些模型会产生很多幻觉,它们在很多时候或者说在某些时候无法给出正确的答案,这意味着它们没有达到应有的效用,因此我们希望改进这一点。从搜索的角度来看,你希望理想情况下100%的时间都能获得正确的答案,并且具有非常高的事实性。这些模型还远未达到这个标准。

我认为我们有点不确定的是,它们是否非常有用。哦,而且它们还有各种各样的安全问题,比如它们可能会说出冒犯性的话,我们必须在这方面下功夫,并使其达到我们能够放心发布模型的程度。但我认为我们没有完全意识到的是,它们对于你不会向搜索引擎提出的问题有多么有用,对吧?比如,帮我给我的兽医写一张便条,或者,你能否提取这段文本并给我一个快速摘要?我认为这就是我们看到人们真正涌向聊天机器人,将其作为惊人的新功能而不是纯粹的搜索引擎来使用的原因。

所以我认为我们花了一些时间,达到了我们实际发布相当强大的聊天机器人的程度,并通过Gemini模型对其进行了很大的改进。我认为这实际上并不是一个糟糕的道路。我们是否希望更早地发布聊天机器人?也许吧。但我认为我们有一个非常棒的聊天机器人,配备了非常棒的Gemini模型,而且这些模型一直在变得越来越好。这非常酷。

主持人: 好的,最后一个问题。我们已经讨论了你们在过去25年里所做的一些工作,涉及非常多的不同领域,对吧?你们从搜索和索引开始,到分布式系统,到硬件,再到AI算法。而且确实,还有数千个领域,只需浏览一下他们任何一个人的Google Scholar页面或其他类似页面。拥有这种水平的职业生涯持久性(你们在几十年里不断取得突破),以及跨越不同领域的广度,你们两位(顺序不分先后),保持职业生涯持久性和广度的秘诀是什么?

Jeff: 我喜欢做的一件事是,了解一个新的、有趣的领域,而做到这一点的最好方法之一是关注正在发生的事情,与同事交谈,关注正在发布的研究论文,并关注研究领域的发展趋势。

愿意说,“哦,芯片设计。我想知道我们是否可以将强化学习用于这方面的某些方面。” 能够深入到一个新的领域,与那些比你更了解不同领域或医疗保健AI的人一起工作或其他领域。我做了一些与临床医生合作的工作,了解真正的问题是什么,AI如何提供帮助?它对这件事情可能没有那么有用,但它对这件事情会非常有用。

获得这些见解,并经常与一组五六个与你拥有不同专业知识的同事一起工作。这使你们能够集体完成一些你们个人无法完成的事情。然后他们的一些专业知识会潜移默化地影响你,你的一些专业知识也会潜移默化地影响他们,现在你拥有了更大的工具库,可以作为工程研究人员去解决下一个问题。

我认为这就是在工作中不断学习的魅力之一。这是我珍视的东西。我真的很喜欢深入研究新的事物,看看我们能做些什么。

Noam: 我想说,可能很重要的一点是谦逊,就像我会说我是最谦逊的人一样。但说真的,要认识到我刚才所做的与我能做的或可以做到的相比,根本不算什么。并且能够在看到更好的想法时立即放弃一个想法,比如你或者其他有更好想法的人,并且你看到也许你正在思考的东西,他们正在思考的东西,或者完全不同的东西,可能会更好地工作。

我认为在某种意义上,存在一种动力,想要说,“嘿,我刚刚发明的这个东西太棒了,给我更多的芯片。” 特别是当存在大量的自上而下的资源分配时。但我认为我们也需要激励人们说,“嘿,我正在做的这个东西根本行不通。让我完全放弃它,尝试一些其他的东西。”

我认为谷歌大脑在这方面做得非常好。我们有非常自下而上的UBI式芯片分配方式。

主持人: 你们有UBI?

Noam: 是的,它基本上就像每个人都有一份信用额度,你可以将它们集中起来。

Gemini主要是自上而下的,这在某种意义上非常好,因为它带来了更多的协作和人们的协同工作。你不太经常看到五组人都在构建相同的东西或构建可互换的东西。

但另一方面,这确实导致了一些激励,想要说,“嘿,我正在做的事情进展顺利。” 然后,作为领导者,你听到数百个团队的声音,每个团队都说,“所以你应该给他们更多的芯片。” 激励人们说“嘿,我正在做的事情实际上效果不是很好。让我尝试一些不同的东西”的动力就减少了。

因此,我认为展望未来,我们将采取某种程度的自上而下,某种程度的自下而上,以便激励这两种行为:协作和灵活性。我认为这两件事都会带来大量的创新。

Jeff: 我认为阐明你认为我们应该朝着哪个方向前进的有趣方向也很好。我有一个内部幻灯片,名为“冲啊,杰夫,疯狂的想法”。我认为这些想法更多的是面向产品的东西,比如,“嘿,我认为现在我们有了这些能力,我们可以做这17件事。”

我认为这是一件好事,因为有时人们会对此感到兴奋,并希望开始与你合作处理其中的一个或多个想法。我认为这是一个很好的引导我们前进方向的方式,而无需命令人们,“我们必须去那里。”

术语解释

  • PageRank: 谷歌早期的核心搜索算法,用于评估网页重要性。
  • MapReduce: 谷歌开发的分布式计算框架,用于处理大规模数据集。
  • BigTable: 谷歌开发的分布式存储系统,用于存储海量数据。
  • AlphaChip: 谷歌用于AI计算的定制芯片,TPU的前身。
  • ASI (超级人工智能): Artificial Superintelligence 的缩写,指超越人类智能的人工智能,能力远超 AGI。
  • MoE (Mixture of Experts,混合专家模型): 一种模型架构,将多个“专家”模型组合起来,每个专家处理特定类型的输入,从而提高模型容量和效率。
  • 反向传播算法 (Backpropagation): 训练神经网络的核心算法,用于调整网络参数以减小预测误差。
  • N-gram 模型: 一种基于统计的语言模型,预测文本中N个连续词语出现的概率。
  • Bleu score: 一种用于评估机器翻译质量的指标。
  • 神经图灵机 (Neural Turing Machine): 一种结合了神经网络和外部存储器的模型,被认为是早期具有记忆能力的神经网络模型。
  • Attention 机制 (注意力机制): 一种神经网络机制,使模型能够选择性地关注输入序列的不同部分,Transformer 模型的核心组成部分。
  • ImageNet: 一个大型图像数据集,常用于训练和评估图像识别模型。
  • BERT (Bidirectional Encoder Representations from Transformers): 谷歌提出的基于 Transformer 的预训练语言模型,在自然语言处理领域取得了巨大成功。
  • 量化 (Quantization): 一种模型压缩技术,通过降低模型参数的精度(例如从32位浮点数降到8位整数),减小模型大小,加速推理速度。
  • 数据并行 (Data Parallelism): 一种并行训练方法,将数据分成多个批次,分配到不同设备上并行计算,然后汇总梯度更新模型参数。
  • 模型并行 (Model Parallelism): 一种并行训练方法,将模型分成多个部分,分配到不同设备上进行计算。
  • 同步训练 (Synchronous Training): 并行训练的一种方式,所有设备完成一个批次的计算后,同步梯度更新模型参数。
  • 异步训练 (Asynchronous Training): 并行训练的一种方式,设备独立计算梯度并更新模型参数,无需同步等待。
  • 梯度 (Gradient): 在神经网络训练中,用于指示模型参数调整方向和幅度的信息。
  • 模型参数 (Model Parameters): 神经网络中可学习的权重和偏置等数值,决定了模型的行为。
  • Epoch: 在机器学习训练中,指模型完整遍历一遍训练数据集的次数。
  • 过拟合 (Overfitting): 模型在训练数据上表现良好,但在未见过的新数据上表现较差的现象,通常是由于模型过度学习了训练数据的噪声。
  • 蒸馏 (Distillation): 一种模型压缩技术,将一个大型复杂模型(教师模型)的知识转移到一个小型简单模型(学生模型)上,使学生模型在保持较小体积的同时,尽可能接近教师模型的性能。
  • 自编码器 (Autoencoder): 一种神经网络架构,用于学习数据的有效表示(编码),并尝试从表示中重建原始数据。
  • 稀疏自编码器 (Sparse Autoencoder): 一种自编码器的变体,通过引入稀疏性约束,鼓励模型学习更简洁、更具代表性的特征。
  • 持续学习 (Continual Learning): 也称终身学习,指模型能够不断学习新知识,并适应环境变化的能力,而无需从头开始训练。
  • 自监督学习 (Self-supervised Learning): 一种机器学习方法,利用数据自身提供的监督信息进行学习,无需人工标注数据。
  • 自博弈 (Self-play): 一种强化学习训练方法,让模型与自身对弈,通过不断博弈提升能力,例如 AlphaGo 的训练方式。
  • 思维实验 (Thought Experiment): 在头脑中进行的实验,通过逻辑推理和想象力来探索问题,无需实际操作。
  • Collectives (集合通信): 在分布式计算中,多个计算节点之间进行数据交换和同步操作的通信模式,例如 All-reduce。
  • All-reduce (全归约): 一种集合通信操作,将所有计算节点上的数据进行归约(例如求和、求平均值等),并将结果广播到所有节点。
  • Torus-shaped interconnects (环面互连): 一种高性能计算机网络拓扑结构,将计算节点连接成环面状,提供高带宽和低延迟的通信。
  • Batch size (批大小): 在机器学习训练中,每次迭代训练所使用的数据样本数量。
  • Operational intensity (运算强度): 衡量计算密集程度的指标,指计算操作的数量与数据访问量的比值。
  • Drafter models (草稿模型): 一种用于加速推理的模型,先用一个小型模型快速生成草稿,再用大型模型进行验证和修正。
  • Model recipe (模型配方): 训练模型的完整流程和配置,包括模型架构、训练数据、优化算法、超参数等。
  • Responsible AI principles (负责任的AI原则): 指导AI技术开发和应用的一系列伦理和社会责任原则,例如公平性、透明度、安全性等。
  • Superalignment (超对齐): 确保超级人工智能的目标与人类价值观对齐,避免出现失控风险。
  • UBI (Universal Basic Income,普遍基本收入): 一种社会福利制度,定期无条件地向所有公民发放一定金额的收入。


图片

(文:Founder Park)

发表评论