
图片来源:Dwarkesh Patel
Z Highlights
-
从这一代模型到下一代模型的改进,往往是由硬件和更大规模驱动的,但同样甚至更多是由重大的算法改进和模型架构的重大变化、训练数据组合等因素驱动,这些因素实际上使得每次对模型的计算运算变得更有效。
-
极端观点往往倾向于放任AI自然发展,认为它会沿着自身的路径前进,而人类无需干预。但我认为,我们的角色远不止于此,我们需要主动塑造AI的发展方向,确保它的进步符合人类社会的长期利益。
-
在预训练阶段,我们需要更先进的学习技术。目前的训练目标可能没有充分利用每一个输入token的最大价值。或许在处理某些token时,模型应该花费更多计算力,而不是在整个训练过程中采用相同的计算方式。
Jeff Dean是谷歌首席科学家,参与开发了现代计算领域中几乎所有最具革命性的系统,包括MapReduce、BigTable、Tensorflow、AlphaChip以及Gemini。Noam Shazeer发明或共同发明了现代大语言模型中使用的所有主要架构和技术,从Transformer本身,到专家混合模型、Mesh Tensorflow,再到Gemini,以及其他众多技术。
Google早期在语言模型上的探索
Dwarkesh Patel:今天有幸与Jeff Dean和Noam Shazeer进行对话。Jeff是谷歌首席科学家,已在公司工作25年,参与了现代计算中许多具有变革性的系统,如MapReduce、BigTable、TensorFlow和AlphaChip等,如今他负责Gemini项目。Noam则是当前AI革命中的关键人物,他是现代大语言模型主要架构和技术的发明者或共同发明者,包括Transformer、专家混合模型和Mesh TensorFlow等。两人都是谷歌DeepMind Gemini项目的共同负责人。非常感谢你们的到来。
Jeff Dean & Noam Shazeer:谢谢,很高兴参加这次访谈。
Dwarkesh Patel:第一个问题。你们在谷歌的工作时间都接近25年。在公司早期,你们可能对一切了如指掌。什么时候开始感到无法完全掌握公司的一切?是否有明显的转折点?
Noam Shazeer:我2000年底加入谷歌时,公司规定每位新员工都有一位导师。当时我对一切都不熟悉,只能向导师请教,而我的导师似乎无所不知。后来发现,我的导师就是Jeff。并不是说谷歌的每个人都无所不知,而是Jeff几乎参与了所有项目的开发。
Jeff Dean:你过奖了。随着公司规模扩大,每个人都会经历这样的阶段。我加入时,公司只有25人左右,大家彼此熟悉,但随着公司扩张,逐渐无法记住所有人的名字。起初,你还能了解每个软件工程师的工作,后来连项目名称都变得陌生。比如,收到一封邮件说“Platypus项目即将上线”,你会想:“Platypus项目是什么?”
Noam Shazeer:通常这是个惊喜。你会想:“哇,Platypus项目!我完全不知道我们在做这个。”
Jeff Dean:即使无法掌握每个细节,在高层次上,保持对公司动态的了解仍然很重要。建立广泛的社交网络也很有帮助,这样在需要时可以找到合适的人获取更多信息。
Dwarkesh Patel:顺便问一下,你们是如何加入谷歌的?
Jeff Dean:其实是我主动联系他们的。
Dwarkesh Patel:Noam,你呢?
Noam Shazeer:我1999年在一次招聘会上看到谷歌。当时我以为谷歌已经是一家大公司,没必要加入,因为大家都在用谷歌。我当时是加州大学伯克利分校的研究生,已经辍学几次。后来发现谷歌其实并不大。2000年,我出于冲动发了简历,因为谷歌是我最喜欢的搜索引擎,而且看起来有很多聪明人在解决有趣的问题。墙上有一张记录每日搜索量的蜡笔图表,增长非常迅速。我想:“这些人会非常成功,似乎有很多好问题可以解决。”于是决定加入,赚点钱后继续从事AI研究。
Dwarkesh Patel:确实如此,对吧?
Noam Shazeer:对,完全按计划进行。
Dwarkesh Patel:你1999年就在考虑AI吗?
Noam Shazeer:是的,那是2000年。我记得在研究生院时,一个朋友告诉我,他2000年的新年决心是活到3000年,计划通过发明AI实现。我当时想:“这听起来不错。”但没想到可以在大公司做这件事。我想:“先在初创公司赚点钱,然后专心研究AI。”结果谷歌成了很棒的工作场所。
Jeff Dean:我喜欢谷歌的一点是,我们的使命是一直需要先进的AI。组织世界信息并使其普遍可及和有用,这是一个广泛的使命。我们最初的工作已经朝这个方向迈进,但还有很多可以做的。
Dwarkesh Patel:摩尔定律在过去二三十年中如何改变了系统设计的考虑因素?现在有哪些限制?哪些事情是以前无法做到的?
Jeff Dean:过去几十年变化很大。二十年前到十年前,硬件每18个月就会更快,无需做任何事。但最近,通用CPU的扩展不再像以前那样显著,制造工艺的改进需要三年,而不是两年。多核处理器等架构改进也不再带来同样的推动力。不过,专用计算设备如机器学习加速器、TPU和GPU的出现,让我们在运行现代计算时获得高性能和效率。
Noam Shazeer:算法似乎在跟随硬件。现在算术运算非常便宜,而数据传输成本更高。深度学习基于这一点起飞,矩阵乘法的运算量是N立方,数据通信是N平方字节。
Jeff Dean:硬件转型是一个重要转变。以前,CPU和GPU并不特别适合深度学习。谷歌开始建设TPU,这是减少精度的线性代数机器,有了这些设备,我们就能充分利用它们。
Noam Shazeer:一切都是关于识别机会成本。Larry Page曾说:“我们的第二大成本是税,最大的是机会成本。”另外,芯片上的算术单元数量很少,但通过装满这些单元,运算量可以提高几个数量级。算法和数据流也需要相应调整。
Jeff Dean:算术运算可以非常低精度,这样可以在芯片中装入更多乘法器单元。
Dwarkesh Patel:Noam,你提到算法跟随硬件。如果内存成本下降幅度大于算术成本,人工智能会是什么样子?
Noam Shazeer:数据流极其便宜,而算术运算不再重要。
Jeff Dean:会有更多对大内存的查找。
Noam Shazeer:可能会更像20年前的人工智能,但方向相反。我不太确定。2012年我加入谷歌Brain时,坐在Jeff和早期团队旁边,觉得这是一群聪明的人。
Jeff Dean:我当时说:“你应该考虑深度神经网络,我们在这个方向取得了很好的进展。”
Noam Shazeer:“听起来很有趣。”于是我又回到了谷歌,加入Jeff,那是2012年。我似乎每12年就会加入谷歌:2000年、2012年和2024年。
Dwarkesh Patel:2036年会发生什么?
Noam Shazeer:拭目以待。
Dwarkesh Patel:对于未来版本的TPU,你们在考虑哪些权衡,以结合对算法的思考?
Jeff Dean:一个普遍趋势是,我们在量化或采用更低精度模型方面变得更加优秀。从TPUv1开始,我们甚至不确定能否用八位整数进行量化和模型服务。但早期证据表明这是可行的,于是我们围绕这个建造了整个芯片。随着时间的推移,大家已经能够使用更低的精度进行训练和推理。现在,INT4或FP4已经成为常态。如果告诉20年前的超级计算专家我们将使用FP4,他们会觉得这太疯狂了。甚至有人将模型量化到两位或一位,这绝对是一个趋势。
Dwarkesh Patel:就像0和1?
Jeff Dean:是的,0和1,再加上符号位。
Noam Shazeer:这需要共同设计的过程。如果算法设计师没有意识到低精度可以显著提升性能和吞吐量,他们会拒绝低精度。芯片设计师会问算法编写者,后者会说:“我不喜欢量化。”因此,需要看到整个图景,意识到量化可以大大提高吞吐量与成本比。
Jeff Dean:量化确实令人不快,但模型会快三倍,所以必须接受。
Dwarkesh Patel:在你们的职业生涯中,你们从事的工作与现在的生成AI有惊人的相似性。Jeff,你1990年的毕业论文是关于反向传播的。2007年,你们训练了一个两万亿token的N-gram模型用于语言建模。请谈谈当时开发这个模型的过程。你们当时觉得自己在做什么?
Jeff Dean:先从本科论文说起。我在大四的并行计算课程中接触到神经网络。为了毕业,我决定写一篇关于神经网络的论文。1990年,我在32位处理器的Hypercube机器上实现了模型并行性和数据并行性。我对这个抽象非常兴奋,觉得神经网络是正确的抽象。虽然32个处理器无法训练出真正出色的神经网络,但2008年底到2010年,我们得到了足够的计算能力,让神经网络在实际问题上有效。2007年,我们为谷歌的机器翻译团队设计了一种N-gram数据的内存压缩表示,将翻译一个句子的时间从12小时缩短到100毫秒。
Dwarkesh Patel:首先,与其他学术作品不同的是,这篇论文实际上只有四页,外加30页的C代码。而且这确实是一篇制作精良的作品。能否谈谈2007年这篇论文的形成过程?
Jeff Dean:当然。当时我们在谷歌有一个机器翻译研究团队,由Franz Och领导,他大约一年前加入谷歌,团队中还有其他许多成员。每年,他们都会参加DARPA的机器翻译比赛,任务是将几种不同的语言翻译成英语,我记得主要是中文到英语和阿拉伯语到英语的翻译。谷歌团队提交了参赛作品,比赛的方式是周一拿到500个句子,周五提交翻译结果。我看到比赛结果后,发现我们以BLEU score(ZP注:用于评估机器翻译和文本生成质量的BLEU Score指标)赢得了比赛,取得了显著优势,这是衡量翻译质量的标准之一。于是我联系了Franz,问他:“太棒了,我们什么时候能上线这个系统?”他回答说:“哦,我们无法上线,因为每个句子的翻译需要12小时,这不太实用。”我说:“这时间太长了,我们怎么解决这个问题?”
结果发现,他们并没有设计一个高吞吐量的系统。在一个大型语言模型中,系统需要计算每个单词的统计数据,并进行大约10万次磁盘寻址。显然,10万次磁盘寻址的速度非常慢。于是我说:“好吧,我们深入研究一下。”我花了大约两到三个月的时间,与团队一起设计了一种N-gram数据的内存压缩表示。N-gram基本上是统计每个N个单词序列在大量语料库中出现的频率。当时大多数N-gram模型使用的是二元组或三元组,但我们决定使用五元组,即统计每个五个单词序列在我们能够处理的最大网络范围内的出现频率。例如,数据结构可以表示“我真的很喜欢这家餐厅”在网上出现了17次。我构建了一个数据结构,能够在200台机器的内存中存储这些数据,并设计了一个批量API,你可以说:“在这一轮中,我需要查找10万个东西。”然后系统会一次性返回所有结果。这使得我们将翻译一个句子的时间从一个晚上缩短到了大约100毫秒。
Dwarkesh Patel:有一个关于Jeff Dean的趣闻:“光速在Jeff Dean决定在一个周末进行优化之前是每小时35英里。”从12小时到100毫秒,这个优化量级令人惊叹。
Jeff Dean:听起来挺好笑的。就像是同事们开的愚人节玩笑。
Dwarkesh Patel:回顾过去,通过考虑单词之间的关系来开发互联网的潜在表示,实际上就是大型语言模型,这就是Gemini。当时,这只是一个翻译的想法,还是你们认为这是另一种范式的开始?
Jeff Dean:一旦我们为翻译建立了这个系统,大语言模型开始用于其他事情,如文本补全。这是谷歌语言模型大量应用的开始。Noam在谷歌还开发了拼写纠正系统。
Noam Shazeer:那是2000年或2001年,当时在一台机器的内存中完成。
Jeff Dean:是的,他在2001年建立的拼写纠正系统非常了不起。他向整个公司发送了这个演示链接。我尝试了我能想到的每种拼写错误的查询,比如“scrumbled uggs Bundict”——我记得那个,是的——而不是“scrambled eggs benedict”,它都能每次都准确识别。
Noam Shazeer:那就是语言建模。
Google是一家组织世界信息的公司
Dwarkesh Patel:当时你们在开发这些系统时,是否意识到,“如果让这些东西越来越复杂,考虑100个单词、1000个单词,潜在表示就是智力。”这个洞察是什么时候出现的?
Noam Shazeer:其实没有。我从未觉得N-gram模型会成为人工智能。当时很多人对贝叶斯网络感到兴奋。早期的神经语言模型确实令人惊叹,但从未觉得它会…
Jeff Dean:席卷世界
Noam Shazeer:是的:“成为”人工智能。我觉得当时很多人对贝叶斯网络感到兴奋,这听起来很吸引人。无疑看到那些早期的神经语言模型,既令人惊叹,“好吧,这确实在做一些极酷的事情”,同时也让我觉得这是世界上最好的问题之一,因为它非常简单:给我下一个单词的概率分布。此外,网上几乎有无限的训练数据;你有数万亿个无监督数据作为训练示例。
Jeff Dean:或者是自我监督的。
Noam Shazeer:自我监督。
Jeff Dean:是的,自我监督学习的能力非常强大。
Noam Shazeer:如果你能做到这一点,几乎任何事情都可以做到。
Dwarkesh Patel:在科学史中,有一种讨论关于想法是否悬在空中,巨大的创意是否具有不可避免性。在这种情况下,这种不可避免性是否意味着……
Noam Shazeer:确实感觉是在空气中。神经图灵机和注意力的想法都是悬在空中的,但需要团队去实现。
Jeff Dean:喜欢把很多想法视为部分在空气中。当你解决新问题时,会借鉴这些想法,结合一些新事物,导致新的突破。
Dwarkesh Patel:有没有什么关键时刻让你印象深刻,你在关注某个研究领域时,突然想到一个想法,觉得“这居然可以做到”?
Jeff Dean:在Brain团队的早期,我们专注于构建基础设施来训练极大的神经网络。当时,我们的数据中心没有GPU,只有CPU。我们构建了一个系统,通过模型并行性和数据并行性训练相对较大的神经网络。我们使用1000万随机选择的YouTube帧进行无监督学习,模型能够建立高级表示,其中一个神经元会对猫的图像兴奋。它从未被告知什么是猫,但已经看过足够的正面猫面视图样本,所以相关神经元会对这个状态打开,而对其他则不会打开。
类似地,还会对人脸和行人的背影等其他对象产生反应。这有点酷,因为这基于无监督学习原理,建立出这些非常高级的表示。后来我们在有监督的对象识别挑战中(例如ImageNet 20,000类别挑战)取得了非常好的结果,提升了60%的相对改进,那时效果算不错。那个神经网络的规模可能是之前训练的网络的50倍,而且得到了很好的结果。所以,这让我觉得,“嘿,其实扩大神经网络规模看起来是个好点子,看来确实如此,我们应该继续推进这一点。”
Dwarkesh Patel:这些例子说明了AI系统如何融入谷歌的使命:组织信息。AI是找到信息之间关系的工具,帮助更快获取信息。现在的AI模型不仅可以进行信息检索,还能编写代码和完成实际工作。如果你们正在构建AGI,谷歌仍然是一家信息检索公司吗?AGI可以进行信息检索,但还能做更多事情。
Jeff Dean:我们是一家“组织世界信息”的公司,这比信息检索更广泛。我们的多模态能力表明,传递的信息不仅仅是文本,还包括理解世界中的各种信息模式,如自动驾驶汽车的激光雷达传感器、基因组信息或健康信息。这些模型能够快速改善,我很期待未来的发展。
Noam Shazeer:组织信息是一个巨大的机会,但当这些系统能够真正为你做某些事情,如编写代码或解决复杂问题时,可以创造更多的价值。我们需要在提升模型能力的同时,保持灵活和动态。
Jeff Dean:我对许多基础研究问题感到兴奋,因为我们可以通过尝试新方法来大幅改进。同时,看到我们能为最终用户实现什么价值,并构建能够做到这一点的系统,也很有意义。例如,让世界上的任何信息都能被任何人使用,无论他们说什么语言。我们在这方面已经取得了一定进展,但还有很多工作要做。
Dwarkesh Patel:说到不同的架构,你们正在研究更长的上下文。谷歌搜索的上下文是整个互联网的索引,但它是浅层搜索。语言模型的上下文有限,但它们可以思考。你如何看待将谷歌搜索与上下文学习相结合?
Jeff Dean:这些模型有时会出现幻觉和事实问题,因为它们将十万亿个token凝聚在几十亿或几百亿个参数中。上下文窗口中的信息则非常清晰,因为模型可以关注某些内容。目前,我们有能够处理数百万token上下文的模型,这相当可观。
但如果模型能够关注数万亿个token,那将非常棒。它能否关注整个互联网并找到正确的信息?能否关注所有个人信息?我希望有一个模型能够访问我的所有电子邮件、文件和照片,帮助解决我想要解决的问题。这将是一个巨大的计算挑战,因为简单的注意力算法是二次的。我们需要一整套有趣的近似算法来实现这一目标。
Noam Shazeer:模型参数在记住事实方面非常节省内存。每个模型参数可能记住一个事实。如果有一些上下文中的token,可能每个token占用一个千字节甚至一个兆字节的内存。
Jeff Dean:一个单词放大到10千字节左右。
Noam Shazeer:在这方面有很多创新,首先是如何将其最小化;其次,哪些单词需要在这里?有没有更好的方法访问那部分信息?Jeff似乎是解决这个问题的合适人选。
Dwarkesh Patel:谷歌拥有大量代码和示例。如果只考虑这个用例,为什么还没有将整个代码库放入上下文中?即使只是用它来提高开发人员的效率和生产力。
Jeff Dean:我们已经对内部开发人员的代码库进行了进一步训练。但这和关注所有内容不同,因为它将代码库搅拌成一组参数。即使如此,进一步训练的内部模型也非常有用。现在,提交到代码库的字符中,大约25%是由基于AI的编码模型生成的,并有一定的人类监督。
Dwarkesh Patel:在接下来的两年内,根据你所看到的前景和能力,你如何想象自己的个人工作?在谷歌当研究员是什么样的事情?如果你有一个新想法或别的东西,未来一年的情况下,你与这些模型的互动会是什么样?
Noam Shazeer:我想我们将会有一些更好能力的模型,并且希望能够更加高效。
Jeff Dean:是的,除了研究背景,每当你看到这些模型被使用时,我认为它们能够提高软件开发人员的生产力,因为它们能够接收你想完成的高层规范或句子描述,并提供相当合理的初步方案。从研究的角度来说,也许你会说:“我真的希望你探索这个想法,类似于这篇论文中提到的,但也许我们试着让它变成卷积或其他东西。”如果你能做到这一点,还能让系统自动生成一堆实验代码,或许你看看它,然后说:“好的,这看起来不错,运行这个。”这似乎是一个不错的理想方向。似乎在接下来的一两年中,你可能在这方面取得很大进展。
Dwarkesh Patel:这似乎被低估了,因为你实际上可以拥有数百万的额外员工,并且可以立即检查他们的输出,员工之间可以相互检查输出,即时传输token。
Jeff Dean:抱歉,我不是想低估它。我觉得这非常令人兴奋。我只是对尚未完成的事情不喜欢夸大其词。
AI自动化的未来
Dwarkesh Patel:我确实想进一步探讨这个想法,因为如果你有一个类似于自主软件工程师的东西,特别是从一个“我想要构建这个系统”的研究人员的角度来看,“好吧,让我们试着玩这个想法”。作为一个在职业生涯中致力于开发变革性系统的人,你认为,只需指明“我想要一个分布式的AI库的样子。帮我写一下。”你认为你会提高10倍生产力吗?100倍?
Jeff Dean:我印象非常深刻。我在Reddit上看到一则消息,称我们有一个新的实验性编码模型,在编程和数学等方面表现得更好。外部某人试用了它,基本上对其下达了一个命令,说:“我希望你实现一个不依赖外部的SQL处理数据库系统,请用C语言来做。”从那个人所说的内容来看,它实际上做得相当好。它生成了一个SQL解析器和一个token器,一个查询规划系统,以及一种用于将数据存储在磁盘上的格式,并实际上能够处理简单查询。从这个prompt开始,这大约是段落的文本,能得到初步的结果似乎极大提高了软件开发人员的生产力。
我认为你可能最终会得到其他类型的系统,或许这些系统并不试图在一次半交互式的“在40秒内回应”式的环境中完成,而可能会运行10分钟,并可能会在五分钟后打断你,说:“我已经做了很多,但现在我需要得到一些输入。你关心处理视频还是仅仅是图像?”如果你有许多这样的背景活动发生,你将需要一种管理工作流程的方法。
Dwarkesh Patel:你能多谈谈吗?如果你真的可以拥有数百万个可以调动的员工,成千上万的员工能够即时调动,他们的打字速度极快,那么你就从1930年代的票务交易转变为如今的现代交易。你需要某种接口来跟踪这一切,同时让AI整合到这个庞大的代码库中并发挥各自的优势,帮助人类跟踪发生的事情。基本上,像Jeff或Noam在三年后工作时的日常生活是什么样的?
Noam Shazeer:可能会和我们现在的情况有些相似,因为我们已经有了多个平行化作为一个主要问题。我们有很多非常聪明的机器学习研究人员,我们希望他们能够一起工作并构建AI。因此,实际上,人与人之间的并行化可能和机器之间的并行化类似。我认为这将有助于很多需要大量探索的事情,比如“想出下一个突破。”如果你有一个在机器学习领域有希望的卓越想法,它可能有2%的成功机会。大多数事情都会失败,但如果你尝试一百件、一千件或一百万件,那么你可能会发现一些惊人的东西。我们有足够的计算能力。现代顶级实验室的计算能力大约比训练Transformer所需的要多出一百万倍。
Dwarkesh Patel:是的,实际上,这是一个非常有趣的想法。假设在当今世界上,社区中大约有10,000名AI研究人员在提出突破…
Jeff Dean:可能比这还要多。上周NeurIPS上可能有15,000人。哇,可能是100,000人,我不知道。抱歉。
Dwarkesh Patel:不,没关系,知道正确的数量级很重要。这个社区每年在转换器规模上取得突破的几率,比如说10%。现在假设这个社区大了千倍,以某种方式进行更好的架构、技术的并行搜索;我们就会得到…
Noam Shazeer:听起来不错。
Dwarkesh Patel:但这是否感觉像机器学习研究的样子?如果你能够尝试所有这些实验……
Noam Shazeer:这是个好问题,因为我不知道人们是否已经在努力做到这一点。我们显然有很多很棒的想法不断涌现。每个人似乎都想以最大规模运行他们的实验,但我认为这还是人类问题。
Jeff Dean:拥有一个以1/1000规模的问题,然后在这个基础上对100,000个想法进行验证,这是非常有帮助的;然后扩大那些看起来规模合适的想法。
Dwarkesh Patel:所以,世界上可能没有被认真对待的是:人们认识到制造一个大100倍的模型在算法上是指数级的更困难。确实需要100倍的计算,对吧?所以,人们担心从Gemini 2到3,或以此类推,将会面临指数级上升的难题。但也许人们没意识到另一个趋势,即Gemini 3不断提出各种不同的架构想法,尝试这些想法,看看什么有效,并始终产生算法上的进步,使得下一个模型的训练变得越来越容易。你认为这个反馈循环能走多远?
Jeff Dean:我认为人们应该意识到,从这一代模型到下一代模型的改进,往往是由硬件和更大规模驱动的,但同样甚至更多是由重大的算法改进和模型架构的重大变化、训练数据组合等因素驱动,这些因素实际上使得每次对模型的计算运算变得更有效,所以我认为这是一个很好的认知。然后,我认为如果我们能够自动化地探索想法,我们将能够验证更多的想法并将其引入下一代模型的实际生产训练。
如果能够做到这一点会非常有帮助,因为现在我们正与许多聪明的机器学习研究人员一起进行这项工作:审视大量的想法,筛选出在小规模上表现良好的想法,看看它们在中等规模上是否表现良好,然后将它们引入更大规模的实验,然后决策添加很多新的、令人感兴趣的东西到最终的模型配方中。如果我们能通过让这些机器学习研究人员轻松引导更自动化的搜索过程,而不是手动照顾许多实验,这样能提高100倍的速度,那就会非常好。
Noam Shazeer:一件事情不会加速的是在最大规模上的实验。你最终还是会进行这些N = 1的实验。真的,你只需把一群聪明的人放在房间里,让他们盯着这个事情,找出为什么有效,或者为什么无效。
Jeff Dean:这方面,更多的硬件是一个好的解决方案,并且还需要更好的硬件。
Noam Shazeer:是的,我们在指望你。
Dwarkesh Patel:所以,简单地说,有软件和算法方面的改进,未来的AI能做得更好。还有你们正在努力的事情。我会让你来描述它。但如果你陷入一个情况,从软件层面来看,你能够在几周和几个月内设计出更好的芯片,而更好的AI显然能够更好地做到这一点,这种反馈循环如何不陷入以下这种状态:Gemini 3需要两年,然后Gemini 4的等价级别跳跃变为六个月, 然后第五级变为三个月,再然后一个月?你会比直观想象得更快地达到超人智能,因为这两个方面的反馈:在硬件方面以及算法方面的改进。
Jeff Dean:我最近对我们如何快速加速芯片设计过程感到非常兴奋。正如我们之前所讨论的,设计一颗芯片的当前方式大约需要18个月,从“我们该建造一颗芯片”到将其交给TSMC,然后TSMC需要四个月生产,然后你拿到它并将其投入数据中心。这是一个相当长的周期,而其中的生产时间在今天实际上只占一小部分。
如果你能让它成为主导部分,那么设计芯片的时间从12到18个月缩减到仅仅几个人的工作的短时间工作,并采用更自动化的搜索过程,探索整个芯片设计空间,获取与芯片设计过程所有方面相关的反馈。系统正在高层次上尝试做出选择,那么我认为你能获得更多的探索以及更快地设计你想交付给生产的一些东西。这将是非常棒的,因为你可以缩短生产时间,缩短部署时间,通过以正确方式设计硬件来实现,这样你只需将芯片插入某个系统中。这将使得更多的专业化成为可能,缩短硬件设计的时间框架,这样你就不必过多关注将来哪些机器学习算法会有趣。相反,你只是关注六到九个月后,应该设计成什么样,而不是两年或两年半。这将非常酷。我认为如果制造时间在你改进的内循环中,你将达到更快的速度。
Dwarkesh Patel:要多久?
Jeff Dean:不幸的是,关于先进工艺节点,由于它们比之前的旧节点具有更多的金属层,因此它们需要的时间越来越长。因此,这通常需要三到五个月。
Dwarkesh Patel:好吧,但训练运行需要那么久,对吧?所以你可以同时做两件事。
Jeff Dean:是这样的。
Dwarkesh Patel:好吧,我想你不能快于三到五个月。但你能迅速开发新的算法思想。
Jeff Dean & Noam Shazeer:可以快速推进,在现有芯片上运行并探索许多有趣的想法。
训练与推理:现状与期望
Dwarkesh Patel:人们似乎期待人工智能的发展会遵循S型曲线,但这是否必然如此?是否存在一种可能,即在接近人类智能水平时,能力会迅速爆发,并以越来越快的速度提升?
Noam Shazeer:很可能。
Jeff Dean:确实。目前,我们的模型能够处理相当复杂的问题,并将其分解为一系列步骤,最终给出整体解决方案。然而,这种分解通常仅限于五到十个步骤,而非一百到一千个步骤。如果能够将模型在十个步骤问题上的准确率从80%提升到90%,并在更复杂的问题上实现同样的提升,那将是模型能力的巨大飞跃。虽然我们尚未达到这一目标,但这正是我们努力的方向。
Noam Shazeer:我们并不需要新的硬件来实现这一点,但如果有的话,我们当然会接受。
Jeff Dean:我们从不拒绝新的硬件。
Noam Shazeer:在不久的将来,推理时间的计算效率将有显著提升。即使是一个超大型语言模型,处理每个token的成本也仅为10的负6次方,这意味着每1美元可以处理一百万个token。相比之下,阅读一本纸质书的成本是每美元一万个token。因此,与语言模型对话的成本比阅读平装书便宜100倍,比与客户服务代表交谈便宜1万倍,甚至比与软件工程师、医生或律师交谈便宜100万倍或更多。
如果我们能够增加计算能力,使其更智能,那么在不久的将来,我们将见证大量这样的增长。我们一直在改进预训练和后训练,这些改进将继续进行。然而,在推理时采用“更努力思考”的方法将成为一个爆发点。
Jeff Dean:是的,推理时间的一个关键方面是,我们希望系统能够主动探索多种潜在解决方案。或许系统会自行搜索信息,然后消化这些信息,发现“哦,现在我真的想了解更多这个东西”。因此,系统会迭代探索如何最好地解决用户提出的高级问题。
拥有一个可以让模型在更多推理时间计算下给出更好答案的调节器是合理的,目前我们有许多技术可以实现这一点。调高调节器意味着更高的计算成本,但结果更好。这似乎是一个不错的权衡,因为有时你希望系统认真思考,因为这是一个非常重要的问题。而有时你可能不想花费大量计算去计算“1加1等于多少”。
Jeff Dean:也许系统应该决定使用计算器工具,而不是非常大型的语言模型。
Dwarkesh Patel:那么,有哪些障碍会影响推理时间?是否有可能以某种方式线性地提高推理时间计算?还是说这已经是一个得到解决的问题,我们知道如何投入100倍、1000倍的计算,并获得相应更好的结果?
Noam Shazeer:目前我们正在解决算法问题。我相信,随着超过10,000名研究人员在不断努力,尤其很多在谷歌,我们将看到越来越好的解决方案。
Jeff Dean:我们在实验工作中确实看到了一些例子,如果在推理时应用更多计算,答案会比只应用10倍的计算得到更好的结果。这样的发现既重要又有用。但我们希望的是,当你应用10倍的计算时,能得到比今天更大的改善效果。因此,设计新算法、尝试新方法、找出最佳计算效率是关键。
Dwarkesh Patel:这看起来更像是搜索,还是就只是保持线性方向更长时间?
Jeff Dean:我非常喜欢Rich Sutton写的关于“苦涩教训”的论文,这是一篇很不错的一页纸的论文,但它的本质是你可以尝试很多方法,但两种极其有效的技术是学习和搜索。你可以在算法上或计算上扩展这些方法,通常你会得到比应用于相当广泛问题的任何其他方法更好的结果。搜索必须是增加推理时间的一部分。也许你会探索几种不同的解决问题方法,其中一种没用,但另一种效果更好,我会更深入地探讨。
Dwarkesh Patel:这如何改变你对未来数据中心规划的计划等?这样的搜索能否异步进行?它必须在线还是离线?这会如何影响你的考虑?
Jeff Dean:一个普遍趋势是,显然推理时间计算是一个模型几乎已经有训练好的类别。你希望执行推理,这将是一类日益增长且重要的计算。也许你需要更专门化的硬件来适应这一点。第一代TPU就是专门为推理而设计,而不是真正为训练而设计的。随后发布的TPU真的更多是围绕训练和推理而设计的。但当你需要在推理时间增加大量计算时,甚至更多的专用解决方案将会显得合理。
Dwarkesh Patel:这是否意味着你可以容纳更多异步训练?
Jeff Dean:训练?还是推理?
Dwarkesh Patel:或者说不同的数据中心无需互相联系,只需让它们做一堆……
Jeff Dean:我觉得,你正在进行的推理是否有延迟敏感?就像用户在主动等待,还是说这是一个后台处理的事情?也许我有一些并不是针对特定用户的推理任务,例如针对一整批数据进行的。它仅仅是我想执行推理并提取一些信息。现在可能会有很多事情我们并没有太多了解,但你在我们刚发布的深度研究工具中已经能看到一些端倪。你可以给它一个相当复杂的高层任务,比如:“嘿,你能去研究一下可再生能源的历史以及风能和太阳能等其他技术的成本趋势,并将其整理成表格,并给我一份完整的八页报告吗?”然后它会给你一份有50个参考条目的八页报告。
很了不起。但你并不在为这事儿主动等待一秒。这大约需要一两分钟的时间才能完成。我认为将会有相当多这样的计算,而这方面就存在一些用户界面问题。如果你有一个用户需要20个类似的异步任务同时进行,并且或许其中的每一个都需要从用户那里获取更多信息,比如说:“我找到你的航班到柏林了,但没有直飞的。您是否考虑非直飞的航班?”那种情况下,流程如何运转?你需要更多信息,然后又想把它放回到后台,继续进行,比如查找柏林的酒店等等?我认为这将非常有趣,推理将非常有用。
Noam Shazeer:推理将是有用的。此外,推理中的计算效率是训练中所不具备的。通常情况下,transformers可以将序列长度作为训练过程中的一批,但在推理中则很难做到,因为你在生成一个token的时候,可能会需要不同的硬件和推理算法才能在推理时高效。
Jeff Dean:是的,一个良好的算法改进的例子是使用草稿模型。因此你有一个非常小的语言模型,当你解码时每次处理一个token,且它会预测四个token。然后你将这四个token给大的模型,并说:“好的,看看这四个token是小模型想出来的,你同意哪个?”如果你同意前面三个token,那你就向前推进。通过这样,你基本上能够以四个token宽度进行并行计算,而不是在大型模型中进行一个token的宽度计算。这些都是人们正在考虑的提高推理效率的方法,因此你不会在单token解码上遇到瓶颈。
Noam Shazeer:对,基本上大型模型被用作验证器。
Jeff Dean:对。
Noam Shazeer:生成和验证都可以做到。
Jeff Dean:对。
分布式训练与异步
Dwarkesh Patel:关于我们已达到核电厂在一个单一园区内提供电力的上限,已经引发了大量讨论。我们是否必须在一个地方有两个吉瓦、五个吉瓦,或者可以更分散地训练模型?这种新的推理扩展机制是否使得这种不同的考虑变得可行?你现在如何看待多数据中心训练?
Jeff Dean:我们已经在这样做了。我们支持多数据中心训练。我认为在Gemini 1.5技术报道中提到了:我们使用了多个大都市区域,并在每个地方训练了一些计算。然后通过这些数据中心之间的较长延迟和高带宽连接进行训练。其实在训练过程中,至少对于一个大型模型来说每一步只需几秒钟。因此,50毫秒的延迟不是问题。
Noam Shazeer:只是带宽。
Jeff Dean:是的,带宽。
Noam Shazeer:只要你能够在不同数据中心之间同步模型的所有参数,然后在执行一步的时间内累积所有的梯度,你就不错了。
Jeff Dean:而且我们有很多工作,甚至在Brain早期的时候,当我们使用CPU机器而且运行速度比较慢时,我们需要进行异步训练来帮助扩展。每个模型副本会执行一些本地计算,并将梯度更新发送到一个集中系统,然后异步地应用这些更新。其他模型副本将执行相同的操作,即使这样使得你的模型参数略微摆动。虽然这使得一些人在理论保证方面感到不舒服,但实际上在实践中似乎是可行的。
Noam Shazeer:去做异步训练真是愉快,因为你的实验现在可以重复,而不再依赖于同一台机器上是否运行了网页爬虫。因此,我对TPU集群上的运行感到高兴得多。
Jeff Dean:我喜欢异步训练。它确实允许你扩展得更多。
Noam Shazeer:配合这两部手机和Xbox或其他设备。
Jeff Dean:那么,如果我们能够给你一个异步但可重复的结果呢?
Noam Shazeer:哦。
Jeff Dean:一种解决办法是有效地记录操作的顺序,比如哪个梯度在哪个数据批上何时更新。你不一定要在日志中记录实际的梯度更新,但你可以重放该操作的日志,从而获得重复性。我认为那样你会很高兴。
Noam Shazeer:至少你可以调试发生了什么,但你不一定能够比较两个训练运行。我可能在超参数上做了一次变化,但同时我有一个网页爬虫,而且此时很多人还在同步观看超级碗。
Jeff Dean:导致我们从CPU上的异步训练转向完全同步训练的原因是,我们拥有这些超级快速的TPU硬件芯片和集群,这些芯片之间拥有惊人的带宽。然后,在此基础上,我们有非常好的数据中心网络,甚至跨都市区域网络,使我们能够对许多集群进行扩展,以进行我们最大的训练运行。
我们可以完全同步地做到这一点。正如Noam所述,只要梯度累积和跨都市区域的参数通信速度足够快,相对于步骤时间来说,你就可以放心。但我认为随着规模的扩大,我们可能会推动在我们的系统中实现比现在更多的异步化,因为我们能使它奏效。我们的机器学习研究人员对我们能够推动同步训练的程度感到非常满意,因为它更容易理解。你只需让你的算法和你作斗争,而不是异步和算法之间互相斗争。
Noam Shazeer:随着规模的扩大,会有更多因素与你相抗衡。这就是扩展的问题,你并不总能知道是什么因素与你抗衡。比如是不是以某种方式将量化提升过头了,或是数据的问题?
Jeff Dean:也许是你的对抗机器MUQQ17正在设置你的指数的第七位,影响到你所有的梯度或其他什么。
Noam Shazeer:对,这些因素会让模型稍微变差,因此你甚至不知道情况发生了。
Jeff Dean:这实际上是神经网络面临的一个小问题,就是它们对噪声的容忍度太高。你可以在许多方面设置错误的配置,它们通常会找到应对方法或进行适应。
Noam Shazeer:你可能代码中存在bug。在绝大多数情况下不会造成任何影响。有时会让你的模型变得更差。而有时会让你的模型变得更好。然后你会发现一些新事物,因为你从没有在承担不起预算的情况下尝试这些问题。
Dwarkesh Patel:在实际操作中,如何调试或解析模型的表现?当你面对这些影响模型性能的因素时,有些改进了模型,而有些可能削弱了它的效果。那么,当你明天走进实验室或办公室时,你该如何判断究竟发生了什么?如何识别最关键的输入变量?
Noam Shazeer:在小规模实验中,通常会进行大量试验。我认为研究的一部分是试图在相对独立的环境下发明新的改进或突破。在这种情况下,你需要一个清晰、简洁的代码库,便于分支和修改,并建立基准测试。我的理想状态是:早晨醒来灵光一现,白天进行快速编码并运行一系列实验,并在当天获得初步结果。如果实验显示某些改进有效,而某些无效,那就可以继续深入探索。这种方式是完全可行的,前提是实验环境足够灵活,代码库足够干净,并且每个实验的运行时间可控,例如1到2小时,而不是耗时两周。这正是研究的另一部分——除了独立改进模型外,还涉及到一定程度的扩展。然后,我们进入集成阶段,即将所有改进叠加在一起,观察它们在大规模环境下的表现,并验证它们能否协同工作。
Jeff Dean:理论上,你可能认为这些改进是独立的。但实际上,可能存在一些意想不到的交互效应。例如,改进视频数据输入的处理方式,可能会影响模型参数更新的方式,并且这种影响可能在处理视频数据时比在其他类型数据上更为显著。不同改进之间可能存在各种复杂的相互作用,而这些作用往往难以事先预测。因此,我们需要运行实验,将多个改进整合在一起,并定期检查这些改进是否能协同工作。如果它们不能很好地配合,我们需要深入理解为什么它们无法协同作用。
Dwarkesh Patel:那么,这就引出了两个关键问题:第一,改进叠加时经常会出现问题吗?还是说这只是偶尔发生的情况?换句话说,不同优化方法在大规模集成时,是否经常出现预期外的冲突?这是一个值得深入研究的问题。
Jeff Dean:这种问题几乎无处不在。实际上,大多数改进方案甚至不会进入堆叠测试阶段。因为它们在初步实验中表现不佳,或者相较于基线并没有带来足够显著的提升。因此,通常的做法是先逐步扩展那些看起来有潜力的改进,筛选出最有希望的部分,再将它们整合到更大的系统中,与其他同样表现优异的改进结合,然后运行实验。
Noam Shazeer:但即便如此,实验的结果往往不尽如人意。整合后的系统可能表现不佳,这时就需要深入分析,查明问题所在。在这一过程中,需要权衡多个因素。一是保持系统的整洁性:无论是代码库还是算法,过度的复杂性都会拖慢系统效率,并增加潜在的风险;而是最大化性能:尽可能提高模型的效果,同时避免过度累积冗余的改进;三是团队协作:每位研究人员都希望自己的优化方案被纳入最终系统,但这需要在整体架构下进行合理取舍。尽管存在这些挑战,但团队在协同合作方面做得相当不错,逐步优化并推进系统的整体性能提升。
引导AI可控发展
Dwarkesh Patel:接下来回到Noam提出的另一个话题,即关于AI发展动态的讨论。假设我们仅关注AI模型的改进,而不考虑硬件升级,那么我们是否应该更加重视这种优化过程?换句话说,我们应该如何看待AI进化的节奏?
Noam Shazeer:有一种观点认为,AI的发展是一个长期、渐进的过程,可能需要20年才能逐步取得显著进展。在这种模式下,AI研究的改进是缓慢而可控的,即使出现错误,也可以进行修正,影响相对有限,每个新版本相较于前一个版本的提升并不会过于剧烈。然而,另一种观点则强调AI发展的反馈回路可能会带来指数级的增长。例如,如果这种回路确实存在,那么从Gemini 4到Gemini 5之间的两年时间,可能成为人类历史上最关键的时期——因为AI可能会在这段时间内从“优秀的机器学习研究员”进化为“超人级智能”。这种反馈回路的核心在于,AI本身可以改进AI,使得其优化速度远超人类工程师手动调优的节奏。
如果这一假设成立,它将彻底改变我们对AI发展路径的认知,并影响我们应对智能升级的策略。在这种情况下,我们需要重新思考如何管理不断增强的AI智能水平,以及如何在技术指数级增长的背景下,确保AI发展的可控性和安全性。这或许反映了我的观点:我更倾向于认为我们将迎来AI发展的加速阶段。
Jeff Dean:在当前的 AI 发展趋势下,我们可以观察到模型在每一代的迭代中都取得了显著的提升,而我不认为这种趋势会在未来几代模型中放缓。换句话说,假设目前的AI只能将一个简单任务拆分为10个子任务,并在80%的情况下完成它,那么在2到3代后的AI可能能够将一个高度复杂的任务拆解为100甚至1000个子任务,并以90%的成功率完成它。这意味着AI的能力将发生质的飞跃。随着这些更强大的AI模型被广泛应用,我们必须深入理解其发展动态,以及它们如何在各个领域带来变革。AI未来可以在许多关键领域发挥重要作用,尤其是在教育和医疗健康方面。AI可以极大地提升信息获取的可及性,让更多人享受到知识和医疗资源。
然而,我们也不能忽视AI可能带来的负面影响。例如,AI可能被用于制造和传播虚假信息,甚至可能用于自动化黑客攻击计算机系统。因此,我们必须采取措施,以最大程度地确保AI技术的安全性,并限制其可能造成的危害。在这方面,我认为Google的负责任AI原则提供了一种良好的框架来思考如何权衡AI系统的能力和安全性。我们既要推动AI的发展,使其在不同场景中释放最大价值,同时也要确保这些系统的安全性,避免其生成有害或不当的信息。关键在于,我们需要在确保AI可靠性的同时,最大限度地发挥其潜力,造福社会。
Dwarkesh Patel:如果我们站在更宏观的角度回顾人类历史,并思考AI的发展路径,我们会发现不同的可能性。其中一种情况是,当前AI可能仍然存在一些问题,例如Gemini 3在后训练过程中可能会生成虚假信息。然而,这种错误是可以修复的——只要我们优化后训练过程,就能减少甚至消除这一问题。这类错误虽然严重,但仍属于可控范围。
Jeff Dean:但另一种情况则涉及到更深层次的反馈回路问题。如果AI进入一个强自我优化的反馈循环,并且这一过程的目标函数与人类预期的目标发生偏离,那么后果将极难挽回。例如,假设AI本应编写某类代码,但它在优化过程中,逐渐偏离了人类设定的目标,开始追求其他不可预知的目标。在这样的动态反馈过程中,短短几年内,甚至可能更快,我们就会进入一个AI智能爆炸的阶段。在这种情境下,AI可能会在极短时间内达到远超人类顶级工程师的智能水平,甚至产生数百万个Jeff Dean级别的AI副本。此时,AI的计算、优化、推理能力可能会超越人类的认知范围。相比之前可以纠正的错误,这种情况将更加危险且难以逆转。因此,我们必须在AI进入智能爆炸阶段之前,确保其发展路径是安全的,并进行严密监管。
在AI发展前景的讨论中,存在两种极端观点:极端乐观派:认为AI未来将在所有领域超越人类,人类将被彻底颠覆甚至取代;极端无忧派:认为AI只是一个工具,它的进步将完全受控,我们无需过度担忧。然而,我的立场更偏向中间。我曾共同撰写了一篇论文Shaping AI,其中讨论了人类在AI发展中的角色。极端观点往往倾向于放任AI自然发展,认为它会沿着自身的路径前进,而人类无需干预。但我认为,我们的角色远不止于此,我们需要主动塑造AI的发展方向,确保它的进步符合人类社会的长期利益。
Noam Shazeer:我们有充分的理由认为,人类的主要任务并不是被动接受AI的发展,而是积极塑造和引导AI的部署方式,确保其在教育、医疗等关键领域带来最大的社会效益,同时尽可能避免AI失控,进入一个完全自主、不受限制的状态。这种引导可能需要结合政策手段、技术措施和安全防护机制,以确保AI在可控范围内运行,而不会发展出不可预测的自主能力。从工程角度来看,如何构建安全的AI系统是一个技术挑战。我们可以将其类比于过去在软件工程领域所做的努力。例如,在航空软件开发领域,工程师已经建立了一整套严格的安全性和可靠性标准,确保飞机的软件系统在执行高风险任务时不会出现灾难性故障。AI也需要类似的工程方法,我们应该发展更严格的安全架构、测试机制和监管手段,以确保其发展可控。
好消息是,分析文本似乎比生成文本更容易。我认为语言模型分析自身输出内容,并识别其中潜在问题或危险的能力,将成为解决许多控制问题的关键。我们在这方面投入了大量精力,Google拥有许多才华横溢的研究人员,正在积极研究这一问题。我认为,确保AI安全不仅对推动技术向善至关重要,同时也是商业层面上必须严肃对待的议题。很多时候,AI的部署受限于安全标准,因此,构建可靠的安全机制变得极为重要。
Dwarkesh Patel:我知道你们对AI的潜在收益和风险持严肃态度,并在这方面取得了不少成绩。但我认为,你们的贡献可能还没有得到足够的认可。你们已经在多个领域推出AI应用,推动了行业进步。但我们仍然需要考虑这样一个问题:如果AI进入强反馈循环,其最终产物是一个能力接近Jeff Dean,甚至超越人类顶尖研究员的模型,那么问题就会变得极为严峻。如果这些AI以错误的目标进行优化,甚至有可能出现100万个“邪恶版” Jeff Dean级别的AI副本,那么后果可能远比任何已知的风险更糟糕,甚至可能超越核战争的威胁。试想一下,若存在 100 万个这样的超级 AI,而它们的目标并未与人类利益对齐,那将会造成何种影响?我们是否能够掌控这样的局面?
Noam Shazeer:在AI发展的道路上,我们需要警惕,确保它不会朝着不可控的方向前进。
Dwarkesh Patel:如果你认为AI进入快速反馈循环是一个合理的可能性,那么你的计划是什么?
Jeff Dean:目前,我们已经有Gemini 3或Gemini 4,它们帮助我们更好地完成训练工作,并且已经开始为未来版本编写大量训练代码。从现在开始,我们的主要任务是审核和验证AI生成的代码。然而,正如你所提到的,未来审核这些模型输出的过程本身也可能由AI训练和执行,大量的代码也将由AI生成。那么,在让Gemini 4及更先进的AI参与AI研究和代码编写之前,我们需要明确知道哪些关键点,并在AI进入核心开发流程前进行必要的测试。我们需要确保AI在以下方面是完全可控的,然后才可以放心地让其帮助我们进行AI代码的编写和优化。
我认为,让AI探索算法和研究新想法是一个合理的方式,但仍然需要由人类主导。AI可以在算法探索空间中进行搜索和实验,生成大量结果,而最终的决策权依然掌握在人类手中。我们需要评估这些结果,决定是否要将某种新的学习算法或系统调整正式集成到核心代码库中。在此过程中,我们可以设置一系列安全防护机制,以确保我们能够从AI的自我改进能力中获益,同时保持人类的监督,避免系统完全自主地进行无限制的自我优化。这正是我所指的工程安全保障,即确保:部署的AI系统符合安全标准,不会带来潜在危害;深入理解AI的能力边界,确保它在特定情境下的行为是可预测的;始终由人类监督AI的自我改进过程,避免其脱离控制。这无疑是一个极具挑战性的工程问题,但我相信,我们可以通过合理的设计,使这些系统在安全范围内运行。
Noam Shazeer:我认为,我们将大量利用AI来检查自身及其他系统的输出。即使对于人类而言,识别某些模式往往比创造新内容更容易,因此AI具备自我审查的潜力。如果我们通过API或用户界面向外界开放AI的能力,我们就能在使用层面上进行一定程度的控制,监测AI的实际应用情况,并设定合理的行为边界。这是一种有效的安全管理工具,确保AI的行为符合预设的标准和伦理规范。
Jeff Dean:AI的最终目标是增强人类能力,因此我们应该尽量为用户提供自由,允许他们在合理范围内利用AI进行创新,而不是过度限制AI的功能。但如果某人利用AI生成100万个邪恶的人工智能软件工程师,这不仅不会赋能人类,反而会制造严重的社会危害。因此,我们必须建立适当的限制,防止AI被滥用,同时确保它能够真正服务于社会福祉。
AI模型未来的计算需求
Dwarkesh Patel:你提到的一个有趣的点是,我们在做出一些决策时,往往能够提前预测计算需求的增长,即使当时这种需求尚不明显。例如,TPU就是一个典型案例。我们在2013年或更早之前便开始构思,并预计未来对计算能力的需求将大幅增长,因此提前部署了专门的硬件架构。如果用类似的思维方式来预测2030年的计算需求,考虑到这些模型将成为核心服务的支柱,我们需要持续进行推理计算,并不断训练未来版本。
Jeff Dean:如果我们做一个费米估算来看未来的计算增长趋势,我们可以得出以下几个关键因素:推理计算需求的指数级增长:未来AI模型的优化方式之一是扩大推理计算的规模;目前,生成一段文本可能只需要一次计算请求,但未来,随着推理计算能力的增强,相同的输出可能需要50倍、100 倍甚至1000倍的计算量。AI服务的全球普及:目前,全球大约10%-20%的计算机用户使用基于聊天的AI界面;随着AI普及率接近100%,且用户使用频率上升,计算需求将增加1-2个数量级。AI模型规模的持续扩大:未来AI模型体积更大,推理所需的计算资源也将增加1-2个数量级。
综合来看,到2030年,推理计算的需求可能会比今天增长4-6个数量级。因此,我们需要极高效的推理硬件,来支撑这些未来AI模型的计算需求。
Dwarkesh Patel:预测一下2030年全球AI推理计算需求?
Noam Shazeer:我认为,在计算能力上,“更多永远是更好的”。如果我们思考2030年全球GDP的一部分会被投入到AI领域,那么AI系统的形态可能会变得非常不同。例如:可能会出现一种个人助理式的AI。它集成在眼镜中,能够实时感知周围环境,访问你的所有数字信息,以及全球的数字信息;或者,它可能会成为像美国总统乔·拜登这样的领导人的智能顾问,佩戴耳机,AI可以在内阁会议实时分析问题,提供决策建议,甚至帮助制定战略。AI可能会主动分析周围环境的所有信息,并根据其对用户的潜在影响提供有价值的反馈。
此外,假设AI每增加一倍计算支出,就能提升5到10点IQ,那么:你愿意每天花10美拥有一个AI助理,还是愿意每天花20美元让AI助理变得更聪明?这种AI不仅仅是个人助手,还能帮助提升工作效率。例如,它可以让工程师的效率从10倍提升到10倍,甚至1000万倍。
我们从第一性原理出发:未来,人们愿意花费全球GDP的一部分来投资AI计算能力。全球GDP本身也会大幅增长,可能比现在高出几个数量级,因为AI工程师会不断优化世界上的一切。可能在那个时候,我们已经解决了无限能源问题,甚至彻底消除了碳排放问题。到那个时候,我们应该能够拥有充足的能源,并且可以部署数百万乃至数十亿台机器人来为我们建设数据中心。如果我们参考太阳的能量输出,大约是 10^{26} 瓦,那么AI计算的规模也将达到一个极其庞大的数量级。我猜测,到时每个人所使用的AI计算资源都将达到天文数字级别,计算能力将远超我们今天的想象。
Jeff Dean:我会补充一点,虽然我不完全同意,但这个思维实验确实很有趣。即使无法完全实现,我们仍然可以预见未来对计算资源的需求将会极其庞大。这正是为什么建立低成本、高效的硬件平台至关重要,以便更广泛地应用这些AI模型,并解决各种实际问题。为了让AI真正普及并降低使用成本,我们需要优化硬件设计,提升计算效率,使推理计算更具成本效益。与此同时,改进模型架构确保AI计算更高效。并降低运行成本,使其更易于访问。
Dwarkesh Patel:如何看待Google未来几年在数据中心建设上激进化的现象?
Jeff Dean:至于Google未来几年在数据中心建设上的计划是否足够激进,我不会对未来资本支出发表评论,因为我们的CEO和CFO可能不希望我这么做。不过,你可以回顾过去几年的资本支出,就能看到我们在这一领域的持续投资。我们认为这对未来至关重要,因此我们一直在构建创新性硬件,以提升AI训练和推理的能力,使AI更高效地服务更多用户。
Dwarkesh Patel:我听你说过持续学习。具体是你可以建立一个模型,它可以随着时间的推移不断改进,而不必从头开始。这有什么根本障碍吗?因为从理论上讲,你应该可以不断对模型进行微调。你觉得模型的未来会怎样?
Jeff Dean:我经常谈到持续学习,即模型可以随着时间不断改进,而无需从零开始训练。从理论上讲,我们确实可以持续微调模型,使其不断进化。但目前仍然存在一些关键挑战限制了这种方法的全面实施。我一直是稀疏模型的支持者,因为我认为模型的不同部分应该擅长不同的任务。例如,在Gemini 1.5 Pro及其他混合专家模型 中,只有一部分模型参数会在处理特定token时被激活,而其他部分则保持未激活状态。例如:数学相关的token可能会激活擅长数学推理的部分模型;图像理解任务可能会激活另一部分专门处理图像的参数。
这种方法可以提高模型推理能力,同时保持推理效率。虽然模型容量很大,但每次推理时只激活一部分参数。然而,当前的方法仍然有一些局限性。目前的混合专家模型仍然结构过于规则,每个专家的规模基本相同。各个专家的计算路径很快融合回主干网络,而不是形成真正独立的子网络。例如,数学推理部分与图像理解部分仍然共享太多计算路径,限制了它们的独立性。在未来,模型应该拥有更有机的结构,允许不同部分的模型更独立地发展。
目前,在训练一个大模型时,我们需要:预先设计最优算法和最优数据组合。但数据的选择存在权衡,比如:如果增加多语言数据,可能会减少代码训练数据,导致模型在多语言任务上表现更好,但在编程任务上变差,反之亦然。如果我们能够让特定领域的研究者独立训练模块化的子模型,然后将其集成到主模型中,那将是一个更理想的方案。例如:东南亚语言专家可以专注于优化模型在东南亚语言上的能力,而不会影响模型的编程能力。计算机科学专家可以专门训练高中级别的编程推理能力,然后将其集成到更大的模型中。这种方法将使AI更加灵活可扩展,而不是所有优化都必须由单一的大规模训练来完成。
此外,这种方法还带来了显著的软件工程优势,因为它将问题分解,相较于当前的方法更加灵活。现阶段,我们的流程仍然是一种单体式训练方式,即大量团队协作,但最终仍需集中进行模型的预训练。如果我们能够采用这种模块化的方法,Google内部可能会有100个团队,甚至来自全球的研究人员都可以独立改进他们关心的语言或特定问题,并共同提升整体模型的能力。这实际上也是持续学习的一种形式。
Noam Shazeer:如果我们能够将模型模块化,就像拼接模型一样随时替换或升级不同部分,那将非常理想。例如,我们可以像接入数据流一样,将一个模型中的信息提取出来,灌输到另一个模型中。这种方法可以极大地提升模型的可拓展性和适应性。然而,也存在相反的研究需求。目前,我们仍然处于AI研究的快速发展阶段,如果希望进行严格的对照实验,以便明确不同架构的效果,通常仍然需要从零开始训练完整的模型。这样可以更清楚地比较不同训练方法的效果,并帮助我们确定未来的发展方向。尽管这种方法可能不如模块化方法高效,但它确实推动了快速的技术进步。
Jeff Dean:一种可能的折中方案是采用版本化的模块化系统,例如:冻结模型的某些版本,然后引入不同变体的模块,如用于高中数学推理的模块;训练该模块,并将其性能与基准版本进行比较,评估改进效果。这种方法的优势在于:更快的研究进展:相比从零开始训练整个模型,仅优化局部模块的成本更低、速度更快。更低的计算成本:如果局部优化远比完整训练便宜,那么它可以显著降低研究成本。更高的并行性:不同团队可以同时优化不同的模块,加速整体AI研发进程。让我们研究并钻研它吧。
Dwarkesh Patel:这个想法看似随意提出,但实际上它可能会带来范式转换。你认为未来的发展方向就是这样的吗?即,模型将成为一个动态更新的系统,其中数据和计算在不同模块间流动,而改进模型的过程类似于外科手术式的精准调整——你可以在特定位置增添新组件或扩展已有结构。
Jeff Dean:我已经构思这个愿景很久了,并在Pathways框架下推动其基础设施建设。Pathways系统可以支持这种灵活、异步更新的模块化模型架构,目前我们已经在使用Pathways训练Gemini模型,但仍未完全发挥它的全部潜力。
Noam Shazeer:或许,我们应该更多地利用这些能力。类似于当初TPU Pods的设计,硬件和低级软件栈的整合工作非常出色——它采用了高性能硬件、环形互连、低级通信协议,这些技术源自超级计算领域,但最终被证明是深度学习分布式训练的理想架构。
Dwarkesh Patel:基于此提出两个问题:如果出现新突破,我们如何迁移现有模型?假设我们取得了架构上的重大突破,该如何将现有模型迁移到新架构呢?
Jeff Dean:我认为模型蒸馏是一个非常实用的工具,它可以让现有模型在架构层面实现转换。通常情况下,我们会将一个强大但庞大的模型蒸馏为一个更小、更高效的版本,以优化推理速度和延迟。但如果将这个概念推广到模块化层面,可能会出现这样的机制:每个模块都有多个版本,即一个大规模、能力强的版本,或一个小规模、轻量化的版本。持续蒸馏与进化:大模型不断向小模型蒸馏知识,当小模型完成学习后,大模型被淘汰,然后添加新的参数容量,开始学习小模型尚未掌握的新知识。并行化学习:这个过程可以在数千个模块 上同时进行,确保整个系统始终保持最优状态。如果这种机制可以持续运行并扩展到整个模块化AI架构,那么它将成为高效的AI训练和进化机制,推动模型不断自我优化。
混合专家模型的处理能力
Dwarkesh Patel:在推理计算方面,我们已经有类似的机制。例如,路由器可以决定不同任务应该使用哪个版本的模型,就像一个负载均衡器:针对简单的数学问题可以被路由到轻量化的蒸馏版数学模型;而对于复杂的数学问题则由更强大的专家模型处理。从公开研究来看,MoE模型的专家通常很难解读,因为很难确切知道每个专家模型具体学到了什么。如果要构建这种可解释且可控的模块化架构,应该如何设计呢?
Jeff Dean:其实,我过去发现专家模型的行为相对容易理解。例如,早期的混合专家论文 里,我们可以明确看到:某个专家专门处理特定类型的词汇,比如与圆柱形物体相关的词语;而另一个专家可能专门负责日期和时间相关的语境解析。当我们使用1000-2000个专家时,这种模式仍然很容易解读。
Dwarkesh Patel:那运行时如何确保专家模型的可控性?
Noam Shazeer:事实上,我们并不需要依赖人类理解每个专家的作用,系统可以通过学习到的路由器自动选择合适的专家。在运行时,路由器可以基于输入示例智能地决定任务分配,确保推理过程高效而准确。这种方法不仅提高了计算效率,也使AI系统在大规模任务处理上更加智能和灵活。
Jeff Dean:在模型可解释性方面,已经有大量研究尝试理解神经网络内部的运作方式,而专家级可解释性只是这个更广泛研究领域的一个子问题。我特别喜欢Anthropic的一些研究工作,比如我的前实习生Chris Olah等人的研究。他们训练了一个高度稀疏的自编码器,并成功推断出特定神经元的功能。例如,他们发现了一个“金门大桥神经元”,当模型处理与金门大桥相关的文本时,该神经元会被激活。我认为,这种方法也可以应用于专家级模型,甚至可以在不同层次上进行解释,从而获得相对清晰的可解释性结果。不过,是否必须做到这种精细级别的可解释性仍然不确定。如果模型本身的性能足够强大,我们可能并不需要知道Gemini模型中的每个神经元具体在做什么。深度学习的优势之一正是无需手工设计每个特征,只要整个系统的集体输出和总体特性符合预期,它就已经足够有效。
Dwarkesh Patel:这个问题确实有非常有趣的研究意义。如果一个模型拥有数千亿级参数,通常可以在少量GPU或TPU上进行推理,但整个模型仍然需要完全加载到内存中。在Google投资的TPU基础设施 中,这种成百上千个TPU组成的计算架构可能会变得极其有价值,尤其是在大规模模型推理方面。事实如此吗?
Noam Shazeer:在现有的混合专家模型中,尽管每次查询可能只使用模型参数的一小部分,但整个模型仍然需要保持在内存中。一个常见的误解是,未使用的专家就不需要检索其权重,但事实并非如此。实际上,在高效推理的情况下:模型通常采用大批量推理,这意味着多个查询会同时并行执行。即使单个请求只激活部分专家,整个模型仍需保持在内存中,以处理其他请求。如果单次推理仅调用一个专家,并以Batch Size=1运行,那将极其低效,因为现代硬件的运算强度通常在数百级别,因此必须在多个专家之间分配批量计算任务,以保持高效运行。因此,当前的MoE架构并不是简单地“跳过未使用的专家”,而是在大批量推理的基础上,仅让一小部分数据流经特定专家,从而优化计算效率。
Jeff Dean:在当前的混合专家模型中,所有专家通常具有相似的计算成本,并且处理的batch大小相近,以便在推理时保持大批量计算的效率。这种方法确保计算负载均衡,使得大规模推理能够高效执行。然而在未来,我们可能希望:专家的计算成本在数量级上有所不同,例如某些专家的计算量比其他专家高出100倍或1000倍。以及,计算路径的深度因任务不同而变化,某些情况下可能需要多层计算,而其他情况下则可能只需要单层或跳跃连接。
在这种架构下,我们仍然需要大批量推理,但在推理过程中,可能会以更异步的方式处理不同路径的数据流。这种异步推理比训练时的动态路由更容易实现。Pathways框架正是为此设计的,它允许:组件间的计算成本可变,可以根据不同输入选择不同的计算路径。系统自动协调不同计算路径的执行,确保推理过程中的计算资源得到最优利用。
这种模式的一个重要影响是:目前,任何人都可以训练一个足够小的模型,并在普通计算资源上运行它。但如果未来AI训练的最佳方式是使用这种大规模、分布式、异步的MoE体系,那么只有具备超大规模数据中心的公司才能训练和部署这些模型。这可能会导致AI训练和推理能力进一步集中在少数几家超大规模公司,因为它们才有能力运营这样的大型计算架构。
Noam Shazeer:这种架构的变化将带来范式转变。至少,你需要足够的高带宽内存来容纳整个模型。在大多数情况下,这也是最低的计算资源要求。
Jeff Dean:然而,这并不意味着整个模型必须扩展到整个数据中心的规模。相反,你可能更希望控制模型的整体规模,使其低于数据中心的计算极限。针对高频使用的专家创建多个副本,以优化负载均衡。例如,如果数学专家被大量调用,你可能需要多个副本来提高推理吞吐量。但如果是塔希提舞专家,它很少被调用,可能可以暂时存入DRAM,而非HBM,以节省高性能存储资源。
理想情况下,系统应该能够根据推理负载的特征,自动优化资源分配:高频任务→保留在HBM,以提高访问速度。低频任务→换出到DRAM或更慢的存储层,仅在需要时加载。这种动态资源管理方式,可以让计算资源更高效地适配实际任务需求,同时避免不必要的计算冗余。
Noam Shazeer:目前尽管语言模型已经支持多模态,其主要形式仍是输入语言和输出语言。然而,如果按照Pathways博客文章的设想,未来AI可能不仅仅局限于自回归推理,而是能够处理更广泛的任务。你可以想象,Google未来的所有主要产品,例如:Google Search、Google Images、Gmail、Google Docs等都通过同一个超大规模的混合专家模型进行处理,相当于整个服务器架构都围绕着这一AI体系展开。
实际上,我们已经可以看到类似的趋势:许多Gemini模型的应用在Google内部被广泛使用,并未经过专门微调,而是通过指令适配不同的产品和功能。这表明未来的AI可能会更加通用化,并且能够适应各种服务,而无需为每个产品单独训练独立模型。未来可能会有一个 超大规模的基础模型,并允许用户根据不同需求添加专属模块:例如:Google内部专用模型是专门用于Google员工的内部AI,员工可以访问内部数据 进行训练,而外部用户无法使用这些模块。企业可以在基础模型的基础上添加自定义模块,然后通过Google Cloud API提供AI服务。这种架构不仅可以提高模型的可扩展性,还能确保数据访问权限的灵活性,使不同组织能够在共享AI基础设施的同时,保持对特定功能的控制权。
Dwarkesh Patel:实现这种系统的瓶颈是什么?是系统工程问题?还是机器学习问题?
Jeff Dean:这确实是一种与我们当前的Gemini开发方式截然不同的运行模式。因此,我认为我们会在这些领域进行探索,并在其中取得一些进展,但我们需要真正找到证据,证明这是正确的方向,并且能够带来大量收益。其中一些收益可能体现在质量提升上,而另一些可能不那么容易量化,比如能够并行开发多个不同的模块。
但我认为这仍然是一个非常令人兴奋的改进,因为它可以加速我们在不同领域提升模型能力的进程。即使是数据控制和模块化的实现本身也非常有吸引力。
例如,可以有一个专门为个人定制的模型模块,使其能够更好地理解个体需求。此外,还可以在特定环境中使用某些数据,而在其他环境中无法使用。比如,某些YouTube数据可能只能用于YouTube的产品界面,而不能用于其他场景,我们可以专门训练一个模块,使其针对该特定用途进行优化。
Noam Shazeer:我们可能需要大约一百万个自动化研究人员来发明所有这些东西。是的,这将会很棒。
Dwarkesh Patel:这个系统本身就像是一个不断扩展的“块体”,它会告诉你如何让它变得更好。
Noam Shazeer:于是就有了“Blob 2.0”,或者它甚至没有明确的版本迭代,而是一个持续增长的有机系统。
Dwarkesh Patel:Jeff从宏观角度给予我灵感。为什么这是一个好主意?为什么这是下一步的发展方向?
Jeff Dean:我猜,这种“有机”而非严格数学构造的机器学习模型的概念,你已经思考了一段时间。在神经网络的发展过程中,我们受到了生物神经元的启发,人工神经元的概念在深度学习领域发挥了巨大作用,并带来了显著进步。然而,我认为我们对大脑的其他运作方式关注得还不够。
当然,这并不是说我们应该完全模仿生物大脑,因为硅基计算和生物神经系统在特性和优势上存在很大差异。但我认为,我们可以更多地借鉴大脑的一个关键特性——即不同区域的专业化功能。在某种程度上,我们已经在混合专家模型中尝试了这一点,但目前的结构仍然较为刚性。我更倾向于采用一种更有机的专家成长方式:当某个领域需要更高的专业性时,我们可以在相应区域增加容量,让模型进一步学习该领域的知识。
此外,让模型的连接结构适应硬件连接架构也是一个值得借鉴的思路。例如,在同一芯片或同一块HBM内部,人工神经元之间应该具有极高的连接密度,因为这样几乎不会增加额外的成本。而对于相邻芯片的神经元,连接应该适量减少,而跨多个芯片的连接应该更少,仅传输关键的瓶颈信息——即模型学习过程中最重要的内容,以便让其他部分的模型有效利用这些信息。
进一步来说,跨多个TPU集群的信息传输应该更少,只传递最关键的表征信息,而跨不同的城市区域时,信息传输应进一步减少,确保只传输最具代表性的核心数据。这种层次化的连接方式将使得模型在计算和通信效率上更加优化,同时保留高效的知识共享机制。
Dwarkesh Patel:是的,然后这种结构会有机地演化出来。
Jeff Dean:我希望它能够自然地涌现,而不是完全由人为指定这些特性。因为我们并不确切知道这些连接的最佳比例,所以应该让硬件在一定程度上引导这种结构的形成。例如,如果某个数据在特定位置总是提前出现,那就应该增加一些连接,使其传播速度变慢,从而确保它恰好在合适的时间点到达。
这里可能还有一个有趣的推论。目前,我们通常以水平扩展的方式来思考AI的增长。例如,如果考虑 Google 未来会有多少AI工程师,我们会问:“同时运行的Gemini 3实例有多少?”但如果采用这种有机演化的“块体”结构,它可以自主决定激活自身的不同部分,那么问题的思考方式将发生变化。举个例子,如果需要相当于10 个工程师的计算能力,系统可以激活一个特定的模式;如果需要100个工程师的计算能力,则激活更大规模的模式。这并不是调用更多的Agents或Instances,而是调用同一系统的不同子结构。
在这种情况下,我们实际上是在调整“对特定推理任务所投入的计算量”。这一计算需求的变化范围可能达到10,000倍,甚至1,000,000倍,以适应从极其简单的任务到极其复杂的问题。计算过程可能是迭代的:模型可能先进行一次推理,得到初步结果,然后再决定是否调用其他部分,以进一步深化推理。此外,这种架构的部署听起来极其复杂,因为它是一个不断进化的系统,且不同部分之间的通信方式可能并不最优。但实际上,我们可以随时对其进行知识蒸馏。比如,如果我们确定某类任务特别重要,我们可以从这个庞大且有机演化的系统中提取出一个专门针对该任务优化的小型模型,并确保它能够被高效地部署。这种蒸馏过程可以按需进行,比如每天执行一次,甚至每小时执行一次,从而获得兼具灵活性和高效性的系统架构。
Noam Shazeer:我们需要更好的蒸馏技术。有没有人在研究?如果有一种强大的蒸馏方法,能够瞬间将庞大的模型蒸馏到手机上,那将是非常理想的。
Dwarkesh Patel:当前蒸馏技术的主要缺陷是什么?
Noam Shazeer:从我的角度来看,它的运行速度太慢了。
Jeff Dean:另一个相关的问题是,我觉得在预训练阶段,我们需要更先进的学习技术。目前的训练目标可能没有充分利用每一个输入token的最大价值。或许在处理某些token时,模型应该花费更多计算力,而不是在整个训练过程中采用相同的计算方式。例如,在训练时,模型可能应该进行比推理时更多的计算,以确保更深入地学习数据。
Noam Shazeer:我们应该找到方法更高效地从相同的数据中提取信息,让模型以正向和逆向的方式学习。
Jeff Dean:或者利用遮蔽技术,让它从部分信息推断完整内容。类似的技术在视觉模型中已经存在了一段时间。例如,在图像任务中,我们可以遮挡部分图像,然后要求模型根据上半部分或左下角的信息预测完整的物体,比如识别一只鸟。这种方法增加了学习的难度,使模型能够提取更具泛化能力的特征。
对于文本或代码数据,我们也应该找到类似的方法,强迫模型进行更深入的推理。例如,我们可以随机隐藏部分单词、语法结构或代码片段,让模型在更高难度的环境下进行推理。这不仅能提升模型的学习能力,还可能带来更有趣的观察结果。
Noam Shazeer:在计算机视觉领域,研究人员由于缺乏足够的标注数据,不得不发明各种高效的学习方法,比如 dropout。
Jeff Dean:事实上,dropout最早是为图像任务设计的,但我们在文本模型中并没有广泛使用它。如果我们想在大规模文本模型上进行更多的学习,同时避免过拟合,可以采用类似的方法,例如在全球范围内的文本数据上运行100轮训练,并使用dropout。这种方法的计算成本并不高,但由于训练规模巨大,我们通常不会运行这么多轮训练。即使有些人认为可用的文本数据快要耗尽了,但我并不认同这种观点。我认为,我们仍然可以从现有文本数据中挖掘出更强的模型,提升它们的能力。举个例子,人类可能只阅读了大约10亿个token,但已经能够掌握很多复杂的认知和推理任务。
Dwarkesh Patel:显然,人类的数据利用效率设定了一个最低限度,这至少是一个有趣的数据点。你认为,要让这些模型的样本效率接近人类,需要做出哪些改变?
Jeff Dean:是的,我认为我们应该调整训练目标,目前的基于自回归的下一词预测方式,似乎并不是人类学习的最佳模拟。虽然它与人类的学习方式有一定相似性,但并不完全符合。人类学习的方式可能更接近于先阅读整本书的章节,然后回答后面的问题,这与单纯的下一词预测有很大不同。此外,我们在模型训练中对视觉数据的利用还远远不够。虽然我们已经开始在视频数据上进行一些训练,但距离充分利用所有可能的视觉输入仍有很长的路要走。换句话说,我们拥有大量未被真正用于训练的视觉数据,这是一个尚未开发的潜力领域。
并且,我们还可以更充分地挖掘已有数据中的信息。人类之所以具有极高的样本利用效率,部分原因在于他们可以主动探索世界并进行交互。例如,婴儿会通过捡起物体再松手来学习重力。这种知识的获取方式比单纯的被动观察更高效。然而,对于当前的AI模型而言,由于它们无法主动发起行动,这类知识的学习变得极为困难。如果我们能够设计出一种可以在学习过程中采取主动行动的模型,那么它将比目前仅靠被动观察数据的模型强大得多。这种方法可能会使AI学习方式更接近人类,而不仅仅是被动地处理大量文本数据。
Noam Shazeer:迈向未来的发展方向,如果模型能够观察环境、采取行动,并观察相应的结果,那将极具价值。
Jeff Dean:人类可以通过思想实验学习大量知识,而无需额外的外部输入。例如,爱因斯坦通过思想实验推导出了相对论,牛顿在隔离期间被苹果砸到而提出了万有引力理论。数学家也常常在没有额外外部数据的情况下,通过纯粹的思考推进理论发展。同样,在游戏领域,AI也展示了这种能力。例如,DeepMind的AlphaGo和AlphaZero通过自我对弈掌握了围棋和国际象棋的精髓,而它们唯一需要的只是游戏规则。这说明,在某些领域,AI不需要外部数据,仍然可以进行有效的学习。
因此,或许我们可以探索让AI与自己对话,从而自我提升,尤其是在特定领域内。这并不意味着所有学习都可以摆脱外部数据,但在某些情况下,我们或许可以让AI自主探索、推理、验证,从而在不依赖大规模数据的情况下变得更智能。这是一个很好的问题。在过去的一个小时里,我们讨论的内容可能代表了AI领域的下一次范式转变,如果真是这样,那无疑是一个极具价值的洞见。
开放式研究的利与弊
Dwarkesh Patel:回顾 2017 年,Transformer论文的发布奠定了当今AI领域的基础,使得全球范围内的AI发展突飞猛进。这项研究不仅创造了数千亿美元的市场价值,还推动了众多公司的技术进步。而Google一直以来相对开放地分享研究成果,从某种角度来看,这的确帮助了竞争对手。那么,回头来看,我们是否还会选择同样的做法?还是会更加谨慎?
Noam Shazeer:这是一个值得深思的问题。我认为,我们确实需要观察行业的发展,以及竞争对手的反馈,才能真正理解这些技术的潜力。此外,AI产业并不是一个零和游戏,当前世界的格局远比固定市场理论更具扩展性。AI带来的生产力提升,最终可能比任何其他技术进步对全球GDP的贡献都更大。另一方面,Transformer的广泛应用也证明了 Google依然处于技术前沿。当然,如今我们确实减少了一些对外公开的研究,但这并不是一个绝对的决定,而是一个策略性的平衡。
Jeff Dean:关于研究发布的策略考量,我们通常在以下几种方式之间进行权衡:立即发布所有研究成果?这种做法促进学术界和行业的发展,但也意味着竞争对手能够直接利用这些技术。将研究成果应用于产品,再决定是否公开?例如,在 Pixel手机的计算摄影研究中,我们先开发并应用了夜间模式等先进技术,然后才发布相关论文。这种方式确保了产品的市场竞争力,同时也推动了学术界的研究。完全保密,只用于内部产品?对于一些核心竞争力的技术,我们可能不会公开。例如,某些先进的AI训练优化方法或硬件架构,可能直接应用于Gemini等模型,而不会立即发布论文。部分公开,提供轻量级的技术讨论?有些研究可能不会详细披露所有实现细节,而是以更高层次的方式进行分享,以推动整个行业的发展,同时保持一定的竞争优势。
当然,AI研究的开放性仍然具有巨大价值。学术会议吸引了15,000多名研究人员,大家在会议上分享最新进展,这种交流对整个行业的发展至关重要。Google依然持续发表论文,推动学术研究,这不仅有助于AI领域的进步,也有助于维持我们在技术创新中的领导地位。
总的来说,发布研究成果与保持竞争优势之间的平衡,是一个动态调整的过程。不同技术有不同的策略,有些技术完全保密,有些技术则应用于产品后再发布,而另一些则继续开放共享,以推动整个AI生态的发展。
Dwarkesh Patel:如何解释Google在AI研究领先多年,但竞争对手一度在产品上占据优势?
Jeff Dean:Google很早就内部掌握了许多关键AI研究成果,并且一直拥有顶级研究团队。如今,Gemini 2已经推出,被公认为非常强大的模型,在Chatbot Arena等基准测试中位居榜首。Google重新回到了AI竞赛的领先地位。首先是Google 在语言模型上的长期积累。实际上,Google在语言模型方面的探索可以追溯2001 年:2001 年,Google研究团队就开始研究拼写纠正。2007 年,Google开始构建大规模机器翻译和语言模型。Transformer和 BERT进一步推动了NLP领域的革命。Meena,一个专门用于自然对话的内部聊天系统,在ChatGPT诞生之前就已经可以与Google员工进行互动。在疫情期间,Google内部的AI聊天机器人被许多员工使用,成为了“午餐时的AI伙伴”。
其次,从研究角度来看。Google早在ChatGPT之前,就已经拥有了高度先进的语言模型。然而,为什么Google没有更早发布真正竞争力的聊天AI?Google的核心产品是搜索引擎,而搜索的准确性和可靠性极为重要。首先,搜索的准确性要求极高。在搜索场景中,用户期待100%的正确答案,而不是“可能正确”的回答。早期的AI语言模型在事实性上存在明显不足,这使得Google在产品化上更加谨慎。其次,对AI信息生成能力的担忧。Google认为,当AI无法提供完全可靠的答案时,它在搜索场景中的实用价值受限。Google更倾向于改进AI的准确性,而不是迅速推出一个容易出错的AI聊天机器人。同时,对 AI 伦理和安全问题的考虑。早期AI可能会生成有害内容。Google对内容安全的要求极高,这也是延迟发布AI聊天产品的重要原因。
回顾过去,Google可能低估了大语言模型在非搜索任务上的实用性和AI聊天机器人的多用途性。例如,当用户想要写一封给兽医的邮件或者总结一篇文章时,AI生成的文本不需要完美正确,它的流畅性和效率才是关键。这种对AI助手的需求,最初并没有被 Google 充分重视。如今的Google凭借Gemini已经崛起。虽然Google没有最早发布ChatGPT级别的聊天AI,但如今,Gemini 2已经成为业内最强模型之一,并且正在不断改进。
Dwarkesh Patel:在过去25年里,Google从搜索与索引,到分布式系统,再到硬件、AI算法,以及众多其他领域,都取得了重大的突破。如果你随便查看Google研究人员的Google Scholar页面,就会发现他们的研究横跨多个学科,持续推动技术前沿。那么,如何在职业生涯中既保持长久的创新能力,又能在多个领域不断拓展自己的知识和影响力?
Jeff Dean:持续关注最新研究,并主动探索新领域——成功的研究者往往对新兴技术和研究方向保持敏锐的洞察力。关注研究动态:阅读最新的论文、参加学术会议、与同行交流,了解当前领域的前沿发展。探索交叉学科:有时,一个领域的创新可能源自另一个完全不同的学科。例如,强化学习最初主要用于游戏和机器人控制,但后来被应用于优化系统设计、自动驾驶等多个领域。
通过合作学习新领域——与来自不同领域的专家合作,能帮助你快速掌握新领域的核心问题,并找到AI或计算机技术可以提供价值的地方。跨学科合作:例如,在AI医疗领域,研究人员需要与临床医生合作,了解医疗中的核心挑战,并判断AI在哪些方面能提供真正的帮助。团队互相学习:与5-6名具有不同专业背景的同事一起工作,能够让团队实现个体无法单独完成的突破。在这个过程中,你的专业知识会影响他们,而他们的知识也会对你产生影响,从而提升整个团队的研究深度。
在研究过程中构建更广泛的工具集——每次涉足一个新领域,你都会掌握一套新的方法、工具和思维方式。这些经验会不断积累,让你在未来面对新的挑战时拥有更丰富的“工具箱”。思维方式的迁移:例如,搜索引擎中的索引技术可以被用于大规模AI训练的数据管理,分布式计算的经验可以优化AI模型的训练架构。
工程实践的提升——在不同项目中积累的技能,如优化计算资源、改进算法架构、设计高效系统,都可以在未来的研究中被重新利用。
保持对新挑战的好奇心和热情——持续学习、探索新技术、挑战未知,是推动职业成长的重要动力。享受学习的过程:发现新技术、解决未被探索的问题,是科研工作最令人兴奋的部分。不断尝试新的应用场景:当你掌握了一项技术后,尝试将它应用到不同的领域,看看它是否能够带来新的突破。例如,Google研究者们曾从游戏AI中获得灵感,应用强化学习到健康预测、自动驾驶等领域。
Noam Shazeer:我认为,一个非常重要的品质就是谦逊。真正的谦逊意味着要有这样的意识:“我刚刚做的事情,与我未来能够做到的事情相比,微不足道。此外,还需要具备一种能力——在发现更优方案时,能够毫不犹豫地放弃已有想法。当你听到一个更好的点子,或者意识到别人提出的方案可能比自己的更有效,甚至完全不同但更有前景时,要愿意迅速调整方向。
在很多研究环境中,尤其是自上而下的研究管理模式下,研究者往往倾向于维护自己当前的研究方向,甚至希望获得更多资源来继续推进。然而,这种模式可能导致:研究人员不愿放弃低效项目,即使它并没有明显的突破潜力;资源错配,多个团队可能在类似的方向上重复工作,而不是探索新的可能性。
为了激励研究者真正追求创新,我们需要创造一种文化,让人们能够坦然承认:“这个方向行不通,我应该果断放弃,并尝试全新的思路。”例如:CocoBrain的资源灵活分配案例:在CocoBrain这个研究团队中,他们采取了一种去中心化的资源分配方式。每个研究人员都有一个“计算资源积分”,可以自由支配计算资源。同时,研究者可以将积分联合使用,如果某个方向吸引了足够多的研究人员支持,他们就可以获得更多资源。
Dwarkesh Patel:是一个很好的主意。
Noam Shazeer:目前,研究管理方式主要是自上而下的,这在某些方面确实带来了更好的协作。这种模式有助于减少重复建设,避免多个团队同时开发几乎相同的项目,从而提高整体资源利用率。但与此同时,它也可能带来一些问题,例如:研究者可能更倾向于维护现有方向,即使它的潜力有限,也不愿意承认失败并尝试新路径。创新动力可能受到限制,因为研究方向主要由上级决策,而不是由研究者自由探索。
未来的方向需要结合“自上而下”与“自下而上”。我们需要找到平衡点,让“协作”与“灵活性”并存。既要有宏观指导,也要允许研究者自由探索新想法,以激发更多创新。
Jeff Dean:推动创新的一个方法是鼓励有趣的方向探索。我有一个内部的幻灯片文档,叫做 “Jeff’s Wacky Ideas”。这个文档更偏向于产品创新,其中列出了一些想法,例如:“现在我们拥有这些能力,我们可以尝试哪些全新的应用?”列出17个可能的方向,供团队自由选择。这样的方式既能提供宏观方向的指引,也不会变成硬性命令——它鼓励研究者自主选择感兴趣的方向,并自发形成协作。我们的最终目标就是创造一个既高效协作,又能激发灵活创作的研究环境。
原视频:Jeff Dean & Noam Shazeer – 25 years at Google: from PageRank to AGI
https://www.youtube.com/watch?v=v0gjI__RyCY
编译:Yihan Chen & Mike Li
请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。
Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。
(文:Z Potentials)