红杉资本对话DeepMind科学家Pushmeet Kohli,如何用大模型探索算法的“暗知识”

作者大模型机动组
邮箱damoxingjidongzu@pingwest.com

当大语言模型不仅能理解科学问题、提出新算法、还可自我约束与演化时,AI 终于从“工具”跃升为科研流程中的“合作者”。

DeepMind 发布的 AlphaEvolve,标志着 AI 正式步入科学发现的主舞台:

从 FunSearch 到 AlphaEvolve,再到多智能体系统 CoScientist,大模型正以生成器+评估器+进化搜索的协同架构,重塑科研方法论与算法边界。

在新一期的红杉资本访谈中,由合伙人 Sonya Huang 和 Pat Grady  主持,邀请 DeepMind 科学家 Pushmeet Kohli 深度解读 AlphaEvolve 背后的设计逻辑、实际应用与未来潜能。

访谈内容原汁原味呈现于下:

Sonya Huang:Pushmeet,非常感谢你今天参加我们的节目,我们都一直在热切期待AI能够做出新颖科学发现的那一刻,你认为 AlphaEvolve 是那个划时代的转折点吗?

Pushmeet Kohli:是的,这无疑是一个关键的里程碑。我们的研究证明,当大语言模型一旦与约束机制结合时,便能够发现新的算法。不仅如此,它基本上还能得出已经研究多年的新数学成果。

Pat Grady:你提到了“与约束机制结合”这个说法,能详细讲讲那个“约束机制”吗?

Pushmeet Kohli:如果你回顾AI用于科学研究的历史,那是非常漫长的,我们有许多不同的模型都曾尝试进行科学发现。这类模型中的一个关键例子就是 AlphaFold,它是AI在科学领域所能取得成就的典型范例,我们在 2021 年底发布了 AlphaFold 2,它去年还获得了诺贝尔奖,所以AI在科学领域的影响是众所周知的。

现在的问题是,大语言模型和基础模型,它们将如何影响科学。大约两年前,我们开发了一个名为 FunSearch 的智能体,在这个智能体中,我们采用了一个大语言模型与一个评估器相结合。评估器能让大语言模型自行判断,当它提出新的猜想或想出解决问题的新点子时,这些是幻觉还是还是真知灼见。

所以在这个特定案例中,“幻觉”其实很棒,因为其中一些“幻觉”实际上是没人想到过的新见解。这就是约束机制发挥作用的地方,当存在这个评估机制时,一种与大语言模型相关联的搜索协议协同工作,能够带来真正有影响力的全新发现。

Sonya Huang:你提到了 FunSearch,能否简单说明下你们FunSearch 取得的成果和 AlphaEvolve 的成果有何不同?

Pushmeet Kohli:FunSearch 是我们首次尝试大语言模型,看看它能否发现新算法。当时的模型性能较弱,而且我们当时尝试进行的搜索类型,还没有进一步深入探索。所以我们让大语言模型做的基本上是尝试完成一个小功能,看看它能否做得更好。

令人惊讶的是,它竟然能够发现数学界长期以来一直在研究的全新算法,但局限性在于数学家或研究人员必须给出一个模板,并且要在这个模板中找到算法。而有了 AlphaEvolve,我们去掉了这个限制。

AlphaEvolve 不只是搜索几行代码,它本质上是在审视整个算法本身,非常大段的代码,并在很长一段时间内对其进行优化。其次,我们最初的 FunSearch 模型在进行新发现时消耗了大量的函数评估资源。而 AlphaEvolve 可以用少得多的函数调用,并且基本上通过查看更少的提案就能更快地发现新算法。

Sonya Huang:能否请您介绍一下不断进化的 Gemini 模型在 AlphaEvolve 的能力方面起到了什么作用吗?我在你们的博客文章中看到,你们同时采用了Gemini Flash 和 Pro 版本,它们各自负责什么?

Pushmeet Kohli:我觉得可以看到,随着 Gemini 经历不同的版本迭代不断改进,它的理解能力变得越来越好,在代码理解方面表现更出色,现在如果有一个提案生成器能够更有效地理解代码,那么它生成的提案不仅在语法上是正确的,在语义上也在尝试解决任务,接着你就能采样出各种可能的解法,在该任务得以解决的过程中。

所以随着基础模型的完善, Gemini 执行编程的能力得到提升,我们搜索正确解决方案的抽样效率,在这些高难度数学与计算问题上得到显著提升。因此,若想在一个大范围空间中进行搜索,有两个要素。一个是生成这些提案的速度,另一个是评估这些提案的速度。而事实上,你拥有了像Gemini Flash这样的变体版本,能够高效快速地完成这项工作,这一点至关重要。

Pat Grady:我知道Alpha Evolve比它的一些前身更像是一个广泛领域的模型。它的覆盖范围有多广,哪些在范围内,哪些在范围外?

Pushmeet Kohli:Alpha Evolve本质上能让你搜索的内容不仅限于你能处理的规模大小,你现在可以发现全新的算法了,而且它在以各种不同语言思考算法的能力方面也极其通用。所以它不仅能在C++中进行搜索,也能在Python中进行搜索。还能在Verilog中进行搜索,Verilog是用于描述芯片的语言。

所以Alpha Evolve的通用性体现在它能够在这些大型算法空间里搜索,同时也适用于不同的句法和语义表示形式,它并不局限于像Python这样的特定语言,而是可以在许多不同类型的语言和许多不同类型的任务中进行搜索。它唯一的要求是你有一个函数评估器,能够快速评估任何提出的方案并判断其优劣程度。

Sonya Huang:它的大致认知架构似乎是生成一批算法候选方案,对它们进行评估,那么我认为是通过进化的方式决定保留哪些方案,再从那里继续推进,而这似乎大致上反映了科学方法,这是有意为之的吗?

Pushmeet Kohli:是的,如果你仔细想想,我们今年早些时候发布了另一个名为CoScientist的智能体。在CoScientist中,本质上是Gemini扮演了整个科学学术过程的角色,所以Gemini扮演了假设生成者的角色,Gemini扮演了评论者的角色,还扮演了对不同想法进行审查、排序,然后编辑这些想法的角色。

所以在多智能体设置中,Gemini扮演了所有这些角色。这些都是以不同方式进行提示的Gemini模型,以扮演不同的角色。非常有趣的是,多智能体系统提出了远远超越单个模型的行为表现,Gemini这类模型的回答。所以与单一模型相比,它能够提出更好的方案和新想法。

Pat Grady:这种机制有效的内在原理是什么?

Pushmeet Kohli:是的,我认为这仍是一个正在研究的问题,但这是一件非常有趣的事情。我实际注意到的一点是,特别是你在某个特定问题上运行CoScientist时,最初你想得到的结果可能与基线Gemini模型的结果差别不大。

但随着协同研究深入、计算量的增加,这里说的不是几分钟或几小时,而是几天,当整个多智能体系统审视解决方案,对它们进行完善,试图对它们进行排序,结果会变得越来越好。

那么为什么会这样?可能是因为有些方案要么是深层的洞见,要么是某种直觉,这些洞见深藏在分布曲线的尾部。而且Gemini评估哪个方案优劣的能力,比它提出新想法的能力要强得多。这在计算机科学中也是一样的道理,有时候我们能判断某个特定的解决方案是否正确,但很难提出一个解决方案。

同样的情况在这个多智能体设置中再次出现,在这个多智能体架构中,这些智能体以某种方式协同工作,,能够提取出更具影响力的结果。

Sonya Huang:似乎生成器和验证器这种架构,这种范式似乎正在整个广义的AI领域得到呼应,不管是非常通用的模型,还是非常特定的、用于特定应用的AI系统,将这种架构视为当前的共识是否恰当?你认为人们会继续推动并扩展这种架构吗?

Pushmeet Kohli:是的,我认为在智能体领域会有更多的研究工作,我们现在看到的基本上只是智能体研究的开端。无论是在Alpha Evolve中,你都有一个生成器和一个评估器相配合。生成器是一个神经网络、基础模型和大语言模型,而评估器甚至是手工编码的。

但结合进化式的搜索方案后,你就能得到更有效的结果。在CoScientist系统中,你不止有一个智能体,而是多个智能体在共享内存中协同工作。那么什么是最优的智能体配置?这仍然是一个有待研究的开放性问题。

Sonya Huang:你们得到的结果非常有趣,它们和人类得出结果的方式有不同吗?我在思考Alpha Go第37这类东西,比如这些方法不同吗,这些结果和人类思考得出的结果相比如何?

Pushmeet Kohli:那我们回到最初的动机,关于我们第一次使用大语言模型进行算法发现的迭代原因,利用大语言模型进行算法发现的项目就是FunSearch。

几年前,DeepMind在利用AI系统在大空间中进行搜索方面做了很多工作,我们在构建通过强化学习训练的智能体方面也做了很多工作,这些智能体可以应对从围棋到玩《星际争霸》等各种复杂挑战,这些都是很复杂的挑战。

我们给自己设定了一个挑战,我们能否采用同样类型的模型,比如Alpha 0系列模型,它们是我们在围棋方面所做工作以及Alpha Go开发工作的某种扩展。我们能否使用同样类型的模型来发现新算法?

然后我们提出了一种新的智能体,叫做Alpha Tensor,它特别专注于寻找矩阵乘法问题的解决方案。我们发现这个智能体能够改进过去已知的、已经保持了50年的结果,但关键问题是,你能做得更好吗?

其次,你能否提出一个更具可解释性的解决方案?同时,当我们在谷歌研究实际问题时,比如如何在数据中心安排任务调度。现在,在提出新算法方面已经做了很多工作,这些启发式算法是由谷歌一些最优秀的研究人员和工程师设计的。而且因为它们在计算利用率方面有很大影响。

如果你在这类问题上使用典型的强化学习智能体,你可能会得到更好的结果,但这可能会以可解释性为代价,因为现在是一个神经网络在决定哪些工作负载分配到哪些计算机上,如果出了问题,你都不知道如何调试这个东西。所以工程师真正想要的不是给他们一个神经网络,而是给他们一段他们可以理解并运行的代码,这本质上就是我们的动机。

我们现在能否使用大语言模型,而不是像我们在Alpha Tensor中那样在特定算法空间中搜索,也不是提出一个神经网络策略来直接解决问题。我们能否提出一个智能体,它可以在程序空间中搜索,并提出一个解决这个难题的程序。

当然,好处就是可解释性,你可以看到代码,可以看到它的属性等等,事情就是这样发展的。我们找到了不仅有效的程序,而且当专家们看到这些程序时,他们还能从中获得新的见解。

例如,我们在趣味搜索中研究的一个数学问题叫做帽集问题。这是著名数学家泰德和斯托非常感兴趣的一个问题。我们和纽约大学的数学家乔丹·埃伦伯格合作。当我们查看趣味搜索生成的程序时,他发现问题中存在某些对称性。这些对称性以前从未被发现过,但搜索智能体发现了这些对称性,并利用它们得到了更好的解决方案。

Sonya Huang:你能聊聊之前提到和陶哲轩以及其他著名数学家合作的事吗,数学是否被视为检验和衡量这些模型是否能产生新颖科学成果的黄金标准?

Pushmeet Kohli:是的,数学确实有一些非常有趣的特性,它非常精确。就好比你是否知道自己所寻找的特性是否已经找到。

比如对于矩阵乘法,你需要进行多少次乘法运算?以一个4×4的矩阵为例,之前已知的是可以通过大约49次乘法运算来完成,但那是斯特拉森算法的结果。而我们证明了可以用48次完成,所以这是非常精确的结果。

所以它为你提供了一种非常清晰的方式来评估你做得有多好。而且不需要像基于人类反馈的强化学习那样,来判断这是否是一个好结果,是否是我的输出,也不需要依赖类似LMSIS的分析过程,你只知道自己做得更好了。

Sonya Huang:那么当你从数学这种优美纯净的环境转向现实世界时,你们似乎已经在现实世界以及Verilog领域的数据中心找到了很多应用。你能谈谈你们预计Alpha Evolve在哪些应用中最具影响力吗?

Pushmeet Kohli:只要你能找到一个好的函数评估器,只要你能找到一个评估器,让你可以说,我完全信任这个评估方案。如果你给我一个程序,我能非常明确地告诉你它有多好。如果你的问题符合这种设定,那么就可以使用Alpha Evolve,因为与人类程序员不同,人类程序员可能会尝试10种或1000种方法。

而Alpha Evolve不会受限,它可以不断尝试,它能想出非常反常规的策略来解决那个问题。有些策略可能是你从未想象过的。

Sonya Huang:人类可以作为函数评估器吗?这样可行吗?

Pushmeet Kohli:人类可以作为函数评估器。这本质上是个关于规模的问题。比如你能评估多少,以及你能否有效地评估程序的特性,所以要考虑规模和合适的准确性。

Pat Grady:需要怎么做呢?是将其构建到应用程序本身中,让人类在运行过程中进行评估吗?还是在应用程序开发之前单独进行离线评估呢?我想知道你是怎么做的,或者你认为人们会怎么做?

Pushmeet Kohli:我们在Alpha Evolve中没有引入人类参与评估,我们的大多数评估器都是程序化的评估器。但想象一个假设的场景,假设Alpha Evolve接到任务,要解决一个数学问题并想出一种新的算法来解决它。假设它想出了很多不同类型的在性能上等效的解决方案。

但哪一个是最好的呢?最好的那个不仅要在解决问题上非常有效,而且要在数学家看来是最优雅的,或者是最容易理解的,而这是非常主观的人类判断,比如简洁性或可解释性。我们并没有一个清晰的定义,这取决于人类观察者。

Sonya Huang:在什么情况下,你需要将数字世界中发生的事情与现实世界的事物联系起来?我记得在你们的博客文章中提到,你们认为Evolve在材料科学等领域可能会很有用,那么你是否需要连接到现实世界的实验室来获取相关反馈?还是你认为所有这些都可以在算法领域内完成?

Pushmeet Kohli:这是个非常好的问题。我认为这又回到了你对评估器的信任程度上。如果你的评估是基于某种计算方法,并且这种计算方法是完美的,你完全信任它,那么你就不需要,你会想,既然计算模型表明Alpha Evolve提出的解决方案满足这些特性,那就完成任务了,但如果你不相信计算模型能完美地刻画现实,那么你就需要确保在现实世界中验证那个结果,看看评估器的评估是否真的正确。

Sonya Huang:随着Alpha Evolve越来越成功,和Gemini越来越强大,你认为这些领域会发生什么变化?在这些领域工作的人类科学家和工程师将如何适应?例如,以芯片设计为例,你提到这些模型在生成新的芯片设计方面表现得非常出色,这是否意味着芯片设计师的角色会消失?还是会发生变化,你认为这将如何改变世界?

Pushmeet Kohli:这又是一个非常有趣的问题。我举个AlphaFold的例子,我们开始研究蛋白质结构预测问题,对于不了解的人来说,蛋白质是构成,它们是生命的积木,而且几十年来,科学家们一直在试图弄清楚蛋白质的形状。

因为如果我们了解蛋白质的形状,我们就能了解它们的功能,然后我们可以利用这些知识开发新药物来治疗地球上最具挑战性的疾病,我们还能开发出更好的酶等物质。正如我之前提到的,在2021年,我们发布了AlphaFold 2,在此之前,确定单个蛋白质的结构往往需要一到五年,而且可能要花费一百万美元。

有些蛋白质出了名地难以研究,人们花了一二十年试图研究它们,却仍未找到答案。这就是为什么大约只有37%的人类蛋白质的结构是已知的。所以在我们发布AlphaFold 2之后,我去参加了一个生物学会议。因为有了AlphaFold 2,我们可以确定所有蛋白质的结构,不只是人类蛋白质,而是地球上所有的蛋白质。

而且我们把这些结构信息分享给了全球所有人,所以我去参加了一个生物学会议,在我做完报告后,一位生物学家找到我,他说“我过去10年一直在研究蛋白质,我收集了大量的实验室数据来描绘这个蛋白质的特征,试图找出它的结构,但不知为何,所有研究手段都未能破解其结构,但我们积累了所有这些数据,如果我们知道了结构,就能很快验证这些数据。我运行了AlphaFold 2,它给出了结构,与答案完全吻合。我已经研究这个10年了。接下来我该做什么?”

所以,在AlphaFold 2发布之后发生了什么?事实上,它突然实现了三大突破。首先,推动了结构生物学的发展,以前不可能做到的事,过去需要用同步加速器,花六个月时间和100万美元才能完成的事,现在一秒钟就能搞定,所以它确实推动了可能性的边界。

其次,它还加速了这一进程。第三,它让这项技术普及化了。比如在拉丁美洲、南亚或非洲研究某些被忽视的热带疾病的科学家,以前根本无法弄清楚他们所研究蛋白质的结构。他们既没有资金,也没有能够帮助他们确定蛋白质结构的仪器。现在,他们可以对任何正在研究的寄生虫进行相关研究。

他们采用了一种新的研究模式,在这种模式下,获取蛋白质结构不再困难,相关信息随处可得。所以他们开始研究下一步的问题,比如如何运用这些知识治疗疾病并研发更好的药物。

我认为同样的情况也会发生在AlphaFold进化系统上,当有了这些超越人类能力的工具来解决问题时,问题就变成了我们要解决哪些问题?我们要改进芯片的哪些重要特性?

比如说,我们想让芯片效率更高,让它需要更少的冷却措施,采用更廉价的制造方法,提高容错性等等。由于现在有了更先进的系统来进行优化,所以可以让问题变得越来越复杂。

Sonya Huang:我一直有个疑问,AlphaFold的成果非常惊人,你跟我们分享的故事也很有影响力。你认为它是否会成为新药研发的一个转折点?还是说仍然存在其他瓶颈,虽然我们在某一个环节加快了速度,但不幸的是,其他环节仍然困难重重,所以整体进展还是很慢?

Pushmeet Kohli:它确实加快了进程,但我们必须明白,药物研发是一个漫长的过程。那么药物研发的基础模块有哪些?首先,你得明确目标,要弄清楚在人体内有一个蛋白质是我需要去结合的,因为这个蛋白质与疾病有某种关联。所以如果我能找到某种物质与这个蛋白质结合并改变其功能,就有可能治疗这种疾病。

首先你得有这样的设想,现在我有了目标蛋白质,我该如何研发药物,研发一种能与它结合的小分子或另一种蛋白质?为此,你需要了解该蛋白质的结构、与它相互作用的其他蛋白质,以及它与该分子是如何相互作用的,这个过程需要耗费大量的时间,有时候长达两年,现在这个过程大大加速了,可以在几周、一个月或几个月内完成。

但这还不是终点,之后你还需要进行临床验证。所以你要进行一期临床试验、二期临床试验、三期临床试验,并考虑毒性等诸多问题。所以AlphaFold 2所做的就是消除了一个障碍,让整个研发周期加快了,新一代的AlphaFold或生物AI模型有望进一步加速并大幅缩短时间。我们已经迈出了一大步,但我们还需要继续迈进。

Sonya Huang:你认为这个模型家族最有利可图的领域是什么?

Pushmeet Kohli:AI将会加速一切,它会加速医疗保健的发展,提升我们开发更智能的系统,从医疗保健到材料科学。想想我们人类文明的历史,甚至用不同时代来描述我们的文明,一开始我们是穴居人,然后进入了石器时代,接着是铁器时代,再然后是青铜时代。现在,不同的人有不同的说法,你要么处于硅时代,要么处于塑料时代。无论你是持乐观态度还是有些伤感。

但若退一步看,你思考人类取得了什么成就?与其他任何物种相比,我们所取得的成就是具备转化能量、利用能量的能力,并借助这种力量成就伟业。现在,假如你能研发出一种新的室温超导体,这将彻底改变你掌控能源的能力。

这会给社会带来哪些变革?这些影响很难预测。如果你能以那种方式处理能源问题,能实现可控核聚变,能源变得极其廉价,想想地缘政治,想想经济,很多都与能源有关,突然之间能源成本几乎降为零,那会有什么影响,对整个经济会有什么影响?

同样地,想想编程,如果有能编程的地区,要是人人都会编程意味着什么?就好像智能变得无处不在,每个人都能接触到各种各样的事物,所以将会发生巨大的变化,一切都会受到影响。

Sonya Huang:你认为科学发现会有一个快速爆发的时刻吗?你觉得我们正处于这样的爆发前期吗?还是说我们已经处于这个阶段了?Pushmeet Kohli:我觉得我们正身处其中,我们正在经历这个时期。就像当你置身事件之中时,往往难以察觉,但我认为我们已经进入了科学发现加速的时代。

Sonya Huang:你觉得未来最大的泡沫是什么?

Pushmeet Kohli:我觉得有两个因素。一是验证环节,弥合数字世界与现实世界之间的差距。如何验证其中的部分内容,这是一个关键因素,并且要持续捕捉问题的关键所在。

第二个瓶颈是如何让这项技术变得易于获取,你可以打造最先进的技术,但如果人们不知道如何使用它,那你就无法达到预期的效果。

以AlphaFold为例,它之所以具有影响力和变革性,不仅仅是因为它准确率很高,即便它的准确率相当高,但并非完美无缺,假设它的预测准确率达到99%,实际上肯定达不到,可能在90%或95%左右。即便它的准确率达到99%,那个得到错误预测结果的人,然后花一两年时间去追寻错误预测的人,就会说自己不该轻率的用它。

那为什么大家都在用AlphaFold呢?不仅因为AlphaFold擅长做出准确的预测,还因为它能很好地了解自身预测的局限性。当它出错时,它会坦诚地说“犯了个错误”,如今的一些技术缺乏这种特质,它们没有经过校准的不确定性评估。

Sonya Huang:最后是快速问答环节。今年必读的论文是哪篇?

Pushmeet Kohli:我可能会选《AlphaEvolve》或者《CoScientist》,我最喜欢的算法。

Sonya Huang:无人问津却深得我心的算法是?

Pushmeet Kohli:是“唤醒睡眠”算法,知道的人很少。有一篇麻省理工学院的论文,作者是凯文·埃利斯和乔希·特南鲍姆。里面提到这是一种训练方法,先进行探索,然后就能以某种方式构建出它的核心要素。

可以把它想象成一种库的构建过程,你不只是想编写程序,还想创建那些库,包含通用模块的,这样会让你以后编写所有程序都容易得多。

Sonya Huang:是否同意这个观点,推理时的计算量将是计算规模增长的下一个主要瓶颈。

Pushmeet Kohli:部分同意。我觉得推理时计算将会非常重要,我觉得测试时和训练时的计算量也同样重要,看看蒸馏技术有多强大就知道了。如果这些模型能够理解和概念化其他模型的能力,并提出更好的内在表征,那么它们在进行预测时就会更有效,也许不确定性也会有所改善,效率更高。

Sonya Huang:对于机器人技术,看好还是看衰?

Pushmeet Kohli:我对一切都看好。我觉得一切都会产生影响,问题在于近期还是远期。短期内,让机器人正常工作有挑战,但从中长期来看,我认为前景乐观。

Sonya Huang:看好还是看衰人形机器人?

Pushmeet Kohli:我们构建的世界是为人类设计的,我们喜欢人类的形态。比如从建筑角度来看,人形机器人和人类形态相同,所以它们能适应我们建造的各种建筑。至于它们是否是最优选择,还不清楚,但它们肯定有优势,因为我们的一切都是按照人类形态设计的。

Pat Grady:未来科学领域的诺贝尔奖,会都由与AI合作的团队获得吗?

Pushmeet Kohli:不,我认为我们正在朝这个方向迈进,但我认为人类仍会获得科学领域的诺贝尔奖,我觉得会有那么一个时刻AI将不可或缺,共同协作实现这些非凡突破。

Sonya Huang:感谢Pushmeet,你们在Deep Mind推动的这些成果非常基础、非常具有通用性,我们很感激你来分享到目前为止是如何做到这些的以及未来的计划,再次谢谢。

(文:硅星GenAI)

发表评论