Hannah Fry:欢迎回到 Google Deep Mind 播客。今天的嘉宾是不可多得的David Silver,他是 DeepMind 的元老级人物,同时也是 AlphaGo 背后的关键人物之一。这款程序首次征服了世界上最复杂的棋盘游戏,取得了超越人类的表现。
这个周末我读了你的新论文,能不能为我们简单介绍一下,这个概念到底指的是什么?
David Silver:如果你看看过去这几年 AI 的发展,其实主要处于我所谓的“人类数据时代”。这一时期的所有AI方法,核心思路都很相似——就是把人类拥有的全部知识,都提取出来,统统输入给机器。这种方式确实非常强大,但还有另一条路,这也是我们即将步入“经验时代”的关键:让机器真正与世界互动,通过自身的经历获得经验。
它会在现实世界中不断尝试,逐步积累起属于自己的经验。这些经验是推动下一代AI的“燃料”。某种程度上,这其实就是在强调——大模型并不是AI的唯一形式,我们还有其他不同的路径可以选择。过去这些年,AI领域的确已经在大语言模型上取得了巨大进展,特别是利用了海量的人类语言数据, 我们让机器去吸收、整合所有人类曾经写下的一切,从而让AI几乎了解了人类所知的全部内容,实现了“全知”。但总有一天,我们要突破那个界限,超越人类已有的知识。
而要实现这一点,AI需要采用全新的学习方式,自己去探索、去发现那些人类尚不知晓的领域。我认为,这将开启AI全新的篇章,对社会的影响也会是极其深远的。
Hannah Fry:那我们来聊聊别的一些著名AI算法,尤其是AlphaGo和AlphaZero,它们十年前击败了世界顶级围棋棋手。你能说说这些系统所用的方法,以及它们与现在大语言模型的区别吗?
David Silver:尤其是AlphaZero,其实和我们最近常见的“以人为数据”的方法完全不同,“Zero”就代表着它完全没用任何人类数据。没有任何人类知识被预设进这个系统。
那么,如果不依赖于人的经验、不知道下围棋的正确方式,它是怎么获得棋艺的?
方法其实是“试错学习”——AlphaZero会自己和自己对弈几百万盘,通过不断地比赛,渐渐得出:“原来在这个情境下,如果下某种棋步,我赢的几率就会高一些。”这个经验就被纳入系统,不断让它变强。
每当它尝试新的走法,意识到“哦,这个棋形又能提高我的胜率”,它就会进一步地优化自己的策略。这样通过自我生成的经验,AlphaZero就可以从一开始的完全随机,最终成长为世界上最强的围棋和国际象棋AI程序。
Hannah Fry:其实一开始设计AlphaGo时,你们也是把人类棋谱喂进数据库的,对吧?
David Silver:没错,最早击败李世石那版AlphaGo,确实用了一些人类棋谱作为开端。我们给AI输入了专业棋手的对局数据,让它先学习模仿人类。随后,AI会基于这些初步能力,继续靠自我对弈积累经验。但后来我们发现,人类的数据其实不是必需的,甚至可以完全舍弃。
我们通过实验发现,不仅可以不用人类棋谱,AI照样能达到很高的水平,而且比原先用人类棋谱启动还学得更快、表现更强。也就是说,人类的数据不仅不是必须的,反而可能限制了AI的上限。这实际上是AI领域里著名的“苦涩启示”(bitter lesson):人类很愿意相信自己辛苦积累的知识很重要,也自然希望把这些都嵌入系统里。但这样反而可能让算法更局限、更难突破。当你放弃这些人类数据,转而着力让系统自学、生长,AI反而能无限进步。
这个“苦涩启示”其实就是要我们承认,AI的表现完全可能超越人类,而且只有舍弃人类知识的“天花板”,AI才能实现飞跃。
Hannah Fry:是的,人类的数据固然能让AI入门,但终究会有个极限——人类所达到的最高高度。要突破这个界限,就得另辟蹊径。AlphaZero就是通过自我对弈,不断自学自进步,一步步冲破了人类极限。
我想,“经验时代”就是要把这样的办法推广到所有领域,让AI的能力全面超越人类天花板,用新的方法突破那些传统认知上的边界。我们想办法让AI超级化、全方位超越人类的“天生优势”。
你说“放弃所有人类的棋谱,从零开始学会围棋”,听起来有点像是魔术——你能具体讲讲技术细节吗?机器到底是如何做到把成千上万个想法串联起来,最终下出不可思议的棋来的?
David Silver:核心思路叫做“强化学习”。基本方法是,每一局棋我们给最后的结果打一个分,比如赢了就+1,输了就-1。强化学习系统会在每次决策后得到奖励信号,逐步调整自己的行为策略。
以AlphaGo里的神经网络为例,每步棋就是让网络的参数往“能带来更大奖励”的方向微调。这是强化学习最本质的要义。
Hannah Fry:但围棋一盘很长,怎么让AI知道哪些落子在开局中是最终获胜的关键?怎么分配这一分,让AI明白哪些步骤最重要?
David Silver:这个问题其实在AI里有专门的名字——“归因分配问题(credit assignment problem)”。你的确可能要经历上百步,最后只获得一个输赢的结果。如何追溯哪些决策帮助了胜利?有很多数学办法。最简单的假设就是,把“功劳”均匀分配,比如每一步都略作调整,长期来看效果会体现在整体表现上。
AlphaGo的成名局里,第37手就是个让大家津津乐道的标志性时刻。在和李世石的第二盘对局,AlphaGo下出了著名的“第37手”,挑战了所有人类对围棋的认知。
传统认知里,大家只会在三路、四路布局——三路讲领地,四路求势力,再高或再低都是“反常”的。AlphaGo却果断落在五路,而且盘面逻辑无懈可击,把全局串联了起来。这种完全超出人类想象的下法,后来统计过,人类高手可能万分之一才会做这样的选择。 这一步震惊了所有人,却直接成为胜负手。
这就是机器带来的“创新”:它创造了人类所未曾想到的思路,并突破了我们的知识边界。如果我们真的希望AI继续前进,就一定希望出现更多这种“外星人”的创新想法。
Hannah Fry:那么,大语言模型里有没有出现过类似“第37手”的创新时刻?
David Silver:某种意义上,“第37手”之所以特别,是因为它是那种史无前例的大突破。而大语言模型现在的时代,由于我们太注重模仿人类,只重现了人的能力,很少主动超越。只有等我们真正重视AI自学、主动突破人类资料的局限时,才可能在现实世界里“复制”出类似“第37手”那样的重大创新。只要你握住人类的数据,AI终究只能做出“类人”的回应,难以有颠覆性的突破。
Hannah Fry:其实我觉得有些做法可以尝试在两者之间找到一点平衡。如果你要我说最像“第37手”的突破性时刻,我可能会选MIT科学家们发现新型抗生素的那项研究,那种全新人类此前毫无所知的成果,我觉得真的非常非常了不起。
David Silver:这项发现对人类来说意义巨大。从这个意义上说,它甚至超越了“第37手”。但我喜欢“第37手”的原因是,它不仅仅是个孤立的突破,而是无数创新中的一个节点——一个无限创新序列中的一点。只要采用这种基于经验的学习方式,这类突破就可以无穷出现。所以“第37手”对我而言很重要,它象征着一条无限延伸的创新之路,而不限于那一刻的胜负本身。
Hannah Fry:能不能简单介绍一下AlphaZero的原理?
David Silver:AlphaZero其实非常简单。虽然有些算法很复杂,但它的核心思想很直白:首先你需要一个策略函数,负责选择走法;以及一个价值函数,用来评估每一步棋局和每个决策的好坏。你先从这些出发,运行一次搜索。然后,每当搜索结果告诉你某一步最优,就把策略函数向这样的决策靠拢一点,同时根据棋局实际结果来调整价值函数。就这么循环上百万次,最后就能培养出超越人类的棋类AI。
David Silver:有时候确实让人感觉像魔法。我第一次真正感受到这种“魔法感”,是在AlphaZero下国际象棋的时候。有人提出,我们为什么不试试别的游戏呢?于是我们把AlphaZero用到了日本象棋,也就是将棋,这是一种我们没人会下的棋。我们其实只是把规则教给AI,自己并不会什么战略、战术。要是让我们真人去玩,大概只会犯一堆低级错误。我们什么也不懂,于是直接让AlphaZero跑了起来。
这其实是AlphaZero第一次下将棋。我们完全不知道它的水准,也没法自己评判。就把成果发过去给Demis看——他本身就下得不错。他说“嗯,感觉还挺厉害的”,又交给了世界冠军。冠军的评价是:“我觉得这已经是超人级的水平了。”
所以这种感觉真的就像“魔法”:我们按下启动键,完全不知道它如何决策与成长,但最后真的诞生了一位超强的将棋AI。
Hannah Fry:那AI能不能设置自己的强化学习法?
David Silver:其实我们确实在这方面做过尝试,几年前的项目最近才正式发表。我们设计了一个系统,它通过自身的试错和强化学习,去探索到底哪种强化学习算法效果最好。它就像是在“元层(Meta-level)”用强化学习优化自己的算法,结果它真的学出了比我们这些年所有人类设计的强化学习算法都更优秀的算法。
Hannah Fry:说穿了,这还是一个老故事:人工嵌入越多,系统最终表现越差;剔除人类因素,AI反而做得更好。AlphaGo和AlphaZero是极致强化学习的典范,但其实你现在依然能在大语言模型里看到强化学习,只是用法不同。你能聊聊现在强化学习在这些系统中的作用吗?
David Silver:几乎所有大语言模型都用了强化学习,但主要是跟人类数据结合,不像AlphaZero那样彻底自学。做法是:让系统生成几个候选回答,然后请人去打分,告诉AI哪个答案更好。系统就朝着人类更喜欢的方向优化。这种“基于人类反馈的强化学习”,极大推动了大语言模型的发展,让它们不再是简单地模仿网络上的文字,而是真的可以给出人们真正想收到的有用答案。这确实是个巨大进步。
不过我认为,这种方法其实“连孩子和洗澡水都一起倒掉了”。RLHF(基于人类反馈的强化学习)固然很强,但它有个致命弱点:它没法突破人类知识的上限。如果人类评价员无法识别新的、更好的解法,AI永远也学不到那条路线,因为评价员本身意识不到那才是真正更高明的做法。
Hannah Fry:不过这种人类反馈,似乎还是给了大模型某种“扎根感”(sense of grounding)。记得我们上次聊“扎根”问题时,这也是你特别关注的话题:你希望算法能对现实世界有真正的理解。如果去掉人类的反馈,模型还能有这种“扎根”现实的能力吗?
David Silver:其实我几乎想说——恰恰相反。我的观点是,如果你用人类反馈去训练系统,反而会让它“脱离现实”。
一般RH(人类反馈)系统的流程是,模型给出答案,人在模型真正采取行动前,先判断答案好不好。等于说,人类是在系统真正产生效果之前就先入为主地评价了它的输出。比如让大模型给你推荐蛋糕食谱,人类评价员只是看一眼菜谱,觉得好或不好,但没人真的按这个菜谱去烤蛋糕、尝一口。
这种“未落地”的反馈,其实是不扎根的。真正有“扎根”的反馈应该是:有人真的做了这个蛋糕,吃过以后判定好吃还是难吃。只有这种基于现实结果的反馈,才能让系统不断尝试新方案,哪怕那些在专家眼里“看起来很糟”的点子,也许实际做出来会非常好吃。
Hannah Fry:这很有意思,因为我其实听过,比如和Demis的对话,他们谈到“扎根”是如何进入这些模型的,如何逐步构建起对概念的理解。听你说下来,好像他们所谓的扎根其实只是一种表层的扎根,对吗?
David Silver:我认为人类的数据是深深扎根于人类经验的。像大模型获得的所有信息,其实都是继承了人类早已通过自身实验发现的东西。比如科学探索中,一个人可能尝试过走在水面上,结果掉进去了,后来又发明了船,发现船能浮起来……所有这些经验最终都被大模型“继承”了。
但如果我们希望系统能够自己做出发现,比如创造出一种全新的水上推进方式,或者提出某个全新的数学思想、全新的医学假说或全新的生物学方法,那样的数据现在还不存在。系统必须依靠自身实验、试错和“落地”的反馈,去发现这些创意到底好不好。
Hannah Fry:我之前和Oral Vignales聊过,他说现在的问题是人类数据快被用光了。他的一个解决方案是用大模型自己来生成更多“类人”的对话数据。这其实和你的话题也是相关的,只不过和用LLM生成对话不太一样,你的方法是从另外一个角度去解决这个问题。
David Silver:没错,合成数据可以有很多种实现方式,但通常情况下,就是用现有的大模型生成一批新数据。我认为,这种方法和人类数据类似,总有一天也会遇到上限——再好的合成数据,最终也会对系统能力的提升变得无效。
而自学习系统的美妙之处在于:它“燃烧”的动力是自己的体验。当系统变得更强时,遇到的新问题就变得更难——但正好和它的能力匹配。这样系统总能自己生成能让它更进一步的新体验,就能不停地进化,永远没有极限。这也是用自我生成体验和其他合成数据方法最本质的差异。
Hannah Fry:再回到你之前举的做蛋糕的例子。如果“吃蛋糕的人”给出反馈,说“这蛋糕好吃”,那么我们最后其实还是借助了人类反馈。这是不是说,我们谈的是系统完全不依赖人类评价,变成有实体、真的能在现实世界里通过自身获得反馈的AI?
David Silver:理想状态下,就像AlphaZero一样,我们希望系统能在很多领域里生成大量自我验证的数据和经验,这在一些领域是完全可行的,但在另外一些则不行。
在那些不可行的领域,我们必须承认人类是环境的一部分,是我们希望智能体能生活其中的一部分世界。所以,让AI把人类当作环境的一部分,观察和学习人类的行为完全是合理的。
我要反对的是什么不扎根呢?其实是这样的流程:智能体学到的回报其实来自人类对一系列动作的好坏的直接判断,而不是让系统根据这些动作在现实世界里的实际后果去自己判定好坏。
我们没必要把“人类数据”当作智能体经验的特权。它不过是世界里众多观察对象中的一个,AI应该学会像处理其他数据一样去学习人类数据。举AlphaGo为例,如果我们在训练过程中每走十步棋就插入人类评价,说“这十步不错”,那就相当于没有让整个过程自己完整演化,就打断了它的成长。
想象一下,如果我们训练AlphaGo时,每走一步棋,都让最强的职业棋手来评价,说“这步厉害”或者“这步错了”,AlphaGo就只会学会像人一样下棋,永远不会走出“第37手”这种前所未有的创新——只会变成和人下得一样,不会开辟新天地。
我想到数学:这是人类智慧的巅峰,凝聚了几千年的人类努力,也代表了人类心智成就的上限。AI能否追赶上这种成就,也成了我们关注的课题之一。
Hannah Fry:对,数学真的是人类极致智慧的结晶,也难怪大家会想让AI去挑战能否达到这样几千年来人类不断努力的巅峰。
David Silver:我们最近开发了一个很激动人心的系统叫AlphaProof。它能通过自身的经验学习如何正确证明数学命题。只要你给它一个定理,不用告诉它任何证明步骤,它就能自己琢磨出完美的证明——而且我们甚至可以完全验证、保证其正确性。 这其实和现在的LLM完全相反。你现在让大模型证明一个数学问题,它通常会输出一段非正式的数学推理,然后说“请相信我,这是对的”。大模型有可能证明对了,但也可能完全编造一通;大家都知道LLM特别爱“胡诌”。
而AlphaProof的最大优势就是,它可以确保输出的内容完全真实可靠。
Hannah Fry:那我们举个例子,方便大家理解。比如说质数,质数只能被1和它本身整除,而且这种数有无穷多个。好了,你来证明一下。
David Silver:AlphaProof工作的方式是:它会在成百上千万个不同的定理问题上进行训练,而不是只关注一个。一开始它几乎什么都不会,大约99.999%的定理都做不出来——这些定理以前其实都已经有了人类证明。我们会给系统输入,比如一百万个人类数学家设计出来的定理,但我们只给它题目,并不提供人类的证明过程,只告诉它问题,不给答案。
Hannah Fry:所以你们给它的都是已知结果的内容,但其实没有告诉它怎么证明。有时候你们甚至不知道这些结论到底是不是对的?
David Silver:实际上我们做的是,把这些人类定理、这些数学问题,全部转换成一种可供机器理解的形式化语言。
Hannah Fry:这种“语言”和大语言模型用的自然语言不一样,而是用一种数学语言对吧?
David Silver:没错。实际上我们会用一个小型的大语言模型来输出程序语言,尤其是用一种名为 Lean 的编程语言,这种语言可以表达所有数学内容。数学家们最妙的想法就是——你可以用形式化的数学语言,把我们平时用英文或者任何自然语言说的那些复杂抽象内容,全部转换成清晰、可验证的数学程序表达出来。
这种语言能表达所有数学思想,也能表达所有数学证明手段。比如你可以说A蕴含B,B蕴含C——用Lean语言你就可以编写一个“程序”,让它自动从A到C,完成整个逻辑推演,这就是一种数学证明。 基本就是写一个“程序”,一步一步把常识推到结果,这样你就得出了一个定理的“证明”。我们会用人类发明的一百万个问题,基于这些再自动生成一亿道形式化的数学问题,其中有些甚至可能提法有误甚至本身错误。但没关系,我们只要让系统去试着证明即可。那些没法证明的题继续尝试,能证明的就算完成了。如果被系统证伪,那也没问题,这些题也就淘汰了。
最后留下来的,就是那些真正有挑战性的、难以证明的问题。AI会从一开始只会做一两道题,逐步慢慢攀升到会做十道、二十道、甚至一百万道。
Hannah Fry:那么,这种“对了/错了”的瞬间,是不是相当于AlphaGo里的赢或者输?
David Silver:完全一样。Lean会判断“你证明得对了”,那这个信息就成了奖励。AI每次做对就加一分,做错就减一分,通过强化学习让AI持续进步,越来越会证明定理。其实我们真的就是用AlphaZero代码框架来训练它的,只不过“棋盘游戏”换成了“数学游戏”。你们怎么能这么简化我的学科呢!
它还没达到“超级人类数学家”水准,虽然我们未来希望能做到。但AlphaProof已经在全球最著名、最难的数学竞赛——国际数学奥林匹克(IMO)上,达到了银牌选手的表现。这可是聚集了全世界顶级天才高中生的赛事,题目极其刁钻。
Hannah Fry:比赛题可真“辣手”——我作为数学教授有时候都觉得够呛。
David Silver:你听Hannah说,这比赛的确很难。AlphaProof居然能达到银牌水平,也就是全球只有大概10%的选手能做到这一水平。 而且在所有参赛者里,有一道题只有不到1%的人能解出来,AlphaProof做出了标准、完美的证明。这个结果非常令人惊喜。 Tim Gowles(菲尔兹奖得主、前IMO多次金牌选手)为我们的结果做了“裁判”,确保所有证明都完全合规且没有作弊。他能理解这些证明,并评价说,这确实比以往任何AI数学系统都有远大的“飞跃”。
所以,这只是AI数学发展的第一步,我们的目标是希望AI有朝一日能全面超越人类数学家。
Hannah Fry:也就是说,现在这系统基本就像拥有了一个极其聪明的17岁天才少年数学家,对吧?
David Silver:没错,而且得说明的是,参加IMO的AI系统,其实用的时间比人类参赛者允许的时间要长得多。这个问题我觉得会随着机器速度提升逐渐改善。
Hannah Fry:IMO是个很理想的测试平台,因为有标准答案,可以评判,也能和人类的表现做直接对比。但如果我们输入的是猜想,比如那些还没人知道真假的,比如……我想到像ABC猜想、黎曼猜想,或者那些数学里的“世纪难题”。如果AlphaProof输出了一个结果,说“我们查过,这个证明是成立的!” 那我们真的能相信它吗?甚至说,如果我们自己看不懂,这证明还有什么意义吗?
David Silver:Lean的好处在于,总有比我更厉害的数学家能把Lean代码的证明翻译成人能理解的形式。其实我们甚至开发了一个AI系统,能做这种“去形式化”——把任何形式化证明转译成非常直观易懂的语言。如果哪天我们真的攻克了黎曼猜想(虽然现在还早),全球会有百万数学家无比激动,去解读这个新知识到底蕴含着什么。而我们已经有AI可以把任何形式化证明“去形式化”,翻译回人类能读懂的语言。如果哪天搞定了黎曼猜想,相信会有无数数学家致力于把它转成易于理解的新数学。
Hannah Fry:那我还有个问题,比如克雷数学研究所2000年为七大数学难题提供了百万奖金。过去25年,只有一题被人类攻克。你觉得下一道难题,有可能被AI解出来吗?
David Silver:说实话,我觉得真的有可能。虽然还需要时间,现在的AI还没达到那个水平,但这是个正确的方向。像AlphaProof这样的系统只会越来越强大。IMO竞赛只是个开始。一旦有个可以持续学习、持续进步的系统,未来2年、5年、甚至20年后会怎样?可能一切都难以想象。我个人觉得,AI数学家将彻底改变数学界,这一天绝对会到来。 数学是极少数领域之一,从理论上讲,可以完全数字化,由机器自我交互、自我进化,因此对“经验驱动型”AI来说,实现数学领域的全面突破并没有本质障碍。
Hannah Fry:我真的很认可你说的AlphaProof,也包括AlphaZero,它们确实是强化学习能达到多高水平的绝佳案例,但这些例子都有极明确的成功标准:比如围棋就是赢或输了,证明就是对或错。这种思想如何转化到那些评价标准很模糊、不清晰的领域?
David Silver:首先我想说,这其实正是为什么强化学习这类经验驱动方法还没渗透到所有AI领域的根本原因。如果要真正迎来“经验时代”,那就必须解答这个问题,我觉得答案其实就在我们眼前。
因为现实世界充满着无数信号,各种各样的反馈。比如你在互联网的行为:点赞、点踩、收益、损失、愉悦、痛苦、材料性能……全都是用各种数字来衡量。这些数据都代表着不同的体验。我们需要打造能适应、能自主判断“此刻该优化什么目标”的AI系统。
换句话说,理想的系统是:人类提出自己想要的方向,AI把它转成一系列能自主持续优化的指标,然后全自动提升。
Hannah Fry:比如说,我今年想变得更健康,这说法又模糊又抽象。你说的意思是,这个需求可以转成各种身体指标,像静息心率、BMI等,然后综合这些当成强化学习的奖励机制,是这样理解吗?
Hannah Fry:那这个奖励指标应该是单一的,还是一组指标综合?
David Silver:通常是一组。比如“我想变健康”,系统就能自主学习、不断尝试哪些指标有助于健康,然后这些指标的组合也会逐渐变化调整。 比如最开始只觉得“静息心率”重要,后来发现“焦虑水平”也有影响,那就把这个也纳入组合,让奖励机制也随反馈不断自适应。基于反馈,系统会不断调整。换句话说,很少量的人类数据就能让系统设定长期自学、自我成长的目标,极大推动经验驱动的AI进步。
Hannah Fry:但这其实也引出了对齐难题。比如你让AI只优化“最低静息心率”,那会发生什么?
Hannah Fry:我的意思是,比如单纯把静息心率降到零,确实能实现“最小化”这个目标,但结果很可能完全不是你想要的。显然,你会极力避免这种情况,所以,你要如何确定自己选的指标不会带来其他额外问题呢?
David Silver:一种可行的方法,其实就是借鉴AI其他领域已经非常有效的思路:如果我们要优化的目标是针对人的,那在这一层面上就该引入一定的人类反馈。比如说,如果人感到不舒服,应该有机制让人及时反馈出来。
当然我不是说我们现在已经有全部答案,这方面还需要大量研究,才能真正把它做好、确保安全。但引入这种反馈,其实对于安全和自适应甚至可能是有帮助的。
有个经典案例是“造纸夹悖论”:如果让AI只追求生产尽可能多的回形针,最后可能会把整个世界都铺满回形针。如果你让系统的总体目标是促进人类福祉——而且它能敏锐捕捉到人类的痛苦和快乐信号,一旦出现人类开始因造太多回形针而感到痛苦——它就会自动调整目标组合,改为优化不会带来负面影响的新指标,从而避免“用回形针铺满世界”这种极端后果。
我们当然还没做到这个地步,但我认为,这种版本的系统可能不仅能解决过去“目标对齐”遇到的问题,甚至还有望变得更自适应、更安全,比我们今天用的系统更好。
Hannah Fry:跳出AI领域,人们完全依赖量化指标来定义成功其实本身也有问题。比如考试分数、GDP等,这种只关注数据、最终被“指标暴政”困住的例子其实比比皆是。
David Silver:我完全同意,如果我们在现实中机械地追求某个单一指标,结果往往会适得其反。但同时,整个人类社会其实就是围绕优化各种目标建立起来的。没有可优化的目标,我们根本不可能取得任何进步。我们正是依靠各种信号和指标去推动进步—— 然后当人们发现“也许这个指标不是最合适的”,就会主动调整它。
Hannah Fry:现在的问题是不是AI系统的交互太短暂了?没有那种长期学习和目标调整机制。 比如一旦你决定GDP是唯一目标,你就会盲目追GDP直到永远,缺乏自我修正的机制。
David Silver:你说得非常对。现在的AI系统其实没有“生命史”,不像人或动物那样有持续多年、不断累积自我经验的过程。我们必须改变这一点——因为只有这样,AI才能持续学习、持续适应、持续理解,最终更好地实现我们真正想要的那些复杂目标。
Hannah Fry:那把算法从人类数据里“彻底解锁”,会不会有巨大的风险?
David Silver:当然会有风险,也会有潜在益处。我认为我们对接下来的转变绝对要极为谨慎,一定要非常郑重地对待“经验时代”带来的新问题。
其实我之所以写那篇论文,就是因为我感觉大家还没意识到这种转变即将到来,它肯定会带来深刻影响,所以更要认真思考。
现在大多数人还只关心“人类数据”这一路子,真正关注这些关键新问题的人还远远不够。
Hannah Fry:上次你来播客时我们讨论过你那篇论文——《奖励就够了》,它的观点基本就是只靠强化学习就能实现AGI。你还这样认为吗?
David Silver:我现在的观点是,人类数据也许能让AI赢在起跑线,有点像我们采集和燃烧的“化石能源”——大模型靠人类数据起步,获得了免费优势。但之后我们需要“可持续能源”,让系统持续运行下去。这种“可持续能源”其实就是强化学习:一种能自我生成、自我消化、自我成长的动态经验。 这才是未来AI进步的真正驱动力。我无意贬低“人类数据”的贡献,今天的AI非常令人惊叹、极具价值,我自己也很喜欢做这方面研究,但一切都只是开始。
Hannah Fry:当然,现在AI领域正在发生巨大变革,但如果认真思考,其实我们对于AI的理念和思路反而变得越来越单一狭窄了。
其实多模态模型取得的成功真的是太快、太深刻了,远远超出了大多数人的预期,以至于让整个更广泛的讨论都几乎被它们带偏了。
现在很明显我们越来越多地听到有人低声议论,说我们已经快要用尽所有可用的人类数据了。当然,让AI摆脱对人类数据的依靠,这条路蕴含着风险,有很多方面确实需要认真思考和留意。但我不得不说,我挺认同David刚表达的观点。如果我们真的想要获得超越人类的智能,也许现在就是时候逐渐摆脱“以人为中心”的局限了。