3月5日,现代计算强化学习的奠基人之一,加拿大计算机科学家Richard S. Sutton荣获2025年度图灵奖。Richard S. Sutton在最新的对话中谈论了强化学习的本质和重要性,其在AI研究领域的长期坚持以及AI发展的速度和未来走向。
Richard S. Sutton强调,强化学习是关于从经验中学习,强化学习关键是从评估性反馈中学习。从经验中学习是AI研究的正确的方向。AI是一场马拉松,而非短跑,Sutton不认同“现在一切发展得太快了”的观点,他表示,AI最具影响力的那些方面尚未到来。
以下是对话实录,经翻译编辑:
主持人:非常感谢你能来,Rich。热烈祝贺。能跟我们分享一下你是如何得知获奖的吗?
Richard S. Sutton:是ManuelVeloso打来的电话。只是一个奇怪的会议邀请,我完全不知道是关于什么的。总之,我当时毫无头绪。我本应该有所预感的,但我没有。实际上,我错过了那次视频通话,因为我把这事给忘了,他们不得不再打电话给我。当我最终加入会议时,看到了一群我不认识的人。但后来我开始觉得,这些名字有点眼熟。我后来才意识到,他们都是之前的图灵奖得主。
Richard S. Sutton:是的。他们告诉我们,我们获奖了,在接下来的通话中我们都震惊不已。大家都对你寄予厚望,你必须不辜负这份荣誉。我希望能不辜负大家的期望。
主持人:你打算如何实现这一目标呢?
Richard S. Sutton:我真的想更深入地理解大脑是如何工作的。我已经67岁了。但是,我仍然想尝试做出一些惊人的成就。
主持人:考虑到你所了解的一切,强化学习(RL)最近因为DeepSeek而更多地出现在新闻中,DeepSeek被称为美国人工智能的“斯普特尼克时刻”,而八年前,AlphaGo则被称为中国人工智能的“斯普特尼克时刻”。创造了两个“斯普特尼克时刻”时刻,这非常令人兴奋。但是你认为,在深度学习领域的前辈们获得图灵奖之后,业界显然会更加关注深度学习。你对强化学习受到更多关注感到兴奋吗?或者说,你觉得这种关注意味着什么?
Richard S. Sutton:我们将尝试利用这一点。我们有一个图灵讲座,还有一篇图灵论文。从与Andy和其他人的交流来看,我认为其中会有很多历史性的内容。但我们也会尝试解释,什么是强化学习?它到底是什么?
Richard S. Sutton:一种解释是,它是关于从经验中学习。很多事情都不是从经验中学习。我是说从人类那里学习,显然大语言模型、是从人类那里学习的,因为它们模仿人类。甚至人类反馈的强化学习(RHLF)也高度依赖人类的指导。而强化学习是关于从经验中学习,经验是显而易见的学习方式。所以我真的认为这是显而易见的事情。强化学习是理所应当的。
AlanTuring谈到了从经验中学习。他是第一个将这个概念用于能从经验中学习的机器的人。当然,动物一直都在从经验中学习。但他在1947年给伦敦数学学会的演讲中提到,“我们想要的是一台能从经验中学习的机器。”这可以说是关于AI的第一次公开演讲。
主持人:这太不可思议了。
Richard S. Sutton:他谈到了经验,谈到了奖励和惩罚,谈到了所有这些。并且他在随后的几年里做了一些相关的工作。所以,这与图灵奖息息相关,因为它与Turing本人有关。
Richard S. Sutton:强化学习的第一个关键点是我们从奖励和惩罚中学习,从评估性反馈中学习。为什么我们要从评估性反馈中学习?因为指导性反馈在正常生活中不会自然产生。仅仅与世界互动并不能给你指导性的反馈。你必须处理评估性反馈。你可以处理评估性反馈,因为赢得比赛、获得食物或者将死对方就是一种评估。然后第二步是所有那些并非直接奖励的经验,就像日常发生的事情一样,告诉你世界运作的方式,换句话说,就是基于模型的强化学习。
Richard S. Sutton:所以从经验中学习,这是我们必须实现的关键思想。
主持人:从AlanTuring最初的演讲到现在,这是一条非常酷的传承之路。这个领域经历了很多不同的流行方向。你是如何始终专注于你认为最重要和最正确的事情的?你是怎么一直坚持下来的?
Richard S. Sutton:Andy和我就像是在所有变革中的一个坚固支点。从一开始,我们就坚信:”从经验中学习是正确的方向。奖励与惩罚这一机制非常合理。让我们深入研究这个领域。”随后,我们投入大量研究,试图寻找其他领域是否有人进行过类似探索,结果发现相关工作寥寥无几。于是我们决定:”虽然几乎无人涉足,但这个方向值得被开拓。这应该成为一个独立的研究领域,我们愿意先行一步。让我们编写一本这方面的教科书,使它成为一个真正的学术领域。让我们努力提高人们对此的关注度。”这既不是专家系统,也不是监督学习,但我们一直认为它具有重要价值,并始终以一种不夸大其词、直截了当的方式表达这一观点。如今,人们开始关注这一领域,并逐渐意识到AI时代即将到来,大家也因此倍感振奋。
Richard S. Sutton:我们只是坐在那里,我们早就预料到这会发生,它终于发生了。
主持人:如今AI领域的另一个令人振奋之处是它获得了前所未有的关注。当然,关于具体关注方向可能存在一些争议,但整个领域受到的瞩目度确实空前绝后。你一直对理解智能有着自己独特的愿景,而现在,考虑到你在这个领域投入的时间和精力,你一定感觉比以往任何时候都更接近这个目标。看到这样的进展想必令人兴奋,仿佛每一天都在向目标迈进一步。
Richard S. Sutton:但现在还不能说进展神速。我不赞同那种“现在一切发展得太快了“的观点。诚然,AI已经取得了巨大的进步,但我不认同这种说法。我认为这是一场马拉松。
主持人:是的。
Richard S. Sutton:而非短跑。我们还有很长的路要走。AI最具影响力的那些方面尚未到来。
主持人:你对研究人员,无论是年轻的还是资深的,有什么建议吗?跑马拉松可能很艰难,保持动力也不容易,尤其是当你看到身边有人在冲刺,似乎遥遥领先时。关于如何保持动力,如何看待这个问题,你有什么建议?因为我认为这是你职业生涯中一个非常了不起的特质。
Richard S. Sutton:我的建议是要有雄心,但不要傲慢。你已经听我多次说过这个建议了。要有雄心,但不能傲慢。也许我们在加拿大常犯的错误是过于谦虚,没有充分展示我们的实力,认识到我们的优势。也许,这确实如此。总之,你必须怀抱雄心。有雄心壮志至关重要。我们常犯的一个错误是,一旦决定要有雄心,就可能变得傲慢。你必须避免这种情况。
主持人:我一直很欣赏的一点是这里的团队文化。回顾你、Randy、Jonathan、Ross等早期研究者,你们真正奠定了团队的文化基础。这种文化的核心在于,尽管并非每个人都以完全相同的方式研究AI,但你们都在研究中抱有雄心,同时又足够谦逊,能够相互支持,即使对AI的发展方向持有不同见解。我一直非常敬佩这种对权威的不盲从。没有人可以简单地宣称:”这就是AI的发展方向,就应该这样。”也许这正是谦逊的体现,能够质疑自己,质疑前进的方向,质疑他人,不受他们头衔或奖项的影响,同时在头脑中保持雄心与质疑并存。这种能力让你保持雄心,而不会陷入虚假的谦卑。
Richard S. Sutton:科学领域没有权威。这给予你质疑任何人的权利,因为权威本身就不存在。但同时,这也有点令人泄气,因为你可能一直认为我是个权威,我本可以利用这一点,但我没有。我不能这么做。
主持人:“科学领域没有权威”这句话从一位图灵奖得主口中说出来,真是太酷了。
Richard S. Sutton:我现在可以更理直气壮地说这句话了。
主持人:作为这个领域的权威,我可以告诉你,这里没有权威。我一直很欣赏你和Andy的互动,我觉得这些互动塑造了你关于“科学领域没有权威”的观点。你们相互激励,让彼此对许多真正信仰的事情负责,这真的很棒。
Richard S. Sutton:我认为我们之间确实存在一点张力,正如你所说,这种张力让我们彼此负责。我常说,Andy Barto和我的观点几乎一致。这就像兄弟关系,你可能觉得自己的兄弟与你截然不同,因为他有自己的想法,但这只是因为相处太久了。在外人看来,你们其实很相似。但我想你说得对,我们确实会互相挑战,这很好。
主持人:这很好,因为我们都看到了对方观点的价值。
主持人:我一直以来都非常敬重你的一点是,无论与谁交谈,你都会把对方当作学术上的同辈对待。我觉得这在你的著作中也有所体现,这种将人们引入这一领域的理念。这是我始终非常尊重的品质,体现在你与人互动的方式、管理团队的方式以及写作风格中。我不知道这是你有意为之,还是你的天性使然,但我认为这是一种非常难得的品质。
Richard S. Sutton:这就是我的天性,我甚至没有刻意去想过。当人们像你刚才那样提醒我时,我会说,这是好事,我很高兴给大家留下了这样的印象。我确实努力在著作和写作中做到这一点。我想说,我在某种程度上确实很谦逊。每个人都有自己的见解可以分享,我真的相信我常说的那句话:我们每个人能做出的最重要贡献,往往是对我们自己来说显而易见的事情。我们对它如此熟悉,唯一的问题是我们可能没意识到别人并未看到这一点。我们应该倾听那些以不同方式思考的人,应该拓宽”奥弗顿之窗”,让更多可能性进入视野。我认为这非常重要。总之,这是我思考方式的核心。
主持人:这太棒了。我为你感到无比自豪和高兴,Rich。我想不出还有谁比你更配得上这一切。这真是太好了。
Richard S. Sutton:谢谢你。
主持人:这次谈话很有趣。我可以和你聊上一整天。感觉比我在研究生院时在你办公室里被你问问题要轻松一些。这次谈话对我来说更容易一些,但确实很有意思。
一起“点赞”三连↓
(文:Datawhale)