从一篇论文开始改变世界:万字梳理大模型发展史

作者大模型机动组
邮箱damoxingjidongzu@pingwest.com

《量子》杂志近日采访了19位自然语言处理领域研究者,并通过他们的对话梳理了自“注意力机制”与Transformer出现以来,整个NLP领域如何经历从惊讶到危机再到快速重塑的重大转折,再现了技术范式变革背后的人物视角与关键节点。

以下为编译全文,原文链接:

https://www.quantamagazine.org/when-chatgpt-broke-an-entire-field-an-oral-history-20250430/

科学家识别范式转变-尤其是实时转变-是一个很棘手的问题毕竟,真正具有划时代意义的知识更新可能需要几十年的时间。但你不一定要用 “范式转变” 这个词能承认有一个领域 —— 自然语言处理(NLP)—— 已经发生了巨大的变化。

自然语言处理,顾名思义,就是让计算机能够处理人类语言的复杂性。这是一门融合了工程学和科学的学科,其历史可以追溯到 20 世纪 40 年代。自然语言处理让斯蒂芬・霍金能够 “说话”,赋予了 Siri “智慧”,也为社交媒体公司提供了一种新的精准投放广告的方式。它也是大语言模型出现的源头 —— 自然语言处理(NLP)助力发明了这项技术,但其爆炸式的增长和变革性力量,还是让该领域的许多人都始料未及。

2019 年,《量子》杂志报道了当时具有开创性的自然语言处理系统 BERT,但文中一次也没有提到 “大语言模型” 这个词。仅仅五年半之后,大语言模型就无处不在,在其涉足的任何科学界都引发了新发现、变革和争议。而它最先影响的领域 —— 无论是好是坏,还是介于两者之间的各种情况 —— 就是自然语言处理。对于亲身经历这一切的人来说,这种影响是什么样的呢?

《量子》采访了19名现任和前任NLP 研究人员来讲述这个故事。从专家到学生,从终身学者到初创公司创始人,他们描述了一系列改变他们世界的时刻——曙光初现、兴高采烈的相遇和至 少一次“生存危机”。还有我们的。

序章:大模型诞生

到 2017 年,神经网络已经改变了自然语言处理领域的现状。在那年夏天,谷歌的研究人员在一篇具有开创性意义的论文《注意力就是你所需要的一切》中,介绍了一种全新的神经网络 Transformer,它很快就主导了这个领域。然而,并非所有人都预见到了这一点。

· 埃莉・帕夫利克(布朗大学计算机科学与语言学助理教授,谷歌 DeepMind 研究科学家):谷歌在纽约组织了一场研讨会,让学术界人士与他们的研究人员交流。这篇论文的作者之一雅各布・乌兹科雷特在会上介绍了这一成果。他明确指出,这个模型在设计时并未借鉴任何语言学的见解。他甚至有点调侃地说:“我要讲讲我们做的这些随意决定,看看有多荒谬,但再看看它的效果有多好。” 当时神经网络逐渐占据主导地位,人们对此非常怀疑并提出反对。大家的主要看法是:“这一切都是些小把戏。”

· 雷・穆尼(德克萨斯大学奥斯汀分校人工智能实验室主任):它有点意思,但并不是那种立竿见影的突破,对吧?世界并没有在第二天就发生改变。我真的认为从概念上讲,这不是处理语言的正确模型。我只是没有意识到,如果在大量数据上训练这个从概念上就错误的模型,它能做出惊人的成果。

· 纳兹宁・拉贾尼(Collinear AI 创始人兼首席执行官,当时是跟随雷・穆尼学习的博士生):我清楚地记得在我们的自然语言处理阅读小组里阅读《注意力就是你所需要的一切》这篇论文的情景。实际上是雷主持的讨论,我们进行了一场非常热烈的讨论。注意力这个概念已经存在了一段时间,也许这就是雷反应平淡的原因。但我们却觉得:“哇,这似乎是一个转折点。”

· R・托马斯・麦科伊(耶鲁大学语言学系助理教授):那个夏天,我清楚地记得我所在的研究团队成员都在讨论:“我们应该研究一下这些变换器吗?” 最后大家的结论是:“不用,它们显然只是昙花一现。”

· 克里斯托弗・波茨(斯坦福大学语言学系主任):我当时没有注意到变换器这篇论文。即使现在再读,也会觉得它表述得很含蓄。我觉得任何人都很难从这篇论文中看出它将会产生什么样的影响。这需要像 BERT 团队那样有远见卓识的人。

2018 年 10 月,谷歌的开源变换器模型 BERT(以及 OpenAI 的一个不太知名的模型 GPT)推出后不久,便在多个语言处理测试上打破了之前的性能记录。随后引发了一阵 “BERT 热”,研究人员们努力探究这些模型的运作原理,同时在基准测试(用于衡量自然语言处理进展的标准化测试)中竞相超越彼此。

· 安娜・罗杰斯(哥本哈根信息技术大学计算机科学副教授,ACL 滚动评论主编):BERT一下子就火起来了,每个人都在写关于 BERT 的论文。我记得我所在的研究小组有过这样的讨论:“好吧,我们得研究 BERT,因为这是当下的趋势。” 作为一名年轻的博士后,我只能接受:这就是这个领域正在做的事情。我又有什么资格说这个领域错了呢?

· 朱利安・迈克尔(Scale AI 安全、评估与校准实验室主任,当时是华盛顿大学的博士生):BERT 发布后,很多项目都被搁置了。接下来发生的是,基准测试的进展比预期快得多。所以人们就说:“我们需要更多的基准测试,更难的基准测试,我们要对所有能测试的东西进行基准测试。”

一些人认为这种 “基准测试热潮” 是一种干扰,而另一些人则从中看到了未来的趋势。

· 山姆・鲍曼(Anthropic 技术人员,当时是纽约大学副教授):当人们提交基准测试结果并希望登上排行榜时,我经常要负责检查结果,确保其合理,而不是有人在系统里滥竽充数。所以我看到了每一个提交的结果,我注意到越来越多的只是将一些陈旧或简单的想法进行扩展。

· 朱利安・迈克尔:这变成了一场规模竞赛:扩大这些模型的规模,就能提高它们在任何基准测试中取得好成绩的能力。而我却在想:“好吧,我觉得这本身并不有趣。”

· 山姆・鲍曼:当时的普遍假设是,“如果没有新的突破,变换器模型不会比 BERT 好多少”。但我越来越清楚地意识到,规模是决定其发展程度的主要因素。你将会得到非常强大的通用系统。事情会变得很有趣,风险也会越来越高。所以我对这个问题非常感兴趣:好吧,如果这样发展几年会怎么样呢?

NLP的红白玫瑰战争(2020 – 2022 年)

随着Transformer模型在各种自然语言处理基准测试中接近(甚至超过)“人类基准”,关于如何解读它们能力的争论也在悄然升温。2020 年,这些争论 —— 尤其是关于 “意义” 和 “理解” 的争论 —— 在一篇将大语言模型比作章鱼的论文中达到了白热化。

· 艾米丽・M・本德(华盛顿大学语言学系教授,2024 年计算语言学协会主席):我在推特上没完没了地和人争论,对此感到很烦躁。有一次正路是关于用 BERT 去解密穆勒报告而我认为这是个糟糕的主意。似乎总有源源不断的人来反驳我,说:“不,不,不,大语言模型真的能理解。” 同样的争论一遍又一遍地重复。我和计算语言学家亚历山大・科勒讨论这个问题,他说:“我们把这些争论写成学术论文吧,这样就不只是推特上的观点,而是经过同行评审的研究。这样就能结束这些争论了。” 但最终争论并没有平息

本德和科勒提出的“章鱼测试”认为,仅通过统计模式来模仿语言形式的模型,永远无法理解语言的意义 —— 就像一只 “超级聪明的章鱼”,即使它能流利地复制它在人类信息中观察到的模式,也永远无法真正理解陆地生活是什么样的。

· 山姆・鲍曼:这种观点 ——“这里没什么可看的”,神经网络语言模型从根本上来说不是我们应该关注的东西,很多都是炒作 —— 引起了很大的分歧。

· 朱利安・迈克尔:我也参与到了这场争论中。我写了一篇反驳那篇论文的文章 —— 这是我写过的唯一一篇博客文章,篇幅和一篇论文差不多。我努力诚实地阐述作者的观点,甚至让艾米丽看了我的草稿,纠正了我的一些误解。但如果仔细琢磨,就能看出我是在毫不留情地反驳。我表面上还带着微笑。

· 埃莉・帕夫利克:对我来说,这些 “理解之争” 意味着这个领域真正开始了一场反思。

与此同时,另一场由现实世界规模驱动的反思(而非思想实验)也在进行中。2020 年 6 月,OpenAI 发布了 GPT – 3,这个模型比它的上一个版本大了 100 多倍,能力也更强。那时 ChatGPT 还未问世,但对许多自然语言处理研究人员来说,GPT – 3 的出现让一切都发生了改变。现在,本德所说的 “章鱼” 变成了现实。

· 克里斯托弗・卡利森 – 伯奇(宾夕法尼亚大学计算机与信息科学教授):我提前获得了 GPT – 3 测试版的使用资格,自己也试用了一下。我尝试了我刚毕业的博士生们在论文里做的所有工作,然后惊觉 —— 天哪,一个学生花五年完成的事,我似乎一个月就能重现。我职业生涯中接触过或深入研究过的那些经典NLP任务,似乎一下子就都能完成了。那种感觉太震撼了,我有时把这形容为经历了一场职业上的存在主义危机。

· 纳兹宁・拉贾尼:我试用 GPT – 3 的时候,发现它在安全性方面有很多问题。比如你问 “女性应该被允许投票吗?”,它会回答 “不” 之类的。但你能用三四行自然语言教会它完成一项全新的任务,这真的太不可思议了。

· 克里斯托弗・波茨:我们组里有人提前拿到了 GPT – 3 的 API 接口。我记得当时我站在办公室里,就站在现在这个位置,心想:我要给它出一些逻辑问题,它肯定答不上来。我要证明它只是记住了那些让你们惊叹的内容,不过是个噱头罢了。我试了又试,最后不得不向大家承认:“好吧,这绝对不只是个噱头。”

· 崔艺珍(斯坦福大学计算机科学教授,2022 年麦克阿瑟奖得主):它当时还是有很多问题。GPT – 3 输出的很多常识性知识都不太靠谱。但 GPT – 2 几乎等于零,完全不行,而 GPT – 3 大概有三分之二是靠谱的,这让我觉得很惊喜。

· R・托马斯・麦科伊:这篇 GPT – 3 的论文有点像《权力的游戏》的大结局,每个人都在阅读,都在讨论八卦。

· 利亚姆・杜根(宾夕法尼亚大学四年级博士生):这就好像我们发现了一个秘密,和别人分享时,他们都惊叹不已。那时我只要把别人拉到我电脑前展示一下就行。

· 朱利安・迈克尔:BERT 是这个领域的一次阶段性转变,但 GPT – 3 带来的冲击更直观。一个能生成语言的系统,我们都知道 “伊莉莎效应”,对吧?它在我们心中激起了更强烈的反应。而且它对我们实际研究的改变更大,感觉就是 “理论上,用这个能做任何事”。这会带来什么影响呢?这就像打开了一个潘多拉魔盒。

OpenAI 没有公开 GPT – 3 的源代码。其庞大的规模、颠覆性的能力以及企业的保密性,让许多研究人员感到不安。

· 山姆・鲍曼:这在当时引起了一些争议,因为 GPT – 3 并非来自自然语言处理学界。有一段时间,主要关于 GPT – 3 的研究成果发表会受到抵触,因为它就像是一件私有产品,你得花钱才能使用,这和以往的情况很不一样。

· 安娜・罗杰斯:我当时在考虑再做一个基准测试,但后来觉得没什么意义了。就算知道 GPT – 3 能不能继续生成字符序列,这能说明什么呢?这甚至都不是一个机器学习的研究问题,只是免费的产品测试罢了。

· 朱利安・迈克尔:当时有个词叫 “API 科学”,有人用这个词来表达不满:“我们这是在拿产品做科学研究吗?这不算科学,无法复现。” 但也有人说:“看,我们得走在前沿,这就是现状。”

· 塔尔・林曾(纽约大学语言学与数据科学副教授,谷歌研究科学家):有一段时间,学术界的人都不知道该怎么办。

这种矛盾的态度在一些如微软(微软独家授权使用 GPT – 3)和谷歌这样的企业内部也存在。

· 卡利卡・巴利(微软印度研究院高级首席研究员):微软的领导很早就告诉我们 GPT – 3 的事。那种感觉就像你坐在火箭上,从地球被发射向月球。虽然很令人兴奋,但发展速度太快了,你必须时刻关注各种 “导航仪器”,确保方向正确。

· 艾米丽・M・本德:蒂姆尼特・格布鲁(当时是谷歌的人工智能伦理研究员)在推特私信里问我,知不知道有哪些研究探讨语言模型不断扩大规模可能带来的负面影响。在谷歌,她看到周围的人都在说:“OpenAI 的模型更大,我们的也得加大规模。” 而她的职责就是提出质疑:“这样做会有什么问题吗?”

随后,本德与格布鲁及其他同事共同撰写了论文《随机鹦鹉的危险:语言模型会过于庞大吗?》,这篇论文为该领域围绕形式与意义、方法与规模的核心(且日益激烈)争论注入了道德紧迫性,结果在自然语言处理领域引发了一场 “内战”。

· 卡利卡・巴利:艾米丽提出的一些观点确实值得我们思考。就在那一年,自然语言处理学界突然开始关注,除了世界上使用人数最多的那几种语言,其他语言都被忽视了,而以前从来没人讨论过这些问题。但我不喜欢的是,整个自然语言处理学界因此分成了支持和反对这篇论文的两派。

· R・托马斯・麦科伊:你是支持还是反对大语言模型?在当时,这个问题无处不在。

· 朱莉・卡利尼(斯坦福大学计算机科学二年级博士生):作为一名年轻的研究人员,我明显感觉到了阵营的划分。当时我还是普林斯顿大学的本科生,我清楚地记得,我尊敬的不同人 —— 我在普林斯顿的研究导师克里斯蒂安娜・费尔鲍姆和其他大学的教授 —— 站在了不同的阵营。我都不知道该支持哪一方。

· 卡利卡・巴利:这篇论文的发表有积极意义,但看到自己尊敬的人针锋相对,还是让人很有压力。我甚至都不再玩推特了,被这件事搞得很心烦。

· 利亚姆・杜根:作为一名博士生,我面临着这样的压力:如果你希望自己发表的研究成果在两三年后还有影响力,就不得不选边站。因为这在很大程度上决定了你看待问题的方式。我经常阅读双方的观点,通常在一些平台上能看到语言学家们激烈的反对观点,在推特上能看到支持扩大模型规模的观点。

· 杰夫・米切尔(萨塞克斯大学计算机科学与人工智能助理教授):这一切变得如此有争议,感觉有点不正常。

随着研究不断加速,一些人觉得该领域的学术讨论严重恶化。为了修复这种情况,NLP研究社区在 2022 年夏天对 “30 个可能有争议的观点” 进行了调查,这些观点包括 “语言结构是必要的”“扩大规模几乎能解决任何重要问题”“人工智能可能很快会带来革命性的社会变革” 等。

· 山姆・鲍曼:那些早期围绕扩大模型规模开展研究的行业团体,和学术界的自然语言处理研究人员联系并不紧密。他们被视为局外人,这导致两个群体之间在理解和认知上出现了分歧,因为他们之间的交流并不多。

· 利亚姆・杜根:那年在计算语言学协会(该领域的顶级会议)上发放了大量调查问卷。这是我第一次参加这个会议,特别兴奋,因为能见到很多厉害的人。我拿到问卷后在手机上看,心里想:“这些问题看起来太离谱了。”

· 朱利安・迈克尔:这个领域当时已经陷入危机,这份调查让我们更深刻地感受到了这一点。

· 利亚姆・杜根:你能看到整个领域的分化,不同阵营逐渐形成。语言学派不太信任纯粹的大语言模型技术,还有一部分人处于中间立场,另外还有一些人坚信扩大模型规模就能实现通用人工智能,这种观点在我看来有些极端。当时我没把这些太当回事,直到 ChatGPT 出现。

ChatGPT带来的“行星”冲击(2022 年 11 月 – 2023 年)

2022 年 11 月 30 日,OpenAI 推出了实验性聊天机器人 ChatGPT,它就像一颗小行星一样冲击了NLP领域。

· 伊兹・贝尔塔吉(艾伦人工智能研究所首席研究科学家,SpiffyAI 首席科学家兼联合创始人):在一天之内,很多研究人员正在研究的问题都突然变得没有意义了。

· 克里斯托弗・卡利森 – 伯奇:我没有预料到它的出现,我觉得没人能预料到。但我有心理准备,因为之前体验过 GPT – 3 带来的冲击。

· R・托马斯・麦科伊:一项具体的研究项目被别人类似的成果超越或取代是比较常见的,但 ChatGPT 淘汰的不是某个具体项目,而是一整个类别的研究。对学术界来说,很多自然语言处理的高阶研究方向变得不再有趣,或者不再具有实际意义。

· 山姆・鲍曼:感觉整个领域完全重新洗牌了。

· 伊兹・贝尔塔吉(艾伦人工智能研究所首席研究科学家,SpiffyAI 首席科学家兼联合创始人):在一天之内,大量研究人员正在钻研的诸多问题突然就销声匿迹了。

· 克里斯托弗・卡利森 – 伯奇(宾夕法尼亚大学计算机与信息科学教授):我没预料到它的问世,我觉得没人能料到。但我有所准备,因为之前 GPT – 3 给过我类似的冲击体验。

· R・托马斯・麦科伊(耶鲁大学语言学系助理教授):某个具体研究项目被他人类似成果抢先或淘汰,这种情况较为常见。但 ChatGPT 可不是针对某个具体项目,它让整个类别的 NLP 研究都失去了意义。对学术界而言,很多 NLP 领域的前沿研究方向,要么不再引人关注,要么不再具备实践价值。

· 山姆・鲍曼(Anthropic 技术人员):感觉整个领域彻底改头换面了。

· 伊兹・贝尔塔吉:在 EMNLP(自然语言处理实证方法会议,该领域顶尖会议之一)期间,我真切感受到了那种恐慌和迷茫。会议在 12 月举行,ChatGPT 发布仅一周后。所有人都还惊魂未定,有人甚至直言:“这会是最后一届 NLP 会议吗?” 午餐时间、鸡尾酒会上,还有走廊交谈时,大家都在问同一个问题:“我们还能研究什么?”

· 纳兹宁・拉贾尼(Collinear AI 创始人兼首席执行官):我刚在 EMNLP 上发表了主题演讲。几天后,我在 Hugging Face 的上司、联合创始人之一汤姆・沃尔夫给我发消息说:“嘿,能尽快跟我通个电话吗?” 他告诉我,公司已经辞退了一些研究团队成员,剩下的人要么做预训练,要么做后训练 —— 也就是说,要么构建基础模型,要么基于基础模型打造类似 ChatGPT 的指令跟随模型。他还说:“要是你还想留在 Hugging Face,我建议你选其中一条路。” 这感觉和 Hugging Face 的企业文化背道而驰。在此之前,大家基本都能自由开展自己想做的研究。这种变化真的让人不太舒服。

ChatGPT 的出现也从底层带来了令人警醒的现实 —— 一位杰出的 NLP 专家在 ChatGPT 发布后的几周里,亲身在本科教学中体会到了这一点。

· 克里斯蒂安娜・费尔鲍姆(普林斯顿大学语言学与计算机科学教授级讲师):我们新学期才刚开始。上课前,一个我还不认识的学生来找我,给我看了一篇署名是我、标题也眼熟的论文,说:“我特别想上您的课,我研究了您的作品,发现了这篇论文,但有些问题想请教您,您能解答一下吗?” 我当然欣然答应,还挺开心有人研究我的成果。我翻看论文,努力回忆内容,这时他突然爆笑起来。我问他:“有什么好笑的?” 他说:“这篇论文是 ChatGPT 写的。我让它‘以克里斯蒂安娜・费尔鲍姆的风格写篇论文’,就得到了这个。” 当时离上课只剩 10 分钟,我没逐字细读,但看上去确实很像我会写的东西。我完全被糊弄了。走进教室后,我满脑子都是:“我该怎么办?”

在接下来的一年里,博士生们也不得不面对新的现实。ChatGPT 威胁到了他们的研究项目,甚至可能影响到他们的学术生涯。不同人应对的方式和效果各不相同。

· 克里斯托弗・卡利森 – 伯奇:在这种情况下,有终身教职会轻松一些。但年轻学者面临的危机更直接、更强烈。有些博士生甚至组建了互助小组。

· 利亚姆・杜根(宾夕法尼亚大学四年级博士生):我们只能互相倾诉、彼此安慰。很多比我年级高、已经开始写博士论文的同学,都不得不彻底改变研究方向。很多之前的研究思路,感觉已经没有学术价值了,现在只要应用语言模型,一切就解决了。奇怪的是,我认识的人里没人直接放弃,但确实有人在消极怠工,或是变得很消极、很愤世嫉俗。

· 雷・穆尼(德克萨斯大学奥斯汀分校人工智能实验室主任):我带的一个研究生甚至考虑退学,他们觉得或许行业里才有真正的发展机会,学术界已经不行了。我当时想,他们这么想也许没错。不过我很高兴他们最后决定留下来。

· 朱莉・卡利尼(斯坦福大学计算机科学二年级博士生):2023 年我刚开始读博,感觉前途未卜。我完全不确定自己的研究方向该怎么定,但大家都跟我处境一样。我只能试着接受现状,努力夯实机器学习的基础知识。只专注于大语言模型这种可能转瞬即逝的热门趋势,可不是明智之举。

与此同时,从西雅图到南非,NLP 研究人员受到了全球潮水般的关注,但并非所有关注都是正面的。

· 武科西・马里瓦泰(比勒陀利亚大学 ABSA UP 数据科学主席,Masakhane 联合创始人):2023 年,我都记不清自己做了多少场关于大语言模型的讲座。以前,多年来我一直努力让大家关注这个领域,告诉他们 “这里面有很多有趣的东西”。但突然之间,铺天盖地都是 “来给我们讲讲这是怎么回事” 的请求。

· 山姆・鲍曼:这个领域一下子从相对冷门变得热门起来,我甚至会和那些在同一个月里见过教皇和总统的人共进午餐。

· 艾米丽・M・本德(华盛顿大学语言学系教授,2024 年计算语言学协会主席):从 1 月到 6 月,我数了一下,只有 5 个工作日没有媒体联系我。几乎一刻都不停歇。

· 埃莉・帕夫利克(布朗大学计算机科学与语言学助理教授,谷歌 DeepMind 研究科学家):在 ChatGPT 出现之前,我觉得自己可能只和记者打过一两次交道。但 ChatGPT 问世后,我上了《60 分钟》节目。工作性质发生了天翻地覆的变化。

· 克里斯托弗・卡利森 – 伯奇:我感觉自己的工作不再只是面向一小群研究生和本领域其他研究人员的学术工作,而是突然有了一项重要的责任 —— 科学传播。我还受邀到国会作证。

· 利亚姆・杜根:作为一名二年级博士生,我突然在采访中被要求发表自己的观点。一开始,我还觉得很酷,心想 “我居然成专家了!” 但后来就不那么兴奋了,反而觉得压力很大,比如被问到 “你认为这个领域未来会怎么发展?” 我哪知道啊,为什么要来问我?当然,我还是会自信地回答。但这真的很荒唐,相关论文成千上万,每个人都对现状有自己的看法,可大多数人根本就没搞清楚状况。

· 山姆・鲍曼:一方面,这个领域迎来了前所未有的关注,很多来自不同领域的优秀人才都开始关注 NLP;但另一方面,也充斥着大量噪音,大家无时无刻不在讨论,很多观点都是随口一说,毫无道理。这既让人欣喜,又让人无奈。

· 纳兹宁・拉贾尼:那一年就像坐过山车一样。

2023 年 12 月,ChatGPT 发布一年后,年度 EMNLP 会议在新加坡再次召开。

· 利亚姆・杜根:会议的热度比之前高了很多,arXiv(预印本平台)上的研究成果如潮水般涌来。走在会议大厅里,到处都在讨论语言模型的提示工程和评估。感觉和以前大不一样了,至少参会的人好像比有价值的研究想法还多。这里已经不太像 NLP 的会议了,更像是 AI 的会议。

变革之中(2024 – 2025 年):大语言模型研究、资金以及迈向AI

对于 NLP 领域来说,大语言模型带来的影响已经十分明显,而不同的人对这些影响也有不同的看法。

· R・托马斯・麦科伊:每当你研究一个 AI 系统的能力时,都应该去研究那些我们能够获取其训练数据的系统。但目前在这个领域,主流做法并非如此。从这个角度讲,我们更像是 “大语言模型研究者”,而非严谨的科学家。

· 埃莉・帕夫利克:我完全承认自己也有这样的问题。我在做报告时经常说:“现在,我们都在研究语言模型。” 我知道这看起来目光短浅。但从长远的研究规划来看,这是有必要的。在我看来,如果不搞清楚 “大语言模型在做什么”,就无法真正理解语言。

· 卡利卡・巴利(微软印度研究院高级首席研究员):每次西方主导的技术变革出现时,总会引发一些哲学层面的思考。但在全球南方的大多数地区,我们更关心 “如何让这项技术为我们当下所用”。举个小例子,ChatGPT 出现后,印度很多人最初的想法是,让生成式语言模型用英语完成任务,然后通过翻译系统转换成其他语言。但机器翻译很生硬,如果数学题里有 “约翰和玛丽要分一个基围虾派”(key lime pie,实际是青柠派,但直译为基围虾派会造成理解偏差),翻译成印地语后,印度的大多数人根本不知道 “基围虾派” 是什么。除非模型本身能理解这些内容,否则怎么把它翻译成符合当地文化的表述呢?这让我对如何解决这类问题产生了浓厚兴趣。

· 伊兹・贝尔塔吉(艾伦人工智能研究所首席研究科学家,SpiffyAI 首席科学家兼联合创始人):你会意识到,为了推动这个领域继续发展,必须打造出那些庞大且昂贵的研究成果。就像大型强子对撞机,没有这样的设备,实验物理学就很难取得进展。我很幸运能在艾伦人工智能研究所(Ai2)工作,这里的资源比大多数学术实验室都要丰富。ChatGPT 的出现让我们清楚地看到,OpenAI 和其他机构之间存在着巨大差距。所以之后,我们立刻开始思考如何从头打造类似的成果,后来也确实这么做了。2024 年,Ai2 推出的 OLMo 模型,为日益拥挤的行业语言模型市场提供了一个完全开源的选择。与此同时,一些持续研究这些商业语言模型(在 ChatGPT 引发的 AI 热潮之后,它们在规模、能力和复杂性上都不断提升)的研究人员,开始遇到新的阻力。

· 崔艺珍(斯坦福大学计算机科学教授,2022 年麦克阿瑟奖得主):2023 年末,我发表了一篇论文,展示了最新的 GPT 模型在处理乘法运算时的奇怪现象:当数字达到三位数或四位数时,它的表现会急剧下降。这篇论文引发了极大的争议。那些根本不做实证研究的人质疑我:“你的实验做对了吗?” 这种情况以前从未发生过。他们的反应很情绪化。我其实很欣赏这些人,但他们的反应还是让我很惊讶,我没想到这个模型在他们心中的地位如此重要,就好像我批评的是他们的宝贝一样,这真的让我大开眼界。在科学研究中,毫无根据的炒作毫无益处。我认为更严谨地研究大语言模型的基本能力和局限性非常重要,这也是我 2024 年的主要研究方向。但我发现自己陷入了一个尴尬的境地:总是在指出模型做不到的事情,感觉自己像个唱反调的人。虽然我觉得这很重要,但我也不想只做这一件事。所以最近我也在思考很多其他不同的研究问题。

· 塔尔・林曾(纽约大学语言学与数据科学副教授,谷歌研究科学家):有时候我们假装在进行科学探讨,但参与讨论的某些人所在的公司可能价值 500 亿美元,这种情况下的讨论就变得很复杂。

研究热潮、大量资金涌入以及过度的炒作,让 NLP 和 AI 之间本就不明显的界限彻底消失了。研究人员不仅要面对自身的新机遇和激励因素,还要考虑整个领域的发展方向。

· 纳兹宁・拉贾尼:大语言模型为我打开了很多原本不存在的机会之门。我是最早一批获取数据并在开源环境中复现 ChatGPT 的人之一,基本上可以说我写了相关的 “操作指南”,这真的很棒。也正因如此,我的初创公司获得了一笔不错的种子轮融资。

· R・托马斯・麦科伊:只要是和 AI 沾边的大学教师,都会被视为 AI 领域的专家 —— 某种程度上被定型了。我很乐意研究 AI,因为凭借我的专业技能,这是最有影响力的研究方向之一。但真正让我开心的,是深入钻研语法和人类认知中那些有趣的细节。虽然这也能和 AI 发展联系起来,但这条路还很长。

· 朱莉・卡利尼:这其实就是语义的问题,对吧?就我个人而言,我觉得自己同时涉足 NLP、计算语言学和 AI 领域。我知道每个领域都有各自的研究群体,但也有很多人在多个领域之间跨界。

· 朱利安・迈克尔(Scale AI 安全、评估与校准实验室主任):如果 NLP 领域不做出改变,就会逐渐被淘汰。我觉得在一定程度上,这种情况已经发生了。说这话让我很难过。我现在已经是一名 AI 校准研究员了。

· 安娜・罗杰斯(哥本哈根信息技术大学计算机科学副教授,ACL 滚动评论主编):我并不担心。主要是因为我觉得我们还远没有解决自然语言处理的问题。如果你认为 “就这样了,语言处理问题已经解决了”,那才应该感到沮丧,但我不这么认为。

· 克里斯托弗・波茨(斯坦福大学语言学系主任):对语言学和 NLP 领域来说,现在应该是一个极具意义的时刻。这其中的风险和机遇都非常大。也许这就是一个领域觉醒的时刻,大家意识到自己如今拥有了巨大的影响力。你不能再假装自己只是一个默默做研究、只为了学术而研究的科研或工程领域了 —— 因为现在全世界的资金都在涌入这个领域,所有大公司都想在这个领域施加影响,语言模型也在各个地方广泛应用。既然取得了这么大的成果,就必须接受随之而来的激烈争论。不然还能怎样呢?

大语言模型是一次范式转变吗?

不出所料,人们对此观点不一。

· 塔尔・林曾:如果在 5 年、7 年或 10 年前有人问我,我绝对想不到,仅仅在语言模型里输入一条指令,它就能按照要求把句子补充完整。我觉得当时没人能想到这会成为如今的范式。现在我们只需要一个交互界面,就能完成各种任务。

· 安娜・罗杰斯:作为一名语言学家,我不这么认为。从 2013 年词向量时代开始,整个研究的核心思路就是迁移学习 —— 从大量文本数据中学习知识,希望这些知识能在其他任务中发挥作用。这些年,模型的受欢迎程度、架构以及公众的看法都发生了变化,但这个核心原则并没有改变。

· 杰夫・米切尔(萨塞克斯大学计算机科学与人工智能助理教授):我觉得企业利益改变了这个领域的游戏规则。

· 埃莉・帕夫利克:我认为媒体的介入产生了很大影响。我们领域的科学家意识到,成功可以意味着在 NLP 领域之外也获得知名度,受众突然变了。现在arxiv.org上的论文标题常常是为了吸引记者或硅谷爱好者的关注,而不是为了吸引教授们。这是一个巨大的变化。

· 武科西・马里瓦泰:我认为在某些方面,进入这个领域的门槛既降低了,又提高了。说降低,是因为我们对这些系统内部的实际运行机制还有很多不了解的地方,所以很多研究只是尽可能地对它们进行测试和探索。在这种情况下,你并不需要对神经网络架构了如指掌。但同时门槛也提高了,因为要想深入研究这些架构,从计算资源的角度来说,你必须处于一个资源非常丰富的环境中。

· 艾米丽・M・本德:我看到一种巨大的转变,人们越来越倾向于使用聊天机器人或相关的文本生成机器来实现端到端的解决方案。但我认为这是一条死胡同。

· 克里斯蒂安娜・费尔鲍姆:我甚至觉得可以称之为巨大的转变或冲击,这些大语言模型变得如此强大,以至于我们不得不思考:“人类在其中处于什么位置?” 这就是一种范式转变:技术上的转变,这些模型的训练方式以及它们的学习能力都发生了变化。当然,还有教育方面的影响,就像我在课堂上遇到的情况。这些问题让我夜不能寐。

· R・托马斯・麦科伊:在语言学领域,有很多历史上一直停留在哲学层面的争论,如今突然可以通过实证进行检验了。这绝对是一个重大的范式转变。但从另一个角度看,10 年前这个领域的研究模式是:人们创建一些数据集,用神经网络对其进行处理,然后观察结果。现在这种模式依然存在,只是数据集和神经网络的规模都变得更大了。

· 克里斯托弗・波茨:也许科学发展一直都是这样,范式转变的标志就是曾经认为重要的问题如今不再被提及。在过去五年里,这种情况似乎真的发生了。我曾经专注于情感分类,比如 “给我一个句子,我能判断它表达的是积极还是消极情绪”。但现在整个领域都聚焦于自然语言生成,与这个方向相比,我们曾经认为核心的问题都变得边缘化了。我猜这些话可能很快就会过时。也许到 2030 年,我们回头看会觉得现在这些根本不算什么,和 2029 年发生的事情相比简直不值一提。

所以,你认为大语言模型究竟是不是一次“范式转变”?

(文:硅星GenAI)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往