Scaling Law要撞墙了吗?如何找到基座大模型的未来方向? 下午4时 2025/01/15 作者 硅星人Pro “如果把参数规模扩大x倍,模型能力就会得到y倍的提升” ——这条支撑着AI领域几年狂飙突进的Scaling Law,似乎正在走向尽头。 从GPT-3到GPT-4,从BERT到PaLM,AI的进化史几乎就是一部算力竞赛史。但最近的发展却给这个故事带来了转折:Claude 3在维持3.2B上下文的同时显著压缩了参数规模;Anthropic的研究人员公开表示”更大的模型未必更好”;DeepMind在近期论文中更是直指Scaling Law在逼近人类认知能力时可能存在根本性限制。当千亿参数、万亿tokens逐渐成为标配,简单的堆料堆算力似乎越来越难以带来质的飞跃。 这不禁让人思考: 是我们对Scaling Law的理解还不够深入? 还是这条路径本身就存在天花板? 基座大模型的下一个突破点究竟在哪? 我们特别挑选了一批在知乎活跃的AI领域答主的精彩回答,他们中既有来自科技公司的一线从业者,也有对AI发展长期关注并深度研究的技术博主。相信这些观点能为我们提供更多关于AI发展的思路与洞见。 本次讨论作为知乎「互联网破局者」系列活动的特别策划,以下为精选的答主回答,内容基于答主公开发布的观点进行整理。更多精彩回答,点击阅读原文前往知乎查看硅星人的提问“Scaling Law要撞墙了吗?如何找到基座大模型的未来方向?” 1 @傅聪Cong 作为一个AI从业者,个人观点“Scaling Law撞墙”,完全不是媒体吹得那么耸人听闻!它只是意味着——未来通用人工智能的发展路径应当适时地转向。 下面说说我的理由:“Scaling Law撞墙”的问题为什么引发了AI圈如此广泛的焦虑? 其实人们担心的问题,并不是一个实验观察规律失效与否的小问题,而是其背后可能存在的大模型效果进入瓶颈期的问题:如果大模型不能够继续”越大越好”了,那么OpenAI先前抛出的未来大模型智商超过人类顶级水准的预言,可能无法实现。除了题主问题背景中的信息,更让人担心的消息是,号称AI圈“卓伟”的光头哥爆料:“猎户座”——大众认知的GPT-5——内测效果不能达到预期。类似的小道消息还包括Anthropic的Claude的新版本的效果也低于预期。就好比家里孩子初中升高中(GPT-3到GPT-3.5)、高中升大学(GPT-3.5到GPT-4)都很顺利,结果研究生却怎么都考不上了。 随之而来的,不仅仅是对技术发展的担忧,更严重的后果是投资的断流。显而易见的是,目前的LLM经济就是一个砸钱的生意,钱没了就更不可能scaling下去了,所有的投资方都会给LLM相关的企业和从业者施加更大的压力,并且更审慎地看待目前企业经由LLM的盈利能力。说不好听的,LLM行业可能会存在“大踩油门,大踩刹车”的泡沫危机! 说了这么多,咱也不能马后炮地怪“Scaling Law”的提出者当初咋不好好做实验。那么“Scaling Law”到底撞墙了嘛? 我们再来重新看看Scaling Law那张著名的图: 注意,这里的纵坐标是test loss。也就是说,所谓的scaling能力,是对准“测试损失”这个指标的,所以理性地讲,没有人承诺过,随着投入的数据、算力、参数的增加,模型的”智商“会线性提升。 接下来,我们来纠正两个阅读这张图的误区: test loss和模型的能力目前来看并不存在一个线性相关的关系。恰恰相反,当test loss低到一定程度,人对于模型输出效果的好坏的感知能力会弱化。这件事情,我其实在我之前的一篇论文的讨论里聊到过:https://www.zhihu.com/question/599186065/answer/3019505570?utm_campAIgn=shareopn&utm_content=group3_myAnswer&utm_medium=social&utm_psn=1858611794765025280 纵轴的坐标也是log scale的!这里画重点!在双log scale的坐标刻度设置下,这篇论文的研究者画出了很漂亮的一条接近直线的结果。也就是说,想要test loss线性下降,需要投入的算力、数据等资源成指数速度上升! OK,问题的根源找到了。 那么寻找基座模型未来的短期内的方向,我们可以从以下两个方面入手: 首先!也是最重要的事情!就是回到原点!完善当前或寻找更好的评价体系。目前的评价体系,难以和人的认知对齐,也难以全面地评价大模型的能力。不完备的评价体系,不利于模型的良性迭代。也不利于构建良性的市场环境。就好比很多模型都号称自己在一些benchmark的表现上超过GPT-4,但给用户的体感,却并非那样。变相鼓励、培养出了一群cherry pickers。 探索其它的scaling type。除了“trAIning phase scaling”,最近的研究和产品还展示出不同的scaling形态。例如multi-agent的scaling,不需要一个超级大模型,而是鼓励更多不同的专家小模型进行协作,强化“模块化”优势;以及“inference phase scaling”,给大模型更多的“思考”的时间以及更多的context信息,让它“找到”正确的答案,这也更符合类人智能驱动的设计方法论,毕竟我们人类解决复杂问题的时候主要通过“慢思考”系统来构建动态的解决路径,同时,也不需要把所有任务相关的信息都“预先”记忆到脑子里。就好比老板让你做一个PPT,你是不需要先背下来PPT的逐字讲稿,再进行绘图、设计的。 最后,虽然我必须承认技术发展的“惯性”——所有人都基于当前的transformer架构进行增量研究——存在一定的积极作用,但我个人期待的通用人工智能,尤其是基座模型,应当是低能耗,更接近生物能的。 当前的这种范式,即便我们在前文所述的两个方面有所突破,也是不可持续的。 https://epoch.AI/blog/can-AI-scaling-continue-through-2030 这份调研报告指出,到2030年,按照Scaling Law去训练一个“GPT-6”所需的算力是充足的,但首先卡脖子的,很可能是电力资源。同时,届时训练一次GPT-6,需要上百亿美金,换个计量单位,卖掉我司都不够训练一次的,容错率是低的不能再低了…… 希望到2030年,我们能找到更加可持续的通用人工智能的研发路径,一个让社会各界都能有参与度的方式,而不是现在这种资本通吃的局面。因为我相信,无论是针对这种技术的研发还是监督,都需要更广范围的合作。 1 @平凡 英伟达的黄仁勋在CES 2025上展示了一张PPT,标题为「从一种到三种Scaling Laws」,其纵坐标标注为智能程度(Intelligence),强调了人工智能发展过程中三种关键的Scaling Laws:预训练(Pre-training)、后训练(Post-training)和测试时推理(Test-Time Scaling)。 具体来说: Pre-training Scaling(预训练) 这是AI模型训练的初始阶段,以GPT早期模型为代表。特点是依赖超大规模神经网络和海量互联网数据,利用无监督学习方法,通过预测下一个字符或词语进行训练。 智能程度:此阶段的训练目标是构建一个通用的语言模型,但输出结果相对基础,缺乏复杂的语境理解和逻辑推理能力。 局限性:虽然训练数据量庞大,但缺乏针对性的优化,模型表现的智能程度受到一定限制。 Post-training Scaling(后训练) 代表AI模型的进化阶段,以ChatGPT的原型为例。关键特性是通过人类反馈的强化学习(RLHF)进一步对预训练模型进行优化和调整,以提高模型的交互能力和人类对齐度。它的训练方式是模型根据人类提供的反馈评分,优化其回答内容和风格,逐步具备更自然、更贴合人类表达习惯的语言能力。 智能程度:在这个阶段,AI模型不仅能生成流畅的文本,还能展现一定程度的创造性和逻辑推理能力,其天花板就是GPT-4o。 局限性:适合需要复杂对话和任务管理的场景,如智能客服、写作辅助和教育工具,但对于需要高强度推理以及复杂任务依旧不能胜任。 Test-Time Scaling(测试时推理) 代表AI智能发展的最新阶段,以ChatGPT的o系列模型为例,专长于推理和复杂任务处理。它的工作原理基于后训练模型,通过进一步细化任务执行流程,将复杂任务分解为多个可验证的小步骤(微推理模块),以提高成功率和准确性。采用“用时间换空间”的策略,通过更高的计算资源和更长的推理时间换取任务完成率的显著提升。 智能程度:特别适合数学、物理和化学等需要逻辑分析与多步验证的问题,表现出更强的推理和决策能力。 局限性:这种模式的资源和时间成本较高,适用于对精度要求极高的应用场景。 可以看到,这三种scaling law带来的智能程度提升是非常显著的,可以侧面证明,scaling law短时间内不会失效,只是会通过另一种形式表现出来。 未来的AI还会继续朝着提升智能以及扩展应用边界的路子走下去,前者依旧需要大量的人类反馈数据,scaling才刚刚开始;后者需要更需要的Agent的反馈数据,也才刚刚摸到门槛。 1 @桔了个仔 所谓Scaling Law,俗话说就是「力大砖飞」。Scaling Law指的是,模型性能随着模型参数量、数据量和算力的增加呈现的幂律关系。 不过,随着参数量的继续增加,互联网数据似乎不够用了Ilya 在 NeurIPS 2024 中提出的观点是「预训练即将结束」,原因是随着计算能力提升,互联网上的数据量并没有明显增长。 不过,无论如何,他讲的,其实只是在pre-train阶段遇到瓶颈。事实上,Scaling Law可以发生在不同的维度。 首先讲讲基座大模型如何继续保持Scaling Law。 合成数据(Synthetic Data) 其实这个思路是work的。例如sora就是使用了大量的合成数据,据说Sora可能采用了UE5、Unity的合成数据作为训练集。 但这个思路还是pre-train阶段提升方法,虽然喂合成数据应该也能提升模型性能,但个人认为其边际效应已经出现了明显递减。可能其他方案会更有性价比。 但合成数据有另一个好处,就是有助于Alignment。具体可以参考@李rumor 这篇文章[1]。https://www.zhihu.com/people/rumor-lee 反向scale 既然通过数据带来的边际提升不那么具有性价比了,那么是否可以尝试以更少参数实现同样效果?毕竟人类智能并不是纯粹靠数据的,人类的大脑就140-160亿神经元,况且还并非全部神经元都激活了。当然,大模型参数数量不能直接等价于人脑神经元数量,但有没一种可能,现在多数大模型都是「参数过剩」的? 其实这个想法,在2022年Deepmind发表了一篇论文《Training Compute-Optimal Large Language Models》[2]中就被论述过。这个论文最重要的一个论点是:现在所有大语言模型都是训练不充分(undertrained)的。 这个论文还训练了一个训练了700亿参数的模型 Chinchilla,在许多下游任务上的性能显著超过了很多参数更大的模型,例如 Gopher (2800亿), GPT-3 (1750亿) 等。 这篇论文让很多公司意识到,堆叠参数的性价比可能不高,优化训练集,优化训练方法,甚至提出新架构,都可能带来新的收益。 非Transformer架构 很多非Transformer架构,能以更少参数量实现同样效果。例如RWKV。例如 @PENG Bo 在这篇回答里介绍到https://www.zhihu.com/question/6833253550/answer/55768424495,RWKV-7 0.1B参数的基座模型,而且还没做任何post-training,就能实现下面的效果 除了RWKV,其他非Transformer架构还包括Mamba,S4等等,它们都是采用用 recurrent(循环)结构去替代 attention。 以上都是从基座模型方向出发。除了基座模型,还有别的方向 强化学习的Scaling Law o1的发布,让大家看到,通过强化学习(Reinforcement Learning),让大模型self-play,可以继续提升其推理能力。具体可以看 @张俊林 的这篇分析[3]https://www.zhihu.com/question/666992324/answer/3624700849 这个方向得到了很多AI公司的认可,例如Qwen推出了QwQ(我喜欢这个名字),DeepSeek推出了R1,天工大模型推出了Skywork o1等等。估计是2025年最有价值的方向之一。 Muiti Agent的scaling law 例如@Guohao Li李国豪 在研究的方向[4]:multi agent系统的scaling law,会发现随着投入系统的Agent数量增加,其表现出来的智能越来越强 大概就先写这么多,仅作为抛砖引玉。 1 @Trisimo崔思莫 Scaling Laws当然没撞墙。 不能说我们突破不了光速,是狭义相对论撞墙了。 这种性能撞墙,恰恰就是Scaling Laws所预示的。 撞墙的是谁?就是数据,数据是最受制于物理世界的限制的。 参数不足?商用模型比如GPT-4o和Sonnet的参数不足,可以吃更干净的蒸馏,吃合成数据,数据是喂不饱大参数母模型的,所以参数不是问题。 算力不足?现在暂时足了,算力的最终本质是电力,现在暂时有核电站的订单顶着。 1. 人工智能公司的“数据渴望”,已经达到了令人发指的程度。(不要以为公域数据枯竭,只是说说的而已,这帮已经输不起的资本家,无所不用其极。) 例子:Anthropic的爬虫,爬了iFixit网站,一天爬了一百万次。就像你说:欢迎你来我家!结果,对方一天来了一百万次。艾麻,真是草!Dario Amodei天天搁那宣传“合成大法好”,结果把人家的窝都薅秃了。——这不是爬虫,这是蝗虫。 2. 算法带来的提升微弱,Scaling Laws主宰。本质上,神经网络是结构单调的,这种单调性使得优化算法没有太大空隙可以插入。暴力仍然是主宰,夯就完事了。为什么OpenAI的GPT好用?数据,尤其是他们的后训练精华数据。 例子:我看了DeepMind的研究科学家Felix Hill的心路自叙(这是我见过的文笔最好的AI研究员),他坦言模型算法带来的提升非常微弱,但每天仍然需要面对它。我们不能说Felix的抑郁自杀与这项工作的无力感直接相关,但很明显,这种推进极小的工作,加速了他的悲剧。假设算法带来的提升极大,那么Felix一定能从工作中体验到振奋感。 3. 强化学习Reasoning带来的范式转变,但仍然有限。RL Reasoning在R什么东西?是一种思维方式,仅此而已?是的,仅此而已。他们没有在R知识本身,只是在R一种套路。 例子:GPT-5预训练遇到阻力,原因是缺乏足够的数据量和数据多样性,OpenAI招募专业团队来为数学和代码题编写解答,同时再加上OpenAI推理模型产生的数据。如果说,数据是足够的,或者说推理是万能的,OpenAI何须此举?直觉先于推理,没有GPT形成的知识直觉,那么推理Agent巧妇难为无米之炊。——也许OpenAI未来会变成半个数据研发公司,是的,我说的是数据研发,挺可笑的吧。 以上是现在OpenAI,Anthropic,Google御三家的情况,其他的公司面临的情况可能会更严峻。 未来的方向,如果未来是AI主导的世界,那么数据的采集和标注会是核心工作。 数据这个故事,不是已经达到了瓶颈,而在预示一个“后数据时代”。这会是一个观念革新的问题。一个面向真实场景的AI,它需要私域数据。也许未来的模型微调的公司,会把最大的精力放在为客户采集数据标注数据,数据即智能(一种低泛化性的智能)。我们是否要质疑通用模型的适应性? 1 @咸蛋 scaling的问题很多人没搞明白。 如果仔细测试模型就会发现,模型没办法解决未知问题,哪怕是推理模型,遇到未知问题本质上是在当前内容上做扩展,也就是,如果一个外部知识模型没有,那么它推理也是搞不定这个问题的。 现在很多人把这个上限归结为scaling的问题,我认为这是不对的,这个分为两个部分,一个是深度,一个是广度。 深度代表最强的o3,其实做题方面相当了得了,但是o1测试下来,很多模型缺乏的知识库内容,它依然会在错误的认知上进行推理,就是所谓幻觉,那么这个问题是scaling的问题吗? 我认为不是,核心点还是模型的知识库对齐问题,就是说模型无法解决这个问题,并非模型不会,而是它的底层认知和你要解决的问题有偏差。 也就是它理解的东西,其中某个环节,和你要工作完成的目标,有误解,同一个API名字,他用其他库的内容替代了,这就导致了模型的不健壮性,也就是所谓的性能瓶颈,随着模型数据越大,这种混淆实际上更严重了,同义词更多,权重模糊接近极限,中间的任何细微的知识混淆都会导致模型的整体推理步骤错误,所以感觉性能几乎无法提升了。 这就是scaling撞墙的本质,也就是说,数据质量卡死了scaling而不是数据规模。 那么一个面向所有人的通用模型,他的内部权重必然是均衡的,也就是说它不能对用户建立单独数据对齐,比如两个人工作环境不同,那么同一句话的意思可能就不同,你的9.11是数字,他的9.11是日期。 那么结果就会导致这种不健壮性,也就是说你不可能用提示词精确标注每个步骤的详细指代,那么这个东西的存在进到思维链,就必然导致推理过程的不健壮性。 也就是所谓的scaling失效问题,必须构建出更高质量的数据,才能提高模型的底层性能,而高质量数据的构建成本非常高,所以openAI无奈只能采用强化微调,让模型自己生成推理链路,人类来修正的方法来构建增强的数据去训练GPT5,之前直接扩大数据规模的方法在GPT5上面失效了,也就是模型进一步扩大数据集和参数后,模型的知识广度提高了,深度则原地踏步,所以GPT5卡死两次不得已全部转向合成数据。 所以要想进一步提高模型的能力,这里我有一些想法,就是要实现对数据的深度清理,还有动态数据匹配。 第一个的意思就是,要挖掘数据标注的极限,一个优质数据,可以做数据增强实验,能否通过优化优质数据来提高分数,是一个非常值得研究的方向。 第二个则是让模型能够自主对齐用户,不是后训练方法,而是模型能够通过用户使用过程的反馈,自我反思推理调整模型输出内容,无法解决的内容可以请求用户帮助,把用户输入的外部知识进行内化,也就是所谓的成长型模型架构,不是固定权重的模型,模型能类似人一样反思,自我调整,类似自动化lora,实时强化微调的感觉,但是更轻量。 另外我还有一个非常有意思的想法,如果有研究大模型的大佬可以看看是否可行,就是把模型参数进行标注和预测标注,把模型权重数据和标注数据混合,做成一个可生育模型。 什么意思呢,就是做一个模型生成模型的大模型,这个模型的生成结果就是模型权重文件。 如果这个方向能有突破,可能是一个非常值得研究的方向,大模型自我生育,端到端的进化模型。 所以不用担心大模型没方向,方向多的很,AI远未撞墙。 在多位答主的深度探讨中,我们看到了对Scaling Law多维度的思考:从大模型演进的三阶段论,到test loss的本质剖析;从合成数据与反向scale的技术探索,到知识对齐与数据质量的创新思路;从数据瓶颈的深刻反思,到多智能体协作的未来展望。这些讨论揭示了一个关键事实:所谓的”瓶颈”,也许并非是Scaling Law本身的局限,而是我们对AI发展范式的认知需要跨越新的维度。 正如量子力学的发展最终突破了经典物理的藩篱,AI的下一次飞跃可能同样需要对根本范式的重新思考:从单一的参数规模扩张,到多维度的质量提升;从静态的知识存储,到动态的认知演进;从追求极致算力,到探索高效且可持续的架构。这不仅是技术路径的选择,更是AI发展哲学的反思。 值得深思的是,在这个临界点上,我们不应被”瓶颈”二字所困,而应将其视为一个契机——重新审视AI发展的根本命题,探索更富想象力的可能性。毕竟,正如人类认知的演进从未止步,AI的进化或许也正在酝酿着新的范式转移。 期待在评论区看到更多真知灼见。 点个“在看”,再走吧 (文:硅星人Pro) 欢迎分享