【编者按】2月18日,埃隆·马斯克旗下的人工智能公司 xAI 发布了 Grok 3 系列模型,使用 20 万 GPU,并被马斯克誉为“地球上最聪明的AI”。对此,也引申出一个话题,那就是预训练阶段的 Scaling Law 是否依旧适用。在算力需求与成本之间,究竟是大规模 GPU 依然是制胜法宝,还是更精巧的算法创新将主导未来的大模型竞争?一向深入浅出分析AI大模型背后的张俊林老师带来了对预训练阶段Scaling Law是否仍成立的深度拆解。
媒体风向变化太快,让人目不暇接。早上还在夸Deepseek成本低,性价比高,预训练Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了20万张英伟达H100卡,效果力压OpenAI o3 mini和Deepseek R1,就转向说Scaling law还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹……
这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。
预训练阶段的Scaling Law是否仍然成立
预训练阶段的Scaling Law成立吗?
当然是成立的,所谓“Scaling Law撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的Scaling Law走势趋缓,注意是趋缓但不是停顿,预训练阶段的Scaling Law并没到天花板。
按照Chinchilla Scaling Law推断,即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低,这是为何大家转到RL Scaling Law和Test Time Scaling Law的原因,是因为付出同样的算力,在后面两个阶段大模型智商提升更明显,就是性价比高。
目前可以提高模型效果的Scaling方法,按照性价比由高到低排序的话: Test time Scaling Law> RL Scaling Law>预训练阶段Scaling Law(数据不够了,只能推大模型尺寸),有性价比高的Scaling,当然优先做这种,性价比低的Scaling,只有在没有性价比更高的情况下才会采用。这跟购物一个道理,有性价比高的当然不会去买性价比低的商品。
如果哪天RL Scaling Law和Test Time Scaling Law到了天花板,又没有找到新的性价比更合算的Scaling law,也不是说模型效果就提不上去了,大家仍然可以回归预训练阶段的Scaling Law,没有新数据也没关系,推大模型尺寸规模就可以,效果仍然会上升。但这基本是最后的选择,没办法的办法,只要有性价比高的方法就不会走这条路。
有人问了:那按照你的意思,囤那么多GPU算力,其实对训最好的模型也没啥用?要是按照上面的理论,那确实是没有太大必要,比如Deepseek 2000卡也可以作出最好的模型不是。但是卡多有个好处,就是能压缩实验新想法和训练大模型基座的时间周期。比如你总得探索一些不同的算法、参数或数据配比的模型进行各种实验,你有10个新想法,如果只有2000张卡,可能得跑5天才能得出结论,要是有几万张卡,可能1天就能得出结论,所以卡多对于探索效率是有极大帮助的。卡多创新多,这点肯定成立。
Grok 3基座模型
对标Deepseek V3,非R1这种逻辑推理模型
为何Grok 3作为通用基座模型,它的评测指标只有数学、科学和代码数据集?没有通用能力比如最常用的MMLU指标的对比,这是不太规范的对比模式。推断可能Grok 3的通用能力相对OpenAI和Deepseek的模型没有大幅提升,所以不拿出来比?
如果想要提升基座模型的数学、科学和代码能力,无论从方法还是从成本角度来讲,难度并不大,目前比较标准的做法是类似Deepseek V3从Deepseek R1蒸馏数学、代码等逻辑题的长COT数据,即深度思考过程数据,就是说把深度思考长COT数据引入基座的Post-Training阶段、甚至前置到预训练阶段(所谓大模型“左脚(Deepseek基座)踩右脚(Deepseek R1)自我飞升”的模式),这样就能大幅提升基座模型在数学和代码方面相关的能力,也就是Grok3宣传具备的“有思维链推理和自我纠错机制”,评测指标看着会比较好看,而且蒸馏的数据总量也不会太大(几百B级别应该够了),成本很低,对算力要求不高。
OpenAI 很快会发布的非逻辑推理模型GPT 4.5,大概也应是类似的思路,从o3模型蒸馏COT数据,用深度思考数据来提升GPT 4.5基座模型的智商,大模型“左脚踩右脚自我飞升”大法,这会是之后基座模型提升能力的主要手段。
Grok 3的算力消耗是Grok 2的10倍,如果遵照Chinchilla Scaling Law,最佳做法是Grok 3的训练数据量比Grok 2增加3倍,模型大小同时比Grok 2增加3倍(但是目前的趋势是减小模型大小,增大数据量[就是说“小模型大数据”的模式],尽管这样不满足训练最优原则,但因为模型尺寸小了,所以这种模型更适合在线推理服务,降低服务成本)。
如果像发布会宣称的,Grok 3耗费算力是Grok 2的10倍消息为真的话,那有两种可能。一种是数据量增长极大,这样只能是增加了大量多模态数据,比如数据量从10T增长到30T(目前文本模型使用的数据量,最多到18T到20T之间,基本到顶,再多没有了,要大幅增加只能加多模态数据,但是增加多模态数据对提升大模型智商帮助不大,所以这个增量按理说不应该太大),如果这样推算,Grok3的模型规模增长3倍左右;第二种可能是训练数据量比20T增加的不多,如果这样可以推出Grok3模型尺寸比Grok 2要大很多,至少4到5倍起步(若新增数据不多,那只能靠增加模型尺寸来消耗新增算力)。不论是哪种可能,Grok 3的模型大小肯定比Grok 2大了很多,而Grok 2模型本身可能就不小(Grok 2发布网页评测效果超过Llama 3.1 405B,所以无论数据还是模型大小,都不会太小,要是Dense模型, 70B是最小的估计了),所以Grok 3的尺寸规模很可能不是一般的大(感觉在200B到500B之间)。
很明显,Grok 3仍然在采取推大基座模型尺寸的“传统”做法,也就是上面“Scaling Law”部分分析的预训练阶段增大模型尺寸的方法来提升基座模型能力,上面分析过,这种做法是性价比很低的。比较时髦的做法是把训练重心放在RL Scaling方面,性价比会高太多。但是为啥他要做这种赔本买卖呢?在后面会给出一个可能的解释。
Grok 3逻辑推理版本
深度思考版本,对标Deepseek R1
Grok 3的深度思考版本,不说体验,单从评测指标看,达到或者超过了o3 mini,确实是目前效果最好的,或者说最好的之一没有什么问题。
说回上面提到的问题,为啥明知靠推大预训练阶段模型尺寸规模性价比低,Grok 3还要用这种模式呢?很可能内在的原因在于(推断无证据):Post-Training阶段采取RL Scaling,其效果可能跟基座模型的大小是有正相关关系的,就是说,同样的RL阶段的算力消耗,如果基座模型尺寸更大,则RL 阶段的Scaling效果越好。只有这样,才有在预训练阶段尽量把模型规模推大的必要性。而我们可以假设,Grok 3之所以采取这种过于耗费算力,看着性价比不高的方式,是希望通过加大基座,把深度思考版本的能力明显提起来。
貌似Deepseek R1效果很好又开源,获得一片好评,但大家想要实际用起来,会发现基座太大,部署难度和消耗资源太高,对下游应用不太友好。那为啥Deepseek非得推这种对下游应用来说明显过大的模型呢?(小点的蒸馏模型看着指标很好,但是实际应用效果貌似差不少),是否也是因为基座模型如果不够大,深度思考模型效果就没那么好的原因?
如果上述假设成立,那意味着:三个Scaling Law(Pre-train、RL 、Test Time),从提高大模型智商的性价比来说,由高到低是:Test Time > RL > Pre-Train,这个是之前的结论。但如果上述假设成立,说明Test Time Scaling的天花板最低,它的天花板依赖于RL阶段的Scaling能力,而RL阶段Scaling天花板次低,它的天花板依赖于预训练阶段Pre-Train的Scaling?如果这样,如果有一天当RL和Test Time天花板到顶,意味着我们可以再启动一轮,去推大基座模型的模型尺寸,RL阶段Scaling 的天花板随之升高,然后可以再去Scale RL和Test Time,就进一步得到智商更高的大模型。如果这成立,那意味着AGI的解决方案已经完整了?其实不需要新的Scaling Law存在就够?
上述推论,是在一个前提成立的条件下的推出来的,这个前提是:Grok 3耗费这么大算力推大模型规模,这是个深思熟虑或小规模实验的结果,而不是仅仅受到之前老观念(预训练阶段算力越高效果越好)影响下的决策。如果这个前提不成立,则上述推论不成立。总之,一切责任在马斯克,Over。
活动推荐:
由 CSDN&Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025)将于 4 月 18-19 日在上海正式召开!张俊林作为「大模型技术拆解得最通透的实战派」,在 2024 年的机器学习技术大会上,他对 Gemini 多模态架构、OpenAI o1 技术的硬核拆解,让开发者直呼“终于有人讲透技术本质”。
在今年的大会上,张俊林老师将继续莅临会场,给开发者带来更多令人期待的精彩实战干货。
(文:AI科技大本营)