LLM Reasoning能力最近大跃进?不,都是「水分」!


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

为什么语言模型推理能力的评估「水分」这么大?

近几年,ChatGPT、Claude等大模型的「数学解题」「逻辑推理」能力突飞猛进,各大实验室争相发布「突破性成果」。但论文一针见血地指出:很多所谓的进步,可能只是评测标准不统一导致的假象

论文:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
链接:https://arxiv.org/pdf/2504.07086

比如,同一道数学题,模型答案的正确率可能因为以下「玄学因素」剧烈波动:

  • 随机种子:就像抽奖的运气,换一个随机数,正确率能差10%以上
  • 温度参数:模型答题是「保守」还是「放飞自我」,结果天差地别
  • 硬件配置:用不同的GPU跑同一模型,正确率能差8%
  • 提示词格式:加不加「请仔细思考」这句话,可能让结果直接崩盘

更夸张的是,许多论文评测时只用30道题的小数据集(如AIME’24)。这种情况下,多答对1题就能让正确率提升3%,导致结果毫无说服力。

实验:连硬件和标点符号都能影响结果?

为了验证这些「玄学因素」,作者做了大量实验:

  • 随机种子实验:用20个不同的随机种子测试模型,发现正确率波动最高达15%
  • 温度参数对比:温度调高(模型更「放飞」),正确率可能提升,但波动也更大
  • 硬件差异:同一模型在不同GPU集群上跑,正确率差异堪比模型升级
  • 提示词格式:用错聊天模板,指令微调模型的性能直接「腰斩」

最讽刺的是,某些论文宣称的「RL方法提升10%」,在统一评测标准后,实际改进连统计显著性都没有

强化学习(RL)进步是假,监督微调(SFT)才是真神?

论文最颠覆的结论是:当前强化学习(RL)对推理能力的提升被严重高估,而监督微调(SFT)才是「低调的实力派」。

  • RL的尴尬
    • 在蒸馏模型(如DeepSeek-R1)上,RL训练几乎无提升,甚至可能过拟合小数据集(如AIME’24)。
    • 换到新数据集(如AIME’25),RL模型的性能直接「跳水」。
  • SFT的稳定
    • 用高质量解题步骤数据做监督微调,模型在多个基准上表现稳定,且能泛化到新任务(如OlympiadBench)。
    • 例如,OpenThinker模型在标准化评测中全面碾压RL方法。

论文甚至调侃:「RL训练像买彩票,SFT才是存定期」

如何让评测不再「玄学」?

作者提出一套「防坑指南」,呼吁行业统一标准:

  1. 硬件软件标准化:所有实验用同一Docker镜像和云服务器(如Runpod的A100)。
  2. 多随机种子测试:小数据集至少跑10次取平均,避免「运气好」导致的虚高结果。
  3. 超参数调优:每个模型单独调温度、top_p等参数,不能「一刀切」。
  4. 答案匹配优化:用LaTeX解析答案,避免字符串匹配的「格式投机」(如\boxed{2}2算同一答案)。

此外,作者开源了所有代码、提示词和模型输出,号召「阳光评测,拒绝黑箱」。

这篇论文给行业泼了什么冷水?

  • 给研究者的提醒:别再「刷榜」了!追求SOTA(最高性能)前,先确保结果可复现。
  • 给企业的启示:RL训练成本高、收益低,不如扎扎实实做SFT数据。
  • 给用户的真相:模型宣传的「推理能力提升」,可能只是评测游戏的胜利,而非真实进步。

论文最后呼吁:「AI推理的进步,需要方法论先行,而非论文数量竞赛」


(文:机器学习算法与自然语言处理)

欢迎分享

发表评论