如今的Reasoning模型都不具备批判性思维!简单问题, Overthinking!离谱


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

“宇宙终极问题的答案是42!”——科幻经典《银河系漫游指南》中,超级计算机用750万年算出了一个荒诞答案。没想到,现实中的大模型竟也上演了类似剧情:当被问到“a的值是多少”这种无解问题时,某顶尖推理模型疯狂输出几千字“思考过程”,最后硬憋出个“2”……

左侧是《银河系漫游指南》的42,右侧是LLM生成的长篇大论

论文:Missing Premise exacerbates Overthinking:Are Reasoning Models losing Critical Thinking Skill?
链接:https://arxiv.org/pdf/2504.06514

问题核心

MiP-Overthinking:当问题缺少关键信息时,LLM会进入“死循环思考”。比如问“小明买了打折书花了19.5元,原价多少?”(故意隐藏折扣率),人类会立刻反问“打几折?”,而LLM却开始脑补:

  • 假设折扣率是8折→计算
  • 怀疑自己算错→重新假设7折→再算
  • 反复纠结→最终瞎猜答案
对比人类与AI应对缺失前提问题的差异

实验

研究团队设计了四个“陷阱题库”:

  1. 公式陷阱:直接问“ln(a+b)的值”(a、b未定义)
  2. 身体互换:把数学题的问题和题干对调(如“吃饼干”问题配“买铅笔”的提问)
  3. 关键删除:去掉必要条件(如删除“每周跑3次”中的次数)
  4. 高阶数学:手动删除复杂题的关键条件

结果发现:越复杂的模型越容易中招

发现

通过对比10+个主流模型,结论颠覆认知:

  • 推理模型(如DeepSeek-R1):遇到陷阱题时,回答长度暴涨2-4倍,但正确率几乎为零
  • 非推理模型(如GPT-4o):回答简洁,更快识破陷阱
不同模型在陷阱题上的回答长度对比

更扎心的是:推理模型其实早发现问题!数据显示它们在前几步就意识到“题目有问题”,但就像强迫症患者停不下来,继续写小作文自圆其说……

现场还原

来看某顶级模型的“迷惑行为大赏”:
题目:计算((γ))+Ξ的值(γ、Ξ未定义)
心路历程

  1. 怀疑是希腊数字→算出3+60=63
  2. 纠结括号含义→假设是编程符号
  3. 联想化学符号→怀疑是表面张力
  4. 最终结论:答案是63!

(实际这题根本无解)

模型回答片段截图,标注彩色思考路径

一些启发

论文戳破当前LLM Reasoning训练的三大盲区:

  1. 奖励机制偏差:RL训练过度奖励“长答案”
  2. 批判思维缺失:没有教模型说“我不知道”
  3. 思维传染性:蒸馏训练会传播过度思考

解决方向:

  • 给LLM装“刹车系统”:检测到冗余思考时强制停止
  • 训练“质疑能力”:增加识别无效问题的专项训练

(文:机器学习算法与自然语言处理)

发表评论