跳至内容
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
最近,一篇论文把ChatGPT、Gemini等顶尖LLM模型送进了「小学数学考场」,结果让人大跌眼镜:这些能在微积分考试拿高分的「LLM学霸」,面对最基础的加法题时,竟频频翻车!
就像人类学霸突然不会算1+1,研究发现:大语言模型的数学能力可能只是「死记硬背」的假象。这个结论不仅挑战了我们对AI的认知,更揭示了当前技术路线的重大隐患。
论文:Do PhD-level LLMs Truly Grasp Elementary Addition?Probing Rule Learning vs. Memorization in Large Language Models
链接:https://arxiv.org/pdf/2504.05262
实验:用「幼儿园加法题」考倒LLM
研究者设计了三道「送分题」,却成了LLM的「送命题」:
符号替换测试:把数字换成🌙⭐️等符号,要求按规则计算(如🌙+⭐️=🐶)
交换律陷阱:故意调换数字顺序(如123+456 vs 456+123)
惊人发现:LLM算加法全靠「作弊」?
ZS = Zero-Shot, S = Symbolic
显示,所有模型在符号题上的表现都遭遇「膝盖斩」。最夸张的Claude模型从99.8%暴跌到7.5%,就像背熟乘法表的学生,突然被要求用甲骨文做题。
人类做加法时,数字位数越多越容易出错,但错误率应该是稳定上升的。而LLM却出现「20位算得比15位准」的诡异现象,说明它可能在匹配记忆中的特定数字组合。
记录到1700多次「A+B≠B+A」的错误,相当于宣称「3+5≠5+3」。这种基础逻辑漏洞,彻底暴露LLM没有真正理解加法本质。
越教越差?LLM的数学学习悖论
更反直觉的是:当研究者把加法规则写在提示词里,模型表现反而更糟!
比如给出「个位相加满十进一」的规则后,多数模型准确率下降超80%。这就像教孩子解题时,TA捂着耳朵说:「别讲原理!直接给我答案抄!」
唯一例外是「自问自答」模式:让模型先编一套自己的计算步骤,反而能维持原有水平。这暗示当前模型的「数学思维」本质上是用语言描述记忆中的答案模式,而非真正执行计算。
反思:LLM数学能力的「皇帝新衣」
论文戳破了行业内的美好幻想:当前模型在复杂数学题的高分,可能只是「看答案猜套路」的假象。就像通过刷题背答案混过考试的学生,一旦遇到没见过的题型(如符号题),立刻原形毕露。
中所有模型的「数值题vs符号题」表现对比,像极了考试中的「开卷考vs闭卷考」——能抄笔记时都是学霸,真正理解时全是学渣。
未来展望:模型如何真正学会1+1=2
评估体系需要革命:现有数学评测就像「开卷考」,急需引入符号题等「闭卷考」机制
架构设计新思路:要让LLM像人类一样理解数学,可能需要融合符号逻辑系统,而非单纯扩大数据量
正如论文结尾的警告:在医疗、金融等关键领域,若盲目相信模型的「伪数学能力」,可能引发灾难性后果。
(文:机器学习算法与自然语言处理)