大模型也需要自我反思，上海AI Lab合成“错题本”让大模型数学成绩提升13.3%

大模型学习不仅要正确知识，还需要一个“错题本”？

上海AI Lab提出了一种新的学习方式，构建了“错误-反思-修正”数据，让大模型仿照人类的学习模式，从错误中学习、反思。

结果，在Llama3-8B上，数学题的解题准确率平均提升了13.3%。

这种方法名为LEMMA（Learning from Errors for Mathematical Advancement），专门教大模型如何从错误中学习。

作者通过深入分析模型犯下的错误，构建了“错误-纠正”数据集，并利用反思机制，引导模型从错误的思路平滑过渡到正确的答案。

结果，模型不仅获得了准确率的提升，还获得了超强的自主纠错能力和泛化能力。

相关论文已发表于ACL’25 Findings。

用教师模型生成“错题本”

作者首先系统分析了当前主流大模型在数学题中常见的七大类错误（如题意误解、公式混淆、计算失误等），发现这些错误在不同模型之间分布非常一致。

结果显示，大模型犯下最多的错误是误解题意，占比超过40%，随后的两张常见错误类型是公式混淆和计算错误。

了解了模型都会犯哪些错误，接下来就可以有针对性地生成数据了。

过去，整个过程往往通过提高采样Temperature（如T=1.0或T=1.1）来完成。

但作者发现高Temperature采样会引入大量无意义的（如语义不通、毫无逻辑）错误，这种错误实际上是模型不会犯的。

作者认为，这种“已读乱回”式的错误，难以让模型真正提升自我纠错能力。

为此，LEMMA采用了新的方法，让教师模型定向制造“学生会犯的错”，构造“反思式”数据：

具体来说，LEMMA提出了一种全新的反思数据构造策略，主要包括三个环节：

在反思和改正阶段：LEMMA采用了两种更贴近人类思维的纠错方式——一是返回上一步，二是直接推倒重来。

引入第二种修正方式的原因在于，作者发现大模型在有的题目上出错的根本原因，是一开始就选择了低效的暴力解法，这样即使修正了某个中间的错误步骤，也会在后续的推理中犯错，不如从头开始选择更“聪明”的解法。

总的来说，LEMMA构建的是“有目标、有指导、有反馈”的错误数据，让模型能像学生一样反思：“我错在哪？应该怎么改？”

对比多种主流反思修正方法，优势明显。

作者对比了包括RefAug、RFT，ISC、S3C-Math在内的八种主流baseline方法。

结果表明，LEMMA在常见的数学任务上正确率更高，在Llama3-8B上准确率提升了最高达13.3%。

并且，LEMMA有效提升了模型的反思和自我修正能力。

在MathChat任务中，LEMMA在“追问回答”和“错误修正”两大任务上领先SOTA方法（Dart-MATH）多达6.3和4.1个百分点。

同时，LEMMA也显著减少了模型的常见错误。

在生成的数据上进行微调之后，LEMMA一致地降低了各种错误类型，提升模型推理精度。

相比之下，SFT虽然整体准确率提升，但却在某些错误类型（如公式混淆）上反而变差。

另外，作者进行的消融实验也充分验证了“教师模型错误引入（Error Aug.)”和“从头修正（Fresh & Restart）”两个关键模块的有效性。

总之，LEMMA提出了一种让大模型在数学推理中“从错误中有效学习”的创新方法，提升了模型对推理错误的识别与修复能力。

相比以往依赖高Temperature采样和简单拼接的反思数据合成方式，LEMMA 显著提高了“错误-反思-修正”数据的质量，提升了模型的数学推理能力。

论文地址：
https://arxiv.org/abs/2503.17439
代码仓库：
https://github.com/pzs19/LEMMA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

（文：量子位）