中科院提出DEER：让Reasoning提前退出，推理提速50% 准确率涨10%

2025-04-25 作者机器学习算法与自然语言处理

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

当LLM“想太多”怎么办？

想象你考试时反复验算同一道题，最后反而改错了答案——这就是当前大型语言模型（如ChatGPT的“推理模式”）的困境。它们会像强迫症患者一样生成冗长的推理步骤，不仅拖慢速度，还可能“想太多”导致出错。

论文：DYNAMIC EARLY EXIT IN REASONING MODELS
链接：https://arxiv.org/pdf/2504.15895

问题：长推理链的“双刃剑”

关键矛盾：

效率低：生成1000字分析只为一个选择题答案
易跑偏：过度推理可能引入错误信息（比如强行给“1+1”编造复杂证明）

数据说话：

75%的题目存在“珍珠推理点”（即提前退出也能答对）
36.7%的题目只需不到一半的推理步骤即可答对

DEER如何实现“聪明刹车”？

核心逻辑

盯梢关键词：监测“Wait”“Alternatively”等思考转折词
诱导试答：遇到转折点时让LLM先“交卷”
信心评估：若试答置信度够高，直接终止思考（其中的置信度计算（简单理解：AI对自己答案的“自信程度”平均值）

举个栗子🌰： AI在解数学题时突然出现“Wait”，DEER会立刻让它输出当前答案。如果此时答案置信度高达99%，就果断喊停，避免后续无效思考。

并行decoding和KVCache管理

效果：推理效率翻倍，准确率不降反升

震撼数据

推理长度缩短31-43% ：相当于从写作文变成列提纲
准确率提升1.7-5.7% ：少即是多的完美诠释
编程任务更夸张：代码生成长度减少64.9%，通过率反升

对比实验

用“Alternatively”代替“Wait”作刹车信号，准确率更高但效率稍降

case：数学题中的“断点”决策

看论文中的经典案例：

原版推理：LLM反复验证导致死循环，最终超时未作答
DEER版：在第一次正确推理后立即刹车，成功得分

（文：机器学习算法与自然语言处理）

发表评论取消回复