中科院提出DEER:让Reasoning提前退出,推理提速50% 准确率涨10%


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

当LLM“想太多”怎么办?

想象你考试时反复验算同一道题,最后反而改错了答案——这就是当前大型语言模型(如ChatGPT的“推理模式”)的困境。它们会像强迫症患者一样生成冗长的推理步骤,不仅拖慢速度,还可能“想太多”导致出错。

论文:DYNAMIC EARLY EXIT IN REASONING MODELS
链接:https://arxiv.org/pdf/2504.15895

问题:长推理链的“双刃剑”

关键矛盾:

  • 效率低:生成1000字分析只为一个选择题答案
  • 易跑偏:过度推理可能引入错误信息(比如强行给“1+1”编造复杂证明)

数据说话:

  • 75%的题目存在“珍珠推理点”(即提前退出也能答对)
  • 36.7%的题目只需不到一半的推理步骤即可答对

DEER如何实现“聪明刹车”?

核心逻辑

  1. 盯梢关键词:监测“Wait”“Alternatively”等思考转折词
  2. 诱导试答:遇到转折点时让LLM先“交卷”
  3. 信心评估:若试答置信度够高,直接终止思考 (其中的置信度计算(简单理解:AI对自己答案的“自信程度”平均值)

举个栗子🌰: AI在解数学题时突然出现“Wait”,DEER会立刻让它输出当前答案。如果此时答案置信度高达99%,就果断喊停,避免后续无效思考。

并行decoding和KVCache管理

效果:推理效率翻倍,准确率不降反升

震撼数据

  • 推理长度缩短31-43% :相当于从写作文变成列提纲
  • 准确率提升1.7-5.7% :少即是多的完美诠释
  • 编程任务更夸张:代码生成长度减少64.9%,通过率反升

对比实验

  • 用“Alternatively”代替“Wait”作刹车信号,准确率更高但效率稍降

case:数学题中的“断点”决策

看论文中的经典案例:

  • 原版推理:LLM反复验证导致死循环,最终超时未作答
  • DEER版:在第一次正确推理后立即刹车,成功得分

(文:机器学习算法与自然语言处理)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往