大模型在复杂推理任务上取得了显著进展,CoT推理过程往往能提升模型回答复杂问题的准确性。然而,过长的链式推理会导致“过度思考”问题:生成冗长而重复的推理步骤,极大增加计算开销和延迟,对简单任务而言更是得不偿失。
最近一系列研究工作探讨了如何在保证推理性能的同时提高推理效率,包括缩短不必要的推理链长度以及自适应地决定何时需要显式推理等策略。
这篇笔记聚焦在最近比较热门的研究方向:如何让模型只在“必要的时候”思考? 我总结了 10 篇代表性论文,从精简思维链到自适应判断是否需要思考,下面按编号依次分析十篇论文的动机、方法、实验、创新与局限。
摘要
-
• 系统梳理了 10 篇最近关于「减少链式推理冗余」与「自适应触发 CoT」的论文。 -
• 结论高度一致:在保证甚至提升准确率的同时,可显著削减 token 开销与推理延迟。 -
• 主要技术路线分三类:
-
1. 直接缩短:通过奖励设计或长度硬约束,让模型精简思考过程; -
2. 动态早停:在推理时实时判断并提前结束; -
3. 按需思考:模型自动决定是否展开思考推理。
大部分方法以强化学习为核心,控制 token、分离损失或阶段式奖励塑形,也有无需再训练的推理时策略。
太长只看表格版:

1. Concise Reasoning via Reinforcement Learning
https://arxiv.org/abs/2504.05185
方法与思路:
提出Concise Reasoning,通过强化学习(RL)鼓励大型推理模型生成更简洁的推理过程。作者首先通过数学分析指出,常规的强化学习训练(如人类反馈强化学习RLHF)会内在地激励模型生成更长的回答,以降低训练损失,这可能导致人们误以为“更长的推理链=更高的准确率”。
相反,他们观察到准确率与简洁性存在自然相关:在数学等领域的中等规模数据集上进行RL微调时,模型的推理长度往往最初会变短且准确率不降。据此,作者引入二阶段强化学习微调:在已有的推理模型上,用少量额外的题目进行第二阶段RL训练,引入奖励促使模型在保持准确的同时尽可能缩短思维链。
训练策略与推理机制:
第二阶段的RL训练以一个“小数据集上的优化”进行,奖励函数鼓励产生日志式推理步骤更精炼但答案正确的输出。作者还比较了不同RL算法, 实验发现,GRPO虽共享PPO的一些特性,但易出现训练塌陷模式,使其在追求简洁推理时稳定性不足。因此,过度依赖标准RL优化可能会出现不可靠情况,表明需要设计专门的训练策略防止模型完全崩溃式地缩短推理而牺牲正确性。
实验设置与结果:
作者在一系列数学和逻辑推理基准上验证了Concise Reasoning框架。结果表明,经过二次RL微调后,模型推理链长度显著减少,而准确率不降反升或至少保持不变。这说明适度的简洁化并未损害模型推理能力,反而可能消除了冗余步骤让模型更专注于核心推理。论文还强调了冗长回答未必带来更高准确率这一结论的普适性,呼吁社区重新审视一味追求长链式思考的假设。
创新与局限:
创新之处在于从强化学习优化角度揭示了长推理链的成因,并提出了简单实用的二阶段RL微调来缩短推理过程。与传统RLHF不同,作者专门关注推理过程的长度维度,提出准确率与简洁性可以兼得。然而,该方法需要在额外的小数据集上进行二次RL训练,这可能对模型训练资源有额外要求。
此外,GRPO算法本身出现的训练不稳定(collapse)提示需要更稳健的优化方法,后续工作或可改进RL算法来避免此问题。适用场景方面,Concise Reasoning适用于已经过大量推理任务训练的大型推理模型(如GPT类模型)的后期精调,在推理密集型任务(如数学、逻辑)中减少无关冗长步骤,以降低计算开销。
2. Dynamic Early Exit in Reasoning Models
https://arxiv.org/abs/2504.15895
方法与思路:
Chenxu Yang等人提出Dynamic Early Exit in Reasoning (DEER)方法,旨在在推理生成过程中动态截断链式思维,从而避免模型“想太多”。与固定长度或静态策略不同,DEER在模型推理过程中实时监控特定标志(例如在提示中注入的特殊标记如“Wait”表示阶段间停顿)。当检测到模型对当前阶段的候选答案信心较高时,动态触发提前终止后续推理链的生成,并直接产出最终答案。这一机制允许模型自适性地截断推理过程,避免无效的额外思考步骤。
训练策略与推理机制:
值得注意的是,DEER不需要额外训练,纯属推理时策略。它可以无缝嵌入现有的大型推理模型中,通过观察推理过渡点(如模型生成某些词、“Wait”标记等)来判断是否进入早停。
具体实现中,模型在推理链的分段(如一道题的不同解题阶段)评估自己给出的部分答案的置信度,如果某一步就已经高置信度地得到正确答案,则终止进一步的链式思考。这样,简单问题将很快结束推理,复杂问题则继续深思,从而达到按需思考。
实验设置与结果:
作者在10个推理基准上评估了DEER,包括数学题(如GSM8K、MATH-500)、竞赛题(AMC 2023、AIME 2024)、编程题(LiveCodeBench)等。他们在11种不同系列和规模的最先进推理模型上测试,结果DEER在不损失准确率的情况下将推理链长度平均缩短19.1%到80.1%,同时准确率略有提升0.3%~5.0%。
例如,在一些模型上平均减少约三至四成的推理步骤,并提高准确率约1.7%~5.7%。这说明过度冗长的推理并非必要,适时提前得出结论反而有助于提升准确率,可能因为减少了“想多了反而出错”的情况。
创新与局限:
DEER方法的最大亮点在于无需额外训练即可提升推理效率,易于部署于现有大模型。通过动态检测模型置信度实现早停,避免人为设定固定阈值或长度,上述做法通用且有效。不过,其效果依赖于模型能够产生反映信心的中间迹象(如特殊标记和概率),因此对模型本身行为模式有一定要求。
局限在于,对于某些没有明显阶段性标志的任务,或模型置信度不可靠的情形,DEER可能较难判断何时退出。此外,提前终止可能错过一些后续纠错步骤,在模型偶尔前期自信但实际错误的情况下可能产出不正确答案。适用场景方面,DEER非常适合于推理步骤较长的模型在推理阶段进行插件式优化,例如部署在实时交互系统中以降低延迟,同时能在多数实际查询上保持或提升准确率。
3. Reasoning Models Can Be Effective Without Thinking
https://arxiv.org/abs/2504.09858
方法与思路:
作者质疑“显式思考是否总是必要”的假设,提出通过直接跳过思维链来提高效率的方法。他们研究了一种称为**“NoThinking”的简单提示策略,让模型不经chain-of-thought逐步推理,直接输出最终答案。具体而言,对于一个经过深度推理微调的强大模型(DeepSeek-R1-Distill-Qwen),作者通过巧妙的prompt设计引导它不展开详细推理**。令人惊讶的是,在控制总token数量相同时,这种无思考直接作答的模式在许多情况下性能优于显式思考。
训练与推理策略:
NoThinking并非通过再次训练模型获得,而是一种推理阶段的提示技巧。作者发现,只要引导模型省略解释步骤,其内部知识和直觉仍可解决不少问题。为进一步提升性能,他们提出并行扩展 (parallel scaling) 的思路:独立地让模型直接回答同一道题N次(相当于并行产生N个不带推理的候选答案),然后采用结果聚合策略选出最佳答案。
聚合可利用任务相关的验证器(如对代码运行测试,数学题比对标准答案)或简单的信心打分选择最佳。通过并行采样多个直接答案,扩大覆盖面,再筛选出正确答案,弥补了单次直觉作答可能出错的不足。
实验设置与结果:
作者在7个具有挑战性的推理数据集上测试,包括数学问题求解、形式定理证明、代码生成等场景。实验在限定token预算的前提下比较“NoThinking”与常规“Thinking”模式。结果表明,在低开销设置下(例如限制总推理长度为700个token),NoThinking模式在多个数据集上显著胜出:例如在数学竞赛AMC 2023题目上,NoThinking取得51.3分而Thinking仅有28.9分。当允许增加并行输出的数量(提升pass@k),NoThinking的表现进一步逼近甚至赶超Thinking。
综合来看,作者的并行无思考方案在相近的延迟下超越了多种Thinking基线,而在达到相当于Thinking需要9倍延迟的性能水平时,NoThinking方案的效率优势极为明显。换言之,只需付出较小计算成本,直接作答多次并选优就能达到原本需要深度推理才能实现的效果。
创新与局限:
本研究颠覆了传统观念,证明“大模型有时不经推理也能解题”,并提出了并行采样+验证的新范式来替代单线程的链式推理,在低延迟场景下效果突出。它的创新点在于将问题转化为可并行处理的探索:模型基于直觉给出多个答案,再通过外部手段选对。这种方法尤其适用于有明确验证机制的任务(如数学有标准答案、编程题可以测试运行)以及对时延敏感的场景(通过并行降低总时延)。
然而局限也在于:对于无法轻易验证正确性的开放问答或创意性任务,NoThinking策略难以保障输出质量。此外,简单题目模型不经推理即可正确,但极其复杂的问题仍可能需要链式推理来分解步骤。因此一个折中方案是根据任务难度选择模式——这正是接下来许多自适应思考方法要解决的问题。作者的研究为后续工作提供了参考基线,即在低计算预算下追求高推理性能可以不走传统深度思考路线。
4. ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning
https://arxiv.org/abs/2504.21370
方法与思路:
提出ShorterBetter框架,这是一种强化学习方法,让模型自主学习最优推理长度。作者定义了“样本最优长度”(Sample Optimal Length, SOL)概念:对于每个问题,让模型采样生成多个解答,选出其中最短的正确解答**长度作为该问题的SOL。
在RL训练中,将生成符合SOL的长度作为奖励信号,指导模型倾向于用最精简但正确的推理过程来解题。这一思路不需要人工为每道题指定理想长度,而是由模型自身探索发现**不牺牲准确率的最短推理。
训练策略与模型架构:
ShorterBetter采用无监督信号来引导模型。具体做法是:在训练过程中,对每个训练样本问题让模型解多次题,从这些尝试中确定SOL,然后奖励那些接近SOL长度的输出。
作者将ShorterBetter应用于DeepSeek-Distill-Qwen系列模型,包括1.5B和7B参数规模的版本,作为基座模型进行微调。模型架构本身不变,但通过RL使其内部学会控制链式思考的冗余。这种训练完全不依赖人工标注(如不需要人为标注每题应是多少步推理),属于自适应优化推理长度的新思路。
实验设置与结果:
在数学推理等任务上测试显示,ShorterBetter使模型的输出长度减少了50%~80%,而准确率基本保持不变。无论在训练用的域内任务,还是跨域的陌生任务上,该方法都能让模型显著缩短解题步骤且不损失性能。进一步的链路分析表明,经过ShorterBetter训练后,模型的推理轨迹更为精炼:减少了不必要的重复、自我验证步骤,以及对无关分支的过度探索。这验证了SOL奖励引导下模型的推理过程确实在向高效方向优化。
创新与局限:
ShorterBetter的创新点在于提出了样本最优长度这一自动度量指标,用于RL训练中作为信号,从而无需人工介入地让模型学会“自己裁剪废话”。相对于直接强行截断或加入惩罚,SOL奖励更为平滑且任务自适应,因为不同问题复杂度不同,模型针对每题找到合适的推理深度。
局限性方面,ShorterBetter需要模型能够在训练中多次解题并评估正确性,因而适用任务多为有标准答案或可判定正误的场景(如数学、逻辑题)。对于答案开放的任务,其“正确/错误”判别和SOL定义会更困难。此外,多次采样输出增加了训练开销。尽管如此,此方法非常适合训练阶段为模型植入压缩推理的能力,适用在希望模型推理高效化的应用中,尤其是那些注重实时性或成本敏感的推理服务。
5. Think Only When You Need with Large Hybrid-Reasoning Models
https://arxiv.org/abs/2505.14631
方法与思路:
引入Large Hybrid-Reasoning Model (LHRM)的概念,提出模型应能根据查询动态决定是否需要链式思考。他们的方法简单概括为标题所示:“仅在需要时才思考”。具体而言,LHRM包含两种模式:直接回答模式和链式深度思考模式。对于简单查询,模型应当跳过冗长思考直接给出答案;而遇到困难问题,则启用CoT进行多步推理。这要求模型具备自适应选择思考模式的能力。
为实现这一点,作者设计了两阶段训练流程:首先进行混合微调(Hybrid Fine-Tuning, HFT)作为冷启动,让模型初步具有两种模式输出的能力;然后施以在线强化学习,提出 Hybrid Group Policy Optimization (HGPO)算法,进一步隐式学习何时采用哪种模式。通过RL奖励引导,模型逐步学会根据输入复杂度自主选择直答或深思。
训练策略与推理机制:
第一阶段HFT可能使用有标注的简单/复杂问题分别对应直答/长答的数据,对模型进行有监督微调,从而建立基本的“模式切换”能力。第二阶段HGPO则在交互式环境下训练一个策略:该策略可以被看作是模型自身,根据输入特点输出一个“选择”信号或直接决定采用哪种思维流程。HGPO作为一种群组式策略优化方法,可能将思考与回答两个子策略作为一个整体来优化(类似多任务RL)。
作者还提出了“混合准确率”(Hybrid Accuracy)这一评估指标,用于量化模型在混合推理设置下的能力。该指标可能综合考察模型正确选择模式并正确回答的情况。推理时,LHRM会首先判断问题难度,如果处于简单阈值则直接输出答案,否则进入详细推理步骤再答复。
实验设置与结果:
实验涵盖不同难度和类型的查询,结果显示LHRM能够对各类问题难度自适应地执行混合推理。与始终深度推理的LRM模型和不推理的普通LLM相比,LHRM在推理能力和通用任务上均有更优表现,同时大幅提升了效率。
作者指出,LHRM在保持复杂任务高准确率的同时,对简单任务避免了不必要开销,实现了更好的性能–效率折中。可见,通过让模型学会“不用每次都想那么多”,既节省计算又不降低整体效果。该工作表明,引入混合思考范式的模型能够全面胜过传统始终单一模式的模型,为构建真正智能高效的推理系统提供了范例。
创新与局限:
本文首次明确提出了“大规模混合推理模型”的概念,将人类那样可跳过步骤的思维习性融入AI模型中,是一大创新亮点。通过两阶段训练+新型RL算法(HGPO)实现模式选择,相比之前简单规则或单阶段训练更加系统和有效。同时定义了混合准确率指标为社区研究提供了评估工具。不过,LHRM的训练需要专门设计的数据和过程:如何准确划分简单/复杂问题,如何设定奖励权衡效率与准确,这可能需要精调。
其局限在于,模式判别错误的代价:若模型将一个复杂问题当简单处理,可能给出错误直答;反之亦然。因此在安全关键场景需要确保模型宁可多想不错过。在应用场景上,LHRM适合部署在开放域问答系统或助手系统中,能够根据用户提问实时决定是否需要详细解释,从而提升响应速度又保证必要时的推理深度。微软研究团队的这一成果表明,未来的通用AI或将同时具备“快思”和“慢思”两种能力,并能自主切换。
6. Thinkless: LLM Learns When to Think
https://arxiv.org/abs/2505.13379
方法与思路:
提出 Thinkless 框架,使大型语言模型 学会何时需要进行链式思考。它让模型能够在“简洁回答”和“详细推理”两种输出模式之间进行选择。具体实现上,作者在模型中引入了两个控制token:<short>
表示要求模型给出简短直接的回答,<think>
表示触发详细的链式推理。
通过在训练数据中加入这两个特殊标记并利用强化学习进行优化,模型可以学习根据任务需要输出相应模式的答案。核心算法是作者设计的“解偶联组相对策略优化” (Decoupled Group Relative Policy Optimization, DeGRPO)。该算法将 混合推理 的学习目标分成两部分:
-
• 控制token损失:鼓励模型正确选择使用 <short>
还是<think>
; -
• 回答损失:提高生成答案本身的准确率。
通过这种目标解偶联,训练可以分别调节“模式选择”和“回答正确性”这两个子目标的权重,防止单一优化造成的不平衡。这尤其有助于避免直接应用传统RL算法(如GRPO)时出现的 坍塌现象,确保训练稳定。
训练策略与推理机制:
Thinkless首先需要一个具备链式推理能力的预训练或微调模型作为起点。然后进行两阶段训练:预热阶段,用一定的数据让模型适应使用<short>
和<think>
标记(可能是有监督微调);接着是强化学习阶段,采用上述DeGRPO算法。训练过程中模型会尝试两种模式解题,根据任务复杂度和模型自身能力获得奖励:简单题使用<short>
回答且正确会得到高奖励,复杂题如果用<short>
导致错误则奖励低,鼓励其使用<think>
展开推理。
这种策略逐步让模型学会对不同题自动选标记。“Decoupled”策略保证了模型既在模式判别上学到策略,又在具体解题上不退化。推理时,对每个输入,模型自主地先输出<short>
或<think>
标记,然后据此生成简洁答案或思维链,从而实现动态思考。
实验设置与结果:
作者在多个基准(如Minerva Algebra、MATH-500、GSM8K等数学推理任务)上验证了Thinkless。结果显示,与始终使用长链推理相比,Thinkless模型大幅减少了长链推理的使用频率50%~90%,也就是大约一半甚至更多情况下模型选择了简洁回答模式。
由于避免了许多不必要的长推理步骤,推理效率显著提升。同时,通过合理选择何时深入思考,模型依然保持甚至略有准确率提升(因为消除了过度思考带来的一些错误)。具体例如,在一些数学数据集上,Thinkless能将长链思考的使用减少约一半到九成,且整体性能不减。
创新与局限:
Thinkless的创新在于引入了显式控制信号(特殊token)让模型内部学会模式切换,并通过改进的RL算法确保训练效果。相较于隐式地学,显式token使得模式选择更直观可控。DeGRPO算法的解偶联优化思想也具有启发性:它把“何时思考”这一元问题和“如何解题”**问题分开,使得模型不会为了追求简洁而忽略正确性,反之亦然。这种稳定训练的方法可供后续其他多目标优化任务借鉴。
局限性方面,Thinkless需要在训练数据或环境中同时涵盖简单和复杂任务,以便模型学习差异。这可能需要精心构造或挑选训练集。同时,引入特殊token对模型结构有轻度侵入**(需要模型识别新标记),在实际部署时需要支持这种接口。适用场景上,Thinkless非常适合离线训练出一个通用模型,再在推理时广泛用于各类任务,其优势在于无需额外外部判断模块,模型内部自带决策,可用于例如通用问答系统、自动求解器等希望兼顾速度和复杂度的应用中。
7. ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning
https://arxiv.org/abs/2504.01296
方法与思路:
提出 ThinkPrune方法,从训练角度剪枝过长的思维链。他们关注那些经过推理强化训练后“思维冗长”的模型(long-thinking LLMs),常常生成大量冗余步骤。已有减少推理长度的探索多是强制提前终止(如给定token上限后强行收尾),而非让模型主动优化推理过程。ThinkPrune旨在让模型本身学会在有限预算内整合思维:做法是在强化学习训练中设置一个token上限,如果模型产生的思维链和答案长度超过此上限,那么超出部分直接被截断且给予零奖励。
简而言之,模型若想获得正向奖励,就必须在限制长度内完成推理并得出正确答案,否则就相当于白回答。这样的机制逼迫模型压缩冗长的推理。为了避免一次性剪太多影响性能,作者采用迭代剪枝:多轮RL训练,逐步收紧长度阈值,每一轮在比上轮更小的上限下继续训练模型。这使模型逐步适应愈加严格的长度要求,最大限度保持性能。
训练策略与模型架构:
ThinkPrune在RL训练环节对模型施加长度约束。模型架构上无改动,但在强化学习的环境中,当输出超过设定长度时,环境截断输出并返回零分,否则依据回答正确性给分。这相当于将“简洁”作为硬性要求融入模型优化目标中。训练算法上,作者未明确说明可能使用PPO或策略梯度等,但关键是多阶段渐进约束。
在第一次RL微调时,也许允许一个较大的token上限并把之前长思维的模型初步拉短;接着逐轮降低上限,模型需要进一步精简自己的推理。性能保持通过逐步调整来实现,每一步都让模型有机会微调以适应新的长度限制,而不会一下子“剪废”。作者以DeepSeek-R1-Distill-Qwen-1.5B作为实验对象之一,证明即使是小模型也能通过ThinkPrune获益。
实验设置与结果:
在数学竞赛问题AIME 2024的数据集上,应用ThinkPrune后模型的推理长度减少了一半,而性能仅下降约2%。这是一项极佳的长度-性能权衡:推理步骤砍掉50%,准确率几乎不变,仅略有下降。另外观察到剪枝后的模型学会绕过不必要步骤,但核心的推理流程仍完整。这说明模型并未变得草率,而是更高效地求解问题。
除了AIME,作者亦在其他推理基准上测试,结果均表明ThinkPrune能有效缩短推理且保持结果可靠。这些成果充分验证了逐步RL剪枝思路的可行性。该论文的代码也已开放,方便研究者进一步使用。
创新与局限:
ThinkPrune的创新在于将长度约束融入RL训练,让模型自适应地压缩推理过程。相比简单截断或外部干预,它让模型自身学到在有限预算内做最优推理,是内生的优化。迭代收紧限制的策略也体现出工程上的巧妙,确保模型逐步过渡,平稳剪枝。这种方法非常适合已经通过RLHF获得长推理能力的模型做后处理微调,使其变得精干。局限性方面,此方法需要任务有明确的完成判定(能判断回答正确与否),并且需要多轮训练,训练开销较大。
另外,给定长度限制可能需要一些试验调整,以平衡各任务下的长度需求。应用场景上,ThinkPrune适用于那些已经表现很好但推理冗长的模型进行精细打磨,特别是在算力有限但希望利用强推理模型的情况下,通过剪枝降低部署成本。例如,在学术测验、竞赛题解等领域,一个经ThinkPrune调优的模型可以用更少的解题步骤达到几乎相同的成绩,从而显著提升单位推理成本的性价比。
8. AdaCoT: Adaptive Chain-of-Thought Triggering via Reinforcement Learning
https://arxiv.org/abs/2505.11896
方法与思路:
提出AdaCoT框架,让模型能自适应决定何时触发链式思维 (CoT)。与其说AdaCoT是一种具体模型,不如说是为已有LLM增加一层决策机制。它将是否使用CoT这个问题形式化为一个帕累托优化问题:在保证模型性能的同时,尽量减少不必要的长推理,以降低计算成本。对于简单输入,希望模型直接回答;对复杂输入,则调用链式推理以获得更好的答案。AdaCoT采用强化学习(PPO算法)来动态调整触发CoT的决策边界。
具体来说,通过在训练中对模型加入惩罚项(penalty)来表示使用CoT的“花费”,并不断调整该惩罚系数,模型会学到在何种隐含复杂度下才值得投入CoT。换言之,模型内部将隐式地为查询打分,超过某复杂度就触发CoT,否则直接输出。选择性损失屏蔽(Selective Loss Masking, SLM)是AdaCoT引入的一项技术细节,用于在多阶段RL训练中防止决策边界坍塌。SLM通过只在合适的样本上计算/传播某些损失,保持“什么时候用CoT”这一决策的稳定性,避免模型学到极端策略(比如始终不用或始终用CoT)。
训练策略与推理机制:
在AdaCoT训练过程中,设计了多阶段的方案。开始阶段可能给模型较宽松的CoT触发策略,然后逐步通过调整惩罚让模型更“吝啬”地使用CoT。同时SLM确保在训练的不同阶段,模型既能探索新策略又不会遗忘之前学到的平衡。训练时的奖励由任务性能和开销代价两个部分构成,使模型学会在准确率与效率间找到最佳折中。
推理时,AdaCoT增强的模型会为每个输入计算一个隐含复杂度指标,内部与学到的阈值比较。如果复杂度高,则自动在回答前生成一段CoT思维过程;如果低,则直接输出简短答案。这种机制和前述Thinkless等类似,但AdaCoT更加强调通过不断调整惩罚系数来达到Pareto最优,而非人为设定固定阈值。
实验设置与结果:
在作者的实际产品流量测试集上,AdaCoT取得了显著效果。它将CoT的触发率降低到了仅3.18%(也就是只有约3%的用户查询被认为需要详细推理),同时平均响应字数减少了69.06%。更重要的是,对于真正复杂困难的问题,AdaCoT仍能保持高性能,与总是使用CoT的模型精度相当。这说明AdaCoT成功地在节省计算与保证效果之间找到了平衡。在简单问题上几乎总是直接答复又快又好,而对那少部分复杂问题也不偷懒,该用CoT时还是会用。
除了产品数据,作者可能还在公开基准上测试以验证通用性(虽然摘要中未详述,但论文正文或附录提到了所用评测数据集及结果)。总体而言,AdaCoT的模型在大幅减少推理开销的同时,复杂任务表现接近原始模型,实现了令人满意的效率提升。
创新与局限:
AdaCoT的主要贡献在于将自适应推理清晰地建模为多目标优化问题,并利用PPO强化学习给出了一个求解方案。尤其是引入选择性损失屏蔽来解决训练中策略坍塌问题,使多阶段训练顺利进行。相比基于规则或启发式的触发策略,AdaCoT提供了理论指导的优化过程,可谓更“optimal”。
然而,该方法似乎未公布开源代码(文中未提及公开代码),加之涉及产品流量测试,可能属于企业内部实现,这在复现性上是个限制。另外,AdaCoT训练需要大量交互数据来摸索Pareto前沿,如果缺乏这种评估环境,小规模训练效果未必理想。它的适用场景主要是工业部署的大模型,希望在实际流量中自动决策推理深度,平衡用户体验(速度)和效果。例如客服问答系统,可借助AdaCoT减少简单FAQ的延迟,同时确保疑难问题上不降低回答质量。
9. Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL
https://arxiv.org/abs/2505.10832
方法与思路:
Songjun Tu等人提出AutoThink框架,旨在通过多阶段强化学习来培养模型的自适应推理能力。他们的切入点是从一个特殊现象入手:在一种R1风格的深度推理模型(指经过类似OpenAI GPT-4 “推理加强版”微调的模型)上,作者发现只需在提示里插入一个简单的省略号“…”,就能随机地触发模型有时进行思考、有时直接回答的两种行为。这个实验暗示这些经过深度思考微调的模型潜在具有可控的推理开关,只是尚未被系统利用。
基于此,作者提出AutoThink,通过分阶段的RL训练逐步优化模型的推理策略:仅当必要时才显式推理,否则尽量直接简洁回答。多阶段训练中使用逐步奖励塑形(stage-wise reward shaping),一开始给予较宽松标准,逐步收紧,让模型慢慢学会准确判断何时需要显式chain-of-thought。
训练策略与推理机制:
AutoThink框架以R1风格蒸馏模型为基底(如DeepSeek-R1-Distill-Qwen等),这些模型原本倾向长链推理。第一步,利用前述发现的“省略号触发”技巧,构造一个训练环境:模型在带有或不带“…”的提示下表现出不同推理倾向,这提供了一个概率控制手段。
接着,通过多阶段RL,使用分层奖励:例如,在初始阶段,只要模型在简单题上略微倾向少想就奖励,逐步地,到最后只有在真正需要时才推理才给高分。这样逐层逼近理想策略。为了防止训练中策略不稳定,可能也采用类似AdaCoT的损失屏蔽或分离手段(文中未提SLM,但用了阶段性reward shaping达到类似目的)。
最终,模型学会根据问题复杂度动态决策:难题触发显式思考,简单题直接省略过程给答案。AutoThink的优势在于可无缝集成到任意R1风格模型中,无需改变模型架构,仅通过优化策略即可。
实验设置与结果:
在五个主流数学基准上测试表明,AutoThink在准确率-效率权衡上优于近期的一些提示策略和RL剪枝方法。具体地,针对DeepSeek-R1-Distill-Qwen-1.5B模型,AutoThink使其在保持甚至提升6.4%准确率的同时,将推理token使用减少52%。这意味着原本模型100步的推理现在用不到50步就解决了,而且正确率还更高了。
可见,AutoThink成功地又快又好:大幅度削减推理冗余,反而因减少了出错环节使准确率提高。这一结果非常突出,也再次证明了过度思考并不总是好事。AutoThink作为通用方法已被验证可拓展到不同模型上,并且项目代码已开放,便于社区进一步使用和改进。
创新与局限:
AutoThink的一个巧妙创新在于发现并利用了“…触发模式”这种大模型意外的潜在功能,为实现自适应推理提供了简洁方案。同时,多阶段RL与奖励塑形的结合,使模型策略优化循序渐进,避免一步到位的困难和不稳定。相比同时期其他工作,AutoThink直接报告了准确率提升,说明合理减少冗余还能带来正效应。
可能的局限包括:主要聚焦数学领域,AutoThink在其他类型推理任务(如常识问答)上是否同样有效需验证;此外,它假定了已有一个“R1风格”强推理模型作为起点,对基础模型的依赖可能限制其普适性。AutoThink的适用场景显然是在需要大幅优化推理效率的场合,特别是当我们已经有一个效果强大的推理模型,希望在不损失太多精度下把它提速。如科研推理服务、数学助理等,都可通过AutoThink将模型调教得遇难则详解,遇易不啰嗦。
10. AdaptThink: Reasoning Models Can Learn When to Think
https://arxiv.org/abs/2505.13417
方法与思路:
Jiajie Zhang等人提出AdaptThink算法,从RL训练角度实现让模型学会何时思考。他们首先证明了一个动机现象:对于相对简单的任务,让推理模型跳过思考直接给答案(NoThinking)在性能和效率上都是更优选择。也就是说,面对简单问题时,要求模型不展开chain-of-thought反而正确率更高、速度更快。由此出发,AdaptThink通过RL来教会模型根据问题难度自适应选择最优思考模式。它具有两个核心组件:
-
• 带约束的优化目标:鼓励模型尽可能选择NoThinking直答,同时保持总体性能不下降。这类似在奖励中加了约束条件,迫使模型倾向于无需思考即可解答,但又不给它随便乱答的空间。 -
• 重要性采样策略:在on-policy训练时平衡有思考和无思考样本的比例。因为一开始模型可能偏好一直想或者一直不想,重要性采样确保训练时两种模式都有足够探索,让模型冷启动并持续地在两种模式间探索与利用。
综合这两个设计,AdaptThink让模型在训练过程中逐步掌握根据问题难易选择模式的能力。
训练策略与推理机制:
AdaptThink在RL训练中采用了约束优化方法,可能使用拉格朗日乘子或者在奖励函数中添加惩罚项来实现“鼓励NoThinking但必须保证准确率”这一目标。重要性采样则在每一训练batch或episode中,调整采样概率,使模型既看到自己使用Thinking模式的结果,也看到使用NoThinking的结果,从而不会陷入某一种模式不可自拔。
训练后期,当模型掌握了模式选择,可以想见其行为会类似于前述方法:简单问题直接回答,困难问题详加推理。与Thinkless不同,AdaptThink并未使用额外control token,而是通过纯RL策略学出隐含的决策边界。
推理阶段,这个策略已融入模型参数,模型接到输入后会内隐地判定难度并相应地产生简短回答或详细CoT。同一输入下,AdaptThink模型相当于同时具备两种行为的可能性,但会根据所学策略输出最优模式的解答。
实验设置与结果:
作者在三个数学数据集上测试了AdaptThink,对象同样是DeepSeek-R1-Distill-Qwen-1.5B模型。结果非常令人鼓舞:AdaptThink使模型的平均响应长度减少了53%,同时准确率提高了2.4%。也就是推理字数砍半但性能不降反升。这充分说明,通过智慧地省略不必要的推理步骤,模型的整体质量不但未受损,反而有所提升——可能是因为减少了模型“自我纠结”反而更快速地到达正确答案。
这一实验也再次验证了NoThinking对简单题更好这一假设,并成功将其融入模型策略。AdaptThink的代码和模型已开源,意味着社区可以直接使用训练好的模型或进一步在自有数据上微调该策略。总的来看,AdaptThink显著降低了推理成本,并额外带来性能增益,证明了自适应思考模式选择在实践中切实可行且有优势。
创新与局限:
AdaptThink的创新体现在将直答模式与深度模式的权衡显式融入RL优化目标,并通过重要性采样解决了训练过程中的模式稀疏问题。相较其他方法,AdaptThink更强调鼓励无思考,其结果也表明大量查询确实可以不用想就答而且答得更好。它和Concise Reasoning的理念有相通之处,即简洁与准确并不矛盾。
局限方面,AdaptThink目前也是主要验证在数学推理领域,适用性向其他任务拓展需要进一步研究。另外,它需要预先评估任务难度与模型能力的关系来设定合理的约束,比纯粹的奖励设计稍复杂。但这些不足并不影响其价值:在算术、逻辑等可判定对错的任务上,AdaptThink提供了现成可用的高效解决方案。可适用于在线服务需要降低平均延迟的情况——模型可以对大量简单提问快速响应,仅把少部分棘手问题花时间推理,从而整体提升吞吐量和用户体验。
同时,由于其训练出的模型准确率还有提升,这对于需要高精度又要求速度的应用(如教育练习题解答、科学计算问答等)尤为具有吸引力。
结论
这10项研究从不同角度探讨了提升大模型推理效率的方法,包括缩短推理链长度(如Concise Reasoning、ShorterBetter、ThinkPrune等)和自适应决策何时需要显式推理(如Think Only When Needed、Thinkless、AdaCoT、AutoThink、AdaptThink等),以及利用并行直答替代推理(Reasoning Without Thinking)和动态提前终止推理(DEER)等特殊策略。
它们共同传达出一个重要信息:更长的思维链并不总是更好的,模型可以通过学习在保证准确的同时大幅减少冗余思考。这些方法大多借助强化学习手段,结合精巧的策略设计(如特殊token、分离损失、惩罚系数调整等),赋予模型以“何时该慢想,何时该快答”的能力。
对比来看,不需额外训练的方法(如DEER、NoThinking并行)实施简单,直接在推理阶段提升效率,但可能在极复杂任务上受限;而需要RL训练的方法虽然成本较高,但效率收益显著且往往还能保持甚至提高准确率。
在实际应用中,可以根据需求选择不同策略:例如资源受限场景下,可用短链或不思考模式提高吞吐;对交互系统,可用自适应模式平衡响应速度和准确性。总之,让AI模型学会像人一样按需思考将是迈向更高级智能的重要一步。
(文:机器学习算法与自然语言处理)