迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了



  • 论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models

  • 论文主页:https://long-cot.github.io/

  • 论文地址:https://arxiv.org/pdf/2503.09567

  • Github 仓库:https://github.com/LightChen233/Awesome-Long-Chain-of-Thought-Reasoning


1. 迈向推理时代

900 + 篇文献揭示长链思维(Long CoT)的前世今生


近年来,大模型(Large Language Models, LLMs)在数学、编程等复杂任务上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表现尤为亮眼。但它们为何如此强大呢? 核心在于长链思维(Long Chain-of-Thought, Long CoT)—— 通过更深入的推理、更广泛的探索,以及更强的自我反思,使大模型能够高效解决复杂问题。


然而,长思维链仍然缺乏系统性研究,甚至面临诸多未解之谜:


  • 长链思维究竟如何提升模型能力?与短链思维(Short CoT)的核心区别是什么?

  •  “推理扩展性”(Test-Time Scaling)是关键突破,还是带来了 “过度思考”(Overthinking)?

  • 长思维链有哪些未来的研究方向?


填补研究空白,建立统一视角:最全长思维链综述,来了!


  • 在这篇综述中,该论文首先厘清长思维链(Long CoT)与短思维链(Short CoT)的本质区别,提出新的推理范式分类框架,明确它们在推理深度、探索范围和反馈机制上的差异,并为不同任务的推理需求提供系统性认知。

  • 随后,该论文深入拆解 长思维链的三大关键特性,即深度推理、广泛探索和可行性反思,揭示其如何在提升推理能力的同时,也带来了计算开销、冗余推理等挑战。

  • 该论文进一步探讨 长思维链相关的核心推理现象,如过度思考(Overthinking)、推理扩展性(Test-Time Scaling)以及 AI 的 “顿悟时刻”(Aha Moment),分析这些现象如何影响模型的推理效率和答案质量,并讨论其可能的优化方案。

  • 最后,该论文展望长思维链的未来发展方向,包括多模态推理的融合、推理效率的优化以及知识增强技术等多个未来研究方向展望,以进一步提升推理大模型的推理能力和实际应用价值。通过这篇综述,该论文希望建立统一的研究视角,推动长思维链研究走向更深入的理论探索与更高效的实践落地。


2. 长思维链 vs. 短思维链


图 2:长思维链和思维链之间的差异具有三个关键特征:深度的推理,适当的反思和广泛的探索。此外,长思维链整合了所有这些特征以实现更好的逻辑效果。


在大模型推理演化的过程中,如图 2 所示,长思维链(Long CoT)短思维链(Short CoT)代表了两种截然不同的推理范式。短思维链以浅层、线性的推理方式快速得出结论,逻辑路径短,探索性低,适用于结构清晰、解答明确的问题。而长思维链则强调深度推理、广泛探索和可行性反思,允许模型在更复杂的逻辑网络中展开深入分析,发现隐藏关系,并优化推理路径。


短思维链的推理方式逻辑节点数量有限,主要依赖顺序推理,且几乎不会回溯或检验先前的推理路径。在数学、编程等需要逻辑推导的任务中,短思维链往往难以应对复杂问题,而长思维链则可以通过扩展推理深度和增加探索空间,提高解题能力。形式上,长思维链放宽了传统 短思维链在推理节点数量、并行探索能力以及回溯调整方面的限制,使得模型能够在更大的问题空间中寻找最佳解。


3. 长思维链具备三大核心特性

使其推理能力远超短思维链


深度推理(Deep Reasoning):短思维链只能处理有限数量的逻辑节点,适用于较简单的问题,而 长思维链允许推理路径大幅扩展,涵盖更多层次的逻辑关系,从而解决复杂的多步推理问题。数学推理、符号逻辑推导等领域对这一能力有极高需求。


广泛探索(Extensive Exploration):短思维链仅限于固定的逻辑路径,往往导致推理过于单一,而 长思维链通过拓展逻辑分支、并行探索多个可能解,能够大幅提高推理的稳健性和准确度。这种能力在具有多种可能解或需要跨领域推理的任务中尤为重要。


可行性反思(Feasible Reflection):短思维链的推理过程不可回溯,一旦出错很难修正,而 长思维链能够在推理过程中反思、校验先前的逻辑步骤,结合反馈机制优化推理路径,减少推理错误,提升整体推理质量。


4. 长思维链现象分析

六大推理现象


图 3:对长思维链外部行为六个经典现象的分析:(a)当前推理大模型为何会产生长思维链;(b)当前长思维链系统的推理边界及其局限性;(c)当超出推理大模型的推理边界时,过度思考可能导致的性能衰退;(d)测试阶段扩展方法的应用及其扩展规律与局限性;(e)使用过程中的奖励模型与结果奖励模型效果对比;(f)“顿悟” 时刻的探索及其潜在原因。


研究表明,长思维链通过多种方式增强了推理大模型的推理能力,主要表现为六大核心推理现象


  • 长思维链涌现现象:研究发现,长思维链在模型预训练阶段已被潜在编码,可通过上下文示例(contextual examples)或特定提示词进行激活。进一步地,一些工作发现大模型能够直接通过强化学习(RL)直接高效的激发出长思维链的能力。

  • 推理边界(Reasoning Boundary)现象:推理大模型的推理能力并非无限扩展,而是在超出一定复杂度阈值后迅速下降,称之为 “推理边界”,并发现突破推理边界会导致推理错误累积,从而降低整体性能。

  • 过度思考(Overthinking)现象:随着推理链的增加,模型性能在某个点之前持续提高,但超过该点后,错误率反而上升。例如,过长的推理链可能导致 “雪球效应”(snowball errors),即前期推理错误不断累积,最终影响结果可靠性。而一些研究者认为过度思考是由于推理长度超过了其推理边界导致的。

  • 推理扩展性(Inference Test-Time Scaling)现象:推理路径的扩展可分为垂直扩展(Vertical Scaling)和并行扩展(Parallel Scaling),但两者均存在上限。例如,并行扩展虽然可以增加答案的多样性,但并不能超过最优验证策略的限制。

  • 过程奖励 vs. 结果奖励的训练差异现象:强化学习优化推理路径时,过程奖励模型(PRM)能提供更精细的奖励反馈,而结果奖励模型(ORM)依赖最终答案进行优化,虽然收敛更快,但难以提供中间推理的细粒度优化信息。但二者在数据质量接近的情况下,理论上没有较大的性能差异。

  • 顿悟时刻(Aha Moment)现象:某些情况下,模型在推理过程中会经历突如其来的认知突破。研究表明,基于规则的强化学习(rule-based RL)可以有效触发这一现象,使得大模型在无监督的情况下进行自我反思和推理优化。


5. 深度推理

构建长思维链逻辑深度的关键路径


深度推理(Deep Reasoning)是长思维链的核心能力,它决定了推理大模型在处理复杂推理任务时的表现。然而,缺乏足够的推理深度会导致模型在高难度任务上的性能下降。当前的研究主要从推理格式(Deep Reasoning Format)推理学习(Deep Reasoning Learning)两方面入手,通过优化推理结构和训练方法,使推理大模型能够更高效地执行深度推理。


5.1 深度推理格式:优化推理结构的多种路径


长思维链的推理能力依赖于三种主要的推理格式:


图 4:深度推理格式主要分为三类:自然语言、结构化语言与潜在空间推理(进一步细分为基于 token、向量和管理器驱动的潜在推理)


  • 自然语言推理(Natural Language Reasoning):自然语言推理是最直观的推理方式,允许模型自由组织逻辑链,提高推理的可解释性。

  • 结构化语言推理(Structured Language Reasoning):结构化语言推理主要依赖代码符号逻辑进行更精准的逻辑推理。

  • 潜在空间推理(Latent Space Reasoning):潜在空间推理通过在隐空间执行推理计算,提高推理效率和连贯性,主要包括三种方法:(1)基于 Token 的潜在推理:使用 “推理 Token” 或 “思维 Token” 引导大模型进行隐式推理。(2)基于向量的潜在推理:使用 “思维向量(Thought Vectors)” 在不同层次间传播推理状态,使推理更加动态和稳健。(3)基于管理器的潜在推理:通过 “推理管理器(Reasoning Manager)” 优化推理链的动态控制,提高推理效率。


5.2 深度推理学习:优化推理能力的训练方法


提升推理大模型的深度推理能力,需要结合模仿学习(Imitation Learning)自学习(Self-Learning)两种方法,使模型能够在复杂推理任务中更好地泛化和优化。


图 5:深度推理学习的不同策略,包括:(a) 深度推理模仿学习,即模仿来自高级深度推理系统(如高级推理大模型、MCTS 等)产生的数据,通过监督微调训练推理模型;(b) 深度推理自我学习,即通过隐式奖励驱动的基于偏好的强化学习,实现推理模型的自我改进与优化。


5.2.1 深度推理模仿(Imitation Learning)


模仿学习通过监督微调(SFT),让模型从人类、先进推理大模型或扩展采样策略中学习推理模式:


  • 模仿人类推理:使用高质量的人工标注数据训练 推理大模型,直接模仿人类行为进行深度推理。

  • 模仿先进推理大模型推理:利用先进的推理大模型作为教师模型训练不会深度推理的学生小模型,更加快速地升数学推理能力。

  • 模仿扩展采样:结合扩展搜索策略优化推理路径,例如采用 MCTS 或者大量结果采样搜索优化推理,使模型更好地适应面向深度推理的长思维链任务。


5.2.2 深度推理自学习(Self-Learning)


自学习允许模型自主优化推理过程,主要采用强化学习(RL)树搜索(MCTS)方法:


  • 直接采样自学习:采用直接对大模型自身进行采样,从而进行自我学习。

  • 树搜索采样自学习:通过 MCTS 等方法对大模型进行有指导的树搜索采样,提高推理的深度,优化 长思维链生成过程。


6. 可行性反思(Feasible Reflection)

提升长思维链可靠性的关键机制


在 长思维链推理中,可行性反思(Feasible Reflection)是确保逻辑链条准确性的重要机制,它涉及对推理过程的反馈(Feedback)和改进(Refinement)。反馈机制提供评估,帮助模型识别和修正错误,而改进机制则允许模型基于反馈进行调整,以提高推理质量。


图 6:可行反思的反馈能力框架包括总体反馈与过程反馈两种形式。总体反馈包括:结果奖励模型(以数值形式进行反馈、基于规则的正确性判断机制,以及基于推理大模型的总体评价模型。过程反馈则包含:以数值形式提供反馈的过程奖励模型,以及基于推理大模型的逐步评价模型。此外,过程反馈还可结合操作系统环境、真实环境或图形界面环境等进行交互式评估。


6.1 反馈(Feedback):从整体到过程的优化


反馈是长思维链推理优化的关键环节,它可以用于验证逻辑正确性、提高模型稳定性,并减少错误累积


6.1.1 整体反馈(Overall Feedback):全局优化推理质量


整体反馈关注推理链条的最终结果,而非每一步的细节。它常用于强化学习(RL)中的奖励建模,以提升推理大模型的推理能力,主要包括:


  • 结果奖励模型(ORM):采用奖励模型评估推理结果,或者通过自一致性优化奖励反馈,获得数值化的结果奖励分数。

  • 规则提取(Rule Extraction):规则反馈可提供高准确度的结果校正,例如 STaR、ReST 和 ReFT 框架表明,数学问题中基于规则的反馈比 ORM 更有效。

  • 批判性反馈模型(Critic Models):这类方法利用大模型自我反思(Self-Reflection)机制进行自我批判,提供文本化结果奖励,提高推理效率。


6.1.2 过程反馈(Process Feedback):细化推理步骤


过程反馈关注推理的中间步骤,通常可以增强强化学习(RL)或蒙特卡洛树搜索(MCTS)的优化,主要包括:


  • 过程奖励模型(PRM):PRM 通过 SFT 或者 DPO 训练一个面向过程的奖励打分器,提供基于步骤的数值化奖励信号。

  • 批判性反馈模型(Critic Models):允许 LLM 在推理过程中对推理过程与结果进行动态评估与调整,优化推理路径,提供更通用的步骤级文本化反馈信号。


6.1.3 混合反馈(Hybrid Feedback)


由于整体反馈和过程反馈各具优势,研究者提出了结合两者的混合方法,进行双重反馈优化,提高推理连贯性。


6.2 改进(Refinement):优化推理路径的关键手段


在反馈机制的基础上,改进(Refinement)进一步帮助推理大模型纠正错误、优化推理路径,从而提升推理能力。现有研究主要采用三种方法:


图 7:细化方法主要分为三类:(a) 基于提示的改进生成,通过构造合适的提示策略,引导模型进行可行的反思过程并产出修正答案;(b) 基于监督微调的改进模仿,利用来自高级推理大模型的细化示例,通过监督学习对模型进行微调;(c) 基于强化学习的改进学习,模型根据反馈信号(如奖励)对自身生成的修正进行优化,逐步学会自我改进推理与输出。


  • 基于提示的改进(Prompt-Based Refinement):该方法通过 LLM 生成初始推理,再利用自身的反馈迭代优化。

  • 基于监督微调的改进(SFT-Based Refinement):SFT 方法通过从先进 LLMs 或人工标注数据中学习推理改进方式,提升推理大模型反思能力。

  • 基于强化学习的改进(RL-Based Refinement):RL 方法允许推理大模型在推理过程中自适应调整推理路径,减少对人工标注数据的依赖。


7. 广泛探索(Extensive Exploration)

拓展 长思维链推理的边界


探索能力是 长思维链推理的关键,使推理大模型能够在复杂问题空间中进行策略性分支和迭代优化。研究表明,假设分支和基于反思的错误回溯是突破线性推理路径局限的重要方法。当前研究主要关注探索规模化、内部探索、外部探索,以提高模型的推理质量和适应性。


图 8:推理测试阶段的两种常见扩展策略示意图,包括:(a) 纵向扩展:通过延长模型的长链式思维过程以增强推理能力,但受限于大语言模型的推理边界,最终可能难以突破性能瓶颈。(b) 横向扩展:通过增加采样次数生成多个推理结果,并结合自一致性、自验证等机制进行结果验证与整合,从而提升输出的整体质量,但其性能上限仍不超过 Pass@k 指标所代表的理论最优水平。


7.1 探索规模化(Exploration Scaling):优化推理长度与广度


探索规模化旨在扩展推理大模型的推理能力,提高任务求解效率。


7.1.1 垂直扩展(Vertical Scaling)


通过延长推理路径增加推理深度,如推理时扩展(Test-time Scaling)优化计算资源以提升推理效果。此外,隐空间扩展(Latent Space Scaling)在注意力跨度限制下,利用递归计算增强推理深度。


7.1.2 并行扩展(Parallel Scaling)


采用多次推理采样结合验证机制,以筛选最优推理路径。


探索验证优化方面,最早地,自一致性(Self-Consistency)方法就可通过多轮推理采样及多数投票机制优化答案选择,而一些工作通过进一步引入细粒度自一致性(Fine-grained Self-Consistency)结合逐步验证机制(Step-wise Verification),有效减少推理验证错误的累积。


探索路径优化方面,短路径多样化采样(Diverse Short-path Sampling)方法通过优化采样温度和跨语言推理拓展,提高探索的多样性和泛化能力。


图 9:用于优化内部探索的两类主要方法:(a) 强化学习策略:通过参考模型与价值模型辅助,结合奖励模型进行优势聚合,从而提升策略模型的输出质量,实现策略优化。(b) 奖励策略:根据模型输出设计奖励机制,包括规则驱动奖励,例如使用正则匹配或测试用例打分;以及模型驱动奖励,基于如和 PRM 等评价模型生成奖励,以提升强化学习性能。


7.2 内部自主探索(Internal Exploration):强化学习驱动的推理优化


内部自主探索强调通过强化学习(Reinforcement Learning, RL)和奖励策略(Reward Strategies),使推理大模型能够自主优化推理策略,提高泛化能力和探索深度。


7.2.1 强化学习策略


主要分为:


  • 基于奖励模型的 RL:如 Proximal Policy Optimization(PPO)和 Group Relative Policy Optimization(GRPO)基于奖励模型或奖励策略从而完成策略优化,提升推理能力;

  • 无奖励模型 RL:采用 DPO 风格或者规则抽取的奖励计算方案,通过明确的规则奖励反馈,提高策略学习的稳定性。


7.2.2 奖励策略


奖励策略的优化是强化学习中的关键,包括正确性奖励(Correctness Rewarding)、格式奖励(Format Rewarding)和规模奖励(Scaling Rewarding)。正确性奖励通过提高答案准确性引导模型优化推理路径,格式奖励确保推理过程符合规范,而规模奖励则鼓励更长的推理链条,但研究表明过度扩展可能导致低效推理。


为了展示当前主流奖励策略在各类基准测试中的表现,表 5 总结了不同方法在 GSM8K、AIME 2024、MATH500 等数据集上的性能对比,能够直观体现策略设计对推理能力的影响。


表 5:不同内部探索方法在多个基准测试上的性能表现,主要按 AIME 2024 排序。“-” 表示论文未报告该得分。


7.3 外部引导探索(External Exploration):结合外部系统增强推理能力


外部引导探索结合人类或外部系统,提高推理大模型的探索能力和推理质量。


7.3.1 人类驱动探索(Human-driven Exploration)


依赖于预设的推理结构,如 Tree-of-Thought(ToT)采用树状推理结构增强复杂任务求解能力,而 Forest-of-Thought(FoT)结合多棵推理树提高探索的全面性。


7.3.2 模型驱动探索(Model-driven Exploration)


通过自适应搜索结构和反馈机制进行优化,探索路径优化方法包括束搜索(Beam Search)A* 搜索(A* Search)蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS),提升搜索效率和推理质量。


图 11:外部探索策略根据过程管理角色的不同可分为两类:(a) 人类驱动的探索:由人工设定的提示词与固定流程控制推理过程,探索结构通常为线性、树状或图状,但路径固定、缺乏适应性。(b) 模型驱动的探索:由模型主导进行探索,具备反思与自适应搜索能力,采用动态结构并结合 Beam、A*、MCTS 等搜索逻辑与多种反馈机制(如 PRM、Critic、Advantage、Q-Value、Verifier)来实现更灵活且高效的深度推理。


8. 前沿研究与未来方向


长思维链正在不断拓展其应用边界,推动多模态、跨语言、智能体、效率优化、知识增强及安全性方面的研究发展。未来的探索方向主要涵盖以下六个关键领域:


图 11:长思维链的未来发展方向包括:(a) 多模态长思维链:融合多种模态的输入与输出(如图像、文字、公式等),增强推理表现力与适应性;(b) 多语言长思维链:支持跨语言推理与应用,提升模型的多语种通用性;(c) 具身智能与代理型长思维链:通过引入具身交互机制,提升模型在真实环境中的推理与行动能力;(d) 高效长思维链:优化推理路径与效率,加快思维链生成速度;(e) 知识增强型长思维链:引入外部知识库丰富推理过程,提高准确性与解释性;(f) 安全性保障的长思维链:强化推理过程中的可靠性,避免产生有害或误导性的输出,确保伦理合规。


8.1 多模态长思维链(Multimodal Long CoT)


多模态推理的研究聚焦于将长思维链扩展至图像、视频、音频等多种数据模态,以提升模型对复杂任务的理解和推理能力。研究方向主要包括:


  • 多模态提示(Prompting):改进视觉 LLMs 的上下文描述能力,并结合自反馈优化推理长度与准确性。

  • 多模态蒸馏(Imitation):利用数据蒸馏策略训练模型,使其能够模仿长思维链过程,提高复杂问题求解能力。

  • 基于奖励模型的推理探索(Reward Model-Based Exploration):通过奖励模型优化推理过程,在探索和训练阶段提升多模态推理能力。


主要挑战包括如何有效融合视觉信息辅助逻辑推理,以及如何优化长思维链的推理长度和测试时扩展能力


8.2 多语言长思维链(Multilingual Long CoT)


尽管推理大模型在英语领域取得了显著进展,但要实现真正的通用智能,多语言推理能力仍需进一步增强。当前研究主要集中在:


  • 跨语言提示(Multilingual Prompting):使用通用模板提示,促进不同语言间的逻辑推理能力对齐。

  • 多语言训练(Multilingual Training):采用监督微调(SFT)或强化学习(RL)训练,提升低资源语言的推理一致性。

  • 测试时扩展(Test-Time Scaling):利用多语言树搜索(Tree Search)等方法,在推理过程中动态选择最佳语言,提升泛化能力。


未来挑战包括跨语言知识迁移及低资源语言的推理能力优化,以确保多语言推理在不同文化背景下的一致性


8.3 长思维链助力智能体与具身智能(Long CoT for Agentic & Embodied AI)


智能体与具身智能系统不仅仅需要通过长思维链进行任务推理,还需要在动态环境中通过不断与环境交互,逐步调整和优化长思维链,修正推理路径并实现有效的目标导向行为。当前的研究方向主要集中在以下几个方面:


  • 基于树搜索的推理增强:通过引入树搜索算法(如 MCTS),对推理过程进行优化,智能体和具身机器人能够结合长思维链,更加高效地探索状态空间,逐步逼近最优解。

  • 环境交互优化:智能体和具身机器人通过与环境的互动,不断更新历史记忆,并根据动态变化的环境进行自适应调整长思维链的推理内容。

  • 多智能体协作:为了应对更复杂的任务,一些研究正在探索多个能够进行长思维链推理的高级智能体和具身机器人协同工作以提高工作效率。通过多智能体之间的信息共享与长思维链推理协作,共同解决单一智能体难以应对的挑战。


主要挑战包括在不确定环境中保持决策稳健性,以及在多智能体协作过程中优化推理效率


8.4 高效长思维链(Efficient Long CoT)


长思维链的深度、探索性和反思机制往往导致推理过程冗长,因此优化推理速度成为关键问题。当前研究方向包括:


  • 推理链压缩(Direct Compression):通过剪枝、跳步或直接预测减少冗余推理过程,提高推理效率。

  • 隐藏空间推理(Hidden Space Reasoning):在潜空间中执行推理,避免显式解码,以减少计算资源消耗。


未来挑战包括如何构建自适应推理策略,使模型能够根据任务复杂性动态调整推理深度,并探索更高效的推理格式,如多模态或隐变量推理


8.5 知识增强长思维链(Knowledge-Augmented Long CoT)


尽管推理大模型具有强大的推理能力,但在某些专业领域仍然存在知识空白,因此结合外部知识库成为关键研究方向:


  • 检索增强生成(Retrieval-Augmented Generation, RAG):动态结合知识检索与文档推理,以提升复杂任务的求解能力。

  • 模型知识注入(Model Knowledge Injection):在 SFT 或 RL 训练过程中引入外部知识,以提升专业领域的推理表现,如医学推理任务。


主要挑战在于如何有效地将更多外部知识融入到长思维链的推理过程,并开发可扩展的知识存储与检索机制,以确保实时更新和知识一致性


8.6 长思维链的安全性(Safety in Long CoT)


长思维链虽然提升了模型的推理能力,但也增加了潜在的安全风险,例如误导性信息和有害内容的生成。当前研究主要关注:


  • 推理攻击(长思维链 Attack):研究发现长思维链可能使模型更易受到错误推理或不安全输出的影响,例如 “OverThink 攻击” 和 “迭代混乱攻击”。

  • 安全优化(长思维链 Safety Improvement):引入动态安全提示、偏见检测、强化学习等方法,以减少有害输出的概率,提高模型的可靠性。


未来挑战包括如何平衡推理能力与安全性,防止长思维链导致的认知过载,同时确保推理的可解释性和可控性,以应对潜在的对抗性攻击。


9. 总结


本文系统回顾了长思维链在推理大模型中的核心作用,梳理了其从提出到发展的关键脉络。该论文通过 900 篇参考文献,构建了一个贯穿理论与实践的系统性框架,首次清晰地区分长思维链与短思维链在推理结构、思维能力与反馈机制上的本质差异,提出 “深度推理、广泛探索、可行反思” 三大核心能力模型,并据此解析了六大关键推理现象(如推理边界、过度思考、顿悟时刻等),阐释其底层机制与行为表现。


更重要的是,该论文不仅仅停留在现象描述,而是进一步展开了方法论总结,全面整理了当前主流的长思维链优化策略,包括基于格式设计的深度推理、基于模仿与自学习的能力提升、基于反馈与奖励的过程细化、基于强化学习与外部引导的探索机制等,并展望了多模态、跨语言、智能体交互、效率优化、知识增强与安全保障等未来研究方向。



©

(文:机器之心)

发表评论