人大刘勇团队「慢思考」机理分析：从雪球误差到正确推理概率

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在大语言模型（LLMs）的发展历程中， Scaling Laws [1] 一直是推动性能提升的核心策略。研究表明，随着模型规模和训练数据的增长，LLMs 的表现会不断优化 [2]。然而，随着训练阶段规模的进一步扩大，性能提升的边际收益逐渐减小，训练更强大的模型需要巨额投入。因此，研究重点逐渐从训练阶段的扩展转向推理阶段的扩展 [3]，探索在不增加模型参数量的情况下，如何提升推理质量。

「慢思考」（Slow-Thinking），也被称为测试时扩展（Test-Time Scaling），成为提升 LLM 推理能力的新方向。近年来，OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等顶尖推理大模型的发布，进一步印证了推理过程的扩展是优化 LLM 逻辑能力的有效路径。研究发现，增加推理时间能够显著提升 LLM 的推理质量 [7]，这一发现推动了对「慢思考」方法的深入研究。

「慢思考」主要可以分为内部慢思考（Internal Slow-Thinking）和外部慢思考（External Slow-Thinking）两种方式：

内部慢思考：通过额外的训练，使模型在专门的推理任务上优化参数，提升自身的推理深度和输出质量。
外部慢思考：不改变模型本身，而是增加计算开销，例如通过多次采样、重新生成答案等方式延长推理过程，从而提高推理的准确性和可靠性。

本文主要关注外部慢思考。在面对复杂问题时，人类往往会花费额外的时间思考和完善推理的中间过程，以提高准确性。外部慢思考受这一认知过程的启发，通过增加推理步骤来提升大语言模型的推理质量 [8]。例如，BoN（Best-of-N）方法会生成多个答案，并通过多数投票或排序等策略选出最优解 [9]。此外，更前沿的框架如思维链（CoT）[10]、思维树（ToT）[11] 以及借鉴 AlphaGo [12] 蒙特卡洛树搜索（MCTS）的方法，能够在树状结构中探索解答空间，寻找更优的答案 [13-14]。

然而，尽管外部慢思考方法展现出提升推理质量的潜力，但仍面临两大核心挑战：

缺乏理论支撑：目前，我们对这些方法为何有效的理解仍然有限，这阻碍了更先进策略的设计。
计算资源需求高：复杂的慢思考技术往往需要大量计算资源，且优化设计参数的难度较大，导致实际应用中的表现不尽如人意。

针对这些挑战，研究者提出了一种基于信息论的系统性框架，建立外部慢思考方法与 LLM 生成正确推理的概率之间的联系。随着「慢思考」方法的深入探索，LLM 发展新的转折点正在到来。未来，大模型的推理能力优化不再局限于扩大模型规模，而是通过优化推理过程，实现更智能、更精准的逻辑推理。本研究将深入剖析外部慢思考策略的理论基础、机制解析以及其对 LLM 推理能力的影响，为人工智能推理能力的进一步突破提供新的方向。

论文标题：Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning
论文链接：http://arxiv.org/abs/2501.15602

此工作主要作出了如下贡献：

分析了 LLM 推理过程中的雪球误差效应，并证明该效应会导致推理错误概率随推理路径的增长而上升，强调了慢思考策略在减少错误中的关键作用。
提出了一种基于信息论的系统性框架，建立外部慢思考方法与推理正确概率之间的数学联系，为理解慢思考策略的有效性提供理论支撑。
对比了不同的外部慢思考方法，包括 BoN 和 MCTS 等，揭示它们在推理能力提升方面的差异与内在联系。

1 大模型推理过程中的「雪球误差」

想象一下，在冬天的雪地上滚动一个雪球。随着滚动的距离增加，雪球会以越来越快的速度变大，这就是雪球效应（Snowball Effect）—— 小的变化会随着时间推移不断累积，最终带来显著影响。

在大规模语言模型（LLMs）中，这一效应最初体现在自回归式（Auto-Regressive）的 Next-Token Prediction（NTP）任务中，微小的 token 级错误会不断累积，最终导致模型生成的答案偏离预期的正确答案 [15]。然而，在更复杂的推理任务中，这种错误不再仅限于 token 级，而是扩展到句子级，使得推理偏差更加难以衡量和控制。

为什么推理偏差会逐步放大？

研究表明，LLM 的推理过程可以看作是逐步执行一系列原始任务（Primitive Tasks）[16]，每一步的推理结果都依赖于前面的输出。因此，任何早期的微小误差都会在推理链条中不断放大，最终导致模型偏离正确答案。

为了更直观地理解这一现象，研究者借助柏拉图的「洞穴寓言」（Plato’s Allegory of the Cave）。在这个寓言中，人们只能看到投射在墙上的影子，而无法直接感知真实世界，类似于 LLM 只能从训练数据中学习世界的「投影」。如图 1 (a) 所示，训练数据只是现实世界的映射，而 LLM 生成的推理结果正如图 1 (b) 所示，仅是其内部推理过程的「影子」。

图表 1: 大模型推理过程的柏拉图假设

换句话说，模型的推理输出并非直接反映其思维过程，而是受限于它从训练数据中学到的模式和误差，导致滚雪球效应的持续累积。

例如：在 LLM 执行数学推理任务时，例如解答「计算 3x + 2y」，模型并不是直接给出答案，而是隐式地执行一系列推理步骤：

t₁: 计算 3x → t₂: 计算 2y → t₃: 将 3x 和 2y 相加。

然而，这些推理步骤是抽象的、不可直接观察的，模型的最终输出是这些推理过程的不同表达方式。例如，输出序列 r₁ → r₂ → r₃ 可能有多种不同的表达形式，但它们并不一定能完全还原对应的推理步骤 t₁ → t₂ → t₃。

由于单个输出 r_l 无法完全表达对应的推理步骤 t_l，即使初始误差微小，也会随着推理链条的延续逐步放大，最终导致严重的推理偏差。这种误差的积累，正是雪球效应在推理任务中的典型体现。

在 LLM 推理过程中，雪球误差会导致模型的推理结果逐步偏离正确答案。为了精准衡量这一误差，本研究引入互信息（Mutual Information, MI）这一数学工具，来量化隐式推理序列 t 与最终生成的回复序列 r 之间的共享信息量，记作 I (t; r)。这一度量帮助评估模型在推理过程中能够保留多少关键信息。

具体而言，在每个推理步骤中，模型的输出可能存在细微偏差，这些误差会逐步累积并导致信息损失。研究者将信息损失定义为互信息 I (t; r) 与隐式推理过程的信息熵 H (t) 之间的差值：

而最终的雪球误差则可以定义为在所有推理步骤上信息损失的累积：

2 从「雪球误差」到推理错误的概率

在 LLM 的推理过程中，推理路径越长，雪球误差就会不断累积，最终导致严重的事实偏差，研究者将其定义为推理错误（Reasoning Errors）。

如何衡量推理错误？

为了准确评估推理错误，研究者首先需要清晰地定义它。由于每个输出 r_l 代表隐式推理步骤 t_l，研究者通过检查是否存在一个足够强大的映射函数 f 来从 r_l 还原 t_l。如果这种还原能力较弱，说明推理过程中信息损失较大，进而导致了推理错误的发生。具体而言，研究者将「推理错误」这一事件刻画如下：

为了更准确地估计 LLM 发生推理错误的概率，本研究提出使用信息论方法，建立雪球误差与推理错误发生概率之间的数学联系。研究者从一个关键引理出发，通过理论推导揭示滚雪球误差如何逐步积累，并最终影响模型的推理准确性。

基于此引理，研究者可以推导出推理错误发生概率的下界：

此定理表明，在推理的第 l 步，错误概率的下界受累积信息损失 H_(<l) (t|r) 影响，由于其累加的定义，这一损失至少会随推理步数 l 线性增长。

当雪球效应出现时，累积信息损失可能超过线性增长，导致推理错误概率随推理路径的增加而快速上升。换句话说，推理链条越长，模型出错的可能性越大，这解释了 LLM 在长链推理任务中为何容易出现偏差。

图表 2: 不同 LLM 在 GSM8k 数据集上生成回复的估计互信息（MI）和奖励分数

为了实证验证 LLM 推理中的雪球误差效应，本研究基于 GSM8k 数据集进行实验，并测试了三款先进的推理 LLMs：Llama3.1-8B-Instruct、Qwen2.5-7B-Instruct以及 Skywork-o1-Open-Llama-3.1-8B。

研究者计算了互信息 I (t; r) 在所有 token 上的平均值，并分析其随推理路径长度 L 的变化，同时评估生成结果的奖励分数（reward），结果如图表 2 所示。实验结果表明：

互信息呈负指数级下降，比线性衰减更快，随着推理步数 L 的增长，信息损失迅速累积；
由于计算的是平均互信息，推理链条靠后的 token 可能损失更多关键信息；
奖励分数随推理长度增加而下降，进一步验证了雪球误差对 LLM 生成质量的影响。

这一实验结果不仅验证了雪球误差的存在，也表明信息损失的累积速度远超线性衰减，直接影响 LLM 生成的推理质量。这一发现与研究者的理论分析一致。

3 外部慢思考中的正确推理概率

先前的分析表明，推理错误概率 P (e_l) 随着推理步数 l 的增加而上升。然而，在实际应用中，推理错误通常体现在模型生成结果的奖励分数（reward） 上。因此，本文进一步扩展至现实场景，探讨外部慢思考方法为何有效。

3.1 何为正确推理

研究者首先定义 LLM 在现实场景中的推理过程。对于一个问题 r_0，模型会通过自回归方式生成一个包含 L 个推理步骤的响应序列：R = [r_1,r_2,…,r_L]。

为了评估每一步推理 r_l 的质量，研究者引入一个价值函数 φ，用于衡量每个步骤的正确性 φ(r_l) 。在实际应用中，这一评估可以通过人类反馈或奖励模型来实现。此外，研究者假设每个推理步骤都有一个标准答案 r_l^*，代表 LLM 应该生成的最准确答案，与人类理想推理方式保持一致。

基于上述设定，研究者利用价值函数 φ 评估推理步骤的正确性，并据此量化 LLM 生成回复的质量。具体而言，研究者分别将单步推理和整个推理过程的正确性定义如下：

3.2 正确推理的概率

实验结果（图表 2）表明，平均互信息会随推理步数呈近似指数级下降，这意味着雪球误差随着推理长度的增加呈指数级增长。然而，由于概率值不能超过 1，研究者基于定理 3.3 提出一个假设：在实际应用中，推理错误的概率可能遵循指数衰减函数，即：P (e_l) = 1 -λe^(-l)，这一假设使得后续分析更加直观，并进一步帮助推导在第 l 层生成正确推理步骤的概率：

由此假设，研究者推导出在雪球误差存在时，最终得到一个正确的完整推理过程的概率：

3.3 外部慢思考提升推理质量的机理

基于前面的分析，研究者首先直观上得出这样的结论：由于 LLM 生成的随机性，外部慢思考方法的核心目标是引入额外的推理步骤并结合多次重新采样策略，从而对冲雪球误差，进而提高模型生成结果的正确性。

接下来，研究者利用理论分析进一步详细阐述这一观点。首先，外部慢思考方法从根本上来说主要具有两个特点：

宽度扩展（Width-Expansion）：

对于长度一定的推理序列，大多数外部慢思考方法都试图扩展推理空间的宽度。
这可以通过简单的重新生成（BoN、CoT-SC）或更复杂的树搜索方法（ToT、MCTS）来实现。

生成 & 选择（Generation & Selection）：

扩展推理空间后，还需要从多个候选推理路径中选出最优解。
设 Pr (τ_generate) 为生成正确推理的概率，Pr (τ_select) 为从候选路径中选出正确推理的概率，则最终获得正确推理结果的概率可表示为：Pr [ψ(R)≤τ ]= Pr (τ_generate )× Pr (τ_select )。

外部慢思考通过扩展推理空间来提升 LLM 生成正确答案的概率 Pr (τ_generate)，但与此同时，额外的推理步骤也会增加选择最优推理路径的难度，从而降低 Pr (τ_select)。这意味着，在提升推理正确性的同时，也带来了更复杂的决策挑战。

如何量化这种权衡？

为了更直观地分析这一现象，研究者以 Beam Search 作为基准的宽度扩展策略。Beam Search 广泛应用于树搜索算法，其核心机制如下：

在每一层推理，生成 k 个子节点以扩展搜索树的宽度；
仅保留 b 个最优候选解，以减少计算复杂度。

研究者将分析结果形式化为一个数学引理，进一步揭示了推理空间扩展与最优路径选择之间的平衡关系。

基于推理过程的基本假设，这一概率上界可以被进一步简化为：

引理 4.5 和定理 4.6 阐述了外部慢思考技术的本质机理并支撑了如下结论：

获得正确推理的概率主要受以下三个关键因素影响：

每层生成的候选数 k ：决定了推理空间的扩展宽度；
每层筛选的最优候选数 b ：影响正确推理路径的选择精度；
正确性阈值 τ ：衡量推理结果的质量要求。

宽度扩展 vs. 选择可靠性：如何找到平衡？

Pr (τ_select) （选择正确推理的概率）依赖于价值函数的可靠性，即 ϵ_b 相关的参数。
Pr (τ_generate) （生成正确推理的概率）受推理路径长度 L 和扩展宽度 k 影响。
通过增加推理步骤，可以提升生成正确推理的概率，但同时会引入额外的选择代价，增加错误概率。

慢思考方法的关键优化条件

对比引理 4.4 和定理 4.6 发现，慢思考方法是否有效，还取决于价值函数的可靠性。为了保证推理准确率的上限得到提升，价值函数的可靠性必须满足：

。

通过上述分析，研究者总结了外部慢思考方法的核心机制。通过增加推理路径的搜索范围，这些方法提高了生成正确答案的概率，有效减少雪球误差的累积。同时其效果极大依赖于所使用的价值函数的可靠性，这一因素直接影响整个方法的最终表现。

4 外部慢思考方法间的对比

接下来，研究者将对比简单和复杂的外部慢思考框架之间的核心区别，并以著名的 BoN 和 MCTS 为例进行分析。

4.1 BoN 与 MCTS 框架下的正确推理概率

对于 BoN 来说，研究者很方便地将其建模为进行 N 次长度为 L 的推理，并最终在 N 个答案中选择一次的过程。因此，BoN 的正确推理概率上界为：

对于 MCTS（RAP 模式），由于其机制较为复杂，研究者考虑其最好和最坏的情况。在最好的情况下，MCTS 的每次节点扩展时都发生在最深的叶子节点上，则它退化成了一个采样宽度和保留宽度都为 b 的 Beam Search。

而在最差情况，MCTS 需要遍历所有可能的节点，从而形成一棵完全 b – 叉树。

4.2 对比 BoN 与 MCTS 的总推理代价

可以看出，MCTS 由于需要调用更多次的选择过程，一般会比 BoN 对于价值函数有更高的敏感性。除此之外，在假设价值函数完美（ϵ_b=1）的情况下，研究者对齐概率上界中的其余部分，可以计算出当 BoN 和 MCTS 具有相当的正确推理概率上界时，所需要具备的总推理代价的规模，如图表 3 所示。

图表 3: 相同推理正确概率下 BoN 与 MCTS 总推理代价规模对比

结果表明，当 BoN 与 MCTS 在推理正确率上相当时，BoN 的总推理成本与 MCTS 接近。

最优情况下：BoN 与 MCTS 的推理成本趋近相等；
最差情况下：当推理步数 L 较小时，BoN 的成本可能略高于 MCTS，但仍保持在合理范围内。当 L 增加，BoN 的推理成本甚至可能低于 MCTS。

这一结论表明，推理成本是决定减少雪球误差效果的关键因素，而具体采用哪种慢思考框架（如 BoN 或 MCTS）对最终结果的影响理论上可能是较小的。

4.3 实验验证

在 GSM8k 和 PrOntoQA 两个推理任务上，实证对比了 BoN 和 MCTS 的推理准确性。研究者采用 [14] 推荐的 MCTS 优化配置，并计算相应的 N 值，使 BoN 的推理成本与 MCTS 尽可能接近。由于两种方法生成推理路径的方式不同，完全对齐并不现实，因此研究者定义合理的 N 值区间：

N 合理范围的下界与上界：

N ̃_res ：对齐推理步数的 N 值
N ̃_call ：对齐 LLM 调用次数的 N 值

研究者测试了 BoN 的三种选择策略：

Self-Consistency（自洽性选择）
ORM Vote（基于奖励模型的投票选择）
ORM Max（基于奖励模型的最大值选择）

实验结果如图表 4 所示。

图表 4: GSM8k 和 PrOntoQA 上 BoN 与 MCTS 的准确性对比

研究者可以得出如下结论：

不同任务下的 BoN 表现

PrOntoQA（二分类任务：True/False）：

由于答案固定，增加 N 并不会提升 Self-Consistency 策略下的 BoN 性能，除非引入奖励模型。

GSM8k（多步推理任务）：

由于答案多样，增加 N 即使在没有奖励模型的情况下，也能提升 BoN 的性能。

BoN 与 MCTS 的关键对比

ORM Vote & ORM Max 策略（结合奖励模型）：当 N 在 N ̃_res 和 N ̃_call 之间时，BoN 能够达到与 MCTS 相当的推理性能；
N 接近 N ̃_res 时，BoN 略低于 MCTS，但差距不大；
N 取更大值时，BoN 能够匹敌甚至超越 MCTS，进一步验证了 MCTS 在 LLM 推理中的局限性，并支持研究者的理论分析。

本实验表明，在合理的 N 值范围内，BoN 通过适当调整推理宽度，可以达到甚至超越 MCTS 的推理效果，这与研究者的理论分析一致。

5 小结

本研究分析了外部慢思考方法的有效性机制，并通过信息论建立了 LLM 推理中的雪球误差与推理错误之间的联系。研究表明，外部慢思考方法通过扩展推理空间可以减少推理错误，但同时增加了推理成本，需要在正确性和计算开销之间权衡。

对比 BoN 和 MCTS 等方法后，研究者发现影响其有效性的核心因素是奖励函数的能力和推理总成本，而具体的搜索框架影响较小。因此，优化奖励函数和提升策略模型的推理能力是未来改进外部慢思考方法的关键方向。

参考文献

[1] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., … & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

[2] Yuan, Z., Yuan, H., Li, C., Dong, G., Tan, C., & Zhou, C. (2023). Scaling relationship on learning mathematical reasoning with large language models. arXiv preprint arXiv:2308.01825.

[3] Snell, C., Lee, J., Xu, K., & Kumar, A. (2024). Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314.

[4] OpenAI. Learning to reason with llms, 2024. URL https://openai.com/index/learning-to-reason-with-llms/. Accessed: September 12, 2024.

[5] DeepSeek-AI. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025. URL https://arxiv.org/abs/2501.12948.

[6] Team, Q. Qwq: Reflect deeply on the boundaries of the unknown, November 2024b. URL https://qwenlm. github.io/blog/qwq-32b-preview/.

[7] Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., … & Cobbe, K. (2023). Let’s verify step by step. arXiv preprint arXiv:2305.20050.

[8] Brown, B., Juravsky, J., Ehrlich, R., Clark, R., Le, Q. V., Ré, C., & Mirhoseini, A. (2024). Large language monkeys: Scaling inference compute with repeated sampling. arXiv preprint arXiv:2407.21787.

[9] Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., … & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.

[10] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., … & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.

[11] Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., & Narasimhan, K. (2024). Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36.

[12] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., … & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. nature, 529 (7587), 484-489.

[13] Zhang, D., Zhoubian, S., Yue, Y., Dong, Y., & Tang, J. (2024). ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search. arXiv preprint arXiv:2406.03816.

[14] Feng, X., Wan, Z., Wen, M., Wen, Y., Zhang, W., & Wang, J. (2023). Alphazero-like tree-search can guide large language model decoding and training. arXiv preprint arXiv:2309.17179.

[15] Bachmann, G., & Nagarajan, V. (2024). The pitfalls of next-token prediction. arXiv preprint arXiv:2403.06963.

[16] Ton, J. F., Taufiq, M. F., & Liu, Y. (2024). Understanding Chain-of-Thought in LLMs through Information Theory. arXiv preprint arXiv:2411.11984.

作者介绍

刘勇，中国人民大学，长聘副教授，博士生导师，国家级高层次青年人才。长期从事机器学习基础理论研究，共发表论文 100 余篇，其中以第一作者 / 通讯作者发表顶级期刊和会议论文近 50 篇，涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。获中国人民大学「杰出学者」、中国科学院「青年创新促进会」成员、中国科学院信息工程研究所「引进优青」等称号。主持国家自然科学面上 / 基金青年、北京市面上项目、中科院基础前沿科学研究计划、腾讯犀牛鸟基金、CCF – 华为胡杨林基金等项目。

甘泽宇，中国人民大学高瓴人工智能学院博士研究生，本科及硕士研究生毕业于中国人民大学信息学院。当前主要研究方向包括大模型对齐与机器学习理论。

（文：机器之心）

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复