全面回顾了大型语言模型（LLMs）在推理能力提升方面的最新进展，从简单的自回归token生成到引入“思维（thought）”概念的转变，以及如何通过强化学习（RL）训练LLMs掌握推理过程，再到鼓励LLMs在测试时推理中使用更多token进行“思考”，最终，训练时和测试时的扩展相结合——通往大型推理模型的道路。

展示标注LLM推理数据的不同范式

学习推理：监督式微调到强化微调

监督式微调（SFT）的重要性：SFT是提升LLMs特定任务推理能力的关键步骤，通过标记数据使模型适应特定任务需求，但受限于数据成本、灾难性遗忘和计算成本等问题。
强化学习（RL）的崛起：RL作为一种替代框架，使模型通过试错和奖励信号学习最优策略，RLHF和RLAIF是目前LLMs训练中的主导方法，分别依赖人类标注数据和原则进行训练。
结果奖励模型（ORM）的挑战：在复杂推理任务中，基于ORM的训练需区分中间推理步骤的正确性和重要性，ReFT和VinePPO等方法通过不同策略应对ORM的偏差问题，CPL则通过高层次抽象计划内搜索增强泛化能力。

过程奖励模型（PRM）的进步：PRM通过评估中间步骤优化模型行为，更符合人类偏好和任务要求，SELF-EXPLORE、MATH-SHEPHERD、DeepSeekMath和Scaling Automated Process Verifiers等研究展示了PRM在数学和逻辑推理中的应用。
强化微调（RFT）的潜力：RFT作为新兴技术，利用少量用户偏好数据和评分模型优化LLMs的多步推理能力，在数据效率和训练稳定性方面表现出色，为领域定制的专家LLMs开发提供了新途径。

测试时扩展：从链式思考（CoTs）到PRM引导的搜索

1 通过提示引导深思熟虑的思考

测试时提示技术：研究人员发现，测试时的提示技术（如链式思考和树状思考）可以进一步增强LLMs的能力。与直接要求模型提供答案相比，引导模型在测试时进行明确的推理过程可以显著提高其性能。
结构化提示方法：如ReAct和最少到最多提示（Least-to-Most Prompting）等结构化提示方法，通过明确指导模型组织思考过程，使LLMs能够更可靠、更可解释地输出结果。
测试时计算开销：这些方法虽然增加了标记消耗和计算开销，但通过在测试时增强LLMs的推理能力和解决方案准确性，提供了一种不依赖于模型参数修改的改进方向。

2 PRM引导的搜索

PRM的重要性：PRM（过程奖励模型）从稀疏的结果反馈转向详细的流程导向监督，不仅在训练阶段，也在测试阶段发挥重要作用。
OpenAI o1系列模型：OpenAI的o1系列模型是PRM高级应用的突出例子，通过在测试时增加计算资源，显著提升了模型的推理能力。
测试时扩展法则：新的测试时扩展法则表明，通过优化测试时计算策略，可以在各种推理任务中实现显著的性能提升，特别是在复杂问题解决场景中。

通往大型推理模型的路径

1 OpenAI o1系列的发展

o1模型的发布：2024年9月，OpenAI发布了o1模型，这是AI推理能力的一个重大进步，尤其在数学、编程和科学问题解决方面表现出色。
o3模型的升级：2024年12月20日，OpenAI开放了o3模型的测试申请，被认为是具有博士级智能的升级版本。
关键研究成果：

有效知识整合：o1模型在基础问题解决任务中展示了结构化分析方法和知识整合能力，通过逐步逻辑推理在竞争性编程中取得83.3%的成功率。
系统性问题分解：o1模型在处理不同复杂度的任务时表现出一致的性能，能够系统地分解问题，特别是在数学推理和编程任务中。
复杂任务中的可靠和连贯推理：o1模型在不同问题类型中表现出一致的推理链，特别是在规划任务和复杂规划任务中，能够有效管理长期依赖和上下文转换。

2 开源的大型推理模型尝试

OpenR项目：OpenR是第一个尝试复现OpenAI o1模型核心方法的开源框架，通过构建逐步推理数据和训练过程奖励模型（PRM）来提升推理能力。
Rest-MCTS*项目：该项目通过将PRM训练和策略模型微调集成在一个相互自我训练的循环中，提升了模型的推理能力。
o1 Replication Journey项目：该项目通过全面的训练策略复现OpenAI o1模型的推理能力，强调结构化训练图和高质量训练数据的生成。
LLaMA-Berry项目：该项目专注于在推理阶段优化推理能力，通过结合蒙特卡洛树搜索（MCTS）和自 refining（SR-MCTS）动态探索和优化解决方案路径。

其他测试时增强技术

1 语言强化搜索（Verbal Reinforcement Search）

概述：语言强化搜索（VRS）利用LLMs的预训练推理和语义能力，在测试时通过迭代反馈循环优化解决方案，无需额外训练。
应用场景：

个体代理（Individual Agent）：适用于数学优化、符号推理和假设驱动的发现任务，通过系统性细化显著提高问题解决效果。
多代理系统（Multi-Agent）：通过自然语言通信促进LLM基础代理之间的协作，共同解决复杂的解决方案空间。
具身代理（Embodied Agent）：通过整合推理与物理交互，支持实验室环境中的实验规划和执行等实际任务。

2 基于记忆的强化（Memory-based Reinforcement）

概述：在开放性任务中，解决方案空间往往大幅扩展，简单的解决方案空间搜索效率低下。一些研究通过引入外部记忆模块来增强LLM代理的能力。
应用场景：

体验式学习（Experiential Learning）：鼓励LLM代理模仿记忆中存储的有利经验，避免不利经验。
反思式学习（Reflective Learning）：LLM代理直接反思记忆中存储的成功和失败，总结根本原因，并将其作为指导。
概念学习（Concept Learning）：使LLM代理能够发展超越具体任务的通用“概念”，促进对环境和任务的更广泛理解。

3 代理系统搜索（Agentic System Search）

概述：设计代理系统在许多下游任务中发挥重要作用。测试时增强技术的一个重要分支是利用LLMs搜索代理系统。
搜索级别：

提示级别（Prompt Level）：通过迭代整合有用反馈经验改进提示，提示本身也值得搜索和优化。
模块级别（Module Level）：使用LLM搜索代理系统的模块化设计，模块是具有特定功能的提示块。
代理级别（Agent Level）：利用LLMs搜索整个代理系统，多代理系统在共享环境中做出决策和实现目标。

LLM推理基准的分类体系

https://arxiv.org/pdf/2501.09686Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

（文：PaperAgent）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

《R1风起，清华、港科大发布大模型强化推理技术最新全面综述》有1条评论

发表评论取消回复