MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

来源 | 深度学习自然语言处理

近年来，推理大语言模型（RLLMs）通过内置的链式思考（CoT）能力，在复杂任务中展现出显著优势。然而，传统LLMs依赖外部CoT提示（如少样本示例）提升性能，但研究人员担心这种策略可能对RLLMs无效甚至有害。本文首次系统探究了零样本CoT（仅添加“逐步思考”指令）和少样本CoT对RLLMs的影响，并提出了关键问题：CoT提示是否仍是增强RLLMs推理能力的必要工具？

论文：Innate Reasoning is Not Enough:In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking
链接：https://arxiv.org/pdf/2503.19602

CoT提示对RLLMs的四大作用：提升性能、控制思考令牌数、调节推理步骤、抑制过度反思

方法与实验

实验覆盖1.5B至32B参数的RLLMs（如DeepSeek-R1系列），并在6个数学推理数据集（GSM8K、MATH、AIME24等）上测试。通过对比直接提示、零样本CoT和少样本CoT，评估以下指标：

准确性：答案正确率
思考令牌数：模型输出中用于推理的token数量
推理步骤：逻辑分解的步骤数
反思频率：如“Wait”“Double-check”等自我修正语句的出现次数

主要发现

性能提升的普遍性：72%的实验场景中，CoT提示显著提升RLLMs准确性，如R1-1.5B在GSM8K任务中零样本CoT提升475.4%。
模型容量与任务复杂度的交互效应：

大模型（如32B）在复杂任务（如AIME24）上提升显著（最高333%），而在简单任务（如GSM8K）上增益微弱（0.6%）。
小模型（如1.5B）则相反，简单任务提升显著（475%），复杂任务增益有限。

单样本CoT的优越性：与LLMs不同，RLLMs在单示例提示下表现最佳（如R1-32B在AIME24上提升467%），多示例可能引入干扰。
过度反思的抑制：CoT提示可将反思频率降低约90%（如R1-32B在AIME24上从414次/问题降至2.56次）。

深度分析

思考令牌分布：直接提示下令牌数分散，而CoT提示（尤其是少样本）使分布集中，减少冗余。

推理步骤与准确性的关系：复杂任务中，步骤数与准确性正相关，但简单任务存在“倒U型”关系（步骤过多导致性能下降）。

注意力机制揭示的过度反思根源：RLLMs对“Wait”“Double-check”等词的注意力权重显著高于基模型，表明其训练过程中过度拟合自修正机制。

结论与意义

本文证实了CoT提示对RLLMs的必要性：

性能优化：通过单样本CoT实现高效推理。
行为调控：抑制过度反思，减少冗余计算。
工程启示：需根据模型容量和任务复杂度动态选择提示策略。
未来研究可探索更精细的提示设计，或结合强化学习进一步优化RLLMs的反思机制。

（文：机器学习算法与自然语言处理）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

CoT是否仍是增强Reasoning能力的必要工具?

方法与实验

主要发现

深度分析

结论与意义

发表评论取消回复

方法与实验

主要发现

深度分析

结论与意义

发表评论 取消回复

发表评论取消回复