CoT是否仍是增强Reasoning能力的必要工具?


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
来源 | 深度学习自然语言处理

近年来,推理大语言模型(RLLMs)通过内置的链式思考(CoT)能力,在复杂任务中展现出显著优势。然而,传统LLMs依赖外部CoT提示(如少样本示例)提升性能,但研究人员担心这种策略可能对RLLMs无效甚至有害。本文首次系统探究了零样本CoT(仅添加“逐步思考”指令)和少样本CoT对RLLMs的影响,并提出了关键问题:CoT提示是否仍是增强RLLMs推理能力的必要工具

论文:Innate Reasoning is Not Enough:In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking
链接:https://arxiv.org/pdf/2503.19602

CoT提示对RLLMs的四大作用:提升性能、控制思考令牌数、调节推理步骤、抑制过度反思

方法与实验

实验覆盖1.5B至32B参数的RLLMs(如DeepSeek-R1系列),并在6个数学推理数据集(GSM8K、MATH、AIME24等)上测试。通过对比直接提示零样本CoT少样本CoT,评估以下指标:

  • 准确性:答案正确率
  • 思考令牌数:模型输出中用于推理的token数量
  • 推理步骤:逻辑分解的步骤数
  • 反思频率:如“Wait”“Double-check”等自我修正语句的出现次数
不同模型在多个数据集上的准确性对比

主要发现

  • 性能提升的普遍性:72%的实验场景中,CoT提示显著提升RLLMs准确性,如R1-1.5B在GSM8K任务中零样本CoT提升475.4%。
  • 模型容量与任务复杂度的交互效应
    • 大模型(如32B)在复杂任务(如AIME24)上提升显著(最高333%),而在简单任务(如GSM8K)上增益微弱(0.6%)。
    • 小模型(如1.5B)则相反,简单任务提升显著(475%),复杂任务增益有限。
  • 单样本CoT的优越性:与LLMs不同,RLLMs在单示例提示下表现最佳(如R1-32B在AIME24上提升467%),多示例可能引入干扰。
  • 过度反思的抑制:CoT提示可将反思频率降低约90%(如R1-32B在AIME24上从414次/问题降至2.56次)。
对比不同提示方法下模型的反思频率

深度分析

  • 思考令牌分布:直接提示下令牌数分散,而CoT提示(尤其是少样本)使分布集中,减少冗余。
MATH数据集上不同提示方法的令牌分布差异
  • 推理步骤与准确性的关系:复杂任务中,步骤数与准确性正相关,但简单任务存在“倒U型”关系(步骤过多导致性能下降)。
步骤数与准确性的相关性
  • 注意力机制揭示的过度反思根源:RLLMs对“Wait”“Double-check”等词的注意力权重显著高于基模型,表明其训练过程中过度拟合自修正机制。
对比R1-8B与基模型的注意力分布差异

结论与意义

本文证实了CoT提示对RLLMs的必要性:

  1. 性能优化:通过单样本CoT实现高效推理。
  2. 行为调控:抑制过度反思,减少冗余计算。
  3. 工程启示:需根据模型容量和任务复杂度动态选择提示策略。
    未来研究可探索更精细的提示设计,或结合强化学习进一步优化RLLMs的反思机制。

(文:机器学习算法与自然语言处理)

欢迎分享

发表评论