打破“思考陷阱”:DuP-PO算法让AI推理更高效

MLNLP社区致力于促进国内外自然语言处理与机器学习领域内的交流合作。近期,一篇名为《Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model》的论文探讨了大型推理模型在简单任务中的过度思考问题,并提出了一种新算法DuP-PO以提高模型效率。