迈向推理时代:大型语言模型的长链推理研究综述

MLNLP社区是一个国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流合作。本文综述了长链推理的研究进展及其关键技术特性,并探讨了其在实际中的应用效果和未来研究方向。

啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling

上海AI Lab/清华哈工大/北邮团队的研究表明,通过改进Test-Time Scaling(TTS)方法,在数学推理任务上提升了小模型的性能。该研究发现最优的TTS方法高度依赖于具体的策略模型、过程奖励模型和问题难度。