迈向推理时代:大型语言模型的长链推理研究综述
MLNLP社区是一个国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流合作。本文综述了长链推理的研究进展及其关键技术特性,并探讨了其在实际中的应用效果和未来研究方向。
MLNLP社区是一个国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流合作。本文综述了长链推理的研究进展及其关键技术特性,并探讨了其在实际中的应用效果和未来研究方向。
上海AI Lab/清华哈工大/北邮团队的研究表明,通过改进Test-Time Scaling(TTS)方法,在数学推理任务上提升了小模型的性能。该研究发现最优的TTS方法高度依赖于具体的策略模型、过程奖励模型和问题难度。
DeepSeek-R1 是一款性能与 OpenAI-o1 相当,费用只有其不到 10% 的开源推理模型,作者使用它构建了 Agentic RAG 应用,并介绍了相关的技术栈和架构图。
DeepSeek AI 推出 DeepSeek-R1 模型,引入群体相对策略优化(GRPO)和多阶段训练方法。通过强化学习提升大语言模型推理能力,并在监督微调和拒绝采样后形成最终模型。
本文介绍了DeepSeek-R1推理模型、GitAgent代码智能助手、mini_qwen小型语言模型、AI ContentCraft多功能内容创作工具以及Story-Adapter无训练长篇故事可视化框架。
本文提出了一种新的推理框架Search-o1,通过自主知识检索和文档内推理模块提高了大型推理模型的知识获取能力,显著提升了其在复杂任务中的表现,并展示了其在解决知识不足问题上的潜力。