
1.DeepSeek-R1技术报告
标题:DeepSeek-R1: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
作者:DeepSeek-AI
机构:DeepSeek-AI
链接:https://arxiv.org/pdf/2501.12948
简介:DeepSeek-R1-Zero首次验证了无需SFT的纯强化学习驱动推理的可行性,成功通过自我进化展现了反思、长链推理等能力。DeepSeek-R1进一步通过SFT和多阶段强化学习优化,有效解决了可读性问题,性能接近o1-1217,同时大幅降低了训练成本。此外,借助蒸馏技术赋能小模型,取得了显著效果。
关键词:纯强化学习
2.KIMI K1.5技术报告
标题:KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
作者:Kimi Team
机构:月之暗面
链接:https://arxiv.org/pdf/2501.12599
简介:这是除OpenAI之外,首次有多模态模型在数学和代码能力上达到了满血版o1的水平。Kimi团队创新性地扩展了强化学习(RL)的应用,开辟出一条全新的路径。它能够让LLM通过奖励机制进行探索性学习,从而自主扩展训练数据,从而实现计算规模有效扩展。
关键词:多模态, 简化框架,长上下文扩展,改进的策略优化
3.少样本数据集训练实现高准确率
标题:s1: Simple test-time scaling
作者:Niklas Muennighoff、Zitong Yang、Weijia Shi、Xiang Lisa Li、 Li Fei-Fei…
机构:Stanford University、University of Washington, Seattle、Allen Institute for AI,Contextual AI.
链接:https://arxiv.org/pdf/2501.19393
简介:研究团队精心挑选并创建了一个包含1000个问题的数据集,且每个问题都附有答案,以及Gemini 2.0 Flash Thinking实验版的思考过程。以阿里通义团队的Qwen2.5- 32B-Instruct作为基础模型,通过该蒸馏数据集,最终得到了s1模型。
关键词:少量样本,蒸馏,budget forcing
4.关注模型背后的逻辑能力
标题:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
作者:Tian Xie、Zitian Gao、Qingnan Ren、Haoming Luo、Yuqian Hong…
机构:微软、九坤投资
链接:https://arxiv.org/abs/2502.14768
简介:常见的数学训练集在问题难度上无明确界限,数学问题往往具有不定的逻辑深度、知识背景要求,对可控的分析实验不友好。于是为了分析推理模型的机制,作者转向了完全由程序合成的的「逻辑谜题」作为训练数据,并采用REINFORCE++ 算法,使用 4e-7 的学习率以及 0.7 的温度一训到底。经过 3.6K 步数的训练之后,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的性能。
关键词:REINFORCE++ ,逻辑谜题
5.多层次(Hierarchical)LLM 推理框架
标题:ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
作者:Ling Yang、Zhaochen Yu、Bin Cui、Mengdi Wang
机构:Princeton University、Peking University
链接:https://arxiv.org/abs/2502.06772
简介:利用大语言模型从以往的数学问题中提取了一个包含大约 500 个结构化思维模板的知识库。每个模板都包含标签、描述、适用范围、应用步骤等信息,这些信息经过组织和结构化处理,为 LLM 的推理提供了元知识参考。
关键词:层次化推理,强可解释性,结构化思维模板
6.培养AI的”结构化思维能力”
标题:LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
作者:Dacheng Li、Shiyi Cao、Tyler Griggs、Shu Liu、Xiangxi Mo
机构:Department of Electrical Engineering and Computer Sciences、University of California、Berkeley
链接:https://arxiv.org/pdf/2502.07374
简介:研究表明,培养AI的”结构化思维能力”比灌输具体知识更为关键,这一发现可能会影响未来AI训练方法的发展方向。
关键词:结构化思维
7.让AI学会”如何思考”而非”如何回答”
标题:Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
作者:Violet Xiang、Charlie Snell、Kanishk Gandhi、Alon Albalak、Anikait Singh
机构:SynthLabs.ai、Stanford University、UC Berkeley
链接:https://arxiv.org/abs/2501.04682
简介:在复杂问题解决过程中,人类的思维并非简单的线性步骤,而是包含了探索、验证等多维度的迭代过程。Meta-CoT正是基于这一洞察,将传统CoT扩展为一个更完整的推理框架。具体来说,它通过建模”潜在思维过程”,让AI不只是学会按部就班地解题,而是理解和掌握解决问题的策略与方法。这就像教会一个人钓鱼,而不是简单地给他一条鱼。
关键词:建模潜在思维过程
8.识别影响模型生成长链式思维的关键因素
标题:Demystifying Long Chain-of-Thought Reasoning in LLMs
作者:Edward Yeo、Yuxuan Tong、Morry Niu、Graham Neubig、Xiang Yue
机构:IN.AI、Tsinghua University、Carnegie Mellon University
链接:http://arxiv.org/abs/2502.03373v1
简介:研究表明,尽管通过强化学习(RL)能够改善模型的表现,然而如何有效地促使长链式思维的生成仍然缺乏明确的指导。因此,本研究旨在揭示长链式思维推理的机制,识别出影响模型生成长链式思维的关键因素。
关键词: 影响长链思维的关键因素
9.结合强化学习和推理扩展
标题:Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling
作者:Zhenyu Hou、Xin Lv、Rui Lu、Jiajie Zhang、Yujiang Li…
机构:Tsinghua University、Zhipu AI
链接:https://arxiv.org/abs/2501.11651
简介:清华大学提出了T1框架,结合强化学习和推理扩展(Inference Scaling),通过鼓励模型在训练过程中广泛探索推理路径,大幅提升了复杂推理任务的表现。
关键词:探索驱动的强化学习训练
10.多模态的长思维链数据构造
标题:Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models
作者:Yuhao Dong、Zuyan Liu、Hai-Long Sun、Jingkang Yang、Winston Hu…
机构:S-Lab、NTU、Tencent、Tsinghua University、Nanjing University
链接:https://arxiv.org/pdf/2411.14432
简介:作者设计了一个多智能体系统,包括一个专注于执行长链推理的推理智能体和一个训练有素以判断和总结推理结果的摘要智能体。作者进一步引入了一个迭代DPO算法,以增强推理智能体的生成稳定性和质量。基于流行的LLaVA-NeXT模型以及作者更强大的基础MLLM,作者在需要视觉推理的具有挑战性的多模态基准测试中实现了显著的性能提升。
关键词:多模态,长链构造
11.语言模型中不需要蒸馏自力实现的长链思考
标题:BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation
作者:Bo Pang、Hanze Dong、Jiacheng Xu、Silvio Savarese、Yingbo Zhou…
机构:Salesforce AI Research
链接:https://arxiv.org/pdf/2502.03860
简介:本文介绍了一种新颖的方法,可以在不需要从o1类模型或昂贵的人工注释中提取信息的情况下启用LLM的LongCoT能力,我们从一个标准的指导模型中引导LongCoT(BOLT)。BOLT包括三个阶段:1)在标准指导模型上进行上下文学习的LongCoT数据引导;2)LongCoT监督微调;3)在线训练以进一步完善LongCoT能力。
关键词: LongCot数据构造
12.从强化学习的角度分析实现o1的路线图
标题:Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
作者:Zhiyuan Zeng1、Qinyuan Cheng、Zhangyue Yin、Bo Wang、Shimin Li…
机构:Fudan University、Shanghai AI Laboratory
链接:https://arxiv.org/pdf/2412.14135
简介:本文从强化学习的角度分析实现o1的路线图,重点讨论四个关键组件:策略初始化、奖励设计、搜索和学习。策略初始化使模型能够发展出类人推理行为,使其具备有效探索复杂问题解空间的能力。奖励设计通过奖励塑造或奖励建模提供密集而有效的信号,这些信号为搜索和学习提供了指导。搜索在训练和测试阶段生成高质量解中起着至关重要的作用,它能够通过更多的计算产生更好的解决方案。学习则利用搜索生成的数据来改进策略,从而通过更多的参数和更多的搜索数据实现更好的性能。
关键词:策略初始化,奖励设计,搜索,学习
13. STILL系列
简介:STILL系列目前为止共包含三个阶段,记录了AI Box小组成员在O1复现过程中的探索过程与宝贵经验。
作者:Yingqian Min、Zhipeng Chen、Jinhao Jiang…
机构:Gaoling School of Artificial Intelligence, Renmin University of China、BAAI
项目链接:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
(1)STILL-3-1.5B-preview:1.5B小模型强化学习训练
(2)Virgo:多模态长链SFT 论文链接:https://arxiv.org/pdf/2501.01904
(3)STILL-Hallucination Mitigation:慢思考+幻象消除 论文链接: https://arxiv.org/pdf/2501.01306
(4)STILL-2:SFT长链+自我提升 论文链接:https://arxiv.org/abs/2412.09413
(5)STILL-1:慢思考+MCTS 论文链接:https://arxiv.org/abs/2411.11694
关键词:探索,强化学习,多模态,幻象,蒸馏与自我提升,MCTS
(文:机器学习算法与自然语言处理)