思维链 (Chain-of-Thought, CoT) 已被广泛认为是提升大型语言模型 (LLM) 推理能力的关键技术。受 Deepseek R1 等模型成功的启发,研究者们正积极探索如何将类似的推理强化方法应用于多模态大模型(MLLM)。本文旨在梳理近期多模态模型推理的相关研究进展,以期为未来研究提供参考。
1.Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
https://arxiv.org/pdf/2501.12948
简介:
DeepSeek-R1-Zero已成功证明了LLM仅通过强化学习(RL)就能涌现推理能力。本篇工作探索了相同思路在视觉大模型(VLM) 上的应用。作者通过现有 MLLM 结合推理LLM 构造高质量多模态CoT 数据集用于冷启动,在此基础上应用强化算法并成功得到多模态推理模型 Vision-R1。实验表明该模型在先进推理准则上取得较好结果。
2. Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step
https://arxiv.org/abs/2501.13926
简介:作者探索了使用思维链技术提升多模态模型图像生成能力的方法,提出用于评估多模态思维链图像生成过程的奖励模型PARM+。通过过程评估和反思纠正,研究在多个多模态图像生成指标中取得显著改进。
3. Imagine while Reasoning in Space: Multimodal Visualization-of-Thought
https://arxiv.org/abs/2501.07542
简介:为了解决 MLLM 现有的推理方法在空间推理任务上表现不佳的问题,作者提出生成视觉思考轨迹用于多模态推理的思维链范式 MVoT。工作通过生成推理轨迹的图像可视化,使 MLLM 能够进行视觉思考,为视觉思考补充语言推理的复杂推理任务建立了新的可能性。
4. Grounded Chain-of-Thought for Multimodal Large Language Models
https://arxiv.org/abs/2503.12799
简介:针对MLLM 在视觉-空间推理任务中容易出现幻觉的问题,作者提出新任务 Grounded Chain-of-Thought(GCoT) 并构建数据集 MM-GCoT 与对应评估指标。作者希望数据中包含的连贯定位信息可以帮助未来的多模态模型培养其空间CoT 能力。
5. video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
https://arxiv.org/abs/2502.11775
简介:针对现存多模态模型推理局限于关注数学或视觉图形的问题,作者尝试将推理能力拓展到通用视频理解中。为了增强其推理能力,作者开发推理密集数据集与相应视频理解基准 RivaBench,推出推理视频理解模型video-SALMONN-o1。模型在多个不同的视频推理基准中证明其能力的增强。
6. LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
https://arxiv.org/abs/2501.06186
简介:作者为视觉推理提供了一个综合框架。包括 1. 用于评估多步骤推理任务的视觉推理链基准 2. 用于评估视觉模型单步骤质量的指标 3. 新的多模态视觉推理模型 LamaV-o1。相关模型和代码均可公开使用。
7. Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking
https://arxiv.org/abs/2502.02339
简介:作者提出一种名为AStar的自动化结构化思维范式,用于通过蒙特卡洛树搜索(MCTS)进行多模态推理。工作表明,该框架无缝集成了模型的内部推理能力和外部推理指导,从而能够以最少的树迭代次数实现高效推理。模型使用 7B 骨干在 MathVerse 基准上超越GPT-4o 的同时保持了良好的计算效率。
8. R1-Zero’s”Aha Moment”in Visual Reasoning on a 2B Non-SFT Model
http://arxiv.org/abs/2503.05132
简介:DeepSeek-R1 的一大特征为模型在训练过程中表现出自反思和增加响应长度(顿悟时刻)。然而,将这种成功扩展到多模态推理的尝试往往未能重现这些关键特征。该工作中,作者展示了首次在仅使用非 SFT 的 2B 模型上成功复制这些多模态推理的涌现特征。
9. MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning
https://arxiv.org/abs/2503.07365
简介:作者提出 MM-Eureka,成功地将基于规则的强化学习(RL)扩展到多模态推理,工作在多模态空间中重现了类似于DeepSeek-R1 的基于文本的RL系统的关键特征,包括准确率奖励和响应长度的稳定增长,以及反思行为的出现。作者证明,指令调优和预训练模型都可以通过基于规则的RL来发展强大的多模态推理能力而无需监督微调。
10. VisRL: Intention-Driven Visual Perception via Reinforced Reasoning
https://arxiv.org/abs/2503.07523
简介:该工作提出一个将强化学应用到视觉理解任务的框架 VisRL,仅仅使用视觉奖励信号来优化视觉推理过程让模型可以在没有没有昂贵区域注释的情况下学习到正确焦点。VisRL 证明了强大的泛化能力,在多个基准的实验上取得有效结果。
11. Visual-RFT: Visual Reinforcement Fine-Tuning
http://arxiv.org/abs/2503.01785
简介:强化微调通过对答案的反馈来进行优化。本工作引入了视觉强化微调 (Visual-RFT),进一步扩展了 RFT 在视觉任务上的应用领域。作者为不同任务提出视觉感知可验证奖励函数并通过GRPO 更新参数,通过细粒度图像分类,少样本目标检测,grounding,开放词汇目标检测等基准上的实验表明了这种范式在多模态模型上的有效性。
12. Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning
https://arxiv.org/abs/2503.07065
简介:尽管最新的视觉大模型在各个方面表现了卓越的能力,但是大规模的模型扩展限制了它们的实际部署。本工作聚焦于小规模视觉模型的OOD 泛化能力和推理能力,提出了一种两阶段的课程强化微调(Curr-ReFT),包括了 1. 难度感知的课程强化学习 2. 基于拒绝采样的自我改进。大量实验表明 Curr-ReFT 在各种任务中弥合了小模型和大模型间的差距。
13. LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
https://arxiv.org/abs/2503.07536
简介:虽然基于规则的强化学习(RL)在纯文本领域表现出色,但其多模态扩展还面临着障碍。为了应对这些挑战,作者提出两阶段框架 LMM-R1,包括 1. 基于规则的RL和纯文本数据来增强推理能力 2. 将这些推理能力推广到多模态领域。实验表明基于文本的推理增强能够实现有效的多模态泛化,提供了一种数据高效的范例。
14. R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization
https://arxiv.org/abs/2503.10615
简介:现有的视觉-语言模型通常难以有效地分析和推理视觉内容,导致在复杂的推理任务中表现不佳。为此,作者提出R1-Onevision,将图像转换为正式的文本表示,从而实现精确的基于语言的推理。实验结果表明,R1-Onevision在多个多模态推理基准测试中优于GPT-4o和Qwen2.5-VL等模型。
15. R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
https://arxiv.org/abs/2503.12937
简介:现有的思维链微调方法往往导致模型仅仅模仿成功的推理路径,而不理解错误的推理路径是什么。为此,作者设计了 StepGRPO,通过引入逐步推理准确性奖励和逐步推理有效性奖励引导模型进入关键推理路径,并依次推出 R1-VL,并在多个基准测试上的大量实验证明了有效性。
附:Github相关高星repo
1. VLM-R1: A stable and generalizable R1-style Large Vision-Language Model (4.2k star)
https://github.com/om-ai-lab/VLM-R1 (4.2k star)
简介:作者提出 VLM-R1 框架,支持在QwenVL, InternVL 等多个指标上复现类R1 推理方法。实验表明RL 方法可以有效提升多模态模型的物体检测性能。
2. Open-R1-Video (280 star)
https://github.com/Wang-Xiaodong1899/Open-R1-Video (280 star)
简介:作者提出将R1 方法应用到视频理解任务的框架并开源相关代码和训练记录。
3. EasyR1: An Efficient, Scalable, Multi-Modality RL Training Framework (1.6k star)
https://github.com/hiyouga/EasyR1 (1.6k star)
简介:作者提出一个支持多模态模型的高性能RL 训练框架 veRL。
4. R1-V: Reinforcing Super Generalization Ability in Vision Language Models with Less Than $3 (3.3k star)
https://github.com/Deep-Agent/R1-V
简介:作者提出适用于VLM 的可验证奖励强化学习框架R1-V 并验证了它们的有效性。
(文:机器学习算法与自然语言处理)