Vision-R1:多模态领域的DeepSeek R1-Zero,7B参数比肩OpenAI O1

DeepSeek在领域内获得广泛关注的核心在于R1-Zero仅通过强化学习(RL)便成功实现了推理能力的涌现,即发现Aha moment。那么,在多模态领域,是否也能获得借鉴R1-Zero的思路呢?

今天介绍的Vision-R1就是这一方面的探索的代表, 其目的就是研究如何有效利用 RL 来增强多模态大型语言模型(MLLM)的推理能力。然而,研究团队发现,由于缺乏大规模、高质量的多模态推理数据,直接应用 RL 训练 MLLM 在激发其深层推理能力(如提问和反思)方面面临巨大挑战。

为解决这一难题,Vision-R1 项目创新性地提出了一个推理型 MLLM,并采取了由冷启动初始化和 RL 训练 组成的两阶段策略。项目首先着力构建高质量、大规模且无需人工标注的多模态 Chain-of-Thought (CoT) 数据集——Vision-R1-cold 数据集。该数据集规模达 20 万条,巧妙地利用现有的 MLLM 和 DeepSeek-R1,通过模态桥接数据过滤等技术,将视觉信息转化为文本信息,并融入 DeepSeek-R1 生成的高质量 CoT 推理过程,为 Vision-R1 提供了至关重要的冷启动知识。

数据集例子

冷启动初始化数据准备

RL训练

为缓解冷启动后模型易出现的“过度思考优化问题”,Vision-R1 进一步创新性地提出了渐进式思维抑制训练 (PTST) 策略。PTST 结合群体相对策略优化 (GRPO) 算法和硬格式化结果奖励函数 (HFRRF),在 1 万条多模态数学数据集上进行 RL 训练,逐步精炼模型学习正确且复杂的推理过程的能力。PTST 策略在训练初期抑制模型推理长度,引导模型关注正确的推理路径,并随着训练深入,逐步放宽长度限制,最终使 Vision-R1 能够自主掌握更高级的推理技巧。

从实验结果上看,在多个多模态数学推理基准测试中,Vision-R1 模型较之于其基础模型Qwen-2.5-VL-7B 平均取得了 6% 的性能提升。尤其在广泛使用的 MathVista 基准测试中,仅使用 70 亿参数的 Vision-R1-7B 模型,其准确率便达到了 73.5%仅比领先的推理模型 OpenAI O1 低 0.4%,大幅超越开源推理MLLM LLaVA-Cot-11B近9%。这充分展现了 Vision-R1 在多模态推理任务上的强大实力。

Vision-R1的成功说明采用DeepSeek R1的思路是普遍有效的,这对于其它研究者来讲给予了非常大的示范意义,如何更好的使用RL激发大模型的潜力将成为重点的研究方向。

github:https://github.com/Osilly/Vision-R1 

论文:https://arxiv.org/abs/2503.06749


系统性学习大模型开发,推荐必读:

公众号回复“进群”入群讨论。

(文:AI工程化)

欢迎分享

发表评论