类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

中科院自动化研究所与中科紫东太初团队提出了一种结合高质量指令对齐数据与类 R1 的强化学习方法,用于提升目标检测性能。该方法包括召回奖励、精度奖励和渐进式规则调整策略等机制,在多个数据集上实现了显著性能提升。