多模态推理归档

只训练数学，却在物理化学生物战胜o1！新强化学习算法带来显著性能提升，还缓解训练崩溃问题

2025年6月23日16时作者量子位

模型推理能力再添例证。
来自上海创智学院、上海AI Lab的MM-Eureka系列工作提出了新的强化

业研究人员。
社区的愿景
是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进

2025年6月13日14时作者小兵的AI视界

阿里巴巴通义大模型团队推出VRAG-RL多模态RAG推理框架，通过视觉感知驱动和强化学习优化提升VLMs处理视觉丰富信息的能力。支持多轮交互、动态调整策略等，应用场景包括智能文档问答、视觉信息检索、多模态内容生成等。

2025年6月12日16时作者新智元

OTA模型，256k对话窗口，深度思考最长上下文。它不仅能看会想，还能动手操作GUI，
国内最有潜力

2025年6月10日16时作者 PaperWeekly

ReasonMap 是首个聚焦于高分辨率交通图的多模态推理评测基准，用于评估大模型在理解图像细粒度结构化空间信息方面的能力。

2025年6月6日23时作者量子位

研究团队提出VL-Rethinker模型，通过优势样本回放和强制反思技术解决多模态推理中的优势消失和反思惰性问题。该模型在多个数学和科学任务上超过GPT-o1，并显著提升Qwen2.5-VL-72B在MathVista和MathVerse上的性能。

2025年6月6日23时作者机器之心

SophiaVL-R1 是一项基于类 R1 强化学习训练框架的新模型，它不仅奖励结果的准确性，还考虑了推理过程的质量。通过引入思考奖励机制和 Trust-GRPO 训练算法，SophiaVL-R1 提升了模型的推理质量和泛化能力，在多模态数学和通用测试数据集上表现优于大型模型。

2025年5月14日16时作者量子位

字节发布轻量级多模态推理模型Seed1.5-VL，在60个主流基准测试中拿下38项第一，仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。

2025年5月12日8时作者 NLP工程化

GitHub项目Awesome-Large-Multimodal-Reasoning-Models总结了多模态推理模型的四阶段发展历程，覆盖感知驱动、语言中心短推理、长推理以及原生多模态推理，并提供详细数据集和图表支持。

2025年4月24日16时作者新智元

！这一次，它的多模态推理实现了再进化，成为最强高考数理解题利器，直接就是985水平。而团队也大方公开