多模态大模型归档

复杂空间指令也能秒懂？RoboRefer 让机器人理解推理空间，开放世界也能精准行动！

2025年7月6日16时作者机器之心

本文提出了一种名为RoboRefer的多模态大模型，能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异，并已应用于多种机器人系统中。

2025年7月6日11时作者机器之心

本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉，不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象，导致语言主导现象频发。

2025年6月27日16时作者智东西

6日，上海AI产品公司合合信息递表港交所。
招股书显示，合合信息是一家
原生AI（AI-native

2025年6月26日8时作者新智元

研究发现多模态推理模型随着推理链条的延长，其视觉感知能力下降，甚至出现幻觉现象。论文引入RH-AUC评估指标和RH-Bench数据集，为模型在推理与感知之间找到平衡提供了新视角。

2025年6月24日23时作者量子位

用
法上堪称：
全能
。
不仅
支持
图
片、视频
生成
：
奇幻场景、多样视角都能驾驭：
而且

2025年6月20日23时作者 PaperWeekly

，首次在 OCR 领域实现了视觉文本感知、理解与生成任务在单一模型中的统一，有效缓解了多模态生成中的

2025年6月20日23时作者 PaperWeekly

在进行多步、长链条的推理时，即便是最先进的 MLLM，也会逐渐“忘记”最初给它的图像信息，越来越依赖

2025年6月18日8时作者新智元

香港科技大学推出MATP-BENCH基准测试集，评估多模态大模型在处理包含图像和文本的几何定理证明中的能力。实验发现尽管模型在将图文信息转化为形式化定理方面有一定能力，在构建完整证明时面临复杂逻辑推理和辅助线构造等重大挑战。

2025年6月17日23时作者极市干货

型
Orthus，可同时生成离散文本和连续图像特征。其通过特定的扩散头和语言模型头分别处理图像和文本

MLNLP社区举办学术Talk活动，邀请中国科学院自动化研究所连政分享关于‘面向开放域与可解释多模态情感理解’的主题报告。