复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!

本文提出了一种名为RoboRefer的多模态大模型,能够理解三维空间关系并执行复杂的指令。它在空间指代任务上表现优异,并已应用于多种机器人系统中。

更长的推理链反而导致更多幻觉,MLLMs 幻觉解法仅「抄作业」还不够?摘要

本周会员通讯聚焦MLLMs幻觉问题、AI公司运营等议题。研究发现长推理链下MLLMs产生更多幻觉,不同来源的幻觉表现差异大。多模态模型在视觉编码器设计与训练机制存在失衡现象,导致语言主导现象频发。

形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准

香港科技大学推出MATP-BENCH基准测试集,评估多模态大模型在处理包含图像和文本的几何定理证明中的能力。实验发现尽管模型在将图文信息转化为形式化定理方面有一定能力,在构建完整证明时面临复杂逻辑推理和辅助线构造等重大挑战。