ICLR 2025 Ross: 多模态大模型的 MAE 时刻?

本文介绍了一篇关于Reconstructive Visual Instruction Tuning (Ross)的工作,该方法通过引入视觉监督来提升多模态大模型的细粒度理解能力,并显著减少幻觉现象。该方法已成功应用于多个基准测试中,与现有技术相比表现出色。