视觉监督归档

ICLR 2025 自动化所、旷视等提出Ross，多模态大模型的MAE时刻来了？

2025年1月25日23时作者 PaperWeekly

本文介绍了一篇关于多模态大模型的研究论文《Reconstructive Visual Instruction Tuning》，提出通过重建输入图像作为监督信号来提升视觉部分的学习效果，显著提高模型的细粒度理解能力，并且代码已开源。

2025年1月24日23时作者极市干货

本文介绍了一篇关于Reconstructive Visual Instruction Tuning (Ross)的工作，该方法通过引入视觉监督来提升多模态大模型的细粒度理解能力，并显著减少幻觉现象。该方法已成功应用于多个基准测试中，与现有技术相比表现出色。