2025首篇关于多模态大模型在富文本图像理解上的全面研究综述 下午7时 2025/03/03 作者 PaperAgent 文本丰富的图像理解(TIU)涉及感知和理解两个核心能力。MLLMs通过模态对齐、指令对齐和偏好对齐等方法进行训练,并使用多样化的数据集和基准测试评估性能。