VisualSimpleQA 归档

更精细的解耦评估！VisualSimpleQA开创视觉语言大模型事实问答评测新范式

2025年3月20日16时作者 PaperWeekly

VisualSimpleQA 提出了一个面向事实查询的多模态评测基准，旨在有效评估大型视觉语言模型（LVLMs）在事实问答任务中的表现。该基准采用了解耦评估框架和明确的样本难度标准，能够区分不同模型的表现，并揭示了当前前沿 LVLMs 在视觉和语言模块上的改进空间。