MARVEL基准归档

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

下午10时 2024/12/19 作者 PaperWeekly

研究团队提出MARVEL数据集来评估多模态大语言模型的抽象视觉推理能力，该数据集中包含了770个高质量测试样例，并覆盖了六种核心知识模式、多样化的几何和抽象形状输入以及五种不同的任务配置方式。实验结果显示大多数模型在MARVEL上的表现接近随机水平，揭示出模型的视觉感知能力是提升其抽象视觉推理的关键瓶颈。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30