南加大团队提出MARVEL:基于认知科学的多维抽象视觉推理基准测试
研究团队提出MARVEL数据集来评估多模态大语言模型的抽象视觉推理能力,该数据集中包含了770个高质量测试样例,并覆盖了六种核心知识模式、多样化的几何和抽象形状输入以及五种不同的任务配置方式。实验结果显示大多数模型在MARVEL上的表现接近随机水平,揭示出模型的视觉感知能力是提升其抽象视觉推理的关键瓶颈。
研究团队提出MARVEL数据集来评估多模态大语言模型的抽象视觉推理能力,该数据集中包含了770个高质量测试样例,并覆盖了六种核心知识模式、多样化的几何和抽象形状输入以及五种不同的任务配置方式。实验结果显示大多数模型在MARVEL上的表现接近随机水平,揭示出模型的视觉感知能力是提升其抽象视觉推理的关键瓶颈。