李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

研究发现当前多模态大模型在空间认知方面与人类相比仍有显著差距。使用VSI-Bench基准测试集评估15种各方面性能,表现最好的模型Gemini-1.5 Pro平均准确率仅为48.8%,而人类则达到79%。论文详细分析了模型的思维过程,指出语言和视觉层面都大量错误源于空间推理能力不足。