奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

上海交通大学GAIR Lab推出OlympicArena多学科认知推理基准测试,评估模型综合解决问题能力。尽管GPT-4也仅得34.01%整体准确率,但其他开源模型的整体准确率难以达到20%。该平台覆盖7大领域11163道题目,难度偏高,旨在检验AI的多学科综合认知能力,并提供资源支持研究。

更精细的解耦评估!VisualSimpleQA开创视觉语言大模型事实问答评测新范式

VisualSimpleQA 提出了一个面向事实查询的多模态评测基准,旨在有效评估大型视觉语言模型(LVLMs)在事实问答任务中的表现。该基准采用了解耦评估框架和明确的样本难度标准,能够区分不同模型的表现,并揭示了当前前沿 LVLMs 在视觉和语言模块上的改进空间。

ICLR 2025|AI不语,只是一味根据人类意图推理3D空间定位

AIxiv专栏发布了一篇关于3D意图定位的研究文章,该技术能够根据用户的意图在3D场景中检测目标物体,而非仅依赖于明确的物体描述。通过引入GPT-4生成意图文本,并采用多模态融合和自适应学习方法,实现了优于现有模型的效果。