奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

上海交通大学GAIR Lab推出OlympicArena多学科认知推理基准测试,评估模型综合解决问题能力。尽管GPT-4也仅得34.01%整体准确率,但其他开源模型的整体准确率难以达到20%。该平台覆盖7大领域11163道题目,难度偏高,旨在检验AI的多学科综合认知能力,并提供资源支持研究。