生成式人工智能实验室归档

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

2025年3月31日23时作者量子位

上海交通大学GAIR Lab推出OlympicArena多学科认知推理基准测试，评估模型综合解决问题能力。尽管GPT-4也仅得34.01%整体准确率，但其他开源模型的整体准确率难以达到20%。该平台覆盖7大领域11163道题目，难度偏高，旨在检验AI的多学科综合认知能力，并提供资源支持研究。