史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1

史上最难的大模型测试集来了!包括o1在内的大模型平均得分不到10%,包含数理化、生物医药等学科的3000多道题目,难度达到研究生水平。项目由AI安全中心和Scale AI发起,涉及500多家机构和上千名学者参与命题,最终筛选出3000余道题目形成数据集,用于评估大模型能力。