AI安全中心和Scale AI归档

史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1

下午4时 2025/01/24 作者量子位

史上最难的大模型测试集来了！包括o1在内的大模型平均得分不到10%，包含数理化、生物医药等学科的3000多道题目，难度达到研究生水平。项目由AI安全中心和Scale AI发起，涉及500多家机构和上千名学者参与命题，最终筛选出3000余道题目形成数据集，用于评估大模型能力。