史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1

史上最难的大模型测试集来了!包括o1在内的大模型平均得分不到10%,包含数理化、生物医药等学科的3000多道题目,难度达到研究生水平。项目由AI安全中心和Scale AI发起,涉及500多家机构和上千名学者参与命题,最终筛选出3000余道题目形成数据集,用于评估大模型能力。

向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling

研究团队提出’慢感知’概念,通过分解复杂几何图形为基本形状单元简化处理,并引入’感知流动’机制进行逐步推理。该方法旨在提高视觉模型对复杂几何结构的理解能力,提升多模态大模型在几何解析任务上的表现。