史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1
史上最难的大模型测试集来了!包括o1在内的大模型平均得分不到10%,包含数理化、生物医药等学科的3000多道题目,难度达到研究生水平。项目由AI安全中心和Scale AI发起,涉及500多家机构和上千名学者参与命题,最终筛选出3000余道题目形成数据集,用于评估大模型能力。
史上最难的大模型测试集来了!包括o1在内的大模型平均得分不到10%,包含数理化、生物医药等学科的3000多道题目,难度达到研究生水平。项目由AI安全中心和Scale AI发起,涉及500多家机构和上千名学者参与命题,最终筛选出3000余道题目形成数据集,用于评估大模型能力。
Meta员工在TeamBlind爆料,DeepSeek成为首个与OpenAI o1比肩的开源大模型。仅花费500万美元训练成本,中国公司直接冲击美国科技巨头地位。
研究团队提出’慢感知’概念,通过分解复杂几何图形为基本形状单元简化处理,并引入’感知流动’机制进行逐步推理。该方法旨在提高视觉模型对复杂几何结构的理解能力,提升多模态大模型在几何解析任务上的表现。
新智元报道
编辑:泽正 英智
Operator是AI圈最大的亮点,它能自动处理演唱会购票、家政服务预订等任务。OpenAI专门为其开了一个网页进行展示,并提供了推荐任务演示。
非营利机构AI2推出完全开放模型OLMo 2,其在同等大小模型中表现最优,并公开了训练数据和方法。OLMo 2系列包括7B和13B型号,在多个任务上优于Llama-2系列模型,同时降低了能耗。