2025-01-24 - 第5页共11页

史上最难大模型测试集，千名专家铸成！没有模型得分超过10%，但DeepSeek-R1超o1

下午4时 2025/01/24 作者量子位

史上最难的大模型测试集来了！包括o1在内的大模型平均得分不到10%，包含数理化、生物医药等学科的3000多道题目，难度达到研究生水平。项目由AI安全中心和Scale AI发起，涉及500多家机构和上千名学者参与命题，最终筛选出3000余道题目形成数据集，用于评估大模型能力。

下午4时 2025/01/24 作者新智元

Meta员工在TeamBlind爆料，DeepSeek成为首个与OpenAI o1比肩的开源大模型。仅花费500万美元训练成本，中国公司直接冲击美国科技巨头地位。

下午4时 2025/01/24 作者量子位

研究团队提出’慢感知’概念，通过分解复杂几何图形为基本形状单元简化处理，并引入’感知流动’机制进行逐步推理。该方法旨在提高视觉模型对复杂几何结构的理解能力，提升多模态大模型在几何解析任务上的表现。

下午4时 2025/01/24 作者新智元

新智元报道
编辑：泽正英智
Operator是AI圈最大的亮点，它能自动处理演唱会购票、家政服务预订等任务。OpenAI专门为其开了一个网页进行展示，并提供了推荐任务演示。

下午4时 2025/01/24 作者量子位

西风发自凹非寺
量子位 | 公众号 QbitAI
刚开年，AI圈就冒出了个让人“无从下手”的应用

下午4时 2025/01/24 作者 APPSO

达沃斯世界经济论坛正在瑞士召开，不必多说，人工智能是本届会议的重要主题。
就在 Sam Altman

下午4时 2025/01/24 作者新智元

非营利机构AI2推出完全开放模型OLMo 2，其在同等大小模型中表现最优，并公开了训练数据和方法。OLMo 2系列包括7B和13B型号，在多个任务上优于Llama-2系列模型，同时降低了能耗。

下午4时 2025/01/24 作者新智元

研究人员通过评估大型语言模型在问题生成任务中的表现，揭示了其偏好生成描述性、长答案的问题，并且对上下文的关注更加均衡。

下午4时 2025/01/24 作者甲子光年

Make things happen.
作者｜赵健
视
频｜王博王珽
*苏霍伊、王艺对本文亦有贡献

下午4时 2025/01/24 作者新智元

新智元报道
编辑：编辑部 HYZ
【新智元导读】
医疗AI时代正式开启！百川刚刚用Baichuan-