SuperGPQA归档 - 每时AI

杜昕润@M-A-P：SuperGPQA：探索LLMs知识与推理能力的边界

下午2时 2025/03/29 作者机器学习算法与自然语言处理

MLNLP社区举办学术Talk邀请杜昕润分享SuperGPQA评估大模型能力，涵盖285个专业领域，覆盖轻工业等未被充分评估的学科。

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

下午4时 2025/03/04 作者量子位

夜变天？？？
要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MML