DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科 下午4时 2025/03/04 作者 量子位 夜变天??? 要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MML