杜昕润@M-A-P:SuperGPQA:探索LLMs知识与推理能力的边界 下午2时 2025/03/29 作者 机器学习算法与自然语言处理 MLNLP社区举办学术Talk邀请杜昕润分享SuperGPQA评估大模型能力,涵盖285个专业领域,覆盖轻工业等未被充分评估的学科。
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科 下午4时 2025/03/04 作者 量子位 夜变天??? 要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MML