庄严归档 - 每时AI

ICML 2025 用“人类考试法”戳破AI泡沫：构建能力导向的自适应测评新范式

2025年5月27日16时作者 PaperWeekly

信赖，可能远远不够。
你是否知道：
评估一个大模型完整跑完一套标准测试（如 HELM），可能耗时超过