ICML 2025 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式 下午4时 2025/05/27 作者 PaperWeekly 信赖,可能远远不够。 你是否知道: 评估一个大模型完整跑完一套标准测试(如 HELM),可能耗时超过