ICML 2025 用“人类考试法”戳破AI泡沫:构建能力导向的自适应测评新范式 2025年5月27日16时 作者 PaperWeekly 信赖,可能远远不够。 你是否知道: 评估一个大模型完整跑完一套标准测试(如 HELM),可能耗时超过