AI 安全中心归档

DeepSeek-R1、o1都低于10%，人类给AI的「最后考试」来了，贡献者名单长达两页

2025年2月8日12时作者机器之心

文章介绍了一个名为”人类的最后考试”（HLE）的新AI基准，旨在评估大规模语言模型的能力。该基准包含3000多个问题，涉及上百个学科领域，要求模型不仅给出正确答案，还需提供合理的推理过程。目前最先进的SOTA模型在HLE上的准确率仍低于10%。