Center for AI Safety归档

o3攻陷病毒学，超越94%博士级专家！生物武器门槛彻底崩塌？

下午4时 2025/04/23 作者新智元

新智元报道：AI模型o3在病毒学能力测试中准确率高达43.8%，超过94%博士级专家。这可能降低生物武器制造门槛，引发对生物安全的担忧。

下午12时 2025/02/17 作者机器之心

新基准ENIGMAEVAL对高难度问题提出挑战，显示主流推理模型在面对复杂谜题时准确率极低。研究者使用原始多模态谜题进行评估，发现前沿语言模型即使在普通谜题中表现也仅7.0%，且难以解决困难谜题。