AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零 下午12时 2025/02/17 作者 机器之心 新基准ENIGMAEVAL对高难度问题提出挑战,显示主流推理模型在面对复杂谜题时准确率极低。研究者使用原始多模态谜题进行评估,发现前沿语言模型即使在普通谜题中表现也仅7.0%,且难以解决困难谜题。