GPT-4o举步维艰、Claude 3.7险胜,《超级马里奥》成为了检验大模型的新试金石?

GamingAgent 项目使用《超级马里奥兄弟》等平台游戏测试 AI 性能,通过模拟器和基本指令控制马里奥。结果显示 Claude 3.7 和 GPT-4o 在不同游戏中表现差异显著,GPT-4o 表现较差。专家认为当前评估 AI 智能的方法存在局限性,需要改进衡量标准来评估创造性思维和大胆反常规思考能力。