2048益智游戏归档

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

下午4时 2025/03/03 作者新智元

加州大学圣迭戈分校Hao AI Lab用超级马里奥等游戏评估AI智能体，Claude 3.7表现亮眼。谷歌的Gemini也进行了测试。对比结果显示GPT-4o和GPT-4.5在多种游戏中都明显逊色。