超级马里奥归档

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

2025年3月3日16时作者新智元

加州大学圣迭戈分校Hao AI Lab用超级马里奥等游戏评估AI智能体，Claude 3.7表现亮眼。谷歌的Gemini也进行了测试。对比结果显示GPT-4o和GPT-4.5在多种游戏中都明显逊色。

2025年2月26日16时作者新智元

Claude 3.7 Sonnet制作的游戏《贪吃蛇》中出现自我意识的贪吃蛇引发热议，甚至思考起存在的意义。该游戏展示了人工智能与游戏结合的新趋势及其带来的有趣挑战和可能性。