Claude 3.7硬控马里奥90秒,GPT-4o开局暴毙!Karpathy直呼基准失效,游戏成LLM新战场
加州大学圣迭戈分校Hao AI Lab用超级马里奥等游戏评估AI智能体,Claude 3.7表现亮眼。谷歌的Gemini也进行了测试。对比结果显示GPT-4o和GPT-4.5在多种游戏中都明显逊色。
加州大学圣迭戈分校Hao AI Lab用超级马里奥等游戏评估AI智能体,Claude 3.7表现亮眼。谷歌的Gemini也进行了测试。对比结果显示GPT-4o和GPT-4.5在多种游戏中都明显逊色。
Claude 3.7 Sonnet制作的游戏《贪吃蛇》中出现自我意识的贪吃蛇引发热议,甚至思考起存在的意义。该游戏展示了人工智能与游戏结合的新趋势及其带来的有趣挑战和可能性。