o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦 2025年7月1日16时 作者 新智元 UCSD等推出Lmgame Bench标准框架,结合多款经典游戏测试大模型能力。结果显示不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。宝可梦成为顶级模型的试金石。