甲骨文周一发布最强模型Claude 3.7 Sonnet,公司称其是市面上唯一的混合模型,兼具推理和实时生成文本能力。甲骨文还透露,该模型以《精灵宝可梦(红)》游戏作为基准测试,最后成功击败道馆领袖并赢得了徽章。
甲骨文周一发布了其最强模型Claude 3.7 Sonnet,据甲骨文称,该模型同时具备推理能力和传统实时生成文本的能力,是市面上唯一的混合模型。
Claude 3.7 Sonnet的一个独特功能是其能够进行拓展思考,与OpenAI的o3-mini和Deepseek R1一样,它可以在增加计算和时间成本的基础上来推理更具挑战性的问题。
而测试Claude 3.7 Sonnet推理能力的一项重要测试就是打游戏。
据甲骨文周一的博客文章显示,该公司在《精灵宝可梦(红)》测试了Claude 3.7 Sonnet,为模型配备了基本内存、屏幕像素输入和功能调用,以便模型可以连续闯关并不受模型的上下文限制。
好消息是,3.7版本的模型与3.0版本相比“大有出息”。上一个版本3.0连离开游戏新手村都做不到,而3.7已经成功走到宝可梦道馆Boss身前,并击败道馆领袖赢得了徽章。

不过,甲骨文并未公布3.7花费了多少计算能力才做到这一步,以及每闯完一关所耗费的时间。甲骨文只透露,3.7 Sonnet执行了35000次操作才打到最后一位道馆馆主Surge处。
▍AI也得会打游戏
利用游戏作为人工智能模型的基准测试实际上在业内也并不罕见,加州理工大学和英伟达的一支团队此前就推出过Voyager组件,与GPT-4交互来攻略另一款热门游戏《我的世界》。

Voyager据介绍包括三个关键模块:最大化探索的自动课程;用于存储和检索复杂行为的技能库与生成可执行代码的新迭代提示机制。据研究团队介绍,Voyager表现出强大的情境学习能力,获得的独特物品、行近距离以及解锁成就的速度都优于基准人工智能模型。
上周,微软也官宣加入了AI打游戏的潮流之中。微软推出了一款模型Muse可以生成游戏视觉效果和控制器输入,称其可以支持人们在设计游戏时的创造力,并已经在多人竞技战斗游戏《Bleeding Edge》中进行训练。
Gaming AI公司副总裁Fatima Kardar表示,Muse的突破之处在于它对3D游戏的详细了解,包括游戏物理以及游戏如何对玩家的控制操作做出反应。这意味着该模型能够创建一致且多样化的游戏玩法,进一步帮助到游戏创作者。

(文:财联社AI daily)