大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%

大模型在全新数独基准Sudoku-Bench上的表现不尽如人意,总体正确率低于15%,即使是高性能模型也仅能取得2.9%的正确率。研究团队认为这反映了现有基准测试的问题:大模型容易依赖记忆而非逻辑推理。Sakana AI推出的新基准挑战了这一点,包含复杂且需要多步骤推理的变异数独谜题,展示了AI在创造性和多层次推理上的局限性。

大模型版生命游戏来了!「AI科学家」背后公司联手MIT&OpenAI等打造

研究团队利用大模型ASAL(人工生命自动搜索)探索ALife领域,该方法能有效生成包括康威生命游戏在内的多种ALife模拟。通过有监督目标搜索、开放式搜索和照明式搜索三种方法,ASAL在多个经典ALife环境中成功发现新生命形式,并且展示了开放性进化的特点。