现代数独归档

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

2025年5月28日16时作者量子位

大模型在全新数独基准Sudoku-Bench上的表现不尽如人意，总体正确率低于15%，即使是高性能模型也仅能取得2.9%的正确率。研究团队认为这反映了现有基准测试的问题：大模型容易依赖记忆而非逻辑推理。Sakana AI推出的新基准挑战了这一点，包含复杂且需要多步骤推理的变异数独谜题，展示了AI在创造性和多层次推理上的局限性。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31