Hanabi 归档 - 每时AI

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

2025年3月25日11时作者机器之心

大学奥斯丁分校
最新评测基准 SPIN-Bench，用一套 “组合拳” 暴击了大模型的软肋。
研究显