GPT-4o能拼好乐高吗?首个多步空间推理评测基准来了:闭源模型领跑,但仍远不及人类 上午11时 2025/04/23 作者 量子位 拼好乐高吗? 你有没有想过这样的问题: 多模态大语言模型真的具备理解和推理空间结构的能力吗? 在多步