AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
大模型o3-mini-high在7个月内从只能答对2%的数学题目提升至答对22%,引发了数学家们对其推理机制和局限性的讨论。研究发现,o3-mini-high依靠广泛的知识储备而非精确证明,并依赖直觉而非严格推导。同时,它缺乏创造力、理解深度以及形式精确性,表现出一定程度的幻觉现象。
大模型o3-mini-high在7个月内从只能答对2%的数学题目提升至答对22%,引发了数学家们对其推理机制和局限性的讨论。研究发现,o3-mini-high依靠广泛的知识储备而非精确证明,并依赖直觉而非严格推导。同时,它缺乏创造力、理解深度以及形式精确性,表现出一定程度的幻觉现象。
苹果最新研究揭示了大推理模型在高复杂度任务中的普遍‘推理崩溃’现象,模型在思考路径上虽长但常放弃关键步骤。论文作者Samy Bengio指出,即使是提供明确算法提示也无法稳定执行。
图片来源:
AI + A16Z
Z Highlights
LLMs
的魔力在于,它们非常灵活,可以适