AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉

大模型o3-mini-high在7个月内从只能答对2%的数学题目提升至答对22%,引发了数学家们对其推理机制和局限性的讨论。研究发现,o3-mini-high依靠广泛的知识储备而非精确证明,并依赖直觉而非严格推导。同时,它缺乏创造力、理解深度以及形式精确性,表现出一定程度的幻觉现象。

任意Prompt就能给大模型实时排名!竞技场新玩法,还能自动找最佳AI来作答

竞技场(lmarena.ai)推出的Prompt-to-leaderboard(P2L)功能,根据输入的Prompt实时排名大模型。通过实验证明其在预测人类偏好方面优于传统的全局排行榜方法,并能更准确评估模型表现。

OpenAI o3-mini被曝大量使用中文推理!全世界AI都要学中国话了?

国外网友发现o3-mini-high在思考过程中经常出现中文!有人猜测是否借鉴了DeepSeek。对此,网友纷纷质问奥特曼和OpenAI:究竟为何使用中文?专家认为这可能与模型处理语言的方式有关。不过目前「语言混杂」问题仍需解决。