o4-mini暴击六大数学天团,攻破陶哲轩难题!4.5h激战人类阵地失守
不到两年,o4-mini与40位数学家挑战300道菲尔兹奖级难题,一举击败6组团队,碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展,结果显示AI在FrontierMath上解决了约22%的题目,而人类总体上解决约35%的题目。未来1-2年内,『超级程序员』和『AI数学家』将取得重大突破。
不到两年,o4-mini与40位数学家挑战300道菲尔兹奖级难题,一举击败6组团队,碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展,结果显示AI在FrontierMath上解决了约22%的题目,而人类总体上解决约35%的题目。未来1-2年内,『超级程序员』和『AI数学家』将取得重大突破。
Epoch AI指出,若推理模型保持每3-5个月以10倍速度增长,则训练所需的算力可能大幅收敛。当前最前沿的推理模型如o1和o3的推理训练规模还未见顶,但有可能在一到两年内达到上限。
人工智能数据中心电力需求激增,预计到2030年耗电相当于9座核反应堆。研究显示,AI数据中心硬件成本和电力消耗在5年内每年增加1.9倍和2倍,可能需要数百万芯片、数千亿美元投资及数吉瓦电力。
全球AI算力快速增长,2008至2024年增长超7倍。顶级硬件能效提升显著,低精度计算成为主流。英伟达、Meta等公司主导高性能GPU市场。训练大型模型所需处理器数量大幅增加。
OpenAI因在FrontierMath数学基准测试中作弊而陷入风波,被指获得了题库的特权访问权,并资助了该测试。此举引发了业界对于OpenAI领先优势是否真实存在的质疑,同时也暴露了其商业化压力下的困境。
FrontierMath数学基准测试中o3模型表现优异,但因OpenAI资助和数据访问权引发质疑。Epoch AI与OpenAI合作未公开资金来源,导致数学家蒙在鼓里。Epoch AI及Tamay Besiroglu表示将提高透明度。