o4-mini暴击六大数学天团,攻破陶哲轩难题!4.5h激战人类阵地失守
不到两年,o4-mini与40位数学家挑战300道菲尔兹奖级难题,一举击败6组团队,碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展,结果显示AI在FrontierMath上解决了约22%的题目,而人类总体上解决约35%的题目。未来1-2年内,『超级程序员』和『AI数学家』将取得重大突破。
不到两年,o4-mini与40位数学家挑战300道菲尔兹奖级难题,一举击败6组团队,碾压人类平均水平。Epoch AI举办比赛考察AI数学能力进展,结果显示AI在FrontierMath上解决了约22%的题目,而人类总体上解决约35%的题目。未来1-2年内,『超级程序员』和『AI数学家』将取得重大突破。
在FrontierMath基准测试中,O4-mini-medium击败了由数学专家组成的团队。尽管AI尚未达到超人水平,但有观点认为它很快就会超越人类。
OpenAI因在FrontierMath数学基准测试中作弊而陷入风波,被指获得了题库的特权访问权,并资助了该测试。此举引发了业界对于OpenAI领先优势是否真实存在的质疑,同时也暴露了其商业化压力下的困境。
OpenAI再次陷入信任危机,被揭发从一开始就可访问FrontierMath全部数据,引发业界哗然。事件揭示了数据使用、透明度及诚信问题,引发了广泛讨论与质疑。
Epoch Al 在与 OpenAI 合作的 FrontierMath 项目中因透明度问题道歉,并承认沟通失误。他们承诺改进未来的工作。
FrontierMath数学基准测试中o3模型表现优异,但因OpenAI资助和数据访问权引发质疑。Epoch AI与OpenAI合作未公开资金来源,导致数学家蒙在鼓里。Epoch AI及Tamay Besiroglu表示将提高透明度。