OpenAI被爆造假!o3碾压一切的数学能力,全靠“作弊”

OpenAI陷入作弊风波。

去年年底,由60多位顶尖数学家的合作开发的FrontierMath基准测试,旨在评估人工智能在高级数学推理方面的能力。

在这次测试里,OpenAI的o3模型以压倒性优势,碾压了众多产于此次基准测试的大模型。

然而,不久前,在LessWrong 论坛上,一位名为「Meemi」的Epoch AI承包商透露了其中的“猫腻”:

OpenAI不仅为FrontierMath基准测试提供资金支持,还获得了测试题库的特权访问权。

随后,Epoch AI副主任兼联合创始人之一Tamay Besiroglu在X平台承认了此事。

也就是说,所谓o3独步天下的数学能力,是一场OpenAI自编自导的假象。

/ 01 /

既是运动员,还是裁判

事情的始末,其实要从去年开始讲起。


去年,大模型在各种数学基准测试中疯狂刷分,动辄就是90%以上的正确率。大模型在数学逻辑推理能上,似乎也可以取代了人类,统治数学界了。


然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招。11月,一个专治LLM各种不服的全新数学推理测试FrontierMath(前沿数学)来了。


据悉,FrontierMath基准测试,由多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人共同打造。


该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。


菲尔兹奖得主陶哲轩直言道,FrontierMath的问题只能由领域专家来解决。而即使是人类专家,解决这些问题也需要数小时甚至数天的努力。


果不其然,在测试中大模型集体翻车,正确率不到2%,包括GPT-4和Gemini 1.5 Pro。


然而,仅过了一个月,OpenAI在12月份发布,号称突破AI极限的o3模型在FrontierMath基准测试中,其正确率飙升至25.2%。


OpenAI作为大模型的先行者,在上一次测试中与其他参与者差距不大,使不少人感叹OpenAI在技术上“泯然众人矣”,已经丢失了绝对领先的地位。


但在这次测试中,o3则为OpenAI正了名,证明了OpenAI在技术上还是“独步天下”。


近日,一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。


面对争议,Epoch AI副主任兼联合创始人之一Tamay Besiroglu首先在X平台承认了此事:


我们犯了一个错误,没有更早披露OpenAI在FrontierMath中的参与。我们的合同在o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。”


他指出以下几个错误:


披露时间过晚:由于合同限制,Epoch Al直到FrontierMath的第三次迭代(o3)发布前后才被允许披露与OpenAI的合作关系。


Tamay承认,他们应该在与OpenAI的谈判中更强硬地争取尽早向贡献者披露合作信息的权利。


沟通不一致:虽然Epoch Al向部分数学家透露了他们获得了实验室的资助,但并未系统地向所有参与者说明这一情况,也没有明确指出合作的实验室是OpenAI。这种不一致的沟通是一个错误。


未将透明度作为合作的前提:Tamay表示,即使受到合同限制,他们也应该将与贡献者的透明度作为与OpenAI达成协议的不可协商的一部分。数学家们理应知道谁可能会访问他们的工作成果


紧接着,斯坦福大学数学博士生Carina Hong声称,在Epoch AI的安排下,OpenAI拥有对FrontierMath的测试题库拥有特权访问权


不少专家对此事件,勃然大怒,提出了尖锐的批评。


计算机科学家 Subbarao Kambhampati 表示,他此前就对OpenAI 声称未预先接触奥林匹克数学和 FrontierMath 数据的说法持怀疑态度。


在他看来,OpenAI禁止相关方披露协议内容的做法本身就极具可疑性。


知名AI专家Gary Marcus则表示:“这是一场绝望的、操纵的、误导性的、科学上粗制滥造的展示”。


截至发稿前,OpenAI未对此事做出回应。


/ 02 /

OpenAI的双重危机:

技术优势缩小,盈利遥遥无期

虽然Epoch AI把“锅”全揽到了自己身上,但这事也凸显了OpenAI一个尴尬的事实:


随着估值越来越高,OpenAI急需证明其在人工智能领域的领先性。


2024年10月,Sam Altman为OpenAI完成了新一轮66亿美元的融资,公司估值来到1570亿美元。对于一家尚未上市的公司来说,这样的估值已然不算低。


估值不断走高的另一面,随着各方势力不计成本地大力投入,OpenAI原本的先发优势正逐渐被侵蚀。


如今,众多竞争对手强势崛起,Anthropic的Claude 3.5 Sonnet、谷歌的Gemini 1.5、X的Grok 2,甚至Meta的开源Llama 3.1 405B模型,都已在某些基准测试中追平或稍稍超越OpenAI 的GPT-4o。


OpenAI市场份额下降便是最好的例证。根据Menlo Ventures的调研数据,去年闭源模型占据了绝大多数市场份额,达到81%。其中,OpenAI的市场份额从50%降至34%。


屋漏偏逢连夜雨,与市场份额下降相伴的,是OpenAI的亏损黑洞越长越大,像是一只“吞金兽”,不说达到盈利水平,连收支平衡都是一种奢望。


《纽约时报》获得的融资文件显示,OpenAI2024年预计收入达到37亿美元,但预计亏损将达到50亿美元,而2026年亏损可能会高达140亿美元,这一估算还不包括给员工的股票激励兑现。


据《纽约时报》审阅的财务文件显示,去年8月份,OpenAI的月收入达到3亿美元,自2023年初以来增长了1700%。


根据OpenAI预测,在2023-2028年期间,公司总亏损预计达440 亿美元,直到2029年才可能实现140亿美元利润


也就是说,尽管收入增长迅速,但相比其动辄千亿美元的投入,大模型仍然存在巨大的收入缺口。


在商业化面临压力的情况下,维持模型能力的领先性成为其证明高估值的重要依据。


2024年,OpenAI没能如预期发布GPT5,这让市场中不少人失望。o1和最近发布的o3自然承载了市场更多的期待。


而刚刚曝光的作弊事件,后续就是OpenAI向现实妥协的一种“无奈”选择。

文/树一

PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。


(文:乌鸦智能说)

欢迎分享

发表评论