西风 发自 凹非寺
量子位 | 公众号 QbitAI
国产AI几何模型性能达IMO金牌水平,打平谷歌DeepMind最新AlphaGeometry系列——
TongGeometry,使用的策略网络和价值网络还来自微调版本的DeepSeek-Coder。
它能解决IMO-AG-30题中的所有30题,在IMO-AG-50上也能解决42题,而人类金牌选手平均水平分别为:25.9、40.9。
例如,下面是TongGeometry提出的一道IMO2024几何题的解法,与标准答案完全一致:
TongGeometry不仅能解题还会出题,所出的题目甚至获得了权威数学竞赛认可。
就在去年全国高中数学联赛预赛北京地区的考试中,就有TongGeometry出的几何题;由美国IMO竞赛教练组组织的一项美国民间数学竞赛USEMO,也收录了TongGeometry出的两道几何题在他们的竞赛短表中。
TongGeometry由北京通用人工智能研究院打造,下文是更多细节。
DeepSeek加持神经网络基础
IMO是面向全球200多个国家,最顶尖高中生,所举办的最有影响力的数学竞赛。这项竞赛要求参赛选手对代数、数论、几何、组合四项类型的问题有深刻的理解。其中,几何学问题,又常常因为其优美的图形性质,受到众多参赛选手和数学爱好者们的热议。
△Thébault定理,2003年前曾一度被西方认为是最难证明的几何定理之一
业界通常认为,能够代表国家参加该项赛事并获得金牌,是个人在数学研究历程上的莫大荣誉。菲尔兹奖得主陶哲轩(Terence Tao)教授,就曾经是该项赛事最年轻的金牌得主。
△陶哲轩教授参加IMO比赛历史记录
对比赛而言,几何题的难点就在于如何恰到好处地添加辅助线,使得原先难以推理出来的结论,能够借助辅助的点、线、圆来得到。构建这些推理的桥梁,是解决这类问题的关键。
通常,非常困难的问题需要添加数条辅助线才能完成定理的证明。
谷歌DeepMind AlphaGeometry最早提出了使用结合语言模型和逻辑引擎解决此类问题的方案。
在他们的方案中,语言模型负责提出可能的辅助线,推理引擎则负责检查添加辅助线后所能产生的结论是否是我们正在寻找的。如果所需要证明的定理仍然不在其中,系统则需要继续搜索可能的辅助线构造方案。
在最新的工作中,AlphaGeometry宣称其工作超越了奥林匹克竞赛金牌获得者的平均水平,能够解决IMO-AG-30数据集上的所有30题,并能解决IMO-AG-50上的42题。
而人类金牌选手的平均水平分别是,25.9和40.9。
△AlphaGeometry系列工作在数据集上的表现
在AlphaGeometry最新工作公布后,北京通用人工智能研究院的TongGeometry工作也浮出水面。
相比较AlphaGeometry1/2,TongGeometry有如下改进:
-
摒弃算数推理(AR),仅仅使用归纳数据库方法(DD)
-
严格构造对称图形,确保几何图形上的优美性
-
使用马尔可夫链构造树形状搜索结构,并使用人类数据启发数据生成树的搜索方向
-
利用策略网络(Policy)和价值网络(Value)联合Beam Search进行解题
纯粹的归纳数据库方法
相比较AlphaGeometry,TongGeometry摒弃了DD+AR的方法,转而只使用DD。
据悉,AR方法由于计算慢,效率低,在实际测试中的严重影响性能。TongGeometry使用的DD方法,包含类似AlphaGeometry使用的10个核心谓词:共线(equine),共圆(eqcircle),等长(cong),中点(midp),平行(para),垂直(perp),等角(eqangle),等比(eqratio),相似(simtri),全等(contri)。
这套谓词表示逻辑,能够覆盖IMO 2000-2024年的所有几何题目中的86.8%。
△归纳数据库方法
构造对称图形,确保几何图形保持美观
相比于AlphaGeometry仅仅使用随机化的构造方案,TongGeometry在设计问题搜索时就优先考虑对称图形。这种方法来自开源项目GeoGen。在正式比赛中,多见大量对称图形。
因此,使用对称方法生成数据,能够在有限数据的情况下,尽可能确保数据符合问题的分布。
△TongGeometry生成的对称图形
使用人类数据启发搜索方向
除了在问题构造的时候优先考虑对称结构,TongGeometry在问题生成的时候还将使用人类数据中获得的分布,指导数据生成方向。
TongGeometry从往届IMO,CMO,以及各大比赛中总共收集196题,并使用这个小数据集构造数据。从结果看,这一方法能够产生大量难度上数倍于现有IMO题目的构型。
△使用人类数据进行启发,TongGeometry生成的数据难度可数倍于IMO现有题目难度
利用策略网络和价值网络联合搜索
TongGeometry在解题过程中,使用了类似Reinforcement Learning的Policy和Value两个网络。
Policy网络用于提出可能的解题搜索方向。而Value网络用于从Policy网络提出的所有可能搜索方向中,筛选出最有用的几种方向。
结合Beam Search和后端的逻辑推理引擎,TongGeometry的解题策略能够形成一个闭环。
△策略网络和价值网络联合搜索解题
此外,TongGeometry使用的策略网络和价值网络都来自微调版本的DeepSeek-Coder。可以说,DeepSeek也在默默地助力TongGeometry的发展。
△DeepSeek-Coder在列,作为TongGeometry的神经网络基础
在性能测试上,TongGeometry技术报告显示,TongGeometry能够解决IMO-AG-30题中的所有30题。
根据北京通用人工智能研究院的最新介绍,在IMO-AG-50上,TongGeometry也能解决42题。注意到TongGeometry的技术报告公布于2024年12月份,谁才是第一个超过人类金牌选手平均水平的几何解题工具,还尚值得商榷。
△TongGeometry在2024年12月公布的技术报告中的性能指标
解题/出题样样精通
TongGeometry除了是一个解题达人,还是一个出题教练。TongGeometry的训练数据包含许多很有价值的几何关系发现,其中不乏大量具有镜像对称和旋转对称的美丽构型。
根据报告,这些题目的难度可能数倍于现有的IMO竞赛题目。
此外,TongGeometry所出的题目还获得了数学竞赛的认可。在2024年全国高中数学联赛预赛北京地区的考试中,TongGeometry所出的几何题就正式亮相。
△TongGeometry在全国高中数学联赛北京卷和美国奥林匹克竞赛中的供题
去年北京地区的考生,可能神不知鬼不觉地已经经历了一次来自AI的测试。另外,由美国IMO竞赛教练组组织的一项美国民间数学竞赛USEMO,也收录了2题几何题在他们的竞赛短表中(shortlist)。
△北京卷赛题几何部分记录
高效推理,性能提升18倍
相比AlphaGeometry需要246个CPU核心和4块英伟达V100的高性能计算集群才能在90分钟解决一题相比,TongGeometry只需要32个CPU核心和1块4090就能实现满血解题。
在这一配置下,TongGeometry最多用时仅仅需要38分钟。
△AlphaGeometry将解体时间控制在90分钟需要使用246核心CPU和4块英伟达V100的高性能计算集群
相比AlphaGeometry使用246*90核心分钟相比,TongGeometry仅仅需要32*38核心分钟,性能提升18倍有余。在这个配置要求下,你的黑神话主机,都能用来学习几何了。
△TongGeometry仅仅使用32个CPU核心和1块4090就能将解题时间控制在38分钟内
论文链接:https://arxiv.org/pdf/2412.10673
投稿请工作日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文/项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 👇 点亮星标
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
(文:量子位)