谷歌 DeepMind AI 系统展现超强几何解题能力了

谷歌DeepMind 在解决实际问题上花了不少精力,看我文章的朋友应该还记得之前写过一篇《谷歌DeepMind“可微缓存增强”新方法》推文,里面提到了对于大语言模型推理性能的提升。


近日,谷歌DeepMind 的AlphaGeometry系列AI系统在解决国际数学奥林匹克(IMO)几何问题上的突破,标志着人工智能在复杂数学推理领域的重大进展。个人觉得这一技术不仅挑战了人类对AI能力的传统认知,也为通用人工智能(AGI)的发展提供了重要启示。

神经符号混合系统创新


AlphaGeometry的核心在于其神经符号混合架构,将语言模型的直觉与符号引擎的逻辑推理相结合。这一设计解决了传统AI在几何问题中面临的三大难题,数据稀缺性、逻辑严谨性和创造性构造能力。


由于几何问题需转化为机器可理解的符号语言,且历史竞赛数据有限(例如过去60年IMO仅300余道几何题),DeepMind通过生成“3亿个合成定理和证明”构建训练库。


这种自监督学习模式通过随机几何图形生成与回溯推导,模拟人类数学家“试错—修正”的过程,使AI无需依赖人工标注即可学习复杂规则。


双系统协同,快速提出可能的构造(如添加辅助线或点),类似人类解题的“灵光一现”。


基于数学公理严格验证每一步推导,确保逻辑正确性。  


两者的交替迭代(如AlphaGeometry2的“知识共享机制”)显著提升了问题解决的效率,例如在2024年IMO中,仅用19秒解决几何题。


初代AlphaGeometry已能解决53%的历史IMO几何题,而升级后的AlphaGeometry2将成功率提升至83%。并在2024年竞赛中首次达到银牌水平(28/42分),这一表现甚至超过多数人类金牌选手(平均得分25.9题)。


从数学竞赛到科学探索


AlphaGeometry的证明过程揭示了人类忽略的解法,其针对2004年IMO题的解答比官方答案更简洁通用。


数学家陶哲轩评价,其“展示了AI辅助数学发现的可能路径”。


未来,类似系统或能协助攻克未解猜想(如黎曼假设),尤其在需要大量符号推导的领域。


DeepMind计划将此类模型应用于物理模拟、材料设计等领域。例如,几何推理能力可优化机械结构设计,或辅助量子计算中的拓扑分析。


AI的快速解题能力也会成为教学辅助工具,帮助学生理解复杂定理的证明逻辑。但同时需警惕对“题海战术”的过度依赖,需强调创造性思维的培养。


当前技术瓶颈


尽管成就显著,AlphaGeometry系列仍存在明显短板。因为该系统无法处理涉及“可变数量点、非线性方程及不等式”的问题,且在组合数学领域表现欠佳(如2024年IMO中两道组合题未解决)。


表明其推理能力仍受限于预设符号规则,缺乏动态抽象能力。


AI的证明步骤平均比人类多出30%,部分解法包含冗余构造。


解题时间波动极大(从19秒到三天),无法适应竞赛的实时性要求。


训练数据规模庞大,但合成数据的多样性仍受算法限制,系统难以推广至拓扑学或数论等其他数学分支。


解决IMO级问题所需的多步骤推理和创造力,我认为是迈向通用人工智能的关键一步。


(一)神经符号混合架构或成为未来AI的主流范式,平衡数据驱动与规则驱动的优势。


(二)数学家Joseph Myers指出,AI可作为“超级计算工具”辅助人类发现新定理,但其缺乏提出原创问题的“想象力”。


(三)提示未来人机协作需分工明确,AI负责繁复推导,人类聚焦问题定义与价值判断。


⋯ ⋯


AI解题工具普及之后,会加剧教育资源不均,并引发学术作弊风险。


这就需要建立新的评估体系了,例如限制AI在竞赛中的使用,或设计需人类直觉的原创题型。

⋯ ⋯


AlphaGeometry的突破仅是起点,未来技术迭代有以下聚焦方向猜想。


跨领域推理能力,将几何解题框架迁移至代数、数论等领域,构建统一数学推理引擎。


动态环境适应,通过强化学习实现实时问题解析,减少对预翻译符号语言的依赖。


可解释性提升,开发可视化工具,使AI的证明过程更透明,增强人类信任。


谷歌DeepMind的AlphaGeometry系列重新定义了人机协作的边界,其成功印证了“混合智能”的潜力,但也暴露出当前AI在抽象思维与创造性上的不足。


正如菲尔兹奖得主Timothy Gowers所言:“AI的解法令人震撼,但它提醒我们,数学之美仍源于人类心智的深邃与自由。” 未来,如何在技术赋能与人文价值间取得平衡,将是更深刻的命题。

(文:陳寳)

欢迎分享

发表评论