谷歌 DeepMind AI 系统展现超强几何解题能力了

谷歌DeepMind 在解决实际问题上花了不少精力，看我文章的朋友应该还记得之前写过一篇《谷歌DeepMind“可微缓存增强”新方法》推文，里面提到了对于大语言模型推理性能的提升。

近日，谷歌DeepMind 的AlphaGeometry系列AI系统在解决国际数学奥林匹克（IMO）几何问题上的突破，标志着人工智能在复杂数学推理领域的重大进展。个人觉得这一技术不仅挑战了人类对AI能力的传统认知，也为通用人工智能（AGI）的发展提供了重要启示。

神经符号混合系统创新

AlphaGeometry的核心在于其神经符号混合架构，将语言模型的直觉与符号引擎的逻辑推理相结合。这一设计解决了传统AI在几何问题中面临的三大难题，数据稀缺性、逻辑严谨性和创造性构造能力。

由于几何问题需转化为机器可理解的符号语言，且历史竞赛数据有限（例如过去60年IMO仅300余道几何题），DeepMind通过生成“3亿个合成定理和证明”构建训练库。

这种自监督学习模式通过随机几何图形生成与回溯推导，模拟人类数学家“试错—修正”的过程，使AI无需依赖人工标注即可学习复杂规则。

双系统协同，快速提出可能的构造（如添加辅助线或点），类似人类解题的“灵光一现”。

基于数学公理严格验证每一步推导，确保逻辑正确性。

两者的交替迭代（如AlphaGeometry2的“知识共享机制”）显著提升了问题解决的效率，例如在2024年IMO中，仅用19秒解决几何题。

初代AlphaGeometry已能解决53%的历史IMO几何题，而升级后的AlphaGeometry2将成功率提升至83%。并在2024年竞赛中首次达到银牌水平（28/42分），这一表现甚至超过多数人类金牌选手（平均得分25.9题）。

从数学竞赛到科学探索

AlphaGeometry的证明过程揭示了人类忽略的解法，其针对2004年IMO题的解答比官方答案更简洁通用。

数学家陶哲轩评价，其“展示了AI辅助数学发现的可能路径”。

未来，类似系统或能协助攻克未解猜想（如黎曼假设），尤其在需要大量符号推导的领域。

DeepMind计划将此类模型应用于物理模拟、材料设计等领域。例如，几何推理能力可优化机械结构设计，或辅助量子计算中的拓扑分析。

AI的快速解题能力也会成为教学辅助工具，帮助学生理解复杂定理的证明逻辑。但同时需警惕对“题海战术”的过度依赖，需强调创造性思维的培养。

当前技术瓶颈

尽管成就显著，AlphaGeometry系列仍存在明显短板。因为该系统无法处理涉及“可变数量点、非线性方程及不等式”的问题，且在组合数学领域表现欠佳（如2024年IMO中两道组合题未解决）。

表明其推理能力仍受限于预设符号规则，缺乏动态抽象能力。

AI的证明步骤平均比人类多出30%，部分解法包含冗余构造。

解题时间波动极大（从19秒到三天），无法适应竞赛的实时性要求。

训练数据规模庞大，但合成数据的多样性仍受算法限制，系统难以推广至拓扑学或数论等其他数学分支。

解决IMO级问题所需的多步骤推理和创造力，我认为是迈向通用人工智能的关键一步。

（一）神经符号混合架构或成为未来AI的主流范式，平衡数据驱动与规则驱动的优势。

（二）数学家Joseph Myers指出，AI可作为“超级计算工具”辅助人类发现新定理，但其缺乏提出原创问题的“想象力”。

（三）提示未来人机协作需分工明确，AI负责繁复推导，人类聚焦问题定义与价值判断。

⋯ ⋯

AI解题工具普及之后，会加剧教育资源不均，并引发学术作弊风险。

这就需要建立新的评估体系了，例如限制AI在竞赛中的使用，或设计需人类直觉的原创题型。

⋯ ⋯

AlphaGeometry的突破仅是起点，未来技术迭代有以下聚焦方向猜想。

跨领域推理能力，将几何解题框架迁移至代数、数论等领域，构建统一数学推理引擎。

动态环境适应，通过强化学习实现实时问题解析，减少对预翻译符号语言的依赖。

可解释性提升，开发可视化工具，使AI的证明过程更透明，增强人类信任。

谷歌DeepMind的AlphaGeometry系列重新定义了人机协作的边界，其成功印证了“混合智能”的潜力，但也暴露出当前AI在抽象思维与创造性上的不足。

正如菲尔兹奖得主Timothy Gowers所言：“AI的解法令人震撼，但它提醒我们，数学之美仍源于人类心智的深邃与自由。” 未来，如何在技术赋能与人文价值间取得平衡，将是更深刻的命题。

（文：陳寳）