谷歌DeepMind 在解决实际问题上花了不少精力,看我文章的朋友应该还记得之前写过一篇《谷歌DeepMind“可微缓存增强”新方法》推文,里面提到了对于大语言模型推理性能的提升。

神经符号混合系统创新
AlphaGeometry的核心在于其神经符号混合架构,将语言模型的直觉与符号引擎的逻辑推理相结合。这一设计解决了传统AI在几何问题中面临的三大难题,数据稀缺性、逻辑严谨性和创造性构造能力。
由于几何问题需转化为机器可理解的符号语言,且历史竞赛数据有限(例如过去60年IMO仅300余道几何题),DeepMind通过生成“3亿个合成定理和证明”构建训练库。
这种自监督学习模式通过随机几何图形生成与回溯推导,模拟人类数学家“试错—修正”的过程,使AI无需依赖人工标注即可学习复杂规则。
双系统协同,快速提出可能的构造(如添加辅助线或点),类似人类解题的“灵光一现”。
基于数学公理严格验证每一步推导,确保逻辑正确性。
两者的交替迭代(如AlphaGeometry2的“知识共享机制”)显著提升了问题解决的效率,例如在2024年IMO中,仅用19秒解决几何题。
初代AlphaGeometry已能解决53%的历史IMO几何题,而升级后的AlphaGeometry2将成功率提升至83%。并在2024年竞赛中首次达到银牌水平(28/42分),这一表现甚至超过多数人类金牌选手(平均得分25.9题)。
从数学竞赛到科学探索
AlphaGeometry的证明过程揭示了人类忽略的解法,其针对2004年IMO题的解答比官方答案更简洁通用。
数学家陶哲轩评价,其“展示了AI辅助数学发现的可能路径”。
未来,类似系统或能协助攻克未解猜想(如黎曼假设),尤其在需要大量符号推导的领域。
DeepMind计划将此类模型应用于物理模拟、材料设计等领域。例如,几何推理能力可优化机械结构设计,或辅助量子计算中的拓扑分析。
AI的快速解题能力也会成为教学辅助工具,帮助学生理解复杂定理的证明逻辑。但同时需警惕对“题海战术”的过度依赖,需强调创造性思维的培养。
当前技术瓶颈
尽管成就显著,AlphaGeometry系列仍存在明显短板。因为该系统无法处理涉及“可变数量点、非线性方程及不等式”的问题,且在组合数学领域表现欠佳(如2024年IMO中两道组合题未解决)。
表明其推理能力仍受限于预设符号规则,缺乏动态抽象能力。
AI的证明步骤平均比人类多出30%,部分解法包含冗余构造。
解题时间波动极大(从19秒到三天),无法适应竞赛的实时性要求。
训练数据规模庞大,但合成数据的多样性仍受算法限制,系统难以推广至拓扑学或数论等其他数学分支。

解决IMO级问题所需的多步骤推理和创造力,我认为是迈向通用人工智能的关键一步。
(一)神经符号混合架构或成为未来AI的主流范式,平衡数据驱动与规则驱动的优势。
(二)数学家Joseph Myers指出,AI可作为“超级计算工具”辅助人类发现新定理,但其缺乏提出原创问题的“想象力”。
(三)提示未来人机协作需分工明确,AI负责繁复推导,人类聚焦问题定义与价值判断。
⋯ ⋯
AI解题工具普及之后,会加剧教育资源不均,并引发学术作弊风险。
这就需要建立新的评估体系了,例如限制AI在竞赛中的使用,或设计需人类直觉的原创题型。
⋯ ⋯
AlphaGeometry的突破仅是起点,未来技术迭代有以下聚焦方向猜想。
跨领域推理能力,将几何解题框架迁移至代数、数论等领域,构建统一数学推理引擎。
动态环境适应,通过强化学习实现实时问题解析,减少对预翻译符号语言的依赖。
可解释性提升,开发可视化工具,使AI的证明过程更透明,增强人类信任。
谷歌DeepMind的AlphaGeometry系列重新定义了人机协作的边界,其成功印证了“混合智能”的潜力,但也暴露出当前AI在抽象思维与创造性上的不足。
正如菲尔兹奖得主Timothy Gowers所言:“AI的解法令人震撼,但它提醒我们,数学之美仍源于人类心智的深邃与自由。” 未来,如何在技术赋能与人文价值间取得平衡,将是更深刻的命题。
(文:陳寳)