从奥数金牌到"数学发现"：深度解读DeepMind Aletheia开启的自主数学研究新纪元

2026-03-18

AI Agent, Gemini, DeepMind, Aletheia, 数学研究, 自主研究

2026年3月9日，Google DeepMind发布了一篇论文：《Towards Autonomous Mathematics Research》（迈向自主数学研究）。这不仅仅是AI在数学领域又一次简单的"刷榜"，而是标志着人工智能正式从"竞赛解题者"进化为"科研探索者"。

在这篇由Tony Feng、Trieu H. Trinh等顶尖学者领衔的论文中，DeepMind推出了一个名为Aletheia（希腊语意为"真理/揭示"）的数学研究代理（Agent）。它不仅在数学竞赛中表现优异，更在职业数学研究领域取得了突破性进展：独立解决或协助解决了4个长期未解的数学难题，并发表了多篇达到出版水准的论文。

本文将对这篇论文进行深度拆解，探讨Aletheia背后的技术逻辑、它如何跨越"竞赛"与"研究"之间的鸿沟，以及它对未来科学发现范式的深远影响。

一、范式转移：从"闭卷考试"到"无边际探索"

在过去两年中，我们见证了AlphaGeometry、AlphaProof以及Gemini在国际数学奥林匹克（IMO）级别题目上的惊人表现。然而，数学界一直存在一种声音：竞赛数学不等同于数学研究。

论文在引言部分深刻地指出了这两者的差异：

维度	竞赛数学	数学研究
知识边界	“已知有解”，解题所需知识通常局限于特定的高中或大学低年级范畴	面对的是"未知"，需要综合、合成极其广泛的文献
表达形式	需要结果和严密的证明步骤	需要提出新概念、构建新的猜想，并能以自然语言与人类同行交流
容错与幻觉	有明确的对错标准	LLM极易产生"表面上合理但逻辑断裂"的幻觉，这在严谨的数学前沿是致命的

Aletheia的出现，正是为了解决这些痛点。

二、技术核心：Gemini Deep Think与推理时间扩展定律

Aletheia的核心动力源自于DeepMind最新的Gemini Deep Think模型，并引入了一种革命性的推理时间扩展定律（Inference-time Scaling Law）。

1. 迭代式"思考"：生成-验证-修正循环

Aletheia不再是单次生成答案，而是一个具备高度自我反思能力的代理。它在自然语言环境下进行工作，这使得它能够：

迭代生成（Iterative Generation）：像数学家一样，在草稿纸上进行推演
自动验证（Verification）：利用形式化工具或逻辑自洽性检查来验证每一步
动态修正（Revision）：当发现路径不通时，它能够回溯并调整证明策略

2. 推理时间扩展：让AI"想得更久"

这篇论文最重要的理论贡献之一是证实了：在推理阶段（Inference）给予模型更多的计算资源（Compute），其解决复杂数学问题的能力会呈指数级增长。

以往的模型受限于单次推理的长度，而Aletheia通过Gemini Deep Think框架，可以将数百万个Token的思考过程转化为最终的一行核心证明。这意味着，面对高难度的猜想，AI可以通过长达数小时甚至数天的"闭关思考"来突破逻辑屏障。

三、令人震撼的里程碑：突破Erdős猜想

论文中披露的战绩令人咋舌。DeepMind在包含700个未解难题的**Bloom’s Erdős Conjectures（埃尔德什猜想数据库）**上对Aletheia进行了半自主评估。

结果显示：

🏆 攻克4个开放性问题

Aletheia自主给出了四个长期悬而未决的数学问题的解。这意味着AI已经跨越了"复现人类证明"的阶段，开始触及人类知识的边缘。

📄 发表级论文

论文提到了一篇由Aletheia在没有任何人类干预的情况下完成的论文（Feng26）。这在数学界引起了巨大震动——AI不再仅仅是助手，而是可以独立署名的贡献者。

🧪 FirstProof基准测试

在由职业数学家提议的FirstProof测试集上，Aletheia展现出了远超同类模型的理解力。

四、解决"幻觉"的新路径：自然语言与形式化的平衡

数学研究对正确性的要求近乎苛刻。Aletheia之所以强大，是因为它并没有完全抛弃自然语言。

很多AI数学研究倾向于使用Lean等编程语言进行形式化证明。虽然严谨，但Lean的学习曲线极高，且缺乏数学直觉。Aletheia选择了**“端到端的自然语言推理”**。

它利用海量的专业数学文献进行预训练，并结合强化学习（RL），学习如何像人类数学家一样通过语言构建逻辑架构。这种方式的优势在于：可读性极强。人类数学家可以直接审阅Aletheia的推理草稿，识别其直觉跳跃点，从而实现真正意义上的"人机协作"。

五、透明化与伦理：提出"人机交互卡片"

随着AI参与度越来越高，一个伦理问题浮出水面：这篇证明到底多少是AI做的，多少是人做的？

为了解决这一问题，DeepMind在论文中创造性地提出了**“人机交互卡片”（Human-AI Interaction Cards）**。

这张卡片旨在量化：

自主水平（Autonomy Level）：类似于自动驾驶的分级（L1-L5）
新颖性贡献（Novelty Contribution）：核心点子是AI想出来的，还是由人类引导的？
透明度记录：记录AI在得出结论前经历了多少次失败的尝试

这种透明记录机制不仅是为了学术诚信，更是为了帮助人类理解AI的"思考路径"，从而将AI生成的知识更好地整合进人类文明的体系中。

六、深度观察：数学家的未来是失业吗？

读完这篇长达百页的论文，我不禁思考：当AI能够自主攻克Erdős猜想时，数学家还有意义吗？

论文的结论部分给出了一个令人振奋的视角：AI将数学家从繁琐的逻辑验证中解放出来，让他们专注于更宏大的"数学审美"和"问题定义"。

搜索与直觉的结合

数学本质上是在无穷的逻辑空间中进行搜索。AI擅长搜索，而人类擅长感知"哪个方向更有趣、更有价值"。

加速科学发现

如果Aletheia可以将验证一个猜想的时间从几年缩短到几天，那么人类科学技术的迭代速度将迎来非线性的爆发。

结语

DeepMind的这篇《Towards Autonomous Mathematics Research》不仅仅是一项技术进步，它是对"智慧"本身的一次重新定义。Aletheia向我们展示了，通过推理时间的扩展和迭代验证的架构，LLM可以摆脱"概率预测"的偏见，走向"逻辑真理"的深处。

我们正站在一个时代的节点：数学，这门最纯粹、最严谨的学科，正在成为AI证明自己具备"真正思考能力"的终极试炼场。

正如论文标题所揭示的那样，我们正在迈向自主数学研究。在这个过程中，人类不再是孤独的攀登者，而是在智慧之光的引领下，与AI共同叩响真理之门。

参考资料

Feng et al., “Towards Autonomous Mathematics Research”, Google DeepMind, March 2026.
GitHub: github.com/google-deepmind/superhuman/tree/main/aletheia

AI技术