2026年3月9日,Google DeepMind发布了一篇论文:《Towards Autonomous Mathematics Research》(迈向自主数学研究)。这不仅仅是AI在数学领域又一次简单的"刷榜",而是标志着人工智能正式从"竞赛解题者"进化为"科研探索者"。
在这篇由Tony Feng、Trieu H. Trinh等顶尖学者领衔的论文中,DeepMind推出了一个名为Aletheia(希腊语意为"真理/揭示")的数学研究代理(Agent)。它不仅在数学竞赛中表现优异,更在职业数学研究领域取得了突破性进展:独立解决或协助解决了4个长期未解的数学难题,并发表了多篇达到出版水准的论文。
本文将对这篇论文进行深度拆解,探讨Aletheia背后的技术逻辑、它如何跨越"竞赛"与"研究"之间的鸿沟,以及它对未来科学发现范式的深远影响。
一、范式转移:从"闭卷考试"到"无边际探索"
在过去两年中,我们见证了AlphaGeometry、AlphaProof以及Gemini在国际数学奥林匹克(IMO)级别题目上的惊人表现。然而,数学界一直存在一种声音:竞赛数学不等同于数学研究。
论文在引言部分深刻地指出了这两者的差异:
| 维度 | 竞赛数学 | 数学研究 |
|---|---|---|
| 知识边界 | “已知有解”,解题所需知识通常局限于特定的高中或大学低年级范畴 | 面对的是"未知",需要综合、合成极其广泛的文献 |
| 表达形式 | 需要结果和严密的证明步骤 | 需要提出新概念、构建新的猜想,并能以自然语言与人类同行交流 |
| 容错与幻觉 | 有明确的对错标准 | LLM极易产生"表面上合理但逻辑断裂"的幻觉,这在严谨的数学前沿是致命的 |
Aletheia的出现,正是为了解决这些痛点。

二、技术核心:Gemini Deep Think与推理时间扩展定律
Aletheia的核心动力源自于DeepMind最新的Gemini Deep Think模型,并引入了一种革命性的推理时间扩展定律(Inference-time Scaling Law)。
1. 迭代式"思考":生成-验证-修正循环
Aletheia不再是单次生成答案,而是一个具备高度自我反思能力的代理。它在自然语言环境下进行工作,这使得它能够:
- 迭代生成(Iterative Generation):像数学家一样,在草稿纸上进行推演
- 自动验证(Verification):利用形式化工具或逻辑自洽性检查来验证每一步
- 动态修正(Revision):当发现路径不通时,它能够回溯并调整证明策略
2. 推理时间扩展:让AI"想得更久"
这篇论文最重要的理论贡献之一是证实了:在推理阶段(Inference)给予模型更多的计算资源(Compute),其解决复杂数学问题的能力会呈指数级增长。
以往的模型受限于单次推理的长度,而Aletheia通过Gemini Deep Think框架,可以将数百万个Token的思考过程转化为最终的一行核心证明。这意味着,面对高难度的猜想,AI可以通过长达数小时甚至数天的"闭关思考"来突破逻辑屏障。

三、令人震撼的里程碑:突破Erdős猜想
论文中披露的战绩令人咋舌。DeepMind在包含700个未解难题的**Bloom’s Erdős Conjectures(埃尔德什猜想数据库)**上对Aletheia进行了半自主评估。
结果显示:
🏆 攻克4个开放性问题
Aletheia自主给出了四个长期悬而未决的数学问题的解。这意味着AI已经跨越了"复现人类证明"的阶段,开始触及人类知识的边缘。
📄 发表级论文
论文提到了一篇由Aletheia在没有任何人类干预的情况下完成的论文(Feng26)。这在数学界引起了巨大震动——AI不再仅仅是助手,而是可以独立署名的贡献者。
🧪 FirstProof基准测试
在由职业数学家提议的FirstProof测试集上,Aletheia展现出了远超同类模型的理解力。
四、解决"幻觉"的新路径:自然语言与形式化的平衡
数学研究对正确性的要求近乎苛刻。Aletheia之所以强大,是因为它并没有完全抛弃自然语言。
很多AI数学研究倾向于使用Lean等编程语言进行形式化证明。虽然严谨,但Lean的学习曲线极高,且缺乏数学直觉。Aletheia选择了**“端到端的自然语言推理”**。
它利用海量的专业数学文献进行预训练,并结合强化学习(RL),学习如何像人类数学家一样通过语言构建逻辑架构。这种方式的优势在于:可读性极强。人类数学家可以直接审阅Aletheia的推理草稿,识别其直觉跳跃点,从而实现真正意义上的"人机协作"。
五、透明化与伦理:提出"人机交互卡片"
随着AI参与度越来越高,一个伦理问题浮出水面:这篇证明到底多少是AI做的,多少是人做的?
为了解决这一问题,DeepMind在论文中创造性地提出了**“人机交互卡片”(Human-AI Interaction Cards)**。
这张卡片旨在量化:
- 自主水平(Autonomy Level):类似于自动驾驶的分级(L1-L5)
- 新颖性贡献(Novelty Contribution):核心点子是AI想出来的,还是由人类引导的?
- 透明度记录:记录AI在得出结论前经历了多少次失败的尝试
这种透明记录机制不仅是为了学术诚信,更是为了帮助人类理解AI的"思考路径",从而将AI生成的知识更好地整合进人类文明的体系中。

六、深度观察:数学家的未来是失业吗?
读完这篇长达百页的论文,我不禁思考:当AI能够自主攻克Erdős猜想时,数学家还有意义吗?
论文的结论部分给出了一个令人振奋的视角:AI将数学家从繁琐的逻辑验证中解放出来,让他们专注于更宏大的"数学审美"和"问题定义"。
搜索与直觉的结合
数学本质上是在无穷的逻辑空间中进行搜索。AI擅长搜索,而人类擅长感知"哪个方向更有趣、更有价值"。
加速科学发现
如果Aletheia可以将验证一个猜想的时间从几年缩短到几天,那么人类科学技术的迭代速度将迎来非线性的爆发。

结语
DeepMind的这篇《Towards Autonomous Mathematics Research》不仅仅是一项技术进步,它是对"智慧"本身的一次重新定义。Aletheia向我们展示了,通过推理时间的扩展和迭代验证的架构,LLM可以摆脱"概率预测"的偏见,走向"逻辑真理"的深处。
我们正站在一个时代的节点:数学,这门最纯粹、最严谨的学科,正在成为AI证明自己具备"真正思考能力"的终极试炼场。
正如论文标题所揭示的那样,我们正在迈向自主数学研究。在这个过程中,人类不再是孤独的攀登者,而是在智慧之光的引领下,与AI共同叩响真理之门。
参考资料
- Feng et al., “Towards Autonomous Mathematics Research”, Google DeepMind, March 2026.
- GitHub: github.com/google-deepmind/superhuman/tree/main/aletheia