Gowers 测试 ChatGPT 5.5 Pro：数学研究的门槛正在被重新定义

2026-05-10

LLM, AI, 数学, ChatGPT

摘要：Timothy Gowers 对 ChatGPT 5.5 Pro 的测试，不再是“AI 会不会做题”，而是它能否在真实研究语境里，找到人类没有立刻采用的组合方式，并把它推进成可检验的证明。

2026 年 5 月，数学界和 AI 社区同时被一篇博客击中。作者不是普通测评人，而是 Timothy Gowers：菲尔兹奖得主、剑桥大学长期任教者，现任法兰西公学院组合数学讲席教授。法兰西公学院的传记显示，Gowers 1998 年获得菲尔兹奖，2009 年起担任英国皇家学会研究教授，2020 年被任命为法兰西公学院教授。也就是说，这不是一次“AI 震撼体”式的围观，而是一位一线数学家对前沿模型能力的严肃测试。

Gowers 的结论非常直接：我们不得不再次上调对大型语言模型数学能力的评估。他在博客开头说，ChatGPT 5.5 Pro 在约一小时内产出了一段“博士级研究”，而且几乎没有来自他的实质性数学输入。这个表述的重要性不在于“AI 又做对了一道难题”，而在于任务类型已经从竞赛题、课后题、已知定理复述，推进到真实研究文献中尚未完全处理的问题。

一、这次测试为什么不一样？

这次测试的背景，是 Melvyn Nathanson 一篇关于加性数论问题多样性的论文。Nathanson 讨论了有限整数集的和集大小、受限和集、和集交叠等问题，并强调某些看起来“边缘”的问题，日后也可能成为重要方向。论文中有一类问题可以粗略理解为：给定一个整数集合 A，我们关心 A+A 或 hA 能出现哪些大小，以及为了实现某个大小，集合元素需要分布在多大的区间里。Nathanson 原文也把“有限整数集和集大小”列为重点问题之一，并提出是否存在次指数或多项式界的问题。

Gowers 先让 ChatGPT 5.5 Pro 处理 h=2 的情形。模型思考 17 分 5 秒后，给出一个构造，把 Nathanson 原先的指数型区间界改进为二次上界；随后又用 2 分 23 秒把证明改写成数学预印本风格的 LaTeX。Gowers 花时间检查后认为论证正确。关键思想并不是凭空“发明数学”，而是把问题重述为 Sidon 集与等差数列的组合，再用更高效的 Sidon 集替代 Nathanson 构造中隐含的 2 的幂结构。

这点尤其值得注意。很多人会把 AI 的数学能力贬低为“只是拼接已有知识”。但数学研究中，大量有价值工作本来就来自重新表述、识别结构、替换更合适的工具、把已知技术放到新位置。Gowers 在文中也提醒：相当多优秀的人类数学，其实也是把已有知识和证明技术组合起来。真正的问题不是“它有没有从无到有地产生灵感”，而是：它能否在真实研究语境里，找到人类没有立刻采用的组合方式，并把它推进成可检验的证明。

二、真正震动数学界的，是哪一步？

更强的信号来自后续。Gowers 又让模型尝试一般 h 的情形。起初他并不乐观，因为 h=2 的情况有 Erdős–Szemerédi 的完整刻画，而一般 h 的可实现和集大小集合并没有那么简单。但 ChatGPT 5.5 Pro 先给出一个从指数界到更弱指数界的改进，再进一步尝试多项式界。最终预印本被 Isaac Rajagopal 检查后认为“几乎肯定正确”，而且这种判断不仅是逐行形式上的，也是思想层面的。

Rajagopal 的客座评价更尖锐：第一次改进还可以看作对他工作的常规修改，但从指数级推进到多项式级的想法“相当令人印象深刻”；他说这种想法如果自己花一两周想出来，也会非常自豪，而 ChatGPT 在不到一小时内找到并证明了它。

这个评价让事件的性质发生变化：它不只是“模型能写证明”，而是“模型可能在局部研究项目中贡献一个专家也认可的有效想法”。

三、这是否意味着数学家可以退场？

当然，这并不等于数学家可以退场。Gowers 的实验依然有几个限制。

第一，问题来自已有论文，框架、定义和动机由人类建立。

第二，结果是否正确，仍需要专家检查。

第三，模型擅长的可能是组合数学、加性数论这类“问题驱动”的领域；Gowers 自己也谨慎地说，其他数学方向未必相同，因为有些领域更依赖从一组思想向前发展，并判断哪些观察有趣、哪些只是技术噪声。

但即便加上这些限制，教育层面的冲击已经很明显。Gowers 说，训练初入门博士生本来就很难，而过去一种常见方式，是给学生一个看起来温和、可能能做出来的开放问题。这样的题目能让新人体验真正研究的鼓励感。现在的问题是：如果 LLM 已经能解决这类“温和问题”，导师就很难再把它们当作训练场。新的训练任务变成：不是证明 AI 不能证明的东西，而是学会与 AI 合作，证明 AI 单独还做不到的东西。

四、数学教育会先被改写吗？

这会改变博士教育的节奏。过去，一个学生可能用几周时间摸索定义、查文献、试错、失败、重组想法，最后获得研究直觉。现在，模型可能几小时内给出一条可行路线。效率提升是真实的，但学习过程可能被压缩得过快。Hacker News 讨论里也有人把它类比为编程教育：初学者当然可以让 LLM 写代码，但若永远跳过手写和调试，就很难真正成为好程序员。数学也是如此，验证一个证明“看起来对”，和自己知道为什么它对，是两种能力。

五、成本会成为新的门槛

成本则是另一条硬约束。OpenAI 官方说明中，GPT-5.5 Pro 面向 ChatGPT Pro、Business 和 Enterprise 用户；API 价格也明显属于高端档位，gpt-5.5-pro 标准价格为每 100 万输入 token 30 美元、每 100 万输出 token 180 美元，长上下文价格更高。对于需要长时间推理、多轮检查、子代理协作和大上下文文献处理的数学研究来说，这不是象征性成本，而会直接决定谁能用、怎么用、能用多久。

HN 社区的第一批反馈也集中在这里：有用户认为 5.5 Pro 的推理和自我修正明显更强，但代价是 token 消耗“疯狂”，一旦使用多代理流程来提高大问题的准确率，成本会进一步上升；同时大规模问题还会受上下文限制拖慢，因为模型需要不断重建局部上下文。

所以，这次事件最重要的判断不是“AI 已经会做数学”这么简单，而是数学研究正在进入一个新经济结构：推理能力变得更便宜，验证、选题、品味和组织变得更贵。过去稀缺的是能想到证明的人；未来稀缺的可能是能提出好问题、识别证明价值、建立可信仓库、决定哪些 AI 结果值得进入数学共同体的人。Gowers 也提出了类似问题：如果一个结果由 AI 生成、确实可发表，但没有传统意义上的作者信用，它应该放在哪里？也许需要一个由人类认证、或由形式化证明系统验证的新型数学结果库。

六、从展示型能力到工作流能力

我的判断是，Gowers 这篇博客标志着数学 AI 从“展示型能力”走向“工作流能力”。过去我们问：模型能否解出一道难题？现在要问：模型能否在文献、定义、构造、证明、修正、写作、同行检查之间形成可重复流程？一旦答案越来越接近“能”，数学家的角色就不会消失，但会更像研究导演、证明审计员、问题策展人和形式化验证协调者。

这并不悲观。人类思想的价值，不只在于“别人做不到”，也在于它能定义什么是值得做的。若 AI 能把温和开放问题快速清空，数学教育确实会失去一批传统练习题；但它也可能迫使导师更早训练学生的判断力、审美、抽象能力和协作能力。真正危险的不是 AI 会证明定理，而是人类放弃理解定理。Gowers 的测试提醒我们：未来的数学训练，不应只是禁止学生使用模型，而应教他们在模型足够强、足够贵、也仍可能犯错的世界里，如何保持自己的数学感。

AI技术