论文还没投，AI审稿人先把错挑出来了

2026-06-30

Google, Agent, AI审稿, 科研智能体, 学术出版

摘要：Google Paper Assistant 的出现，不是“AI替代审稿人”的故事，而是科研流程里开始出现一层新的质量控制基础设施。

AI 论文预审与科研工作流自动化

AI 写论文已经不新鲜了。

真正有意思的是，AI 开始审论文了。

Horizon 今日摘要里提到，Google 做了一个叫 Paper Assistant Tool 的系统，简称 PAT。它不是普通的“帮我润色论文”工具，而是一个代理式论文预审系统：读取完整手稿，检查数学错误、实验设计、理论推导和潜在问题，再给作者一份结构化反馈。

对应论文《Towards Automating Scientific Review with Google’s Paper Assistant Tool》已经提交到 arXiv。论文里有一个很抓人的数字：在 SPOT 数学错误基准上，PAT 比简单零样本提示的召回率高出 34%。换句话说，它不只是把大模型套在论文上问一句“你觉得怎么样”，而是在尝试把审稿中最费力、最容易漏掉的部分拆成可执行任务。

这件事不应该被简单理解成“AI 要取代审稿人了”。这个说法太懒，也不准确。

更接近现实的说法是：科研系统正在多出一层机器预审。

Google Paper Assistant 式论文预审流程

审稿最累的，不总是判断“有没有价值”

同行评审有两类工作。

一类是高层判断：这篇论文的问题是否重要，方法是否有启发，贡献是否足够新，是否值得这个会议或期刊接收。

另一类是细节核查：公式是否推得通，实验是否有对照，数据集是否讲清楚，引用是否遗漏，结论有没有超出证据边界。

人类专家最应该把时间花在第一类工作上。但现实是，很多审稿精力消耗在第二类事情上。尤其是数学、机器学习、理论计算机科学这类领域，一篇论文里可能埋着几十个需要逐行核对的小问题。审稿人时间有限，作者也未必能在投稿前把所有漏洞都排干净。

PAT 切入的正是这个缝隙。

它不需要像顶级专家那样判断一个方向的历史意义。它更像一位不知疲倦的预审助手，先把明显可疑的地方标出来：这里的假设是否缺失，那里是否需要补实验，这个定理是否依赖没有说明的条件，那个表格是否支撑了正文里的结论。

如果它足够可靠，最大的受益者未必是会议组织者，而是作者自己。

在正式投稿前，先被 AI 审一遍，可能会变成未来论文写作的默认步骤。

它更像“代码静态检查”，不是“终审法官”

软件开发早就接受了一件事：代码不能只靠人眼看。

我们会用 linter 检查风格，用类型系统检查接口，用单元测试检查行为，用 CI 检查合并风险。没有人会说这些工具取代了程序员。它们只是把一部分重复、机械、可自动化的质量控制前移了。

论文也需要类似的东西。

过去，论文质量主要靠作者自查、导师把关、同行评审和社区复现。这个链条很重要，但慢，而且不稳定。不同审稿人的关注点不同，疲劳程度不同，对细节的耐心也不同。

AI 预审工具的价值，是把一部分问题提前暴露出来。它可以在投稿前告诉作者：这个实验设置说得不够清楚，这个基线可能不公平，这个符号前后不一致，这段结论写得太满。

这不是终审裁判，而是科研版 CI。

真正危险的是把它当裁判。

如果会议或机构直接用 AI 分数决定论文命运，那就会出问题。模型可能误读数学符号，可能错判某个领域惯例，可能把非主流写法当成缺陷，也可能对某些研究风格产生系统性偏见。

所以 PAT 这类工具最合理的位置，是“人类评审之前的一层检查”，而不是“人类评审之后的一枚印章”。

科研基础设施正在被重新定义

这件事还有一个更大的信号：AI 开始进入科研流程的中后台。

过去大家讨论 AI for Science，常常想到自动发现药物、自动设计材料、自动做实验。但科研系统里还有大量日常环节：选题、查文献、写作、审稿、复核、整理代码、检查数据、生成补充材料。

这些环节不够浪漫，却决定了科研生产的真实效率。

Paper Assistant 说明，大模型不一定要一上来就“发现新科学”。它可以先做一个更朴素的角色：减少低级错误，帮助研究者更早看到问题，让专家把精力留给真正需要判断力的地方。

这对企业研发也有启发。

企业里的技术文档、专利交底书、项目验收材料、仿真报告、测试报告，同样存在大量“格式正确但逻辑不稳”的问题。未来完全可以有企业版的 Paper Assistant：在材料提交前，先检查指标是否自洽、证据是否完整、结论是否过度、风险是否遗漏。

这比“让 AI 写一篇报告”更有价值。

因为很多组织缺的不是能写漂亮话的模型，而是能在流程里帮人把关的系统。

风险也很现实

当然，AI 审稿工具不能只看效率。

第一个风险是权威幻觉。模型说得越像专家，人越容易信。尤其当反馈写得很具体、很有条理时，作者可能会误以为它一定正确。

第二个风险是数据敏感。未公开论文、实验细节、匿名评审意见都很敏感。任何进入 AI 系统的内容，都需要清楚的日志、权限、隔离和保密机制。

第三个风险是评价口径固化。科研创新有时恰恰来自“不像常规论文”的东西。如果 AI 预审工具过度奖励标准写法，可能会让论文越来越像模板。

所以，这类系统的正确打开方式不是“相信 AI”，而是“让 AI 提醒人该看哪里”。

科研最终仍然需要人类判断。只是人类判断不必再从一堆低级错误里开始。

真正的变化：审稿前移

Paper Assistant 最值得关注的地方，不在于它能不能替代审稿人，而在于它把审稿动作前移了。

以前，很多问题要等投稿后才被发现。现在，作者可能在写作阶段就能得到一轮接近审稿意见的反馈。

如果这个趋势继续下去，未来优秀研究团队的差距，不只体现在会不会用 AI 写代码、跑实验，也体现在有没有一套完整的“AI 研究质控流水线”。

论文写完之后，不是直接投出去，而是先过一遍机器预审、代码复现检查、数据一致性检查、引用覆盖检查、图表证据检查。

这听起来不像科幻，更像科研系统终于补上了工程化的一环。

AI 审稿人不一定会坐上审稿人的椅子。

但它很可能会先坐到作者旁边。

参考资料

Horizon 2026-06-30 摘要：https://thysrael.github.io/Horizon/2026/06/30/summary-zh.html
arXiv：《Towards Automating Scientific Review with Google’s Paper Assistant Tool》：https://arxiv.org/abs/2606.28277
Reddit 讨论：https://www.reddit.com/r/MachineLearning/comments/1uio9rb/googles_agentic_peerreviewer_handled_10k_papers/

AI技术