论文还没投,AI审稿人先把错挑出来了

摘要:Google Paper Assistant 的出现,不是“AI替代审稿人”的故事,而是科研流程里开始出现一层新的质量控制基础设施。

AI 论文预审与科研工作流自动化

AI 写论文已经不新鲜了。

真正有意思的是,AI 开始审论文了。

Horizon 今日摘要里提到,Google 做了一个叫 Paper Assistant Tool 的系统,简称 PAT。它不是普通的“帮我润色论文”工具,而是一个代理式论文预审系统:读取完整手稿,检查数学错误、实验设计、理论推导和潜在问题,再给作者一份结构化反馈。

对应论文《Towards Automating Scientific Review with Google’s Paper Assistant Tool》已经提交到 arXiv。论文里有一个很抓人的数字:在 SPOT 数学错误基准上,PAT 比简单零样本提示的召回率高出 34%。换句话说,它不只是把大模型套在论文上问一句“你觉得怎么样”,而是在尝试把审稿中最费力、最容易漏掉的部分拆成可执行任务。

这件事不应该被简单理解成“AI 要取代审稿人了”。这个说法太懒,也不准确。

更接近现实的说法是:科研系统正在多出一层机器预审。

Google Paper Assistant 式论文预审流程

审稿最累的,不总是判断“有没有价值”

同行评审有两类工作。

一类是高层判断:这篇论文的问题是否重要,方法是否有启发,贡献是否足够新,是否值得这个会议或期刊接收。

另一类是细节核查:公式是否推得通,实验是否有对照,数据集是否讲清楚,引用是否遗漏,结论有没有超出证据边界。

人类专家最应该把时间花在第一类工作上。但现实是,很多审稿精力消耗在第二类事情上。尤其是数学、机器学习、理论计算机科学这类领域,一篇论文里可能埋着几十个需要逐行核对的小问题。审稿人时间有限,作者也未必能在投稿前把所有漏洞都排干净。

PAT 切入的正是这个缝隙。

它不需要像顶级专家那样判断一个方向的历史意义。它更像一位不知疲倦的预审助手,先把明显可疑的地方标出来:这里的假设是否缺失,那里是否需要补实验,这个定理是否依赖没有说明的条件,那个表格是否支撑了正文里的结论。

如果它足够可靠,最大的受益者未必是会议组织者,而是作者自己。

在正式投稿前,先被 AI 审一遍,可能会变成未来论文写作的默认步骤。

它更像“代码静态检查”,不是“终审法官”

软件开发早就接受了一件事:代码不能只靠人眼看。

我们会用 linter 检查风格,用类型系统检查接口,用单元测试检查行为,用 CI 检查合并风险。没有人会说这些工具取代了程序员。它们只是把一部分重复、机械、可自动化的质量控制前移了。

论文也需要类似的东西。

过去,论文质量主要靠作者自查、导师把关、同行评审和社区复现。这个链条很重要,但慢,而且不稳定。不同审稿人的关注点不同,疲劳程度不同,对细节的耐心也不同。

AI 预审工具的价值,是把一部分问题提前暴露出来。它可以在投稿前告诉作者:这个实验设置说得不够清楚,这个基线可能不公平,这个符号前后不一致,这段结论写得太满。

这不是终审裁判,而是科研版 CI。

真正危险的是把它当裁判。

如果会议或机构直接用 AI 分数决定论文命运,那就会出问题。模型可能误读数学符号,可能错判某个领域惯例,可能把非主流写法当成缺陷,也可能对某些研究风格产生系统性偏见。

所以 PAT 这类工具最合理的位置,是“人类评审之前的一层检查”,而不是“人类评审之后的一枚印章”。

科研基础设施正在被重新定义

这件事还有一个更大的信号:AI 开始进入科研流程的中后台。

过去大家讨论 AI for Science,常常想到自动发现药物、自动设计材料、自动做实验。但科研系统里还有大量日常环节:选题、查文献、写作、审稿、复核、整理代码、检查数据、生成补充材料。

这些环节不够浪漫,却决定了科研生产的真实效率。

Paper Assistant 说明,大模型不一定要一上来就“发现新科学”。它可以先做一个更朴素的角色:减少低级错误,帮助研究者更早看到问题,让专家把精力留给真正需要判断力的地方。

这对企业研发也有启发。

企业里的技术文档、专利交底书、项目验收材料、仿真报告、测试报告,同样存在大量“格式正确但逻辑不稳”的问题。未来完全可以有企业版的 Paper Assistant:在材料提交前,先检查指标是否自洽、证据是否完整、结论是否过度、风险是否遗漏。

这比“让 AI 写一篇报告”更有价值。

因为很多组织缺的不是能写漂亮话的模型,而是能在流程里帮人把关的系统。

风险也很现实

当然,AI 审稿工具不能只看效率。

第一个风险是权威幻觉。模型说得越像专家,人越容易信。尤其当反馈写得很具体、很有条理时,作者可能会误以为它一定正确。

第二个风险是数据敏感。未公开论文、实验细节、匿名评审意见都很敏感。任何进入 AI 系统的内容,都需要清楚的日志、权限、隔离和保密机制。

第三个风险是评价口径固化。科研创新有时恰恰来自“不像常规论文”的东西。如果 AI 预审工具过度奖励标准写法,可能会让论文越来越像模板。

所以,这类系统的正确打开方式不是“相信 AI”,而是“让 AI 提醒人该看哪里”。

科研最终仍然需要人类判断。只是人类判断不必再从一堆低级错误里开始。

真正的变化:审稿前移

Paper Assistant 最值得关注的地方,不在于它能不能替代审稿人,而在于它把审稿动作前移了。

以前,很多问题要等投稿后才被发现。现在,作者可能在写作阶段就能得到一轮接近审稿意见的反馈。

如果这个趋势继续下去,未来优秀研究团队的差距,不只体现在会不会用 AI 写代码、跑实验,也体现在有没有一套完整的“AI 研究质控流水线”。

论文写完之后,不是直接投出去,而是先过一遍机器预审、代码复现检查、数据一致性检查、引用覆盖检查、图表证据检查。

这听起来不像科幻,更像科研系统终于补上了工程化的一环。

AI 审稿人不一定会坐上审稿人的椅子。

但它很可能会先坐到作者旁边。

参考资料

分享到