arXiv要对“虚假引用”下重手:AI时代,学术诚信的最低门槛正在被重新划线

摘要:当AI开始批量生成“看起来像真的引用”,学术写作的最低门槛就不再只是观点成立,而是你引用的东西必须真的存在。

arXiv虚假引用与学术核验封面图

这两天,学术圈被一条关于 arXiv 的消息点燃了。

据 Hacker News 上的转述和讨论,arXiv 正计划对含有“AI幻觉引用”的论文实施严厉处罚:如果论文中出现无法证实的虚假引用,作者可能被禁止在 arXiv 上提交论文一年;一年之后,后续提交还需要先在可信的同行评审场所被接收,才可重新进入 arXiv 体系。需要特别说明的是,截至目前,arXiv 官方政策页中还没有清晰列出这一条款,arXiv 的政策页也注明其政策清单仍在完善中,因此这更像是一个正在扩散的强烈政策信号,而不是已经完全公开落地的正式文本。

但无论这条规则最终以什么形式落地,它都说明了一件事:AI时代的学术出版,已经到了必须重新划线的时候。

过去,论文里的引用错误通常被看作细节问题。页码写错了、作者顺序有误、会议年份搞混了,虽然不严谨,但多数时候还属于可修正的疏漏。可今天的问题变了。大语言模型不是简单地“写错引用”,而是会生成看起来非常像真的引用:有作者、有题目、有期刊名、有年份,甚至还有一串像模像样的 DOI。读者第一眼看不出问题,审稿人也未必有时间逐条核验。最危险的是,这些引用并不只是格式错误,而是指向一个根本不存在的知识来源。

这就不是小问题了。

引用是什么?引用不是论文末尾的装饰,也不是为了显得“文献综述充分”的学术排场。引用是科学共同体的路标。它告诉读者:这个判断从哪里来,这个方法谁做过,这个问题已有怎样的讨论,这篇论文是在什么基础上继续往前走。如果引用是假的,那么论文表面上仍然完整,实际上却在知识地基里埋了一块空砖。

这也是为什么“虚假引用”比一般的 AI 幻觉更危险。AI写错一句话,读者也许还能通过上下文判断;AI编造一个引用,却是在伪造一条通往事实的道路。它让读者以为自己可以追溯,却最终追到空气里。

学术文献之门与引用核验示意图

更麻烦的是,这已经不是个别现象。Nature 在 2026 年 4 月的一篇报道中指出,2025 年可能有数万篇出版物包含 AI 生成的无效引用。另一篇 2026 年 5 月提交到 arXiv 的研究更进一步,对 arXiv、bioRxiv、SSRN 和 PubMed Central 中 250 万篇论文、1.11 亿条参考文献进行审计,保守估计仅 2025 年就有 146,932 条幻觉引用。

这个数字真正令人不安的地方,不只是“大”,而是它说明问题已经从写作错误变成了系统性污染。科学文献原本是人类知识最重要的基础设施之一。每一篇论文都不是孤立存在的,它会被检索、被综述、被模型训练、被政策引用、被企业研发部门拿来做技术判断。假引用一旦混入其中,就像把错误坐标写进地图。一个人走错路还可以回头,整张地图被污染,后面的人就会持续迷路。

在 AI 研究领域,这个问题尤其突出。2026 年一篇关于 ACL 系列会议“幻觉引用”的研究发现,含有幻觉引用的论文数量从 2024 年的 20 篇上升到 2025 年的 275 篇,比例也从约 0.28% 上升到 2.59%;其中 EMNLP 2025 的情况更明显,部分主会和 Findings 论文中也出现了这类问题。这说明它已经不只是边缘 workshop 的低质量投稿问题,而是开始进入主流学术生产链条。

为什么会这样?

根源并不只是“AI会胡说”。真正的问题是,AI把生成成本降得太低,而验证成本没有同步下降。过去写一篇综述,作者需要真正读论文、整理脉络、对比观点、判断贡献。今天,一个模型可以在几分钟内生成一篇看起来结构完整、引用密集、语言流畅的“论文”。生成端飞速降价,验证端却仍然昂贵。每一条引用是否存在,是否准确,是否真的支持正文中的说法,仍然需要查数据库、读原文、看上下文。

于是,学术系统出现了一个新的不平衡:垃圾内容可以批量生成,清理垃圾却仍然靠人力。

arXiv 之前其实已经感受到这种压力。2025 年 10 月,arXiv 在计算机科学类别中更新了对综述文章和立场论文的处理方式:这类文章在提交 arXiv 前,通常需要先被期刊或会议接受并完成同行评审;arXiv 解释说,CS 类别中综述和立场论文数量大幅增长,其中许多只是“带注释的参考书目”,缺乏对开放研究问题的实质讨论,而大语言模型让这类内容变得更容易批量生产。

这句话其实很关键。AI带来的不是简单的“作弊工具”,而是学术生产函数的改变。原来低质量论文也能写,但成本较高;现在低质量论文可以规模化生产。原来引用造假也可能发生,但需要主动编造;现在作者可能只是让模型补几条参考文献,模型就会自动生成一个看似合理的世界。更糟的是,有些作者并不觉得这是严重问题,甚至会把它解释成“工具使用中的小失误”。

但科学共同体不能这样看。

从作者角度看,虚假引用也许只是“忘了核验”;从读者角度看,这是时间浪费;从审稿人角度看,这是额外负担;从科学系统角度看,这是知识污染。每一条假引用都会迫使后来者花时间排查,而这些时间本可以用于真正的研究。所谓学术诚信,不只是“不造假实验数据”,也包括不把未验证的信息包装成知识链条的一部分。

因此,arXiv 若真的实施一年禁令,争议一定会很大。一方会认为这太严厉,尤其是年轻研究者、学生作者、多作者合作论文中,确实可能出现无意错误。另一方会认为,如果连引用是否真实都不检查,就没有资格占用公共学术基础设施。Hacker News 的讨论也集中在这个分歧上:有人认为一年禁令是维护科学的必要代价,也有人担心这会把一次疏忽上升为近似“职业惩罚”。

这场争论背后,其实是 AI 时代责任边界的重新定义。

以前,作者可以说“这是我写的”。现在,很多内容可能是模型辅助生成的、共同作者修改的、工具链自动补全的、文献管理软件导出的。那么最终谁负责?答案只能是:署名作者负责。因为科学出版不可能对每一次错误做侦查式追责,去判断到底是模型编的、学生抄的、合作者漏看的,还是 Zotero 条目错了。提交按钮一旦按下,作者就是在向共同体声明:这篇论文的内容,包括引用,经得起基本核验。

这不是反 AI,而是反“未经验证的 AI 输出”。

事实上,AI完全可以成为解决问题的一部分。它可以帮助初筛引用,检查 DOI 是否存在,对比标题、作者、年份是否一致,提示正文里的说法是否真的被引用文献支持。2026 年已有研究提出类似 CheckIfExist 这样的工具,尝试通过 CrossRef、Semantic Scholar、OpenAlex 等数据库对参考文献进行验证。

但关键在于,不能用另一个“会幻觉的生成系统”去替代真实世界的核验。AI可以做助手,不能做公证人。真正可靠的流程应当是数据库查询、DOI 校验、原文核对、人工抽查共同构成闭环。尤其是在高风险领域,比如医学、政策、公共安全、工程标准,引用的真实性不只是学术问题,还可能影响现实决策。

从更大的角度看,arXiv 的这场风波,是整个知识生产系统面对 AI 的一次压力测试。

过去二十年,开放获取和预印本平台极大提升了科学传播速度。arXiv 的价值就在于快,很多物理、数学、计算机科学的重要成果,都是先在 arXiv 上被看到,再进入期刊或会议流程。可速度一旦遇到 AI 规模化生成,就会产生新的副作用:快不再只意味着好思想更快传播,也意味着低质量内容更快扩散。

这并不是说预印本模式错了。恰恰相反,预印本仍然非常重要。问题是,开放系统必须拥有新的免疫机制。过去靠学者共同体的自律、声誉和同行阅读就能维持基本秩序;今天,在 AI 生成内容的冲击下,这些软约束可能不够用了。平台需要规则,作者需要工具,机构需要培训,期刊和会议需要更高效的验证机制。

对于普通研究者来说,这件事也给出了一个非常直接的提醒:以后写论文,参考文献不能再作为最后一晚“顺手补齐”的环节。每一条引用都应该能回答三个问题:它是否真实存在?它是否与正文说法对应?作者是否至少读过摘要、方法或相关段落,而不是只看过模型给出的总结?

如果使用 AI 辅助写作,更应该建立自己的“引用防线”。比如,所有 AI 推荐的文献必须进入一个待核验清单;只有在 DOI、出版社页面、arXiv 页面或可信数据库中查到后,才能进入正式参考文献;正文中凡是“某研究表明”“已有工作证明”“大量文献指出”这类句子,都必须能回到具体论文和具体内容。否则,语言越流畅,风险越大。

AI时代最讽刺的地方在于:它让论文更像论文,却未必让研究更像研究。

一篇充满术语、结构完整、引用密集的文章,可能只是“学术格式的幻觉”。真正的研究不是把句子写得像论文,而是让每一个判断都能被追溯、被质疑、被复现。引用就是这种追溯机制的入口。如果入口是假的,后面再漂亮的论证都站不稳。

所以,arXiv 的禁令即使看起来严厉,也是在提醒整个学术界:AI可以参与写作,但不能稀释责任;工具可以提高效率,但不能降低诚信标准;开放平台可以包容未同行评审的早期成果,但不能成为伪知识的垃圾场。

未来,学术共同体可能会形成一套新的基本规范:AI使用可以披露,引用必须可验证;文本可以由模型润色,证据必须由作者负责;平台可以开放,提交资格必须受到约束。谁能适应这套规则,谁就能继续享受开放科学带来的速度红利。谁还把 AI 输出当成可以直接提交的半成品,谁就会被新的学术基础设施排除在外。

这件事真正改变的,不只是 arXiv 的投稿规则,而是科研写作的底线。

过去,论文的最低要求是“你提出了一个可讨论的观点”。现在,AI时代的最低要求可能更朴素,也更严格:你引用的东西,必须真的存在。

分享到