arXiv要对“虚假引用”下重手：AI时代，学术诚信的最低门槛正在被重新划线

2026-05-16

学术诚信, arXiv, AI幻觉, 引用核验

摘要：当AI开始批量生成“看起来像真的引用”，学术写作的最低门槛就不再只是观点成立，而是你引用的东西必须真的存在。

这两天，学术圈被一条关于 arXiv 的消息点燃了。

据 Hacker News 上的转述和讨论，arXiv 正计划对含有“AI幻觉引用”的论文实施严厉处罚：如果论文中出现无法证实的虚假引用，作者可能被禁止在 arXiv 上提交论文一年；一年之后，后续提交还需要先在可信的同行评审场所被接收，才可重新进入 arXiv 体系。需要特别说明的是，截至目前，arXiv 官方政策页中还没有清晰列出这一条款，arXiv 的政策页也注明其政策清单仍在完善中，因此这更像是一个正在扩散的强烈政策信号，而不是已经完全公开落地的正式文本。

但无论这条规则最终以什么形式落地，它都说明了一件事：AI时代的学术出版，已经到了必须重新划线的时候。

过去，论文里的引用错误通常被看作细节问题。页码写错了、作者顺序有误、会议年份搞混了，虽然不严谨，但多数时候还属于可修正的疏漏。可今天的问题变了。大语言模型不是简单地“写错引用”，而是会生成看起来非常像真的引用：有作者、有题目、有期刊名、有年份，甚至还有一串像模像样的 DOI。读者第一眼看不出问题，审稿人也未必有时间逐条核验。最危险的是，这些引用并不只是格式错误，而是指向一个根本不存在的知识来源。

这就不是小问题了。

引用是什么？引用不是论文末尾的装饰，也不是为了显得“文献综述充分”的学术排场。引用是科学共同体的路标。它告诉读者：这个判断从哪里来，这个方法谁做过，这个问题已有怎样的讨论，这篇论文是在什么基础上继续往前走。如果引用是假的，那么论文表面上仍然完整，实际上却在知识地基里埋了一块空砖。

这也是为什么“虚假引用”比一般的 AI 幻觉更危险。AI写错一句话，读者也许还能通过上下文判断；AI编造一个引用，却是在伪造一条通往事实的道路。它让读者以为自己可以追溯，却最终追到空气里。

更麻烦的是，这已经不是个别现象。Nature 在 2026 年 4 月的一篇报道中指出，2025 年可能有数万篇出版物包含 AI 生成的无效引用。另一篇 2026 年 5 月提交到 arXiv 的研究更进一步，对 arXiv、bioRxiv、SSRN 和 PubMed Central 中 250 万篇论文、1.11 亿条参考文献进行审计，保守估计仅 2025 年就有 146,932 条幻觉引用。

这个数字真正令人不安的地方，不只是“大”，而是它说明问题已经从写作错误变成了系统性污染。科学文献原本是人类知识最重要的基础设施之一。每一篇论文都不是孤立存在的，它会被检索、被综述、被模型训练、被政策引用、被企业研发部门拿来做技术判断。假引用一旦混入其中，就像把错误坐标写进地图。一个人走错路还可以回头，整张地图被污染，后面的人就会持续迷路。

在 AI 研究领域，这个问题尤其突出。2026 年一篇关于 ACL 系列会议“幻觉引用”的研究发现，含有幻觉引用的论文数量从 2024 年的 20 篇上升到 2025 年的 275 篇，比例也从约 0.28% 上升到 2.59%；其中 EMNLP 2025 的情况更明显，部分主会和 Findings 论文中也出现了这类问题。这说明它已经不只是边缘 workshop 的低质量投稿问题，而是开始进入主流学术生产链条。

为什么会这样？

根源并不只是“AI会胡说”。真正的问题是，AI把生成成本降得太低，而验证成本没有同步下降。过去写一篇综述，作者需要真正读论文、整理脉络、对比观点、判断贡献。今天，一个模型可以在几分钟内生成一篇看起来结构完整、引用密集、语言流畅的“论文”。生成端飞速降价，验证端却仍然昂贵。每一条引用是否存在，是否准确，是否真的支持正文中的说法，仍然需要查数据库、读原文、看上下文。

于是，学术系统出现了一个新的不平衡：垃圾内容可以批量生成，清理垃圾却仍然靠人力。

arXiv 之前其实已经感受到这种压力。2025 年 10 月，arXiv 在计算机科学类别中更新了对综述文章和立场论文的处理方式：这类文章在提交 arXiv 前，通常需要先被期刊或会议接受并完成同行评审；arXiv 解释说，CS 类别中综述和立场论文数量大幅增长，其中许多只是“带注释的参考书目”，缺乏对开放研究问题的实质讨论，而大语言模型让这类内容变得更容易批量生产。

这句话其实很关键。AI带来的不是简单的“作弊工具”，而是学术生产函数的改变。原来低质量论文也能写，但成本较高；现在低质量论文可以规模化生产。原来引用造假也可能发生，但需要主动编造；现在作者可能只是让模型补几条参考文献，模型就会自动生成一个看似合理的世界。更糟的是，有些作者并不觉得这是严重问题，甚至会把它解释成“工具使用中的小失误”。

但科学共同体不能这样看。

从作者角度看，虚假引用也许只是“忘了核验”；从读者角度看，这是时间浪费；从审稿人角度看，这是额外负担；从科学系统角度看，这是知识污染。每一条假引用都会迫使后来者花时间排查，而这些时间本可以用于真正的研究。所谓学术诚信，不只是“不造假实验数据”，也包括不把未验证的信息包装成知识链条的一部分。

因此，arXiv 若真的实施一年禁令，争议一定会很大。一方会认为这太严厉，尤其是年轻研究者、学生作者、多作者合作论文中，确实可能出现无意错误。另一方会认为，如果连引用是否真实都不检查，就没有资格占用公共学术基础设施。Hacker News 的讨论也集中在这个分歧上：有人认为一年禁令是维护科学的必要代价，也有人担心这会把一次疏忽上升为近似“职业惩罚”。

这场争论背后，其实是 AI 时代责任边界的重新定义。

以前，作者可以说“这是我写的”。现在，很多内容可能是模型辅助生成的、共同作者修改的、工具链自动补全的、文献管理软件导出的。那么最终谁负责？答案只能是：署名作者负责。因为科学出版不可能对每一次错误做侦查式追责，去判断到底是模型编的、学生抄的、合作者漏看的，还是 Zotero 条目错了。提交按钮一旦按下，作者就是在向共同体声明：这篇论文的内容，包括引用，经得起基本核验。

这不是反 AI，而是反“未经验证的 AI 输出”。

事实上，AI完全可以成为解决问题的一部分。它可以帮助初筛引用，检查 DOI 是否存在，对比标题、作者、年份是否一致，提示正文里的说法是否真的被引用文献支持。2026 年已有研究提出类似 CheckIfExist 这样的工具，尝试通过 CrossRef、Semantic Scholar、OpenAlex 等数据库对参考文献进行验证。

但关键在于，不能用另一个“会幻觉的生成系统”去替代真实世界的核验。AI可以做助手，不能做公证人。真正可靠的流程应当是数据库查询、DOI 校验、原文核对、人工抽查共同构成闭环。尤其是在高风险领域，比如医学、政策、公共安全、工程标准，引用的真实性不只是学术问题，还可能影响现实决策。

从更大的角度看，arXiv 的这场风波，是整个知识生产系统面对 AI 的一次压力测试。

过去二十年，开放获取和预印本平台极大提升了科学传播速度。arXiv 的价值就在于快，很多物理、数学、计算机科学的重要成果，都是先在 arXiv 上被看到，再进入期刊或会议流程。可速度一旦遇到 AI 规模化生成，就会产生新的副作用：快不再只意味着好思想更快传播，也意味着低质量内容更快扩散。

这并不是说预印本模式错了。恰恰相反，预印本仍然非常重要。问题是，开放系统必须拥有新的免疫机制。过去靠学者共同体的自律、声誉和同行阅读就能维持基本秩序；今天，在 AI 生成内容的冲击下，这些软约束可能不够用了。平台需要规则，作者需要工具，机构需要培训，期刊和会议需要更高效的验证机制。

对于普通研究者来说，这件事也给出了一个非常直接的提醒：以后写论文，参考文献不能再作为最后一晚“顺手补齐”的环节。每一条引用都应该能回答三个问题：它是否真实存在？它是否与正文说法对应？作者是否至少读过摘要、方法或相关段落，而不是只看过模型给出的总结？

如果使用 AI 辅助写作，更应该建立自己的“引用防线”。比如，所有 AI 推荐的文献必须进入一个待核验清单；只有在 DOI、出版社页面、arXiv 页面或可信数据库中查到后，才能进入正式参考文献；正文中凡是“某研究表明”“已有工作证明”“大量文献指出”这类句子，都必须能回到具体论文和具体内容。否则，语言越流畅，风险越大。

AI时代最讽刺的地方在于：它让论文更像论文，却未必让研究更像研究。

一篇充满术语、结构完整、引用密集的文章，可能只是“学术格式的幻觉”。真正的研究不是把句子写得像论文，而是让每一个判断都能被追溯、被质疑、被复现。引用就是这种追溯机制的入口。如果入口是假的，后面再漂亮的论证都站不稳。

所以，arXiv 的禁令即使看起来严厉，也是在提醒整个学术界：AI可以参与写作，但不能稀释责任；工具可以提高效率，但不能降低诚信标准；开放平台可以包容未同行评审的早期成果，但不能成为伪知识的垃圾场。

未来，学术共同体可能会形成一套新的基本规范：AI使用可以披露，引用必须可验证；文本可以由模型润色，证据必须由作者负责；平台可以开放，提交资格必须受到约束。谁能适应这套规则，谁就能继续享受开放科学带来的速度红利。谁还把 AI 输出当成可以直接提交的半成品，谁就会被新的学术基础设施排除在外。

这件事真正改变的，不只是 arXiv 的投稿规则，而是科研写作的底线。

过去，论文的最低要求是“你提出了一个可讨论的观点”。现在，AI时代的最低要求可能更朴素，也更严格：你引用的东西，必须真的存在。

AI技术