搜索的免费午餐结束了：AI 时代，开放网络正在重新收费

2026-05-14

Google, 开源AI, Cloudflare, 搜索引擎, 开放网络, Common Crawl

摘要：AI 正在打破互联网过去二十年的默认前提：网页一旦公开，就可以被搜索、被抓取、被调用。现在，谷歌搜索 API 收紧、Cloudflare 默认拦截 AI 爬虫、GoDaddy 接入爬虫控制工具，意味着开放网页正从“默认可访问”转向“默认需授权”。

过去二十年，互联网有一个默认前提：网页在那里，搜索引擎可以抓，开发者可以查，用户可以搜，AI 也可以用。

这个前提现在正在松动。

最近围绕谷歌搜索 API、Cloudflare AI 爬虫拦截、GoDaddy 接入爬虫控制工具的一系列变化，表面上看是几家公司调整产品策略，实际上指向一个更大的趋势：开放网页正在从“默认可访问”变成“默认需授权”。

对于普通用户，这可能只是搜索体验变差、答案来源减少；对于 AI 开发者、本地大模型社区和开源生态来说，这意味着一个时代正在结束。

Google 收紧的不是一个产品，而是一种默认能力

先说清楚，谷歌并不是关闭所有免费搜索，而是在收紧开发者长期依赖的 Programmable Search / Custom Search 能力。

谷歌官方在 2026 年 1 月发布的更新中明确提到，新的搜索引擎必须使用 “Sites to search” 功能，免费场景最多支持 50 个指定域名；如果需要查询超过 50 个域名，或者需要“搜索整个网络”，就要联系谷歌获取更高级的 full web search 方案，并在 2027 年 1 月 1 日前完成迁移。Custom Search JSON API 文档也写明，该 API 已经不再向新客户开放，现有客户需要在 2027 年 1 月 1 日前迁移。

这件事的影响不只是“少了一个 API”。过去，很多小团队、研究者、个人开发者、开源项目，会把谷歌搜索当成一种事实上的公共基础设施。哪怕额度有限、价格不低、限制不少，它依然是一个高质量、可编程、覆盖面广的搜索入口。

现在这个入口逐渐变窄，本质上是在告诉开发者：全网搜索不再是一个便宜、默认、随手可用的能力。

Cloudflare 和 GoDaddy，正在把网页访问改写成“可控交易”

几乎与此同时，Cloudflare 站到了另一边。

2025 年 7 月，Cloudflare 宣布默认拦截已知 AI 爬虫，并推出 “Pay Per Crawl” 方向，允许部分发布者为 AI 爬虫设置付费访问条件。相关报道指出，Cloudflare 此举是为了防止 AI 爬虫在未经许可或补偿的情况下访问内容，并让网站所有者决定哪些爬虫可以进入。

到了 2026 年 4 月，Cloudflare 又与 GoDaddy 合作，把 AI Crawl Control 集成进 GoDaddy 的网站托管平台。官方说法是帮助小企业和创作者获得对 AI 爬虫访问的可见性与控制权：允许、阻止，或者发出需要付费的信号。

这个动作非常关键，因为 GoDaddy 服务大量中小网站。过去，AI 爬虫控制主要是大媒体、大平台、大网站才会认真考虑的问题；现在，它开始下沉到普通站长和小商家。

这意味着：“网页公开”不再等于“机器可抓”。

过去开放网络的默认逻辑是：网页发布出来，搜索引擎抓取，用户通过搜索引擎访问，站点通过流量、广告、订阅或品牌曝光获得回报。这个循环虽然不完美，但至少相对稳定。

AI 出现之后，这个循环被打破了。用户不再点击原网页，而是直接看 AI 生成的答案；AI 公司抓走内容，却不一定给原站点带回流量；创作者承担生产成本，平台和模型拿走分发价值。

所以 Cloudflare 的逻辑并不难理解。它不是简单反 AI，而是在重建一个被 AI 打穿的经济契约：既然 AI 要消耗内容，就应该被识别、被管理、被授权，甚至被收费。

对开源 AI 来说，真正被卡住的是“数据入口”

问题在于，这个趋势对开源 AI 和本地模型并不友好。

大模型不仅训练需要数据，运行时也越来越依赖搜索和实时抓取。尤其是本地 LLM、个人 Agent、开源 RAG 系统，它们往往没有大型商业搜索公司的索引，也没有新闻媒体和内容平台的授权协议。

过去它们还能借助免费搜索 API、网页抓取、RSS、Common Crawl、公开网页等方式补足实时信息能力。现在这些路径同时变窄：

搜索 API 付费化；
网站默认拦截 AI 爬虫；
内容方开始要求付费；
robots.txt 和 bot control 变得更强；
云防护系统也越来越能识别自动化流量。

这会造成一个新的分层。大型 AI 公司可以签授权协议，可以购买数据，可以使用商业搜索接口，可以自建索引，可以与出版商谈合作。小团队和开源社区则只能在越来越碎片化的替代方案中周旋。

看起来大家都在做 AI，实际上数据入口的差距会越来越大。

替代方案不是没有，但都不是真正的“免费午餐”

这也是为什么 Reddit 和 Hacker News 这类社区开始重新讨论 YaCy、SearXNG、Brave Search API、Common Crawl 等替代方案。

但这些替代方案各有局限。

SearXNG：更自由的调用，不等于你拥有索引

SearXNG 是一个元搜索引擎，它聚合多个搜索服务的结果，并强调不追踪、不画像用户。它适合个人部署，也适合做隐私友好的搜索入口，但它本身不是一个完整的全网索引。

换句话说，它解决的是“我如何更自由地调用多个搜索源”，而不是“我如何拥有自己的搜索宇宙”。

YaCy：理想很开放，质量很难重建

YaCy 更激进。它是一个开源的 P2P 搜索引擎，可以本地运行，也可以加入去中心化网络。

这个思路很符合社区对“开放搜索”的想象：不是把搜索交给一家巨头，而是由许多节点共同抓取、索引、共享结果。YaCy 官方也明确将其定位为可以本地运行、组织内部运行，或加入去中心化网络的自由搜索软件。

但去中心化搜索最大的问题从来不是理想，而是质量。搜索引擎不是简单地把网页存起来，它需要抓取规模、去重、排序、反垃圾、时效性、权威性判断、语言理解、查询改写、冷门内容覆盖，以及巨大的基础设施投入。

Google 之所以强，不是因为它有一个搜索框，而是因为它背后有长期积累的索引、排序系统和反作弊能力。社区可以重建搜索，但很难短期重建搜索质量。

Brave Search API：更现实，但仍然是商业入口

Brave Search API 是更现实的商业替代。它提供独立搜索 API，也有明确价格体系。对于开发者来说，这比自己从零爬全网更可靠。

问题是，它仍然是商业入口，不是免费公共基础设施。公开价格中，部分能力有免费额度，但高频调用仍需要按量付费。

Common Crawl：开放，但不实时

Common Crawl 则更像训练数据时代的底座。它维护免费开放的网页抓取数据集，拥有长时间跨度、超大规模页面积累，对于研究者和模型训练者，曾经是开放网络数据的代表性来源。

但 Common Crawl 不是实时搜索。它更适合离线分析和模型训练，不适合回答“今天发生了什么”。更重要的是，随着越来越多网站反对 AI 抓取，Common Crawl 这样的开放数据项目也会受到压力。

未来开放网页语料不一定会消失，但它会越来越不完整，越来越滞后，越来越受版权和访问规则约束。

真正要重建的，是 AI 时代的信息基础设施

所以，社区所谓“寻找替代方案”，不能只理解为换一个 API。真正需要重建的是一整套 AI 时代的信息获取基础设施。

第一层：垂直索引

开源社区需要更多垂直索引，而不是一开始就幻想复制 Google。比如面向论文、代码、技术博客、开源文档、政府公告、企业新闻、论坛讨论的专门索引。垂直索引规模小，但质量可控，更适合 RAG 和本地模型。

第二层：爬虫身份

AI 爬虫不能继续靠伪装浏览器、绕过限制来获取数据。未来机器访问网页必须有可验证身份。没有身份，就没有信任；没有信任，就只能走向全面封锁。

Cloudflare 和 GoDaddy 强调的 agent identity、Web Bot Auth、Agent Name Service，虽然带有商业基础设施色彩，但方向并没有错。

第三层：授权与付费

很多人不喜欢“爬虫付费”，因为它看起来会让开放网络变得更封闭。但从创作者角度看，如果 AI 直接吞掉内容又不给流量，免费抓取也不可持续。

真正的问题不是该不该付费，而是付费机制能不能足够低摩擦、足够开放，不能只服务大公司。如果未来只有 OpenAI、Google、Anthropic、Meta 买得起数据，而开源社区买不起，那么所谓开放 AI 就会变成空话。

第四层：私有知识库

对很多本地模型用户来说，最可靠的替代方案不是全网搜索，而是构建自己的可信信息池。RSS、网页归档、文件夹知识库、行业站点定向抓取、邮件和文档索引，都可能比“实时全网搜索”更实用。

未来个人 Agent 的能力，很大程度上取决于它能否持续积累属于自己的高质量上下文，而不是每次都去全网临时抓一遍。

开放网络不会消失，但会被重新分区

这场变化最终会把互联网分成三个区域。

第一个区域是高价值封闭内容。新闻、研究报告、专业数据库、版权内容，会越来越多地进入授权和付费体系。

第二个区域是可控开放内容。网站允许特定搜索引擎、特定 AI 爬虫访问，但要求身份清晰、用途明确、访问可审计。

第三个区域是低质量开放内容。这里仍然可以被随便抓，但里面会充斥 SEO 垃圾、AI 生成内容、过期页面和低可信信息。对模型来说，这类开放不一定是财富，反而可能是污染。

这就是搜索免费午餐结束后的真实图景：不是互联网突然关闭，而是好内容变得更有边界；不是 AI 没有数据可用，而是数据获取开始分层；不是开源社区没有机会，而是必须从依赖巨头 API，转向建设自己的索引、协议、缓存和知识网络。

过去，搜索是互联网的入口。

未来，搜索可能只是 AI 信息供应链的一环。谁能控制索引，谁就控制事实入口；谁能控制爬虫权限，谁就控制数据流通；谁能建立可信、低成本、可持续的开放数据机制，谁就可能决定开源 AI 的上限。

所以这件事不能只看成谷歌砍了一个免费服务，也不能只看成 Cloudflare 又推出一个安全功能。它更像是开放网络的一次重新定价。

AI 让网页内容的价值被重新发现，也让免费抓取的旧秩序走到尽头。接下来真正重要的问题是：这个新秩序，是由少数巨头和基础设施公司定义，还是由开源社区、创作者、开发者和用户共同参与？

如果答案是前者，未来的 AI 会更强，但也更集中。

如果答案是后者，开放网络还有机会进入第二次生命。

参考来源

Google 关于 Programmable Search Engine / Custom Search 的迁移与产品更新说明。
Google Custom Search JSON API 文档关于新客户与迁移期限的说明。
Cloudflare 关于默认拦截已知 AI 爬虫与 Pay Per Crawl 方向的公开发布。
Cloudflare 与 GoDaddy 关于 AI Crawl Control 集成的新闻稿。
SearXNG、YaCy、Brave Search API、Common Crawl 官方资料与社区讨论。

AI技术