摘要:AI 正在打破互联网过去二十年的默认前提:网页一旦公开,就可以被搜索、被抓取、被调用。现在,谷歌搜索 API 收紧、Cloudflare 默认拦截 AI 爬虫、GoDaddy 接入爬虫控制工具,意味着开放网页正从“默认可访问”转向“默认需授权”。

过去二十年,互联网有一个默认前提:网页在那里,搜索引擎可以抓,开发者可以查,用户可以搜,AI 也可以用。
这个前提现在正在松动。
最近围绕谷歌搜索 API、Cloudflare AI 爬虫拦截、GoDaddy 接入爬虫控制工具的一系列变化,表面上看是几家公司调整产品策略,实际上指向一个更大的趋势:开放网页正在从“默认可访问”变成“默认需授权”。
对于普通用户,这可能只是搜索体验变差、答案来源减少;对于 AI 开发者、本地大模型社区和开源生态来说,这意味着一个时代正在结束。
Google 收紧的不是一个产品,而是一种默认能力
先说清楚,谷歌并不是关闭所有免费搜索,而是在收紧开发者长期依赖的 Programmable Search / Custom Search 能力。
谷歌官方在 2026 年 1 月发布的更新中明确提到,新的搜索引擎必须使用 “Sites to search” 功能,免费场景最多支持 50 个指定域名;如果需要查询超过 50 个域名,或者需要“搜索整个网络”,就要联系谷歌获取更高级的 full web search 方案,并在 2027 年 1 月 1 日前完成迁移。Custom Search JSON API 文档也写明,该 API 已经不再向新客户开放,现有客户需要在 2027 年 1 月 1 日前迁移。
这件事的影响不只是“少了一个 API”。过去,很多小团队、研究者、个人开发者、开源项目,会把谷歌搜索当成一种事实上的公共基础设施。哪怕额度有限、价格不低、限制不少,它依然是一个高质量、可编程、覆盖面广的搜索入口。
现在这个入口逐渐变窄,本质上是在告诉开发者:全网搜索不再是一个便宜、默认、随手可用的能力。
Cloudflare 和 GoDaddy,正在把网页访问改写成“可控交易”
几乎与此同时,Cloudflare 站到了另一边。
2025 年 7 月,Cloudflare 宣布默认拦截已知 AI 爬虫,并推出 “Pay Per Crawl” 方向,允许部分发布者为 AI 爬虫设置付费访问条件。相关报道指出,Cloudflare 此举是为了防止 AI 爬虫在未经许可或补偿的情况下访问内容,并让网站所有者决定哪些爬虫可以进入。
到了 2026 年 4 月,Cloudflare 又与 GoDaddy 合作,把 AI Crawl Control 集成进 GoDaddy 的网站托管平台。官方说法是帮助小企业和创作者获得对 AI 爬虫访问的可见性与控制权:允许、阻止,或者发出需要付费的信号。
这个动作非常关键,因为 GoDaddy 服务大量中小网站。过去,AI 爬虫控制主要是大媒体、大平台、大网站才会认真考虑的问题;现在,它开始下沉到普通站长和小商家。
这意味着:“网页公开”不再等于“机器可抓”。
过去开放网络的默认逻辑是:网页发布出来,搜索引擎抓取,用户通过搜索引擎访问,站点通过流量、广告、订阅或品牌曝光获得回报。这个循环虽然不完美,但至少相对稳定。
AI 出现之后,这个循环被打破了。用户不再点击原网页,而是直接看 AI 生成的答案;AI 公司抓走内容,却不一定给原站点带回流量;创作者承担生产成本,平台和模型拿走分发价值。
所以 Cloudflare 的逻辑并不难理解。它不是简单反 AI,而是在重建一个被 AI 打穿的经济契约:既然 AI 要消耗内容,就应该被识别、被管理、被授权,甚至被收费。
对开源 AI 来说,真正被卡住的是“数据入口”
问题在于,这个趋势对开源 AI 和本地模型并不友好。
大模型不仅训练需要数据,运行时也越来越依赖搜索和实时抓取。尤其是本地 LLM、个人 Agent、开源 RAG 系统,它们往往没有大型商业搜索公司的索引,也没有新闻媒体和内容平台的授权协议。
过去它们还能借助免费搜索 API、网页抓取、RSS、Common Crawl、公开网页等方式补足实时信息能力。现在这些路径同时变窄:
- 搜索 API 付费化;
- 网站默认拦截 AI 爬虫;
- 内容方开始要求付费;
- robots.txt 和 bot control 变得更强;
- 云防护系统也越来越能识别自动化流量。
这会造成一个新的分层。大型 AI 公司可以签授权协议,可以购买数据,可以使用商业搜索接口,可以自建索引,可以与出版商谈合作。小团队和开源社区则只能在越来越碎片化的替代方案中周旋。
看起来大家都在做 AI,实际上数据入口的差距会越来越大。
替代方案不是没有,但都不是真正的“免费午餐”
这也是为什么 Reddit 和 Hacker News 这类社区开始重新讨论 YaCy、SearXNG、Brave Search API、Common Crawl 等替代方案。
但这些替代方案各有局限。
SearXNG:更自由的调用,不等于你拥有索引
SearXNG 是一个元搜索引擎,它聚合多个搜索服务的结果,并强调不追踪、不画像用户。它适合个人部署,也适合做隐私友好的搜索入口,但它本身不是一个完整的全网索引。
换句话说,它解决的是“我如何更自由地调用多个搜索源”,而不是“我如何拥有自己的搜索宇宙”。
YaCy:理想很开放,质量很难重建
YaCy 更激进。它是一个开源的 P2P 搜索引擎,可以本地运行,也可以加入去中心化网络。
这个思路很符合社区对“开放搜索”的想象:不是把搜索交给一家巨头,而是由许多节点共同抓取、索引、共享结果。YaCy 官方也明确将其定位为可以本地运行、组织内部运行,或加入去中心化网络的自由搜索软件。
但去中心化搜索最大的问题从来不是理想,而是质量。搜索引擎不是简单地把网页存起来,它需要抓取规模、去重、排序、反垃圾、时效性、权威性判断、语言理解、查询改写、冷门内容覆盖,以及巨大的基础设施投入。
Google 之所以强,不是因为它有一个搜索框,而是因为它背后有长期积累的索引、排序系统和反作弊能力。社区可以重建搜索,但很难短期重建搜索质量。
Brave Search API:更现实,但仍然是商业入口
Brave Search API 是更现实的商业替代。它提供独立搜索 API,也有明确价格体系。对于开发者来说,这比自己从零爬全网更可靠。
问题是,它仍然是商业入口,不是免费公共基础设施。公开价格中,部分能力有免费额度,但高频调用仍需要按量付费。
Common Crawl:开放,但不实时
Common Crawl 则更像训练数据时代的底座。它维护免费开放的网页抓取数据集,拥有长时间跨度、超大规模页面积累,对于研究者和模型训练者,曾经是开放网络数据的代表性来源。
但 Common Crawl 不是实时搜索。它更适合离线分析和模型训练,不适合回答“今天发生了什么”。更重要的是,随着越来越多网站反对 AI 抓取,Common Crawl 这样的开放数据项目也会受到压力。
未来开放网页语料不一定会消失,但它会越来越不完整,越来越滞后,越来越受版权和访问规则约束。

真正要重建的,是 AI 时代的信息基础设施
所以,社区所谓“寻找替代方案”,不能只理解为换一个 API。真正需要重建的是一整套 AI 时代的信息获取基础设施。
第一层:垂直索引
开源社区需要更多垂直索引,而不是一开始就幻想复制 Google。比如面向论文、代码、技术博客、开源文档、政府公告、企业新闻、论坛讨论的专门索引。垂直索引规模小,但质量可控,更适合 RAG 和本地模型。
第二层:爬虫身份
AI 爬虫不能继续靠伪装浏览器、绕过限制来获取数据。未来机器访问网页必须有可验证身份。没有身份,就没有信任;没有信任,就只能走向全面封锁。
Cloudflare 和 GoDaddy 强调的 agent identity、Web Bot Auth、Agent Name Service,虽然带有商业基础设施色彩,但方向并没有错。
第三层:授权与付费
很多人不喜欢“爬虫付费”,因为它看起来会让开放网络变得更封闭。但从创作者角度看,如果 AI 直接吞掉内容又不给流量,免费抓取也不可持续。
真正的问题不是该不该付费,而是付费机制能不能足够低摩擦、足够开放,不能只服务大公司。如果未来只有 OpenAI、Google、Anthropic、Meta 买得起数据,而开源社区买不起,那么所谓开放 AI 就会变成空话。
第四层:私有知识库
对很多本地模型用户来说,最可靠的替代方案不是全网搜索,而是构建自己的可信信息池。RSS、网页归档、文件夹知识库、行业站点定向抓取、邮件和文档索引,都可能比“实时全网搜索”更实用。
未来个人 Agent 的能力,很大程度上取决于它能否持续积累属于自己的高质量上下文,而不是每次都去全网临时抓一遍。
开放网络不会消失,但会被重新分区
这场变化最终会把互联网分成三个区域。
第一个区域是高价值封闭内容。新闻、研究报告、专业数据库、版权内容,会越来越多地进入授权和付费体系。
第二个区域是可控开放内容。网站允许特定搜索引擎、特定 AI 爬虫访问,但要求身份清晰、用途明确、访问可审计。
第三个区域是低质量开放内容。这里仍然可以被随便抓,但里面会充斥 SEO 垃圾、AI 生成内容、过期页面和低可信信息。对模型来说,这类开放不一定是财富,反而可能是污染。
这就是搜索免费午餐结束后的真实图景:不是互联网突然关闭,而是好内容变得更有边界;不是 AI 没有数据可用,而是数据获取开始分层;不是开源社区没有机会,而是必须从依赖巨头 API,转向建设自己的索引、协议、缓存和知识网络。
过去,搜索是互联网的入口。
未来,搜索可能只是 AI 信息供应链的一环。谁能控制索引,谁就控制事实入口;谁能控制爬虫权限,谁就控制数据流通;谁能建立可信、低成本、可持续的开放数据机制,谁就可能决定开源 AI 的上限。
所以这件事不能只看成谷歌砍了一个免费服务,也不能只看成 Cloudflare 又推出一个安全功能。它更像是开放网络的一次重新定价。
AI 让网页内容的价值被重新发现,也让免费抓取的旧秩序走到尽头。接下来真正重要的问题是:这个新秩序,是由少数巨头和基础设施公司定义,还是由开源社区、创作者、开发者和用户共同参与?
如果答案是前者,未来的 AI 会更强,但也更集中。
如果答案是后者,开放网络还有机会进入第二次生命。
参考来源
- Google 关于 Programmable Search Engine / Custom Search 的迁移与产品更新说明。
- Google Custom Search JSON API 文档关于新客户与迁移期限的说明。
- Cloudflare 关于默认拦截已知 AI 爬虫与 Pay Per Crawl 方向的公开发布。
- Cloudflare 与 GoDaddy 关于 AI Crawl Control 集成的新闻稿。
- SearXNG、YaCy、Brave Search API、Common Crawl 官方资料与社区讨论。