过去一年,外界谈 AI,最热闹的话题几乎都围绕模型展开。谁的推理更强,谁的上下文更长,谁的多模态更完整,谁又在代码、搜索、Agent 上更进一步。表面上看,AI 产业像是在打模型大战;但如果把视角往下挖一层,就会发现真正决定胜负的东西,正在从模型能力,转向另一套更硬、更重、也更残酷的底层体系:芯片、算力、供电、网络,以及谁能把这些东西的成本打下来。
最近一连串新闻,几乎把这个趋势摆到了台面上。Meta 刚把与 Broadcom 的定制 AI 芯片合作延长到 2029 年;Google 也与 Broadcom 签了长期协议,共同开发未来几代定制 AI 芯片,协议一路延伸到 2031 年;Anthropic 一边加码 Google TPU 体系,一边又被曝正在评估自研芯片。热闹还在模型层,真正的战争却已经打到算力底盘上了。

这几条新闻连起来看,信号非常清楚:今天的大模型公司和云巨头,已经不满足于"买最好的 GPU"这件事了,它们开始争夺的是更底层的能力——谁能掌控自己的计算基础设施,谁能在未来几年拿到更稳定的芯片供给,谁能把训练和推理的单位成本压到别人难以跟上的水平。
Meta 与 Broadcom 最新达成的合作,不只是续约,而是明确面向多代 AI 芯片开发,合作延续到 2029 年。Broadcom 还将为 Meta 的 AI 基础设施提供超过 1 吉瓦的计算能力,作为未来多吉瓦部署的第一阶段。Reuters 报道还提到,Meta 的 MTIA 300 芯片已经投入运行,后面到 2027 年还将继续推出更多芯片,重点放在 AI inference,也就是推理阶段。这里最值得注意的不是"Meta 也在做芯片",而是连推理这一环都在全面自定义,说明算力已经被视为公司的核心生产资料,而不是外部采购件。
Google 的动作同样说明问题。4 月初,Broadcom 与 Google 签下长期协议,为 Google 下一代 AI 机架持续开发和供应定制 AI 芯片,也就是未来几代 TPU,协议覆盖到 2031 年。Google 之所以这么做,并不只是为了继续保持技术领先,更重要的是它正在把 TPU 体系从"内部优势"变成"对外竞争力"。Reuters 的报道里直接点明,这些定制芯片被视为 Nvidia GPU 的成本替代方案,而 TPU 体系正在成为 Google Cloud 收入增长的重要组成部分。换句话说,Google 已经不满足于自己用芯片,它还想把芯片能力变成云业务的一部分,去抢更多 AI 基础设施市场。
Anthropic 的动作则更能说明 AI 公司现在的焦虑。它一方面签下长期协议,通过 Google 和 Broadcom 获取未来大规模 TPU 计算能力;另一方面,又被 Reuters 报道正在评估自研 AI 芯片的可能性。报道提到,Anthropic 当前同时使用 Google 的 TPU、Amazon 的芯片以及 Nvidia 的 GPU 来训练和运行 Claude,而自研高端 AI 芯片本身就可能需要大约 5 亿美元级别的投入。为什么已经能拿到外部芯片资源的公司,还是要考虑自己下场做芯片?答案很简单:在 AI 时代,只要算力命脉握在别人手里,增长就始终带着天花板。
这其实解释了一个很多人没有完全意识到的变化:AI 竞争已经从"拼模型上限",转向"拼系统成本曲线"。模型能力再强,如果每一次训练都更贵、每一次推理都更烧钱、每一次扩容都受制于别人,那它最终会变成一个很难持续的生意。反过来,一家公司如果能通过自研芯片、定制机架、优化网络互联和供电架构,把成本曲线一点点压下去,那它就不仅仅是省钱,而是在重塑竞争门槛。因为在大模型产业里,成本从来不是后台变量,而是决定你能不能持续迭代、能不能更便宜地服务更多用户、能不能把产品真正做成平台的前台变量。Broadcom 在 3 月给出的一个预测非常能说明这种趋势:公司预计到 2027 年,AI 芯片相关收入将超过 1000 亿美元,而增长的重要推动力之一,就是定制芯片需求持续爆发。
过去几年,Nvidia 之所以几乎统治了整个 AI 基础设施市场,不只是因为 GPU 本身强,更因为它把芯片、软件栈、网络和生态做成了一个高度整合的系统。现在 Meta、Google、Amazon、Anthropic 甚至 OpenAI 这些玩家陆续转向定制芯片,并不是突然不喜欢 Nvidia 了,而是它们意识到:如果继续完全依赖通用方案,就意味着自己最关键的生产工具、成本结构和扩张速度,都掌握在外部生态手里。Reuters 对 Meta 和 Google 这两条新闻的表述非常直接,它们都在寻求对 Nvidia 昂贵处理器的替代或补充。说白了,AI 公司开始自己做芯片,不是为了炫技,而是为了活得更久、扩得更快、赚得更多。

这里还有一个更深的变化,很多人还没完全看清。芯片竞争的背后,其实是"算力主权"的竞争。过去互联网公司最重要的基础设施是服务器、带宽和流量入口;今天 AI 公司最重要的基础设施变成了高端计算集群、专用芯片、供电能力和网络互联。谁能确保未来三到五年算力不断档,谁就更有资格谈下一代模型。Meta 这次合作里提到的"超过 1 吉瓦计算能力"不是一个普通数字,它意味着 AI 公司争夺的已经不是几块卡、几台服务器,而是近似电厂级别的基础设施规划。Broadcom 同时为 Google 的 TPU 体系供货,又为 Anthropic 提供依托 Google 芯片的约 3.5 吉瓦 AI 计算能力,这也说明 AI 基础设施竞争正迅速走向超级集中和重资产化。
这会带来一个非常现实的后果:未来能留在牌桌上的,未必是模型 demo 最惊艳的公司,而是那些能把"模型、芯片、网络、云、供电、成本"连成一体的公司。过去大家觉得 AI 是软件革命,现在越来越像"软件 + 半导体 + 能源 + 基础设施"的复合战争。模型只是最显眼的一层,真正撑起这层繁荣的,是下面那一整座算力工业体系。谁能掌控更多基础设施,谁就有更大的试错空间;谁的成本结构更稳,谁就更能打价格战、打持久战、打平台战。
所以,现在再看 AI 行业,不能只盯着发布会上的 benchmark、上下文窗口和产品演示了。那些当然重要,但它们越来越像战争前线的烟火,而不是决定战局的粮草。真正决定未来几年 AI 产业格局的,可能是另外几个问题:谁有能力把芯片做出来,谁有能力把芯片大规模接进系统里,谁有能力让网络和供电支撑起巨型集群,谁又能把这一切的成本摊薄到足够有竞争力。Broadcom 在这些合作里扮演的角色也说明了一点:未来 AI 赢家未必只有模型公司,很多站在算力底座上的企业,同样会成为下半场最关键的受益者。
这也是为什么,AI 的下半场看起来仍然在比模型,本质上却已经开始比"谁更像一家真正的工业公司"。要有芯片路线,要有网络路线,要有数据中心路线,要有供应链路线,还要有长期资本开支的承受能力。Anthropic 考虑自研芯片,Meta 延长定制芯片合作,Google 把 TPU 体系继续往前推,这些动作背后都是同一个判断:模型会越来越像应用层能力,而算力底盘才是决定胜负的基础设施。
如果说过去两年 AI 行业最流行的一句话是"模型即产品",那从今年开始,更接近现实的一句话可能是:算力即国力,芯片即命门,成本即护城河。 未来谁能赢,不只是看谁的模型更聪明,还要看谁能更便宜、更稳定、更持续地把聪明这件事供应出来。到那时,人们才会真正看明白:AI 最硬核的竞争,从来不只发生在屏幕上,也发生在机房里、芯片上、供电系统中,以及每一家巨头的资本开支计划表里。