AI 芯片越来越贵,真正的瓶颈不是算力,而是内存

摘要:过去我们谈 AI 芯片,最习惯盯着算力、制程和 GPU 数量,但最新数据说明,AI 芯片里真正吞掉成本大头的,已经不是逻辑计算单元,而是高带宽内存 HBM。随着模型变大、上下文变长、并发推理增加,AI 基础设施的竞争逻辑正在从“谁有更多算力”转向“谁能更便宜、更高效地拿到并利用内存”。

过去我们谈 AI 芯片,最常说的是算力。

多少 TFLOPS,多少 Tensor Core,多少张 GPU,多少机柜,多少兆瓦电力。仿佛只要把更多“计算核心”堆起来,大模型的成本问题就会自然被解决。

但最近一组数据提醒我们:AI 芯片的成本结构,正在发生一个非常关键的变化。

根据 Epoch AI 在 2026 年 5 月发布的估算,在 Nvidia、AMD、Google、Amazon 等主要 AI 芯片设计方的产品中,高带宽内存 HBM 在 AI 芯片组件成本中的占比,已经从 2024 年一季度的 52% 上升到 2025 年四季度的 63%。同期,逻辑芯片成本占比基本稳定在 13% 到 14%,先进封装从 19% 降到 15%,辅助组件从 15% 降到约 9% 左右。换句话说,今天一颗前沿 AI 芯片里,真正吞掉大头成本的,已经不是“计算单元”,而是内存。(Epoch AI)

这听起来有点反直觉。

大众理解里的芯片,核心应该是 GPU die,是最先进制程,是晶体管密度,是台积电 3nm、4nm 的制造能力。但在 AI 加速器里,逻辑芯片再强,如果数据喂不进去,计算单元就只能等待。大模型训练和推理的本质,不只是做矩阵乘法,更是不断搬运参数、激活值和 KV Cache。模型越大、上下文越长、并发越高,对内存容量和带宽的依赖越强。

这就是 HBM 成为成本中心的原因。

HBM,全称 High Bandwidth Memory,高带宽内存。它不是普通内存条,也不是简单焊在主板上的显存。它把多层 DRAM 垂直堆叠起来,通过 TSV 等垂直互连技术连接,再和计算芯片一起放进先进封装里。这样做的好处是距离短、带宽高、功耗相对更优。比如 NVIDIA H100 SXM 支持 80GB HBM3,官方资料显示其内存带宽超过 3TB/s;NVIDIA 也明确指出,H100 的 HBM3 子系统相比 A100 提供约 2 倍带宽提升。(NVIDIA Developer)

HBM 为什么会成为 AI 硬件的成本核心:从模型规模扩张,到 HBM 需求激增、DRAM 产能分流,再到 AI 芯片与消费级内存一起涨价

但代价也非常明显:HBM 很难做,也很吃产能。

传统 DDR5 是大规模、标准化、面向服务器和消费市场的内存产品;HBM 则更像是“内存里的奢侈品”。它不仅需要高质量 DRAM die,还需要堆叠、键合、测试、封装、与计算芯片协同设计。CNAS 的报告提到,制造 HBM 每 GB 所需的内存晶圆大约是标准 DRAM 的 3 到 4 倍。这意味着当厂商把产能转向 HBM 时,并不是简单多生产一种高端产品,而是在实质上挤占普通 DRAM 的供给。(CNAS)

所以,AI 芯片成本上涨并不是一个孤立事件。

一边是大模型公司疯狂采购 GPU 和 AI ASIC,另一边是内存厂商把更多晶圆、封装和测试资源投向 HBM。结果就是:AI 服务器买贵了,普通服务器内存也买贵了,PC、手机、工作站和家用 NAS 用户同样被波及。Hacker News 上这条讨论之所以火,不只是因为 63% 这个数字惊人,也因为很多开发者已经在现实中感受到内存价格上涨:有用户提到,自己几年前买 96GB 内存套件大约花了 250 美元,而现在同类产品价格已经涨到约 1200 美元;另有用户提到 96GB DDR5 SO-DIMM 套件从 279 美元涨到 1000 美元以上。(Hacker News)

这里有一个很重要的判断:AI 硬件成本未来可能会下降,但不一定靠技术突破。

如果 HBM 价格回落,DRAM 供应重新跟上需求,AI 训练和推理的硬件成本确实有下降空间。Hacker News 上有评论者提出一个有趣观点:如果当前成本高企主要来自 DRAM 供需错配,那么随着供给补上,AI 硬件成本可能在没有重大技术创新的情况下下降。这个判断并非完全没有道理,因为 Epoch AI 的数据也显示,2024 到 2025 年 AI 芯片组件总支出从约 220 亿美元增长到约 520 亿美元,其中 HBM 支出贡献了大约 200 亿美元的增量。(Epoch AI)

但这个“等待供给恢复”的故事,也不能讲得太简单。

DRAM 不是软件服务,不能一键扩容。新建晶圆厂、扩建洁净室、导入设备、爬坡良率,通常都需要多年时间。CNAS 报告指出,AI 芯片生产在 2026 年已成为 AI 算力扩张的约束条件之一,原因正是制造能力无法快速响应需求暴增;报告还提到,逻辑晶圆和内存晶圆都高度集中在少数公司手中,新增产能需要很长周期。(CNAS)

更麻烦的是,需求端可能并不会停下来等供给。

训练更大的模型需要更多 HBM,部署更长上下文的推理服务也需要更多 HBM。以前我们讨论推理成本,常常关注“每 token 需要多少计算”;现在必须把“每 token 占多少内存、KV Cache 能支撑多少并发、显存带宽能不能喂饱算力”一起算进去。对于长上下文、多轮对话、Agent 工作流和检索增强生成来说,瓶颈经常不是 GPU 不会算,而是数据搬运、缓存驻留和内存容量不够。

这会改变 AI 基础设施公司的竞争逻辑。

过去的竞争核心是“谁能拿到更多 GPU”。下一阶段可能变成“谁能以更低成本拿到更多高带宽内存”。云厂商、自研芯片公司、服务器 OEM、封装厂、HBM 供应商之间的长期协议会越来越重要。芯片设计也会围绕内存重新组织:更大的片上缓存、更高效的互连、更好的分层存储、更强的数据复用能力,都会变成系统设计的核心。

这同样会改变软件工程师的优化方向。

过去很多 AI 应用优化,默认“算力最贵”。所以大家关注 kernel fusion、Tensor Core 利用率、矩阵乘法吞吐、batch size。但在 HBM 成为成本大头之后,软件层面的机会会越来越偏向“少读、少存、少搬”。比如量化可以减少权重占用,KV Cache 压缩可以降低长上下文推理成本,PagedAttention 一类方法可以改善显存碎片和并发调度,MoE 可以让每次推理只激活部分参数,投机解码可以降低端到端延迟。这些优化不只是“性能优化”,而是在直接触碰硬件成本结构。

也就是说,当内存占 AI 芯片组件成本 63% 时,软件工程师优化一个字节,可能比优化一次浮点运算更值钱。

这也是为什么这个趋势值得所有 AI 从业者关注。

它告诉我们,AI 的扩张并不只是模型算法问题,也不是单纯的 GPU 问题,而是一个完整供应链问题。从晶圆、DRAM、HBM、先进封装,到机柜、电力、网络,再到推理框架和应用层缓存策略,每一环都会影响最终 token 成本。

短期看,HBM 紧缺会继续支撑 AI 芯片高价格,也会挤压普通 DRAM 市场,让消费者和企业采购内存的成本上升。中期看,如果内存供应扩张赶上需求,AI 推理价格可能迎来一轮不依赖算法突破的下降。长期看,真正有竞争力的 AI 系统,不会只拼“更多 GPU”,而会拼“每一 GB HBM 能服务多少 token”。

过去十年,AI 的关键词是算力。

接下来几年,关键词很可能是内存。

谁能更高效地使用内存,谁就能更低成本地提供智能。

参考来源

  1. Epoch AI, AI chip component cost shares. https://epoch.ai/data-insights/ai-chip-component-cost-shares
  2. NVIDIA Developer, NVIDIA Hopper Architecture In-Depth. https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
  3. CNAS, American AI Companies Can’t Get Enough Chips. https://www.cnas.org/publications/reports/american-ai-companies-cant-get-enough-chips
  4. Hacker News discussion: https://news.ycombinator.com/item?id=48258684
分享到