摘要:过去我们谈 AI 芯片,最习惯盯着算力、制程和 GPU 数量,但最新数据说明,AI 芯片里真正吞掉成本大头的,已经不是逻辑计算单元,而是高带宽内存 HBM。随着模型变大、上下文变长、并发推理增加,AI 基础设施的竞争逻辑正在从“谁有更多算力”转向“谁能更便宜、更高效地拿到并利用内存”。
过去我们谈 AI 芯片,最常说的是算力。
多少 TFLOPS,多少 Tensor Core,多少张 GPU,多少机柜,多少兆瓦电力。仿佛只要把更多“计算核心”堆起来,大模型的成本问题就会自然被解决。
但最近一组数据提醒我们:AI 芯片的成本结构,正在发生一个非常关键的变化。
根据 Epoch AI 在 2026 年 5 月发布的估算,在 Nvidia、AMD、Google、Amazon 等主要 AI 芯片设计方的产品中,高带宽内存 HBM 在 AI 芯片组件成本中的占比,已经从 2024 年一季度的 52% 上升到 2025 年四季度的 63%。同期,逻辑芯片成本占比基本稳定在 13% 到 14%,先进封装从 19% 降到 15%,辅助组件从 15% 降到约 9% 左右。换句话说,今天一颗前沿 AI 芯片里,真正吞掉大头成本的,已经不是“计算单元”,而是内存。(Epoch AI)
这听起来有点反直觉。
大众理解里的芯片,核心应该是 GPU die,是最先进制程,是晶体管密度,是台积电 3nm、4nm 的制造能力。但在 AI 加速器里,逻辑芯片再强,如果数据喂不进去,计算单元就只能等待。大模型训练和推理的本质,不只是做矩阵乘法,更是不断搬运参数、激活值和 KV Cache。模型越大、上下文越长、并发越高,对内存容量和带宽的依赖越强。
这就是 HBM 成为成本中心的原因。
HBM,全称 High Bandwidth Memory,高带宽内存。它不是普通内存条,也不是简单焊在主板上的显存。它把多层 DRAM 垂直堆叠起来,通过 TSV 等垂直互连技术连接,再和计算芯片一起放进先进封装里。这样做的好处是距离短、带宽高、功耗相对更优。比如 NVIDIA H100 SXM 支持 80GB HBM3,官方资料显示其内存带宽超过 3TB/s;NVIDIA 也明确指出,H100 的 HBM3 子系统相比 A100 提供约 2 倍带宽提升。(NVIDIA Developer)

但代价也非常明显:HBM 很难做,也很吃产能。
传统 DDR5 是大规模、标准化、面向服务器和消费市场的内存产品;HBM 则更像是“内存里的奢侈品”。它不仅需要高质量 DRAM die,还需要堆叠、键合、测试、封装、与计算芯片协同设计。CNAS 的报告提到,制造 HBM 每 GB 所需的内存晶圆大约是标准 DRAM 的 3 到 4 倍。这意味着当厂商把产能转向 HBM 时,并不是简单多生产一种高端产品,而是在实质上挤占普通 DRAM 的供给。(CNAS)
所以,AI 芯片成本上涨并不是一个孤立事件。
一边是大模型公司疯狂采购 GPU 和 AI ASIC,另一边是内存厂商把更多晶圆、封装和测试资源投向 HBM。结果就是:AI 服务器买贵了,普通服务器内存也买贵了,PC、手机、工作站和家用 NAS 用户同样被波及。Hacker News 上这条讨论之所以火,不只是因为 63% 这个数字惊人,也因为很多开发者已经在现实中感受到内存价格上涨:有用户提到,自己几年前买 96GB 内存套件大约花了 250 美元,而现在同类产品价格已经涨到约 1200 美元;另有用户提到 96GB DDR5 SO-DIMM 套件从 279 美元涨到 1000 美元以上。(Hacker News)
这里有一个很重要的判断:AI 硬件成本未来可能会下降,但不一定靠技术突破。
如果 HBM 价格回落,DRAM 供应重新跟上需求,AI 训练和推理的硬件成本确实有下降空间。Hacker News 上有评论者提出一个有趣观点:如果当前成本高企主要来自 DRAM 供需错配,那么随着供给补上,AI 硬件成本可能在没有重大技术创新的情况下下降。这个判断并非完全没有道理,因为 Epoch AI 的数据也显示,2024 到 2025 年 AI 芯片组件总支出从约 220 亿美元增长到约 520 亿美元,其中 HBM 支出贡献了大约 200 亿美元的增量。(Epoch AI)
但这个“等待供给恢复”的故事,也不能讲得太简单。
DRAM 不是软件服务,不能一键扩容。新建晶圆厂、扩建洁净室、导入设备、爬坡良率,通常都需要多年时间。CNAS 报告指出,AI 芯片生产在 2026 年已成为 AI 算力扩张的约束条件之一,原因正是制造能力无法快速响应需求暴增;报告还提到,逻辑晶圆和内存晶圆都高度集中在少数公司手中,新增产能需要很长周期。(CNAS)
更麻烦的是,需求端可能并不会停下来等供给。
训练更大的模型需要更多 HBM,部署更长上下文的推理服务也需要更多 HBM。以前我们讨论推理成本,常常关注“每 token 需要多少计算”;现在必须把“每 token 占多少内存、KV Cache 能支撑多少并发、显存带宽能不能喂饱算力”一起算进去。对于长上下文、多轮对话、Agent 工作流和检索增强生成来说,瓶颈经常不是 GPU 不会算,而是数据搬运、缓存驻留和内存容量不够。
这会改变 AI 基础设施公司的竞争逻辑。
过去的竞争核心是“谁能拿到更多 GPU”。下一阶段可能变成“谁能以更低成本拿到更多高带宽内存”。云厂商、自研芯片公司、服务器 OEM、封装厂、HBM 供应商之间的长期协议会越来越重要。芯片设计也会围绕内存重新组织:更大的片上缓存、更高效的互连、更好的分层存储、更强的数据复用能力,都会变成系统设计的核心。
这同样会改变软件工程师的优化方向。
过去很多 AI 应用优化,默认“算力最贵”。所以大家关注 kernel fusion、Tensor Core 利用率、矩阵乘法吞吐、batch size。但在 HBM 成为成本大头之后,软件层面的机会会越来越偏向“少读、少存、少搬”。比如量化可以减少权重占用,KV Cache 压缩可以降低长上下文推理成本,PagedAttention 一类方法可以改善显存碎片和并发调度,MoE 可以让每次推理只激活部分参数,投机解码可以降低端到端延迟。这些优化不只是“性能优化”,而是在直接触碰硬件成本结构。
也就是说,当内存占 AI 芯片组件成本 63% 时,软件工程师优化一个字节,可能比优化一次浮点运算更值钱。
这也是为什么这个趋势值得所有 AI 从业者关注。
它告诉我们,AI 的扩张并不只是模型算法问题,也不是单纯的 GPU 问题,而是一个完整供应链问题。从晶圆、DRAM、HBM、先进封装,到机柜、电力、网络,再到推理框架和应用层缓存策略,每一环都会影响最终 token 成本。
短期看,HBM 紧缺会继续支撑 AI 芯片高价格,也会挤压普通 DRAM 市场,让消费者和企业采购内存的成本上升。中期看,如果内存供应扩张赶上需求,AI 推理价格可能迎来一轮不依赖算法突破的下降。长期看,真正有竞争力的 AI 系统,不会只拼“更多 GPU”,而会拼“每一 GB HBM 能服务多少 token”。
过去十年,AI 的关键词是算力。
接下来几年,关键词很可能是内存。
谁能更高效地使用内存,谁就能更低成本地提供智能。
参考来源
- Epoch AI, AI chip component cost shares. https://epoch.ai/data-insights/ai-chip-component-cost-shares
- NVIDIA Developer, NVIDIA Hopper Architecture In-Depth. https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
- CNAS, American AI Companies Can’t Get Enough Chips. https://www.cnas.org/publications/reports/american-ai-companies-cant-get-enough-chips
- Hacker News discussion: https://news.ycombinator.com/item?id=48258684