AI 芯片越来越贵，真正的瓶颈不是算力，而是内存

2026-05-25

大模型, 推理成本, GPU, AI芯片, HBM, 内存

摘要：过去我们谈 AI 芯片，最习惯盯着算力、制程和 GPU 数量，但最新数据说明，AI 芯片里真正吞掉成本大头的，已经不是逻辑计算单元，而是高带宽内存 HBM。随着模型变大、上下文变长、并发推理增加，AI 基础设施的竞争逻辑正在从“谁有更多算力”转向“谁能更便宜、更高效地拿到并利用内存”。

过去我们谈 AI 芯片，最常说的是算力。

多少 TFLOPS，多少 Tensor Core，多少张 GPU，多少机柜，多少兆瓦电力。仿佛只要把更多“计算核心”堆起来，大模型的成本问题就会自然被解决。

但最近一组数据提醒我们：AI 芯片的成本结构，正在发生一个非常关键的变化。

根据 Epoch AI 在 2026 年 5 月发布的估算，在 Nvidia、AMD、Google、Amazon 等主要 AI 芯片设计方的产品中，高带宽内存 HBM 在 AI 芯片组件成本中的占比，已经从 2024 年一季度的 52% 上升到 2025 年四季度的 63%。同期，逻辑芯片成本占比基本稳定在 13% 到 14%，先进封装从 19% 降到 15%，辅助组件从 15% 降到约 9% 左右。换句话说，今天一颗前沿 AI 芯片里，真正吞掉大头成本的，已经不是“计算单元”，而是内存。(Epoch AI)

这听起来有点反直觉。

大众理解里的芯片，核心应该是 GPU die，是最先进制程，是晶体管密度，是台积电 3nm、4nm 的制造能力。但在 AI 加速器里，逻辑芯片再强，如果数据喂不进去，计算单元就只能等待。大模型训练和推理的本质，不只是做矩阵乘法，更是不断搬运参数、激活值和 KV Cache。模型越大、上下文越长、并发越高，对内存容量和带宽的依赖越强。

这就是 HBM 成为成本中心的原因。

HBM，全称 High Bandwidth Memory，高带宽内存。它不是普通内存条，也不是简单焊在主板上的显存。它把多层 DRAM 垂直堆叠起来，通过 TSV 等垂直互连技术连接，再和计算芯片一起放进先进封装里。这样做的好处是距离短、带宽高、功耗相对更优。比如 NVIDIA H100 SXM 支持 80GB HBM3，官方资料显示其内存带宽超过 3TB/s；NVIDIA 也明确指出，H100 的 HBM3 子系统相比 A100 提供约 2 倍带宽提升。(NVIDIA Developer)

HBM 为什么会成为 AI 硬件的成本核心：从模型规模扩张，到 HBM 需求激增、DRAM 产能分流，再到 AI 芯片与消费级内存一起涨价

但代价也非常明显：HBM 很难做，也很吃产能。

传统 DDR5 是大规模、标准化、面向服务器和消费市场的内存产品；HBM 则更像是“内存里的奢侈品”。它不仅需要高质量 DRAM die，还需要堆叠、键合、测试、封装、与计算芯片协同设计。CNAS 的报告提到，制造 HBM 每 GB 所需的内存晶圆大约是标准 DRAM 的 3 到 4 倍。这意味着当厂商把产能转向 HBM 时，并不是简单多生产一种高端产品，而是在实质上挤占普通 DRAM 的供给。(CNAS)

所以，AI 芯片成本上涨并不是一个孤立事件。

一边是大模型公司疯狂采购 GPU 和 AI ASIC，另一边是内存厂商把更多晶圆、封装和测试资源投向 HBM。结果就是：AI 服务器买贵了，普通服务器内存也买贵了，PC、手机、工作站和家用 NAS 用户同样被波及。Hacker News 上这条讨论之所以火，不只是因为 63% 这个数字惊人，也因为很多开发者已经在现实中感受到内存价格上涨：有用户提到，自己几年前买 96GB 内存套件大约花了 250 美元，而现在同类产品价格已经涨到约 1200 美元；另有用户提到 96GB DDR5 SO-DIMM 套件从 279 美元涨到 1000 美元以上。(Hacker News)

这里有一个很重要的判断：AI 硬件成本未来可能会下降，但不一定靠技术突破。

如果 HBM 价格回落，DRAM 供应重新跟上需求，AI 训练和推理的硬件成本确实有下降空间。Hacker News 上有评论者提出一个有趣观点：如果当前成本高企主要来自 DRAM 供需错配，那么随着供给补上，AI 硬件成本可能在没有重大技术创新的情况下下降。这个判断并非完全没有道理，因为 Epoch AI 的数据也显示，2024 到 2025 年 AI 芯片组件总支出从约 220 亿美元增长到约 520 亿美元，其中 HBM 支出贡献了大约 200 亿美元的增量。(Epoch AI)

但这个“等待供给恢复”的故事，也不能讲得太简单。

DRAM 不是软件服务，不能一键扩容。新建晶圆厂、扩建洁净室、导入设备、爬坡良率，通常都需要多年时间。CNAS 报告指出，AI 芯片生产在 2026 年已成为 AI 算力扩张的约束条件之一，原因正是制造能力无法快速响应需求暴增；报告还提到，逻辑晶圆和内存晶圆都高度集中在少数公司手中，新增产能需要很长周期。(CNAS)

更麻烦的是，需求端可能并不会停下来等供给。

训练更大的模型需要更多 HBM，部署更长上下文的推理服务也需要更多 HBM。以前我们讨论推理成本，常常关注“每 token 需要多少计算”；现在必须把“每 token 占多少内存、KV Cache 能支撑多少并发、显存带宽能不能喂饱算力”一起算进去。对于长上下文、多轮对话、Agent 工作流和检索增强生成来说，瓶颈经常不是 GPU 不会算，而是数据搬运、缓存驻留和内存容量不够。

这会改变 AI 基础设施公司的竞争逻辑。

过去的竞争核心是“谁能拿到更多 GPU”。下一阶段可能变成“谁能以更低成本拿到更多高带宽内存”。云厂商、自研芯片公司、服务器 OEM、封装厂、HBM 供应商之间的长期协议会越来越重要。芯片设计也会围绕内存重新组织：更大的片上缓存、更高效的互连、更好的分层存储、更强的数据复用能力，都会变成系统设计的核心。

这同样会改变软件工程师的优化方向。

过去很多 AI 应用优化，默认“算力最贵”。所以大家关注 kernel fusion、Tensor Core 利用率、矩阵乘法吞吐、batch size。但在 HBM 成为成本大头之后，软件层面的机会会越来越偏向“少读、少存、少搬”。比如量化可以减少权重占用，KV Cache 压缩可以降低长上下文推理成本，PagedAttention 一类方法可以改善显存碎片和并发调度，MoE 可以让每次推理只激活部分参数，投机解码可以降低端到端延迟。这些优化不只是“性能优化”，而是在直接触碰硬件成本结构。

也就是说，当内存占 AI 芯片组件成本 63% 时，软件工程师优化一个字节，可能比优化一次浮点运算更值钱。

这也是为什么这个趋势值得所有 AI 从业者关注。

它告诉我们，AI 的扩张并不只是模型算法问题，也不是单纯的 GPU 问题，而是一个完整供应链问题。从晶圆、DRAM、HBM、先进封装，到机柜、电力、网络，再到推理框架和应用层缓存策略，每一环都会影响最终 token 成本。

短期看，HBM 紧缺会继续支撑 AI 芯片高价格，也会挤压普通 DRAM 市场，让消费者和企业采购内存的成本上升。中期看，如果内存供应扩张赶上需求，AI 推理价格可能迎来一轮不依赖算法突破的下降。长期看，真正有竞争力的 AI 系统，不会只拼“更多 GPU”，而会拼“每一 GB HBM 能服务多少 token”。

过去十年，AI 的关键词是算力。

接下来几年，关键词很可能是内存。

谁能更高效地使用内存，谁就能更低成本地提供智能。

参考来源

Epoch AI, AI chip component cost shares. https://epoch.ai/data-insights/ai-chip-component-cost-shares
NVIDIA Developer, NVIDIA Hopper Architecture In-Depth. https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/
CNAS, American AI Companies Can’t Get Enough Chips. https://www.cnas.org/publications/reports/american-ai-companies-cant-get-enough-chips
Hacker News discussion: https://news.ycombinator.com/item?id=48258684

AI技术

参考来源