高通发布HBC架构：把AI加速器塞进DRAM底下，单位功耗带宽达HBM的6倍

AI 算力持续膨胀，但内存带宽的成长速度远远追不上。即便是HBM（高带宽记忆体），也面临功耗飙升、封装成本高昂、散发热量越来越大等问题。高通在 2026 投资者日上正式揭晓了全新架构 HBC（High-Bandwidth Compute），尝试从根本改变 AI 加速器与内存的关系，不再依赖 HBM，而是把计算单元直接堆叠在 LPDDR 内存底下。

高通发布HBC近存储器架构：把AI加速器塞进DRAM底下

内存墙：AI 推理的最大瓶颈

所谓「内存墙」（Memory Wall），是指内存带宽的提升速度跟不上算力需求的增长。在大型语言模型推理场景中，这个问题尤其严重：每个 token 的生成都需要大量内存存取，当带宽不足时，算力再强也无法充分发挥，同时功耗与 TCO（总拥有成本）持续攀升。

目前HBM是AI加速器的标准配备，但HBM的封装工艺复杂（需要硅中间层）、设计成本高昂、功耗与发热问题日益严重。高通的HBC架构选择了一条不同的路：用LPDDR取代HBM作为存储器选择，通过3D堆栈将计算单元与存储器紧密结合。

高通发布HBC架构：把AI加速器塞进DRAM底下，单位功耗带宽达HBM的6倍 -果派哥

HBC 的运作原理

HBC的核心设计是将专用的近内存加速器从SoC中独立出来，堆栈在LPDDR内存堆叠的下方，两者之间通过TSV（硅通孔）直接连接。 TSV 是一种垂直穿透硅晶圆的导电通道，能在极小的空间内实现芯片间的高速讯号传输，是 3D 封装技术的核心工艺。

https://players.brightcove.net/1414329538001/q6zFl8svi_default/index.html?videoId=6399199998112

这种设计带来几个关键优势：

延迟降至 SRAM 等级：由于计算单元与内存物理距离极近，数据传输路径大幅缩短，延迟可降至传统 SRAM 的水平
高密度、大容量：保留了堆叠内存的容量优势，单位功耗容量是片上SRAM的200倍以上
避开HBM的痛点：不需要硅中间层（silicon interposer），封装工艺更简单，成本更低，功耗与发热也更低
LPDDR 成熟供应链：选择 LPDDR 而非 HBM 作为内存介质，可利用现有的成熟制程与供应体系，降低量产风险

高通将HBC架构建立在四个技术基础上：3D整合领导力、系统级设计、LPDDR技术领先、以及功耗效率专长。

官方数据：6 倍能效、200 倍容量

根据高通公布的数据，HBC 架构在关键指标上大幅超越现有方案：

单位功耗带宽：是HBM的5至7倍
单位功耗容量：是片上SRAM的200倍以上
HBC Gen1（AI250 加速器）：每张加速卡有效带宽达 133 TB/s，比前代 AI200 搭配 LPDDR5X 提升 18 倍
HBC Gen2（AI300 加速器）：有效带宽较AI200 提升54倍，单位功耗带宽达HBM的7倍

产品路线图：2027 年 Gen1、2028 年 Gen2

高通已公布明确的迭代时间表：

HBC Gen1 + AI250：预计2027年年中启动商业化样品测试
HBC Gen2 + AI300：预计2028年推出，强化扩展能力

HBC 架构是高通「蜻蜓」（Qualcomm Dragonfly）数据中心产品体系的重要一环。整套平台面向生成式 AI 与智能体算力需求，将 CPU、AI 加速器、近存储器架构进行统一整合，目标是持续降低 AI 推理的单位算力成本。

并非原创概念，但高通率先给出时间表

近内存计算（Near-Memory Computing）的架构思路并非高通首创。许多储存厂商与芯片设计公司都在研究类似技术，但多数未能大规模落地。

例如ASIC厂商智邦集成电路（GUC）近期推出了DRAM-on-Logic（DoL）技术，在逻辑芯片上堆叠1至4层DRAM，带宽可达约5 TB/s，甚至优于部分HBM3E方案。此外，SanDisk 也在探索将NAND与计算堆叠在同一芯片上的方案，试图解决HBM短缺问题。三星电子近期也推出了 UFS 5.0 闪存，读写带宽较 UFS 4.1 翻倍，显示整个产业都在寻找突破内存瓶颈的路径。

高通的差异化在于：它不只是展示技术原型，而是给出了具体的产品路线图和量产时间表。 HBC Gen1 搭配 AI250 加速器预计 2027 年中样品测试，Gen2 搭配 AI300 预计 2028 年推出。这让HBC从实验室概念进入「可期待的产品」阶段。

另外值得关注的是，JEDEC近期也批准了 SPHBM4 标准，试图用标准封装取代 HBM 昂贵的硅中间层封装，保留 HBM4 等级的速度。这代表业界正从多个方向同时突破内存墙问题。

优势与限制

HBC 架构的优势明确：

避开HBM的高成本封装与高功耗问题
LPDDR 成熟的供应链可降低量产风险
3D 堆叠实现计算与内存的紧密耦合
从架构层面解决内存墙问题，而非仅靠制程微缩

但也有明显限制需要观察：

绝对带宽与容量不如 HBM：高通未公布具体数值，只强调「单位功耗」的优势。在需要极致绝对带宽的场景（如超大规模模型训练），HBM 可能仍是首选
生态系尚未建立：目前没有软件生态或第三方支持，开发者需要时间适配新的架构
量产时间尚远：Gen1 要到 2027 年中才开始样品测试，真正规模化量产可能要等 2028 年以后
3D 堆叠散热挑战：将计算单元夹在内存与基板之间，热管理会是工程上的重大挑战
与既有生态的兼容性：现有的 AI 框架与软件栈都是围绕 HBM 设计的，HBC 需要证明其软件兼容性

对 AI 产业的意义

HBC 的出现代表一个重要趋势：AI 计算的瓶颈正从「算力不够」转向「内存带宽不足」。当GPU和AI加速器的算力持续以倍数成长时，内存带宽的提升速度却远远落后，形成所谓的存储器墙。高通选择从架构层面而非工艺层面来解决这个问题，用3D堆叠重新定义计算单元与内存的空间关系。

如果HBC能如期在2027年交付并验证其性能承诺，它将为AI推理市场提供一个不同于HBM的技术路线。这对整个供应链也有深远影响：SK 海力士和三星目前是HBM市场的主导者，而HBC以LPDDR为基础，可能改变存储器产业的竞争格局。 SK 海力士近期已宣布将优先生产DDR5通用型DRAM，显示HBM的高利润时代正面临结构性变化。