AI 算力持续膨胀,但内存带宽的成长速度远远追不上。 即便是HBM(高带宽记忆体),也面临功耗飙升、封装成本高昂、散发热量越来越大等问题。 高通在 2026 投资者日上正式揭晓了全新架构 HBC(High-Bandwidth Compute),尝试从根本改变 AI 加速器与内存的关系,不再依赖 HBM,而是把计算单元直接堆叠在 LPDDR 内存底下。
高通发布HBC近存储器架构:把AI加速器塞进DRAM底下
内存墙:AI 推理的最大瓶颈
所谓「内存墙」(Memory Wall),是指内存带宽的提升速度跟不上算力需求的增长。 在大型语言模型推理场景中,这个问题尤其严重:每个 token 的生成都需要大量内存存取,当带宽不足时,算力再强也无法充分发挥,同时功耗与 TCO(总拥有成本)持续攀升。
目前HBM是AI加速器的标准配备,但HBM的封装工艺复杂(需要硅中间层)、设计成本高昂、功耗与发热问题日益严重。 高通的HBC架构选择了一条不同的路:用LPDDR取代HBM作为存储器选择,通过3D堆栈将计算单元与存储器紧密结合。

HBC 的运作原理
HBC的核心设计是将专用的近内存加速器从SoC中独立出来,堆栈在LPDDR内存堆叠的下方,两者之间通过TSV(硅通孔)直接连接。 TSV 是一种垂直穿透硅晶圆的导电通道,能在极小的空间内实现芯片间的高速讯号传输,是 3D 封装技术的核心工艺。

这种设计带来几个关键优势:
- 延迟降至 SRAM 等级:由于计算单元与内存物理距离极近,数据传输路径大幅缩短,延迟可降至传统 SRAM 的水平
- 高密度、大容量:保留了堆叠内存的容量优势,单位功耗容量是片上SRAM的200倍以上
- 避开HBM的痛点:不需要硅中间层(silicon interposer),封装工艺更简单,成本更低,功耗与发热也更低
- LPDDR 成熟供应链:选择 LPDDR 而非 HBM 作为内存介质,可利用现有的成熟制程与供应体系,降低量产风险

高通将HBC架构建立在四个技术基础上:3D整合领导力、系统级设计、LPDDR技术领先、以及功耗效率专长。
官方数据:6 倍能效、200 倍容量
根据高通公布的数据,HBC 架构在关键指标上大幅超越现有方案:
- 单位功耗带宽:是HBM的5至7倍
- 单位功耗容量:是片上SRAM的200倍以上
- HBC Gen1(AI250 加速器):每张加速卡有效带宽达 133 TB/s,比前代 AI200 搭配 LPDDR5X 提升 18 倍
- HBC Gen2(AI300 加速器):有效带宽较AI200 提升54倍,单位功耗带宽达HBM的7倍
产品路线图:2027 年 Gen1、2028 年 Gen2
高通已公布明确的迭代时间表:
- HBC Gen1 + AI250:预计2027年年中启动商业化样品测试
- HBC Gen2 + AI300:预计2028年推出,强化扩展能力
HBC 架构是高通「蜻蜓」(Qualcomm Dragonfly)数据中心产品体系的重要一环。 整套平台面向生成式 AI 与智能体算力需求,将 CPU、AI 加速器、近存储器架构进行统一整合,目标是持续降低 AI 推理的单位算力成本。

并非原创概念,但高通率先给出时间表
近内存计算(Near-Memory Computing)的架构思路并非高通首创。 许多储存厂商与芯片设计公司都在研究类似技术,但多数未能大规模落地。
例如ASIC厂商智邦集成电路(GUC)近期推出了DRAM-on-Logic(DoL)技术,在逻辑芯片上堆叠1至4层DRAM,带宽可达约5 TB/s,甚至优于部分HBM3E方案。 此外,SanDisk 也在探索将NAND与计算堆叠在同一芯片上的方案,试图解决HBM短缺问题。 三星电子近期也推出了 UFS 5.0 闪存,读写带宽较 UFS 4.1 翻倍,显示整个产业都在寻找突破内存瓶颈的路径。
高通的差异化在于:它不只是展示技术原型,而是给出了具体的产品路线图和量产时间表。 HBC Gen1 搭配 AI250 加速器预计 2027 年中样品测试,Gen2 搭配 AI300 预计 2028 年推出。 这让HBC从实验室概念进入「可期待的产品」阶段。
另外值得关注的是,JEDEC近期也批准了 SPHBM4 标准,试图用标准封装取代 HBM 昂贵的硅中间层封装,保留 HBM4 等级的速度。 这代表业界正从多个方向同时突破内存墙问题。
优势与限制
HBC 架构的优势明确:
- 避开HBM的高成本封装与高功耗问题
- LPDDR 成熟的供应链可降低量产风险
- 3D 堆叠实现计算与内存的紧密耦合
- 从架构层面解决内存墙问题,而非仅靠制程微缩
但也有明显限制需要观察:
- 绝对带宽与容量不如 HBM:高通未公布具体数值,只强调「单位功耗」的优势。 在需要极致绝对带宽的场景(如超大规模模型训练),HBM 可能仍是首选
- 生态系尚未建立:目前没有软件生态或第三方支持,开发者需要时间适配新的架构
- 量产时间尚远:Gen1 要到 2027 年中才开始样品测试,真正规模化量产可能要等 2028 年以后
- 3D 堆叠散热挑战:将计算单元夹在内存与基板之间,热管理会是工程上的重大挑战
- 与既有生态的兼容性:现有的 AI 框架与软件栈都是围绕 HBM 设计的,HBC 需要证明其软件兼容性
对 AI 产业的意义
HBC 的出现代表一个重要趋势:AI 计算的瓶颈正从「算力不够」转向「内存带宽不足」。 当GPU和AI加速器的算力持续以倍数成长时,内存带宽的提升速度却远远落后,形成所谓的存储器墙。 高通选择从架构层面而非工艺层面来解决这个问题,用3D堆叠重新定义计算单元与内存的空间关系。
如果HBC能如期在2027年交付并验证其性能承诺,它将为AI推理市场提供一个不同于HBM的技术路线。 这对整个供应链也有深远影响:SK 海力士和三星目前是HBM市场的主导者,而HBC以LPDDR为基础,可能改变存储器产业的竞争格局。 SK 海力士近期已宣布将优先生产DDR5通用型DRAM,显示HBM的高利润时代正面临结构性变化。
