CPU 与 GPU 里的存储 — 类型、工艺、为什么这样设计
如果只用一句话概括 CPU 和 GPU 里的存储 — 它是一个从寄存器到机械硬盘的金字塔:越往上越快、越贵、越靠近计算单元、断电就丢;越往下越慢、越便宜、越远离计算、断电能保。整套体系存在的目的只有一个 — 让计算单元尽量不因为等数据而空闲。
但这条主线背后,藏着几条容易被忽略的事实:第一,同样叫 “SRAM” 的东西,在 L1 缓存里和在 L3 缓存里的造法完全不同;第二,DDR 内存条、显卡上的 GDDR、AI 加速卡上的 HBM 本质上都是 DRAM,差别全在封装;第三,SSD 这几年容量暴涨,靠的不是「单元变小」,而是「往上堆层数」 — 这是三个独立的工艺维度。
这篇文章分两条线铺开。按硬件看 — 拆开一台电脑,看 CPU、内存条、显卡、SSD、HDD 各自里面装着什么存储。按类型看 — 把每种存储的电路、工艺、变种讲清楚,每讲到一种就顺便回答”为什么这种存储这么快(慢)/贵(便宜)/易失(不易失)“。两条线在中间用一张映射表对接,你可以从任何一边切进去再切到另一边。
一 · 总览 — 有哪些存储 · 用在哪
存储金字塔 — 七层从快到慢
整套存储体系按”速度从快到慢、容量从小到大、单位成本从贵到便宜”排列,大致是七层。这条光谱从 CPU/GPU 芯片的硅片内部开始,一路延伸到机箱外、甚至机房外:
类比 — 书桌 · 书架 · 书柜
可以把这套层次想象成一个人在书桌前工作 — 寄存器是手里正在写的那张纸,缓存是手边摊开的几本书,内存是书桌,SSD/HDD 是房间里的书柜。手边能放的东西最少但拿起来最快;书柜能装最多但每次去拿都要起身走过去。计算机设计的核心难题就是想办法让你最常用的东西尽量待在离手最近的地方,减少跑去书柜的次数。
这也解释了一个常见现象 — 内存不够时,系统会把一部分内存数据临时挪到硬盘上(swap / 虚拟内存),这时就明显变卡。因为相当于本该在书桌上随手拿的东西被塞进了书柜,每次用都得跑过去取。
两个视角 — 本文怎么读
理解存储不能只看一张金字塔图。同一种存储,在不同硬件上、用不同工艺造,差别可以很大。所以接下来用两个角度切进去:
- 按硬件看 — 拆开一台电脑,看 CPU 芯片、内存条、显卡、SSD、HDD 各自里面装着什么存储、各自是什么类型。这一节回答”我手里这块硬件上有哪些存储”。
- 按类型看 — 把每种存储的电路原理、家族变种、制造工艺、以及”为什么是这样”一次性讲清楚。这一节回答”这种存储为什么这么快/慢/贵/便宜/易失”。
两边在 Part 2 末尾用一张映射表对接,你可以从任何一边切进去再切到另一边。
二 · 按硬件看 — 每块硬件里装着什么存储
一张归属图 — 拆开一台电脑
理解存储不光要知道”是什么”,还要知道”在哪儿”。同一台机器拆开来,存储分散在好几块独立硬件上,各自服务不同对象。
把图里这些硬件汇总成一张表,左边是硬件部件,右边是它装的存储类型 — Part 3 按这些类型展开,右栏带锚点直接跳过去:
| 硬件 | 内部存储部件 | 存储类型(变种级) | 易失/非易失 | 详见类型一节 |
|---|---|---|---|---|
| CPU 芯片 | 寄存器 | 寄存器堆(多端口 flip-flop) | 易失 | 寄存器堆 |
| L1 / L2 缓存 | 缓存 6T SRAM(高性能调法) | 易失 | 缓存 6T SRAM | |
| L3 缓存 | 缓存 6T SRAM(高密度)/ 3D V-Cache | 易失 | 3D V-Cache | |
| 内存条(DIMM) | DDR5 颗粒 | DDR | 易失 | DDR |
| 显卡 / AI 加速卡 | GPU 片内寄存器 / L1 / L2 / SMEM | 寄存器堆 + 缓存 6T SRAM | 易失 | 缓存 6T SRAM |
| GDDR 颗粒(消费级) | GDDR | 易失 | GDDR | |
| HBM 堆叠(数据中心) | HBM | 易失 | HBM | |
| SSD | NAND Flash 颗粒(主存储) | 3D NAND Flash | 非易失 | 3D NAND Flash |
| DRAM cache(可选) | DDR / LPDDR | 易失 | DDR | |
| HDD | 盘片 + 磁头 | 磁记录(PMR / HAMR) | 非易失 | HDD 磁记录 |
| 内部 DRAM cache | DDR | 易失 | DDR | |
| 主板 | BIOS / UEFI 芯片 | NOR Flash | 非易失 | NOR Flash |
| 嵌入式 EEPROM(网卡等) | NOR Flash / Flash 家族 | 非易失 | NOR Flash | |
| 嵌入式 / 车规 | MCU 内嵌非易失 | MRAM / ReRAM(替代 NOR) | 非易失 | MRAM |
几个看似反直觉的细节:SSD 内部其实是 NAND + DRAM + 控制器的复合体;HDD 也有一小块 DRAM cache;显卡上的 GDDR/HBM 和内存条上的 DDR 本质都是 DRAM;主板上的 BIOS 用 NOR Flash 而不是 NAND — 因为 NOR 支持字节级随机读,适合直接跑代码,而 NAND 必须按块读,适合存大块数据。
下面按硬件一块块拆开讲。
CPU 芯片 — 寄存器 + L1/L2/L3 全是 SRAM
CPU 芯片是一整块硅片(或多块 chiplet 封装在一起)。除了执行单元、指令解码器等逻辑电路,所有 CPU 内部的存储 — 寄存器、L1、L2、L3 缓存 — 都是 SRAM,全部直接刻在硅片上。
- 寄存器 — 紧贴执行单元,亚纳秒延迟,容量只有 KB 级。每条指令几乎都要碰它。
- L1 缓存 — 每个核心专属,几十 KB,~1 ns 延迟。分指令缓存(I-Cache)和数据缓存(D-Cache)。
- L2 缓存 — 每个核心专属,几百 KB 到 MB 级,~3 ns 延迟。
- L3 缓存 — 全核心共享,几十 MB 到上 GB,~10 ns 延迟。AMD 起的 3D V-Cache 可以再叠一层 SRAM 上去。
为什么 CPU 不在芯片里集成更大容量的 DRAM 当主内存?因为 DRAM 工艺和逻辑工艺不兼容(电容工艺 vs 标准晶体管),硬要塞进 CPU 芯片代价巨大。所以 CPU 内的存储只能用 SRAM — 工艺兼容、可以集成,但单元大、占面积。L3 SRAM 缓存在现代 CPU die 上往往占去相当大一块面积。

内存条(DIMM) — DDR5 DRAM 颗粒
内存条是插在主板内存插槽上的独立模组,服务 CPU 的主内存。它本质上是一块小 PCB,上面焊着 8-16 颗 DRAM 颗粒,通过 288-pin 金手指与主板通信。

值得留意的是,内存条上的 DRAM 颗粒和显卡上的 GDDR 颗粒、AI 加速卡上的 HBM 堆叠 本质都是 DRAM,只是封装和接口工艺不同。具体差别见 DDR / GDDR / HBM 各节。
显卡 / AI 加速卡 — GPU + 显存
显卡是一块独立的 PCB,通过 PCIe 接到主板。上面有两类存储:
第一类是 GPU 芯片本身。和 CPU 类似,GPU 芯片里的存储也都是 SRAM — 寄存器、L1 / L2 缓存、shared memory (SMEM)、Blackwell 起新增的 Tensor Memory (TMEM)。区别在于 GPU 一般没有 L3 缓存,而且 SMEM / TMEM 是程序员可显式管理的 SRAM(CPU 缓存对软件透明)。GPU 寄存器堆做得特别大(每 SM 256 KB),因为要同时养几千个线程。
第二类是显存,即贴在 GPU 旁边的 DRAM。按封装方式分两种:
- GDDR(消费级) — 围着 GPU 焊在 PCB 上的独立 DRAM 颗粒,针对图形带宽优化。RTX 5090 这类游戏卡用的就是 GDDR7。
- HBM(数据中心) — 把多层 DRAM 裸片垂直堆叠,通过硅中介层和 GPU 紧贴在一起共同封装。H100 / B200 / MI300 / TPU 这类 AI 加速卡的显存全是 HBM。
下面这张实拍能直观看出 HBM 与 GPU 是怎么坐在一起的:

GDDR 和 HBM 内部的存储单元跟 DDR 内存条上的颗粒本质相同,差别全在封装工艺。HBM 的 TSV 堆叠 + 硅中介层细节见 HBM 一节。
SSD — NAND Flash 颗粒 + 控制器
SSD 是一块独立设备,通过 SATA(老接口)或 NVMe / PCIe(主流)接主板。它的内部很简单 — 一块小 PCB,焊几颗 NAND Flash 颗粒,加一颗 SSD 控制器芯片,再加一小块 DRAM cache(可选,用于映射表缓存)。

注意 SSD 是个”复合体” — 主存储是 NAND Flash(非易失,真正存数据的地方),但内部还有一小块 DRAM 充当 cache 加速元数据访问,以及一颗 ARM 核心跑控制器固件。一颗现代 NAND 颗粒里就有 200+ 层 3D NAND 堆叠 — 这是 SSD 容量近几年快速膨胀的根本原因,见 3D NAND Flash 一节。
HDD — 磁盘 + 磁头 · 唯一非半导体
机械硬盘是另一个独立设备,通过 SATA 接主板。它在整个存储金字塔里是异类 — 根本不是半导体,而是磁记录。内部是:几片高速旋转的金属盘片(7200 / 15000 RPM,表面镀磁性材料),加一只悬浮磁头(距离盘片几纳米)。

读取靠感应磁场变化,写入靠改变下方一小块磁畴的磁化方向。机械运动决定了它毫秒级的访问延迟,但单位容量成本是全场最低。
其他 — 主板 NOR Flash · 嵌入式存储
电脑里还有几处不显眼但必要的存储:
- 主板上的 BIOS / UEFI 固件芯片 — 一小块 NOR Flash,焊死在主板上,存的是开机时第一段执行的代码。NOR Flash 与 SSD 用的 NAND Flash 原理相同,但电路拓扑不同(NOR 单元并联,可字节级读),适合存固件这种小容量低速场景。
- 网卡、声卡、USB 控制器里的 EEPROM — 存配置和小段代码,几 KB 到几 MB 级,都是 Flash 家族。
- 集成显卡(iGPU)的”显存” — 没有独立显存,从系统内存里划一块当显存用。这就是为什么集成显卡场景下”显存”和”主存”是同一种 DRAM。
- CPU / GPU 的微码 ROM — 存指令解码逻辑的小块只读存储,工厂烧死,无法更新。
三 · 按类型看 — 电路 · 工艺 · 变种
一张总览表 — 六种类型一眼看完
| 类型 | 单元结构 | 易失/非易失 | 典型速度 | 典型容量 | 主要用在哪 |
|---|---|---|---|---|---|
| SRAM | 6T 双稳态(或 8T) | 易失 | < 1 ns | KB ~ 数十 MB / 片 | CPU/GPU 缓存、寄存器 |
| DRAM | 1T + 1C | 易失 | ≈ 50-100 ns | GB ~ 数百 GB / 卡 | 主内存(DDR)、显存(GDDR / HBM) |
| NAND Flash | 浮栅 / 电荷陷阱(3D 堆叠) | 非易失 | μs ~ ms | TB / 盘 | SSD、U 盘 |
| NOR Flash | 浮栅(单元并联) | 非易失 | 数十 ns 读 | KB ~ MB | BIOS / UEFI、嵌入式固件 |
| 磁记录(HDD) | 磁畴方向 | 非易失 | ms 级 | 数十 TB / 盘 | 冷数据 / 归档 |
| 新兴 NVM(MRAM / ReRAM / PCM) | 各异 | 非易失 | ns ~ μs | 小容量 | 嵌入式、研究 |
接下来每种 variant 单独一节,把电路、工艺、变种、为什么是这样讲完。从最快的寄存器开始,顺着金字塔往下走。
寄存器堆 — 多端口触发器 · 比缓存 SRAM 还快
寄存器堆的存储单元不是 6T SRAM,而是 flip-flop(D 触发器,常 16-24 晶体管) 或主从锁存器:晶体管多、面积大,但驱动力强、读写无破坏、天然支持同周期多端口访问 — 缓存 6T cell 只有一对位线,做多端口要么改 8T/10T,要么分时,延迟撑不到亚纳秒。
多端口的代价是面积爆炸。一个 N 端口寄存器堆,每个 bit cell 要拉出 N 条字线 + N 套位线 + N 套读出通路,面积近似随 N² 增长(线网交叉决定)。CPU 超标量典型要 6R3W 至 8R4W,GPU SM 要喂 32 个 lane,纯粹堆端口会让寄存器堆比执行单元还大。
Banking(分体)是工业界的标准解法 — 把整个堆切成 4 至 8 个小 bank,每 bank 只有 1R1W 或 2R1W,真正的多端口靠”同周期访问不同 bank”凑出来;一旦两条指令撞同一 bank,就 stall 一周期。Itanium、Alpha 21264、近代 GPU 都这么干。
CPU 还多一层 — 物理寄存器堆(PRF)+ 寄存器重命名。架构寄存器只有 16-32 个(ISA 规定),但 Skylake 的 PRF 有 180 个整数 + 168 个浮点项,rename table 把每条指令的目标寄存器映射到一个空闲物理项,解开 WAR/WAW 假依赖,乱序窗口才打得开。
GPU 走完全不同的路 — H100 单 SM 寄存器堆 256 KB(65536 个 32-bit 项),比 L1 还大。它不靠多端口冲速度,而是把寄存器静态切给数十个驻留 warp;一个 warp 卡内存就秒切下一个,用 warp 切换隐藏延迟,寄存器堆只要”够分”就行 — 这也是 GPU 占用率(occupancy)受寄存器用量限制的根因。
寄存器堆是整个存储层级里唯一不被叫作”缓存”的存储 — 因为它不缓存任何东西,它就是计算指令直接操作的状态本体。
缓存 6T SRAM — L1/L2/L3 通用底座 · 5nm 起缩不动
SRAM(Static RAM,静态随机存取存储器)的核心是 6T 单元:6 个晶体管组成一个交叉耦合的双稳态回路,只要通电就一直锁着 0 或 1,不需要刷新。这是它”静态”的来历。读取时直接感知存储节点的电平,延迟极低(亚纳秒级);写入时强制翻转回路状态,也是几个晶体管开关的事。
但缺点同样致命:每比特占 6 个晶体管,密度低、面积大、单位容量极贵。这就是为什么 SRAM 只能用在最金贵的位置 — CPU 的 L1/L2/L3 缓存、寄存器堆、GPU 的 shared memory 和 L2 cache。容量做到 MB 级已经是上限。

把 SRAM 6T 单元和 DRAM 1T1C 单元画在一起,能立刻看出”为什么 SRAM 又快又贵、DRAM 又慢又便宜”:
工艺细节 — 6T 物理尺寸 · 外围电路 · 写读助力
6T 单元的物理尺寸 — 一个 6T bit cell 的版图面积是衡量 SRAM 工艺的核心指标。Intel 22nm 时代 cell 面积 ≈ 0.092 μm²,7nm ≈ 0.027 μm²,TSMC N5 ≈ 0.021 μm²,N3 仅缩到 ≈ 0.0199 μm²(只缩 5%),N2 GAA 节点据公开数据约 0.0175 μm²。SRAM scaling 已基本停滞 — 这是 3D V-Cache、L3 容量增长靠堆叠而不是缩 cell 的根本原因。
外围电路吃掉一半面积 — 阵列里只有 cell 本身是有效存储。row decoder、wordline driver、column mux、sense amplifier、precharge、I/O 一圈外围逻辑常占 macro 总面积的 30% 至 50%。L1 用小 macro(几 KB 一块)外围比例高、速度快;L3 用大 macro(几百 KB 一块)摊薄外围占比,密度高但访问慢。
辅助电路 — 单元缩小后必须加 — 先进节点下 Vt mismatch、leakage、读写 noise margin 全部恶化,SRAM 必须配合 write assist(Negative Wordline Underdrive NWUD、Negative Bitline NBL、VDD collapse 把 cell 电压瞬间拉低让写入更易)和 read assist(读时抬 wordline 或加 boost,防止读扰动翻转)才能在低 Vdd 工作。GPU SMEM 与寄存器堆为支持多端口/低压则普遍用 8T cell(读端口独立,牺牲密度换 noise margin)。
FinFET 至 GAA 的影响 — FinFET 时代 fin 数量决定驱动力,6T 内 PU/PD/PG 各管子的 fin 配比直接决定 β/γ ratio。N3 之后转 GAA nanosheet,sheet 宽度可连续调,理论上 SRAM 缩放重启,但实际 N2 提升仍很有限。
ECC 几乎全员标配 — 现代 CPU L2/L3 普遍配 SECDED(单比特纠错、双比特检错)或更强的 DECTED,L1 数据也常带 parity,每 64 bit 数据加 8 bit ECC 已是工业标准 — 这是 5nm 以下 soft error rate 与 Vt 抖动逼出来的代价。
L1 与 L3 两端 — 同一种 SRAM 的两种调法
同样叫 SRAM、同样是 6T 单元、同样的制程,L1 缓存的 SRAM 和 L3 缓存的 SRAM 造法明显不同。L1 是这条 SRAM 光谱的”快”端,L3 是”密”端:
L1 的”奢侈”体现在三件事 — 晶体管做大(驱动电流强、充放电快)、辅助电路堆料(多端口、密集 sense amp,有些设计干脆用 8T 让读写互不干扰)、容量被刻意做小(SRAM 访问延迟会随容量增大而上升,所以 L1 故意只做几十 KB,不是造不大,是为了快主动做小)。L3 反着来 — 晶体管做到最小、单元挤得最紧、外围电路精简共享,换来大容量低成本,代价是延迟到了 ≈10 ns 级。
也正因 6T cell 已缩不动,大缓存只能靠堆叠(AMD 3D V-Cache、Apple/Intel chiplet L3)而非更先进节点。
3D V-Cache — Hybrid Bonding 把 L3 叠上来
把 SRAM 做成独立 die 叠在 CCD 上,关键工艺是 hybrid bonding(Cu-Cu 直接键合):两片 die 的铜焊盘抛光到原子级平整,在常温下对位贴合,再升温让铜原子互相扩散,直接长在一起。没有 microbump(焊球)、没有 underfill(填胶),键合 pitch 做到 ≈ 9 μm,比 HBM 那种 microbump TSV 堆叠密 10 倍以上,寄生电容也小很多,几乎等同于片上互连。这是 TSMC 的 SoIC 工艺,Intel 对应的是 Foveros Direct。
AMD 三代演进:2022 年 Zen 3 5800X3D 首发,把 64 MB L3 SRAM die 叠在 8 核 CCD 上方,L3 从 32 MB 扩到 96 MB,游戏场景命中率大幅提升。但 V-Cache 隔在 CCD 与散热器之间,热阻变大,频率被迫降到 4.5 GHz、还锁住超频。2023 年 Zen 4 7800X3D / 7950X3D 翻转方向,把 V-Cache 移到 CCD 下方,让 CCD 直接贴 IHS 散热,频率回到 5.0 GHz。2024 年底 Zen 5 9800X3D 进一步优化叠层与供电,频率提升到 5.2 GHz,首次解锁全核超频。
不是所有产品都做,因为 hybrid bonding 良率敏感、多一片 SRAM die 成本不低,只在游戏 / HPC 这类对 L3 命中率极敏感的细分 SKU 上才划算。
一句话:V-Cache 把”先进工艺缩不动 SRAM”这个死结,用 hybrid bonding 在垂直方向上绕开了 — 代价是良率敏感、成本高,只在最吃 L3 命中率的 SKU 上才出现。
DDR — 主板插槽 DRAM · DDR5 起内嵌 ECC
DDR 是台式机 / 服务器主板插槽里那条内存条。DDR4(2014)峰值数据速率 3200 MT/s,DDR5(2020 标准)起步 4800,现已量产 5600 / 6400,JEDEC 路线图直指 8400 + MT/s。DDR5 最关键的内部改动:把传统 64-bit 通道拆成 两个独立 32-bit sub-channel,各带各的命令地址,小颗粒并发提升;on-die ECC 被强制内置(掩盖颗粒小型化带来的比特翻转);PMIC 从主板移到 DIMM 本身,精细供电更稳。
DRAM 不像逻辑芯片走 3 nm 节点 — 单元的核心是一个电容,得装够电荷才能可靠读出。所以 DRAM 自己一套产线 + 代号:2016 至 2019 年 1x / 1y / 1z(约 18 / 17 / 16 nm 等效);2021 起进入 1α(三家 18 至 14 nm 不一);2022 至 2023 1β 加大 EUV 使用;2024 至 2025 1γ(Samsung 与 SK Hynix 首批关键层全面 EUV)。难点不在缩线宽,而在 把电容立体化(深沟槽 / 高深宽比),挖得越深、单元越小,工艺越难。
DIMM 形态也在分化:UDIMM 给消费(无 buffer,直连);RDIMM 给服务器(命令地址走 RCD 寄存缓冲);LRDIMM 数据线再加 buffer;MRDIMM(2024+)在 DIMM 上做 2:1 multiplex,把对外带宽翻倍冲到 8800 MT/s,单条可上 256 GB;笔电新形态 CAMM2 一条插槽兼容 DDR5 和 LPDDR5X。消费端容量已从 32 GB / DIMM 推到 64 GB,服务器 RDIMM 主流 128 GB+。
形态层面,MRDIMM 在 RCD 上加一层 2:1 多路复用,把对外速率再翻一倍 — 这是 2024 后服务器内存的主旋律。
LPDDR — 移动设备低功耗 DRAM · 越来越贴 SoC
LPDDR 的存储单元和桌面 DDR 完全一致 — 都是 1T1C,差别全在电压、刷新策略、接口。LPDDR4(2014)→ LPDDR4X(2017,Vddq 从 1.1 V 降到 0.6 V)→ LPDDR5(2019)→ LPDDR5X(2022,8533 MT/s)→ SK Hynix 的 LPDDR5T(2023,9600 MT/s)→ LPDDR6(2024-2025 标准制定中,目标 12800+ MT/s)。每一代主要在拉数据率、压电压、塞低功耗钩子。
低功耗机制是它的灵魂:Deep Sleep / Deep Power Down 在空闲时关掉大部分电路、只保留必要状态;**Partial Array Self-Refresh(PASR)**只刷新还需要保留数据的 bank,空 bank 不刷;**Temperature-Compensated Self-Refresh(TCSR)**根据温度动态调整刷新频率(温度低时电容漏电慢,刷新间隔可以拉长);LPDDR5 起还引入 Sub-Bank — 每个 bank 内再分两组,允许更细粒度的并行访问,降低功耗 + 提高带宽利用率。
封装路线分三条 — 手机用 PoP(Package-on-Package),LPDDR 颗粒直接叠在 SoC 上面;笔电用新出的 CAMM2(2023+),把 LPDDR 做成 mezzanine 模组接到主板,做到可更换 + 大容量 + 低延迟,取代 SO-DIMM;Apple M 系列、Intel Lunar Lake 干脆把 LPDDR 颗粒做进 SoC 封装本身,共享 fabric(所谓 unified memory)— CPU / GPU / NPU 全访问同一块 LPDDR,省掉数据拷贝。
LPDDR 的演进路线和 DDR 表面相似,本质很不一样 — DDR 优化的是”可换 + 大容量”,LPDDR 优化的是”贴近 SoC + 每瓦带宽”。所以同一个 1T1C 单元,封装思路一路从 PoP 走到 unified memory,越靠越紧。
GDDR — 消费显卡显存 · GDDR7 PAM3 跑 32 Gbps
GDDR 是消费级显卡的显存方案 — 围着 GPU 焊在 PCB 上的独立 DRAM 颗粒,单元和 DDR 没本质差别,差异全在接口工艺。代际跳跃几乎全靠”信号调制”在推。
GDDR6(2018,Samsung / Micron / SK Hynix 三家都做)— 数据速率 14 至 18 Gbps,NRZ 二电平信号(高 / 低 = 1 bit / symbol),BL16,单颗 8 / 16 Gb。
GDDR6X(2020 起)— Micron 独家给 NVIDIA RTX 30 / 40 系用,19 至 24 Gbps,改用 PAM4 四电平(2 bit / symbol),频率不变但每符号多搬 1 bit。代价是电平间距挤掉一半,SNR 急剧恶化,功耗也涨。
GDDR7(2024-2025)— 28 至 32+ Gbps,JEDEC 转向 PAM3 三电平(约 1.5 bit / symbol)。看似比 PAM4 退一步,但三电平间距宽 50%,SNR 和误码率都更好,同等带宽下功耗反而低。BL32,单颗 16 / 24 Gb。
与 HBM 的差别 — GDDR 是平面封装、PCB 焊接、单颗 32-bit 接口,典型 RTX 4090 用 12 颗组成 384-bit 总线;HBM 是垂直堆叠 + 硅中介层,单 stack 1024-bit。GDDR 单位带宽便宜 4 至 10 倍,消费卡用得起,所以游戏卡全用 GDDR,AI 加速卡才上 HBM。
PCB 代价 — 信号速率到 30 Gbps,走线必须极短(贴 GPU 几厘米内)、严格等长匹配,RTX 4090 仅显存子系统就吃掉约 100 W。
一句话:GDDR 的代际跳跃,从 GDDR6 起已经不靠”更小工艺”,而是靠信号调制方案在压榨同一条 PCB 走线的带宽极限。
HBM — TSV 堆叠 + 中介层 · HBM4 起 base die 换逻辑工艺
HBM(High Bandwidth Memory)是 DRAM 家族里工艺含金量最高的一支。它的存储单元和普通 DRAM 没本质区别,贵在”怎么堆起来”:
- 把多层 DRAM 裸片(4-16 层)垂直堆叠在一起;
- 用 硅通孔(TSV,Through-Silicon Via) 在芯片里打孔,实现层间垂直连接;
- 整个堆叠体通过 硅中介层(silicon interposer) 和 GPU 紧贴在一起共同封装;
- 接口位宽极宽(每个堆叠 1024 bit,远超 GDDR 的 32 bit / chip)。
把 HBM 的物理结构剖开来看,能直接看出”为什么带宽这么高”:
代际数字 + base die 革命 — HBM1 至 HBM4 十年涨 16 倍
剖面图讲了”为什么这么快”,但没讲十年里它快了多少倍、贵在了哪几道工序、为什么三家供应商良率天差地别。
代际数字 — per-stack 带宽十年涨了 ≈ 16 倍:HBM1(2015,Fiji)128 GB/s · 4 GB · 4 层 · 1 Gbps/pin;HBM2(2016)256 GB/s · 8 GB · 8 层 · 2 Gbps;HBM2e(2019)460 GB/s · 16 GB · 8 至 12 层 · 3.6 Gbps;HBM3(2022,H100)819 GB/s · 24 GB · 12 层 · 6.4 Gbps;HBM3e(2024,H200/B200)1.2 TB/s · 36 GB · 12 层 · 9.2 Gbps;HBM4(2026,JESD270)2 TB/s · 48 GB · 16 层 · 8 Gbps/pin — 速率反而降了,靠 总线翻倍到 2048-bit/stack 把带宽顶上去。
TSV 工艺 — 直径从 ≈ 10 μm 缩到 ≈ 6 μm,pitch 从 ≈ 40 μm 缩到 ≈ 25 μm,每个 16-Hi 堆叠要打 1024 数据 + 几百控制 + 测试,总数几千根 TSV,任何一根开路整条堆叠报废,这是良率的核心瓶颈。
Base die 革命 — HBM4 起,base die 从 DRAM 工艺转到 逻辑工艺(TSMC N5/N3),可集成自定义 controller 甚至 compute-in-memory 单元 — NVIDIA、AMD 开始直接和代工厂、内存厂三方协同设计,标志着 HBM 从”通用商品”走向”定制化协同设计”。
CoWoS 三种变种 — TSMC 的 CoWoS-S(silicon interposer,主流,H100/B200 用)/ CoWoS-L(LSI 桥,降本,只在 HBM-GPU 接口处放小硅片)/ CoWoS-R(RDL 重布线,薄型)。CoWoS-S 产能瓶颈是 NVIDIA H100/B200 长期紧缺的物理根因 — 一块 12 寸晶圆只切得出几十块大尺寸 interposer。
散热与键合 — 堆 16 层后中间层热量出不来,SK Hynix 用 MR-MUF(Mass Reflow Molded Underfill,先涂底胶再整体回流)散热好、良率高;Samsung 用 NCF(Non-Conductive Film,一层层贴膜键合),在 HBM3e 良率上吃过亏,迟迟拿不到 NVIDIA 大单。供应商格局:SK Hynix 独家供 H100/H200/B200 大部分订单,Micron 凭 HBM3e 异军突起切走一部分,Samsung 则在 HBM4 上押注追赶。
一句话:HBM 不是”更快的 DRAM”,是”用先进封装把普通 DRAM 拼成超宽总线的工程奇迹” — 而这套工程链(TSMC CoWoS + SK Hynix MR-MUF + 自定义 base die)就是当下 AI 算力供给的最深瓶颈。
3D NAND Flash — 电荷陷阱 + String Stacking + CMOS 键合
NAND Flash(SSD、U 盘里用的)的核心机制是 浮栅晶体管(floating gate) — 一个被绝缘氧化物包裹的”孤岛”。写入时用高电压把电子注入浮栅;一旦电压撤掉,电子被绝缘层关在里面出不来,断电也不会跑掉。这就是它”非易失”的根源。读取靠测量浮栅里有没有电子,这会改变晶体管的阈值电压;查表就能判断这是 0 还是 1。NAND 的”NAND”指的是单元的连接拓扑(像 NAND 门那样串成一长串),所以读单个单元要先把整串”打开”,随机读取并不快。
NAND 有几个独有的特性:写入比读取慢得多(注入电子的过程慢,几十微秒到几百微秒);写入有寿命(高电压反复击穿绝缘层,每次都会留点损伤,一个单元擦写几千次到几万次就老化);不能原地改写(NAND 只能”先擦再写”,而且擦除是按”块”做的,改一个字节也要先擦整块)。
NAND Flash 工艺演进的拐点是 2013 年左右 — 平面(2D)NAND 缩到十几纳米遇到物理极限:单元之间互相干扰、寿命下降、电荷保留时间不够。解决方案是把整个单元”立起来”,改成 3D NAND — 不再在平面上缩小,而是把存储单元一层层堆起来,共享一根竖直的通道。
三个正交工艺维度 — FG/CT · String Stacking · CUA/CBA
3D NAND 走到 2024 年,光”立起来”已经不够 — 内部还要解决电荷怎么存、几百层怎么堆、外围 CMOS 放哪三件事。
浮栅 → 电荷陷阱(FG → CT):早期 3D NAND 仍沿用 2D 的 浮栅(Floating Gate, FG) — 用一小块导电多晶硅孤岛锁电子。但层数一高,相邻浮栅之间寄生电容耦合严重,cell-to-cell 干扰把阈值窗口吃掉。约 2015 年起 Samsung / SK Hynix / Micron 全转 电荷陷阱(Charge Trap, CT):把导电硅岛换成一层绝缘氮化硅(SiN),电子被困在介质缺陷里出不来 — 漏电少、抗读扰动强、薄膜更适合垂直沉积。
String Stacking(分段堆叠):300+ 层、深径比 60:1 的 channel hole 一次刻蚀做不出来 — 边缘垂直度崩、对位精度撑不住。办法是先堆一段、刻完通道、再堆第二段、对接通道。Samsung V8 是 2-stack 236 层,SK Hynix V9 是 3-stack 321 层(2024 量产),Samsung V9 290+ 层,Micron G9 276 层,YMTC X4-9070 294 层。每多一段,对位误差累积、wordline 电阻随层数线性涨,擦写电压也得跟着抬。
CUA vs CBA(外围 CMOS 放哪):CUA / CuA(CMOS-under-Array,Micron / Intel) 把译码器、sense amp 这些周边逻辑塞到 NAND 阵列下方同一片 wafer,省 ≈25% 面积。CBA / Xtacking(SK Hynix / YMTC) 走另一条路 — CMOS 做在另一片 wafer,再 wafer-on-wafer 键合上来。两片可独立优化:逻辑用先进制程拉低延迟,NAND 用厚膜工艺保电荷,代价是要养两条产线。
TLC vs QLC:QLC 要在同一电荷窗内分 16 档,每次编程的 verify 步骤更多,写慢 2 至 3 倍,擦写寿命掉到 ≈1000 PE 循环(TLC 是 3000 至 5000)。所以消费 SSD 主流仍是 TLC(1 至 8 TB),企业 eTLC 单盘做到 30+ TB,单 die 容量 1 至 2 Tb(2024)。
把这三个维度叠起来:FG → CT 决定单元能不能堆得高、堆 string stacking 决定能堆到多少层、CUA / CBA 决定整颗 die 多大 — 三件事各自正交,任意厂商的当前世代产品都是这三件事的一个组合。
NOR Flash — 字节级随机读 · XIP 直接跑代码
NOR 与 NAND 共享浮栅原理,但单元拓扑截然不同:NOR 每个 cell 一端接位线一端接源线,可独立寻址,像 NOR 门并联;NAND 则把 32 至 128 个 cell 串成一条 string,读任意一位都得打开整串。这个差异决定了 NOR 可以 eXecute-In-Place(XIP)— CPU 上电后 reset vector 直接落在 NOR 地址空间,逐字节取指执行,不必先 DMA 到 DRAM,这正是 BIOS / UEFI 必须用 NOR 的根本原因,NAND 的按 page / block 访问根本做不到。
接口上,早年的 Parallel NOR(Intel 28F、AMD 29F 系列)用并行地址 / 数据总线,引脚数 40+,已基本淘汰;当前主流是 Serial NOR / SPI NOR(Winbond W25Q、Macronix MX25、GigaDevice GD25 系列),仅 4 至 8 引脚,QSPI 四线、OSPI 八线 DDR 模式下读带宽可达 100 至 400 MB/s,够 XIP 也够 boot。
市场格局上,NOR 一直是分散的 fabless / 中小厂生意 — Winbond、Macronix、GigaDevice、Cypress(已被 Infineon 收购)、Microchip 瓜分,Samsung、Micron、SK Hynix 早已退出,因为容量小、单价低、利润薄。工艺节点停在 45 nm 至 28 nm 不再推进;主流容量 1 Mb 至 256 Mb(0.125 至 32 MB),旗舰最大 2 Gb(256 MB),与 NAND 单 die 1 Tb 差三个数量级。典型应用:主板上一颗 8 至 32 MB 的 SPI NOR 存 UEFI、汽车 ECU 固件、IoT MCU 内嵌 code flash、SSD 主控自身的 boot ROM、交换机 / 路由器的 bootloader。
也因此,在可见的未来,主板上那颗 8 至 32 MB 的 SPI NOR 不会消失 — 只要 CPU 还需要从一个固定地址 fetch 第一条指令,XIP 就还得有人来兜底。
HDD 磁记录 — 唯一非半导体 · HAMR 把激光烧到盘片上
机械硬盘是金字塔最底层唯一非半导体存储,工艺竞争发生在磁畴尺寸和介质矫顽力上,而非制程节点。
LMR → PMR(2005) — 早期磁畴水平躺在盘面上,相邻磁畴互相挤压,密度撞墙于 ≈100 Gb/in²。PMR 把磁畴竖起来,占地面积立刻缩小,首发即把面密度做到 ≈200 Gb/in²,后续 ePMR 在写头加偏置电流稳定翻转,2024 年 WD Ultrastar HC780 / HC790 把 ePMR 推到 30 / 32 TB 单盘。
SMR(叠瓦) — 相邻磁道像屋顶瓦片那样部分重叠,密度再 +25%。读取不受影响,但写一道必须连带擦除并重写下游 N 道,造成严重写放大,只适合冷数据 / 归档,不能装系统盘。
HAMR(热辅助) — 要把磁畴继续做小,介质必须换成高矫顽力的 FePt,常温下根本写不动。Seagate 在写头集成 ≈800 nm 激光二极管 + 近场光学透镜(NFT),把直径几十 nm 的目标点瞬间加热到 ≈450 至 500 ℃(逼近居里点),材料短暂”软化”,磁头同步施加磁场把方向锁住,纳秒级冷却定型。2024 年起 Seagate Mozaic 3+ 量产 30 / 32 TB,面密度 ≈3 Tb/in²(对 PMR 30 倍),路线图指向 5+ Tb/in²、单盘 50 TB。
MAMR(微波辅助) — WD / Toshiba 方案,在写头加 Spin Torque Oscillator(STO) 发射微波,通过铁磁共振降低翻转门槛。工艺更温和,但密度增益有限,已被 HAMR 反超,WD 现已转向 HAMR跟进。
物理瓶颈在别处 — 不管面密度怎么涨,寻道 ≈4 至 5 ms + 7200 RPM 旋转延迟 ≈4 ms,总访问延迟 ≈8 至 9 ms 永远卡在那里。HDD 提升的是 $/TB,不是 IOPS。
一句话:HAMR 不是把磁记录做得更精密,而是把”写入”从纯磁过程变成了”激光 + 磁场”协同的热磁过程 — HDD 至此从机械工艺彻底进入光机电一体化。
MRAM — 磁隧穿结 · 车规嵌入式已商用
MRAM 的存储单元是 MTJ(Magnetic Tunnel Junction,磁隧穿结) — 两层铁磁金属中间夹一层 ≈1 nm 厚的 MgO 隧穿势垒。下面那层 reference layer 用反铁磁层钉住,磁化方向固定;上面 free layer 可被翻转。两层磁矩平行 = 低电阻(存 0),反平行 = 高电阻(存 1),靠 TMR(隧道磁阻)效应读出 — 两种状态电阻比可达 200 % 以上,只需小电流就能感知。
写入有两代技术。STT-MRAM(Spin-Transfer Torque) 是当前商用主流:让自旋极化电流垂直穿过 MTJ,把自旋角动量转给 free layer 磁矩,翻转方向,写电流 ≈10 至 100 μA、写延迟 10 至 50 ns。SOT-MRAM(Spin-Orbit Torque) 把写电流通入 free layer 下方的 Pt / W / Ta 重金属线,靠自旋霍尔效应横向翻转 — 读写路径分离,寿命近乎无限,翻转可低至 1 ns,但还在早期商用。
商业落地集中在嵌入式。TSMC eMRAM 从 22 nm(2019)推进到 16 nm、12 nm、再到 N5(2024),作为车规级嵌入式 Flash 替代;Samsung 在 28 nm FD-SOI 与 14 nm 节点上为车规 SoC 提供 eMRAM;GlobalFoundries 22FDX eMRAM 服务于 IoT MCU;Everspin 出标品 DDR3 / DDR4 接口的 stand-alone MRAM,用于工业控制和企业 SSD 的元数据保护。优势是擦写寿命 ≈10¹² 至 10¹⁵ 次(NAND 才 10⁴)、纳秒级读写、非易失、辐射耐受好。短板也清楚 — 单元面积 50 至 100 F²(NAND ≈4 F²),整片容量目前只到几 MB 至 1 Gb 级,做不了 GB 主存。
车规和 IoT 之所以最先吃下 MRAM,是因为它正好命中”小容量、要非易失、要快、要耐高温辐射、要无限擦写”这五个交集 — 而这恰恰是 NOR Flash 和 SRAM 备份电池都不再划算的尺度。
ReRAM / PCM — 阻变 + 相变 · Optane 走了 之后冷下来了
把两类 emerging NVM 合在一节讲 — 它们的故事走到现在,基本都是同一种”差点接班、最终没成”的轨迹。
ReRAM(阻变 RAM) — 两层金属电极中间夹一层绝缘氧化物(常用 HfO₂、Ta₂O₅、TiO₂),施加足够正向电压可在氧化层里”长出”一条导电细丝(filament),由氧空位有序排列形成低阻通路;反向脉冲让 filament 部分断裂 → 高阻态。低阻 = 1,高阻 = 0,读时小电压测电阻即可。两大分支:OxRAM 用过渡金属氧化物 + 氧空位 filament,代表是 Crossbar、Weebit Nano(IP 授权给 GlobalFoundries 22FDX);CBRAM 上电极换成 Cu 或 Ag,离子迁入绝缘层形成金属桥,代表是 Adesto / Microchip 的 SST-CBRAM。ReRAM 最大工艺优势是与 CMOS 后段(BEOL)兼容、加工温度低,可以直接叠在逻辑芯片上做嵌入式 NVM。但目前商用仍以 KB 至 MB 级嵌入式 IP block 为主,独立大容量产品罕见。
PCM(相变存储) — 核心材料是 GST(Ge₂Sb₂Te₅,锗锑碲合金):强短脉冲快速冷却 → 非晶态(高阻)= 0;长低脉冲慢冷却 → 晶态(低阻)= 1。最知名的产品是 Intel + Micron 的 3D XPoint / Optane(2015 年发布,2017 年首发数据中心 SSD 与持久内存 DIMM)— Intel 始终不公开是不是纯 PCM,但工艺被普遍认为是同源衍生。2022 年 Intel 正式宣布退出 Optane 业务,产品线终止。再早还有 Numonyx 的嵌入式 PCM(2008 至 2010,被 Micron 收购后停产)。PCM 的硬伤是:写入电流大(> 100 μA)、热扰动让相邻单元失稳、单元材料随循环退化(寿命约 10⁸ 至 10⁹ 次)。
为什么这两类都没成主流 — 单元密度做不过 NAND(已堆到 300+ 层 × 5 bit/cell);写入特性介于 DRAM 与 NAND 之间,但成本两边都不打;MRAM 抢先占了”嵌入式 NVM 替代 Flash”的市场,ReRAM / PCM 在车规与 IoT 上节节败退。当前 PCM 商业基本停滞,只剩学术界还在拿模拟电阻态做 in-memory computing 与 MAC 运算研究。
写入机制有趣但工程账算不过去 — emerging NVM 的故事到现在差不多是同一个剧本。
工艺速查表 — 把每种类型的工艺路径压成一行
把上面所有类型的工艺路径压成一张表:
| 存储 | 制程命名 | 单元结构 | 演进路径 | 核心难点 |
|---|---|---|---|---|
| SRAM(片内) | 跟逻辑(3 nm / 5 nm) | 6T 双稳态(或 8T) | 先进逻辑节点 + 3D 堆叠缓存 | 先进节点缩不动 |
| DRAM(DDR/GDDR) | 1α / 1β / 1γ(代号) | 1T1C 深沟槽电容 | 电容立体化 | 缩单元保电容容量 |
| HBM | 同 DRAM 单元工艺 | DRAM 单元 + TSV + 中介层 | 堆 4 → 8 → 12 → 16 层 | TSV 良率 · 散热 |
| 3D NAND | ”层数 + bit/cell” | 浮栅 / 电荷陷阱(立体) | 200 → 300 → 500+ 层 | 通道精度 · 良率 |
| NOR Flash | 28-45 nm 停滞 | 浮栅并联 | 已停止演进 | 容量小 · 利润薄 |
| HDD | 无制程 | 磁记录(无半导体) | PMR → SMR → HAMR / MAMR | 磁畴稳定性 · 热扰动 |
| MRAM | 嵌入式 22-N5 nm | MTJ(MgO 隧穿势垒) | STT → SOT | 单元面积大 |
| ReRAM / PCM | BEOL 兼容 | filament / GST 相变 | 商业化基本停滞 | 密度输 NAND · 寿命输 MRAM |
总结 — 一条因果链穿起整个金字塔
把整篇文章压成一句话:所有存储的差异,都来自同一条权衡 — 越靠近计算、越追求快,就越要牺牲容量、抬高单位成本;越远离计算、越追求大和便宜,就越要忍受慢。
具体说:
- 数据靠什么撑着,决定易失与否 — 易失性的(SRAM、DRAM、HBM)靠通电维持的电学状态,断电状态塌掉;非易失性的(Flash、HDD、新兴)靠被物理性困住或固定的状态(电子困在浮栅里、磁畴方向钉在盘片上),断电不丢。这是最本质的分界。
- 单元复杂度,决定速度和单位成本 — SRAM 一个比特 6 晶体管所以又快又贵;DRAM 一个比特 1 晶体管+1 电容所以又便宜又能做大;NAND 一个比特一个浮栅还能堆 300+ 层再多塞几比特所以容量爆炸;HDD 不是半导体,密度靠材料创新一步步压低成本。
- 靠多近、走多远,决定带宽和延迟 — 寄存器贴执行单元最快;L1 比 L3 快是因为容量做小走线短;HBM 单元和普通 DRAM 一样慢但靠贴 GPU + 1024 bit 超宽接口把带宽拉到几 TB/s;HDD 慢是因为有机械运动这个根本物理瓶颈。
理解这条主线之后,你看到”AMD 3D V-Cache 又加大”、“HBM4 来了”、“321 层 3D NAND 量产”、“HAMR 30 TB 硬盘发布”、“MRAM 进入车规级”这些新闻时,就能立刻判断它在哪条工艺线上推进 — 都不过是在”换原理 / 改工艺 / 推堆叠 / 提密度”这几条线上的某一处再加一刀。
参考资料 — 教科书 · 标准 · 厂商资料
教科书与课程
- 《Computer Architecture: A Quantitative Approach》(Hennessy & Patterson) — 计算机体系结构经典,第 2 章存储层次讲得最透彻。第 6 版起加了 HBM / 3D 堆叠的章节。
- 《Memory Systems: Cache, DRAM, Disk》(Bruce Jacob, Spencer Ng, David Wang) — 专门讲存储层次的教科书,从电路到协议到调度策略全覆盖。
- MIT 6.004 / CMU 18-447 — 这两门课的公开讲义和作业把 SRAM/DRAM/缓存层次推导得非常清楚。www.ece.cmu.edu/~ece447
标准与厂商白皮书
- JEDEC — DDR / GDDR / HBM / LPDDR 全部官方标准的发布机构,所有内存产品的电气、协议、引脚定义都来自这里。www.jedec.org
- NVIDIA H100 / B200 Architecture Whitepaper — HBM2e / HBM3 / HBM3e 在 GPU 上的实际应用细节。resources.nvidia.com
- AMD 3D V-Cache 技术文章 — SRAM 3D 堆叠的工程实现细节。www.amd.com/3d-v-cache
- SK Hynix / Samsung / Micron 各代 HBM 技术文档 — HBM2 / HBM3 / HBM3e / HBM4 的 TSV 数量、带宽、堆叠层数。news.skhynix.com
论文与综述
- Salahuddin, Ni, Datta, “The era of hyper-scaling in electronics” (Nature Electronics, 2018) — 半导体存储的 scaling 极限综述。nature.com
- Chen et al., “A Review of 3D NAND Flash Technology” (IEEE TED, 2021) — 3D NAND 工艺演进的工程级综述。
- Mutlu, “Memory Scaling: A Systems Architecture Perspective” (IMW 2013) — DRAM 与 NAND 的可扩展性分析,经典讲座。people.inf.ethz.ch/omutlu
工艺与制造
- ASML 公开技术 ppt — 现代 DRAM / 逻辑工艺的 EUV / DUV 应用。www.asml.com
- TechInsights 拆解报告 — 各代 DRAM / NAND / GPU 的实际逆向工程拆解,层数、单元尺寸、TSV 节距等公开数据。www.techinsights.com
- AnandTech / Tom’s Hardware 深度评测 — DDR5 / GDDR7 / SSD 控制器的工程细节科普,适合理解工艺差异在产品层的体现。
- Seagate / Western Digital HAMR 技术白皮书 — 磁记录密度从 PMR 到 HAMR 的演进路径。www.seagate.com/hamr
其他长文 / 博客
- Wendell, “Cache Coherency Explained”(Level1Techs)— 多核 CPU 缓存一致性协议的科普长文。
- Jonathan Corbet, “The Memory Hierarchy”(LWN.net 系列)— Linux 内核视角下的存储层次,讲软件如何与硬件层次对齐。lwn.net/Articles/250967
- Erik Engheim, “A Visual Guide to GPU Memory”(Medium)— GPU 存储层次的可视化讲解。