大模型量化综述：从线性量化到码本量化

sky_io@outlook.com (K4i) — Mon, 01 Jun 2026 21:00:00 +0800

引言

一个 7B 模型如果用 FP16 存权重，光参数就需要：

$$7 \times 10^9 \times 2\ \text{bytes} \approx 14\ \text{GB}$$

这还没有算 KV cache、activation、临时 workspace、CUDA graph、batching 和运行时碎片。到了 70B，FP16 权重约 140 GB，单卡部署基本不现实。