LLM Quantization and Low-Precision Serving：量化与低精度推理路线

sky_io@outlook.com (K4i) — Fri, 05 Jun 2026 11:00:00 +0800

这个系列专门放量化和低精度 serving。它不只是“推理优化”的一个小节，因为量化同时牵涉表示方式、误差控制、校准数据、kernel 支持、KV cache、显存带宽和质量回归。

大模型量化综述：从线性量化到码本量化

sky_io@outlook.com (K4i) — Mon, 01 Jun 2026 21:00:00 +0800

一个 7B 模型如果用 FP16 存权重，光参数就需要：

$$7 \times 10^9 \times 2\ \text{bytes} \approx 14\ \text{GB}$$

这还没有算 KV cache、activation、临时 workspace、CUDA graph、batching 和运行时碎片。到了 70B，FP16 权重约 140 GB，单卡部署基本不现实。