Please enable Javascript to view the contents

LLM Quantization and Low-Precision Serving：量化与低精度推理路线

📅 2026年06月05日 · ☕ 1 分钟 · 👀... 阅读

Read aloud Ready

Speed Voice

0/0

这个系列专门放量化和低精度 serving。它不只是“推理优化”的一个小节，因为量化同时牵涉表示方式、误差控制、校准数据、kernel 支持、KV cache、显存带宽和质量回归。

已有文章

后续文章

KV Cache Quantization：权重量化之外，真正吃显存的是 cache
FP8 Serving：E4M3 / E5M2、activation scale 和 Tensor Core 路径
INT4 Weight-only Serving：为什么省显存不一定等于更快
GPTQ / AWQ / SmoothQuant 的工程化边界
NF4 / AQLM：更低 bit 下为什么需要码本
量化 benchmark：质量、速度、显存三角如何测

每篇文章要回答的问题

量化的是 weight、activation、KV cache，还是通信/存储格式？
收益来自显存容量、HBM 带宽、Tensor Core 吞吐，还是磁盘大小？
误差主要来自 outlier、scale 粒度、rounding，还是 clipping？
在 vLLM / SGLang 里如何加载、观测和回退？

分享

文章作者 k4i

上次更新 June 5, 2026

原始文档查看本文 Markdown 版本 »

许可协议 CC BY-NC-SA 4.0