显存 – k4i's blog

从线性量化、非均匀量化和码本量化出发，系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。

从矩阵乘法出发，推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。