模型里的数值类型:FP32、BF16、FP8、INT8 到 INT4📅 2026年06月23日 · ☕ 4 分钟 · ✍️ k4i用一张图和几条规则解释模型中的浮点、整数、量化、storage dtype、compute dtype 和 accumulation dtype。
大模型量化综述:从线性量化到码本量化📅 2026年06月01日 · ☕ 30 分钟 · ✍️ k4i从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。