LLM Quantization and Low-Precision Serving:量化与低精度推理路线📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4iLLM 量化与低精度推理系列索引:INT8/INT4、GPTQ、AWQ、SmoothQuant、NF4、AQLM、KV cache 量化、FP8 serving 和质量/速度/显存权衡。
大模型量化综述:从线性量化到码本量化📅 2026年06月01日 · 📝 2026年06月05日 · ☕ 30 分钟 · ✍️ k4i从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。