大模型量化综述:从线性量化到码本量化📅 2026年06月01日 · ☕ 30 分钟 · ✍️ k4i从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。
如何估算 LLM 训练和推理需要多少算力与显存📅 2026年05月27日 · ☕ 11 分钟 · ✍️ k4i从矩阵乘法出发,推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。