大模型量化综述:从线性量化到码本量化📅 2026年06月01日 · 📝 2026年06月03日 · ☕ 25 分钟 · ✍️ k4i从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。
如何估算 LLM 训练和推理需要多少算力与显存📅 2026年05月27日 · 📝 2026年05月28日 · ☕ 11 分钟 · ✍️ k4i从矩阵乘法出发,推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。
Chunked Prefill:把 Prefill 切片,保护 Decode 延迟📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 7 分钟 · ✍️ k4i把长 prompt 的 prefill 拆成多个调度迭代,可以避免 decode 请求被长时间阻塞,同时不增加 FLOPs,IO 开销也几乎可以忽略。
Paged Attention:GPU 上的虚拟内存📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 7 分钟 · ✍️ k4ivLLM 如何借鉴操作系统分页思想,消除 KV cache 显存碎片,将 GPU 显存利用率从约 30% 推到约 96%。
LLM 推理中为什么 K、V 可以被缓存📅 2026年04月20日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i解释 KV 缓存如何在自回归解码中避免冗余计算,以及它带来的显存/计算权衡。