大模型量化综述:从线性量化到码本量化📅 2026年06月01日 · 📝 2026年06月03日 · ☕ 25 分钟 · ✍️ k4i从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。
如何估算 LLM 训练和推理需要多少算力与显存📅 2026年05月27日 · 📝 2026年05月28日 · ☕ 11 分钟 · ✍️ k4i从矩阵乘法出发,推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。
Disaggregated Prefill:把计算拆到不同机器上📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 8 分钟 · ✍️ k4i把 prefill 和 decode 路由到不同 GPU 池,可以彻底消除两者的资源干扰,让 TTFT 与 TPOT 分开扩容;代价是必须跨机器迁移 KV cache。
Prefix Caching:跨请求复用 KV Cache📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i当成千上万的请求共享同一段 system prompt 时,每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量,在常见部署中显著降低 TTFT。
Chunked Prefill:把 Prefill 切片,保护 Decode 延迟📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 7 分钟 · ✍️ k4i把长 prompt 的 prefill 拆成多个调度迭代,可以避免 decode 请求被长时间阻塞,同时不增加 FLOPs,IO 开销也几乎可以忽略。
Continuous Batching:按迭代粒度调度📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 5 分钟 · ✍️ k4i为什么按 decode iteration 做调度能消除静态 batch 的 GPU 空转,以及 prefill 和 decode 如何被打包进同一次 forward。
Paged Attention:GPU 上的虚拟内存📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 7 分钟 · ✍️ k4ivLLM 如何借鉴操作系统分页思想,消除 KV cache 显存碎片,将 GPU 显存利用率从约 30% 推到约 96%。
LLM 推理中为什么 K、V 可以被缓存📅 2026年04月20日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i解释 KV 缓存如何在自回归解码中避免冗余计算,以及它带来的显存/计算权衡。
Mitmproxy + Tampermonkey = 更好用的 {LLM, …} 查看器📅 2026年03月22日 · 📝 2026年04月26日 · ☕ 7 分钟 · ✍️ k4i用 mitmproxy 捕获 LLM API 流量,再用 Tampermonkey 把 mitmweb 里的原始 JSON 渲染成更易读的对话视图。