Kv-Cache – k4i's blog

Prefill vs Decode：为什么同一个模型有两个完全不同的瓶颈

📅 2026年06月05日 · ☕ 7 分钟 · ✍️ k4i

解释 LLM 推理为什么会分成 compute-bound 的 prefill 和 memory-bandwidth-bound 的 decode，以及这如何决定 TTFT、TPOT、batching、KV cache 压力和推理引擎设计。

LLM Inference Internals：推理引擎核心机制路线

📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4i

LLM 推理引擎核心机制系列索引：prefill/decode、KV cache、PagedAttention、continuous batching、prefix caching 和 PD 分离。

Prefix Caching：跨请求复用 KV Cache

📅 2026年04月22日 · ☕ 6 分钟 · ✍️ k4i

当成千上万的请求共享同一段 system prompt 时，每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量，在常见部署中显著降低 TTFT。

LLM 推理中为什么 K、V 可以被缓存

📅 2026年04月20日 · ☕ 7 分钟 · ✍️ k4i

解释 KV 缓存如何在自回归解码中避免冗余计算，以及它带来的显存/计算权衡。

LLM 推理中为什么 K、V 可以被缓存