Prefix Caching:跨请求复用 KV Cache📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i当成千上万的请求共享同一段 system prompt 时,每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量,在常见部署中显著降低 TTFT。
LLM 推理中为什么 K、V 可以被缓存📅 2026年04月20日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i解释 KV 缓存如何在自回归解码中避免冗余计算,以及它带来的显存/计算权衡。