Disaggregated Prefill:把计算拆到不同机器上📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 8 分钟 · ✍️ k4i把 prefill 和 decode 路由到不同 GPU 池,可以彻底消除两者的资源干扰,让 TTFT 与 TPOT 分开扩容;代价是必须跨机器迁移 KV cache。
Prefix Caching:跨请求复用 KV Cache📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i当成千上万的请求共享同一段 system prompt 时,每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量,在常见部署中显著降低 TTFT。
Continuous Batching:按迭代粒度调度📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 5 分钟 · ✍️ k4i为什么按 decode iteration 做调度能消除静态 batch 的 GPU 空转,以及 prefill 和 decode 如何被打包进同一次 forward。