Systems

解释 LLM 推理为什么会分成 compute-bound 的 prefill 和 memory-bandwidth-bound 的 decode，以及这如何决定 TTFT、TPOT、batching、KV cache 压力和推理引擎设计。

LLM 推理引擎核心机制系列索引：prefill/decode、KV cache、PagedAttention、continuous batching、prefix caching 和 PD 分离。

把 prefill 和 decode 路由到不同 GPU 池，可以彻底消除两者的资源干扰，让 TTFT 与 TPOT 分开扩容；代价是必须跨机器迁移 KV cache。

当成千上万的请求共享同一段 system prompt 时，每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量，在常见部署中显著降低 TTFT。

把长 prompt 的 prefill 拆成多个调度迭代，可以避免 decode 请求被长时间阻塞，同时不增加 FLOPs，IO 开销也几乎可以忽略。

为什么按 decode iteration 做调度能消除静态 batch 的 GPU 空转，以及 prefill 和 decode 如何被打包进同一次 forward。

vLLM 如何借鉴操作系统分页思想，消除 KV cache 显存碎片，将 GPU 显存利用率从约 30% 推到约 96%。