Inference

把 prefill 和 decode 路由到不同 GPU 池，可以彻底消除两者的资源干扰，让 TTFT 与 TPOT 分开扩容；代价是必须跨机器迁移 KV cache。

当成千上万的请求共享同一段 system prompt 时，每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量，在常见部署中显著降低 TTFT。

为什么按 decode iteration 做调度能消除静态 batch 的 GPU 空转，以及 prefill 和 decode 如何被打包进同一次 forward。