Scheduling

把 prefill 和 decode 路由到不同 GPU 池，可以彻底消除两者的资源干扰，让 TTFT 与 TPOT 分开扩容；代价是必须跨机器迁移 KV cache。

把长 prompt 的 prefill 拆成多个调度迭代，可以避免 decode 请求被长时间阻塞，同时不增加 FLOPs，IO 开销也几乎可以忽略。

为什么按 decode iteration 做调度能消除静态 batch 的 GPU 空转，以及 prefill 和 decode 如何被打包进同一次 forward。