Distributed
Disaggregated Prefill:把计算拆到不同机器上
· ☕ 8 分钟 · ✍️ k4i
把 prefill 和 decode 路由到不同 GPU 池,可以彻底消除两者的资源干扰,让 TTFT 与 TPOT 分开扩容;代价是必须跨机器迁移 KV cache。
Disaggregated Prefill:把计算拆到不同机器上