Scheduler
vLLM Scheduler:请求队列如何变成 SchedulerOutput
· ☕ 6 分钟 · ✍️ k4i
沿 vLLM V1 源码拆解 Scheduler:它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策,并生成 ModelRunner 消费的 SchedulerOutput。
vLLM Scheduler:请求队列如何变成 SchedulerOutput