vLLM Scheduler:请求队列如何变成 SchedulerOutput📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i沿 vLLM V1 源码拆解 Scheduler:它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策,并生成 ModelRunner 消费的 SchedulerOutput。