VLLM and SGLang Source Reading
vLLM Scheduler:请求队列如何变成 SchedulerOutput
· ☕ 6 分钟 · ✍️ k4i
沿 vLLM V1 源码拆解 Scheduler:它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策,并生成 ModelRunner 消费的 SchedulerOutput。
vLLM Scheduler:请求队列如何变成 SchedulerOutput
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
· ☕ 5 分钟 · ✍️ k4i
沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求:HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler,以及 GPUModelRunner 的一次 forward。
vLLM 请求生命周期:从 OpenAI API 到一次 Forward