Sglang
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
· ☕ 5 分钟 · ✍️ k4i
沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求:HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler,以及 GPUModelRunner 的一次 forward。
vLLM 请求生命周期:从 OpenAI API 到一次 Forward