Vllm
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
· ☕ 7 分钟 · ✍️ k4i
沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求:HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler,以及 GPUModelRunner 的一次 forward。
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
Paged Attention:GPU 上的虚拟内存
· ☕ 7 分钟 · ✍️ k4i
vLLM 如何借鉴操作系统分页思想,消除 KV cache 显存碎片,将 GPU 显存利用率从约 30% 推到约 96%。
Paged Attention:GPU 上的虚拟内存