推理
vLLM Scheduler:请求队列如何变成 SchedulerOutput
· ☕ 6 分钟 · ✍️ k4i
沿 vLLM V1 源码拆解 Scheduler:它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策,并生成 ModelRunner 消费的 SchedulerOutput。
vLLM Scheduler:请求队列如何变成 SchedulerOutput
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
· ☕ 5 分钟 · ✍️ k4i
沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求:HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler,以及 GPUModelRunner 的一次 forward。
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
大模型量化综述:从线性量化到码本量化
· ☕ 30 分钟 · ✍️ k4i
从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。
大模型量化综述:从线性量化到码本量化
Paged Attention:GPU 上的虚拟内存
· ☕ 7 分钟 · ✍️ k4i
vLLM 如何借鉴操作系统分页思想,消除 KV cache 显存碎片,将 GPU 显存利用率从约 30% 推到约 96%。
Paged Attention:GPU 上的虚拟内存