VLLM and SGLang Source Reading – k4i's blog

vLLM Scheduler：请求队列如何变成 SchedulerOutput

📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i

沿 vLLM V1 源码拆解 Scheduler：它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策，并生成 ModelRunner 消费的 SchedulerOutput。

vLLM ModelRunner：SchedulerOutput 如何变成 GPU Forward

📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i

沿 vLLM V1 源码拆解 GPUModelRunner：它如何把 SchedulerOutput 变成 input batch、attention metadata、KV slot mapping、model forward、logits 和 sampled token。

大模型推理采样：temperature、top-p、top-k 到底在控制什么

📅 2026年06月18日 · ☕ 5 分钟 · ✍️ k4i

用一个 5-token 的小例子解释大模型推理时 temperature、top-p、top-k 的区别，并对照 vLLM V1 sampler 看它们在源码里的位置。

vLLM 请求生命周期：从 OpenAI API 到一次 Forward

📅 2026年06月07日 · ☕ 5 分钟 · ✍️ k4i

沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求：HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler，以及 GPUModelRunner 的一次 forward。

vLLM / SGLang 源码阅读：从请求到一次 Forward

📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4i

vLLM / SGLang 源码阅读系列索引：请求生命周期、scheduler、KV cache 分配、block manager、radix cache 和 benchmark。