vLLM Scheduler:请求队列如何变成 SchedulerOutput📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i沿 vLLM V1 源码拆解 Scheduler:它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策,并生成 ModelRunner 消费的 SchedulerOutput。
vLLM ModelRunner:SchedulerOutput 如何变成 GPU Forward📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i沿 vLLM V1 源码拆解 GPUModelRunner:它如何把 SchedulerOutput 变成 input batch、attention metadata、KV slot mapping、model forward、logits 和 sampled token。
大模型推理采样:temperature、top-p、top-k 到底在控制什么📅 2026年06月18日 · ☕ 5 分钟 · ✍️ k4i用一个 5-token 的小例子解释大模型推理时 temperature、top-p、top-k 的区别,并对照 vLLM V1 sampler 看它们在源码里的位置。
vLLM 请求生命周期:从 OpenAI API 到一次 Forward📅 2026年06月07日 · ☕ 5 分钟 · ✍️ k4i沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求:HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler,以及 GPUModelRunner 的一次 forward。
Prefill vs Decode:为什么同一个模型有两个完全不同的瓶颈📅 2026年06月05日 · ☕ 7 分钟 · ✍️ k4i解释 LLM 推理为什么会分成 compute-bound 的 prefill 和 memory-bandwidth-bound 的 decode,以及这如何决定 TTFT、TPOT、batching、KV cache 压力和推理引擎设计。
LLM Inference Lab Reports:推理实验与 Benchmark 路线📅 2026年06月05日 · ☕ 2 分钟 · ✍️ k4iLLM 推理实验系列索引:vLLM/SGLang benchmark、TTFT/TPOT、prefix cache、chunked prefill、PagedAttention、量化和 profiler dashboard。
vLLM / SGLang 源码阅读:从请求到一次 Forward📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4ivLLM / SGLang 源码阅读系列索引:请求生命周期、scheduler、KV cache 分配、block manager、radix cache 和 benchmark。
LLM Inference Internals:推理引擎核心机制路线📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4iLLM 推理引擎核心机制系列索引:prefill/decode、KV cache、PagedAttention、continuous batching、prefix caching 和 PD 分离。
大模型量化综述:从线性量化到码本量化📅 2026年06月01日 · ☕ 30 分钟 · ✍️ k4i从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。
如何估算 LLM 训练和推理需要多少算力与显存📅 2026年05月27日 · ☕ 14 分钟 · ✍️ k4i从矩阵乘法出发,推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。
Chunked Prefill:把 Prefill 切片,保护 Decode 延迟📅 2026年04月22日 · ☕ 7 分钟 · ✍️ k4i把长 prompt 的 prefill 拆成多个调度迭代,可以避免 decode 请求被长时间阻塞,同时不增加 FLOPs,IO 开销也几乎可以忽略。
Paged Attention:GPU 上的虚拟内存📅 2026年04月22日 · ☕ 7 分钟 · ✍️ k4ivLLM 如何借鉴操作系统分页思想,消除 KV cache 显存碎片,将 GPU 显存利用率从约 30% 推到约 96%。