Llm – k4i's blog

vLLM Scheduler：请求队列如何变成 SchedulerOutput

📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i

沿 vLLM V1 源码拆解 Scheduler：它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策，并生成 ModelRunner 消费的 SchedulerOutput。

vLLM ModelRunner：SchedulerOutput 如何变成 GPU Forward

📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i

沿 vLLM V1 源码拆解 GPUModelRunner：它如何把 SchedulerOutput 变成 input batch、attention metadata、KV slot mapping、model forward、logits 和 sampled token。

模型里的数值类型：FP32、BF16、FP8、INT8 到 INT4

📅 2026年06月23日 · ☕ 4 分钟 · ✍️ k4i

用一张图和几条规则解释模型中的浮点、整数、量化、storage dtype、compute dtype 和 accumulation dtype。

大模型推理采样：temperature、top-p、top-k 到底在控制什么

📅 2026年06月18日 · ☕ 5 分钟 · ✍️ k4i

用一个 5-token 的小例子解释大模型推理时 temperature、top-p、top-k 的区别，并对照 vLLM V1 sampler 看它们在源码里的位置。

vLLM 请求生命周期：从 OpenAI API 到一次 Forward

📅 2026年06月07日 · ☕ 5 分钟 · ✍️ k4i

沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求：HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler，以及 GPUModelRunner 的一次 forward。

Prefill vs Decode：为什么同一个模型有两个完全不同的瓶颈

📅 2026年06月05日 · ☕ 7 分钟 · ✍️ k4i

解释 LLM 推理为什么会分成 compute-bound 的 prefill 和 memory-bandwidth-bound 的 decode，以及这如何决定 TTFT、TPOT、batching、KV cache 压力和推理引擎设计。

LLM Attention Kernels and GPU Primitives：Attention Kernel 与 GPU 基元路线

📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4i

LLM attention kernel 与 GPU 基元系列索引：fused softmax、online softmax、FlashAttention、PagedAttention kernel、Triton/CUDA 和内存访问优化。

LLM Quantization and Low-Precision Serving：量化与低精度推理路线

📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4i

LLM 量化与低精度推理系列索引：INT8/INT4、GPTQ、AWQ、SmoothQuant、NF4、AQLM、KV cache 量化、FP8 serving 和质量/速度/显存权衡。

LLM Inference Lab Reports：推理实验与 Benchmark 路线

📅 2026年06月05日 · ☕ 2 分钟 · ✍️ k4i

LLM 推理实验系列索引：vLLM/SGLang benchmark、TTFT/TPOT、prefix cache、chunked prefill、PagedAttention、量化和 profiler dashboard。

vLLM / SGLang 源码阅读：从请求到一次 Forward

📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4i

vLLM / SGLang 源码阅读系列索引：请求生命周期、scheduler、KV cache 分配、block manager、radix cache 和 benchmark。

LLM Inference Internals：推理引擎核心机制路线

📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4i

LLM 推理引擎核心机制系列索引：prefill/decode、KV cache、PagedAttention、continuous batching、prefix caching 和 PD 分离。

大模型量化综述：从线性量化到码本量化

📅 2026年06月01日 · ☕ 30 分钟 · ✍️ k4i

从线性量化、非均匀量化和码本量化出发，系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。

从绝对位置编码到 RoPE：位置为什么可以被旋转表示

📅 2026年05月28日 · ☕ 10 分钟 · ✍️ k4i

从 Transformer 的绝对位置编码讲起，逐步推导相对位置、复数旋转、欧拉公式与 RoPE 的关系。

如何估算 LLM 训练和推理需要多少算力与显存

📅 2026年05月27日 · ☕ 14 分钟 · ✍️ k4i

从矩阵乘法出发，推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。

Disaggregated Prefill：把计算拆到不同机器上

📅 2026年04月22日 · ☕ 8 分钟 · ✍️ k4i

把 prefill 和 decode 路由到不同 GPU 池，可以彻底消除两者的资源干扰，让 TTFT 与 TPOT 分开扩容；代价是必须跨机器迁移 KV cache。

Prefix Caching：跨请求复用 KV Cache

📅 2026年04月22日 · ☕ 6 分钟 · ✍️ k4i

当成千上万的请求共享同一段 system prompt 时，每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量，在常见部署中显著降低 TTFT。

Chunked Prefill：把 Prefill 切片，保护 Decode 延迟

📅 2026年04月22日 · ☕ 7 分钟 · ✍️ k4i

把长 prompt 的 prefill 拆成多个调度迭代，可以避免 decode 请求被长时间阻塞，同时不增加 FLOPs，IO 开销也几乎可以忽略。

Continuous Batching：按迭代粒度调度

📅 2026年04月22日 · ☕ 8 分钟 · ✍️ k4i

为什么按 decode iteration 做调度能消除静态 batch 的 GPU 空转，以及 prefill 和 decode 如何被打包进同一次 forward。

Paged Attention：GPU 上的虚拟内存

📅 2026年04月22日 · ☕ 7 分钟 · ✍️ k4i

vLLM 如何借鉴操作系统分页思想，消除 KV cache 显存碎片，将 GPU 显存利用率从约 30% 推到约 96%。

LLM 推理中为什么 K、V 可以被缓存

📅 2026年04月20日 · ☕ 7 分钟 · ✍️ k4i

解释 KV 缓存如何在自回归解码中避免冗余计算，以及它带来的显存/计算权衡。