LLM Attention Kernels and GPU Primitives:Attention Kernel 与 GPU 基元路线📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4iLLM attention kernel 与 GPU 基元系列索引:fused softmax、online softmax、FlashAttention、PagedAttention kernel、Triton/CUDA 和内存访问优化。
LLM Quantization and Low-Precision Serving:量化与低精度推理路线📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4iLLM 量化与低精度推理系列索引:INT8/INT4、GPTQ、AWQ、SmoothQuant、NF4、AQLM、KV cache 量化、FP8 serving 和质量/速度/显存权衡。
LLM Inference Lab Reports:推理实验与 Benchmark 路线📅 2026年06月05日 · ☕ 2 分钟 · ✍️ k4iLLM 推理实验系列索引:vLLM/SGLang benchmark、TTFT/TPOT、prefix cache、chunked prefill、PagedAttention、量化和 profiler dashboard。
vLLM / SGLang 源码阅读:从请求到一次 Forward📅 2026年06月04日 · 📝 2026年06月05日 · ☕ 1 分钟 · ✍️ k4ivLLM / SGLang 源码阅读系列索引:请求生命周期、scheduler、KV cache 分配、block manager、radix cache 和 benchmark。
LLM Inference Internals:推理引擎核心机制路线📅 2026年06月04日 · 📝 2026年06月05日 · ☕ 1 分钟 · ✍️ k4iLLM 推理引擎核心机制系列索引:prefill/decode、KV cache、PagedAttention、continuous batching、prefix caching 和 PD 分离。
大模型量化综述:从线性量化到码本量化📅 2026年06月01日 · 📝 2026年06月05日 · ☕ 30 分钟 · ✍️ k4i从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。
从绝对位置编码到 RoPE:位置为什么可以被旋转表示📅 2026年05月28日 · 📝 2026年06月05日 · ☕ 10 分钟 · ✍️ k4i从 Transformer 的绝对位置编码讲起,逐步推导相对位置、复数旋转、欧拉公式与 RoPE 的关系。
如何估算 LLM 训练和推理需要多少算力与显存📅 2026年05月27日 · 📝 2026年06月05日 · ☕ 11 分钟 · ✍️ k4i从矩阵乘法出发,推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。
Disaggregated Prefill:把计算拆到不同机器上📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 8 分钟 · ✍️ k4i把 prefill 和 decode 路由到不同 GPU 池,可以彻底消除两者的资源干扰,让 TTFT 与 TPOT 分开扩容;代价是必须跨机器迁移 KV cache。
Prefix Caching:跨请求复用 KV Cache📅 2026年04月22日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i当成千上万的请求共享同一段 system prompt 时,每次都重新计算它的 KV cache 是纯粹浪费。Prefix caching 会存储并复用这些向量,在常见部署中显著降低 TTFT。