k4i's blog

Entropy、Cross Entropy 和 KL Divergence：从编码代价理解模型训练

📅 2026年07月14日 · ☕ 5 分钟 · ✍️ k4i

用一个两结果分布的手算例子解释 entropy、cross entropy 和 KL divergence：真实分布本身有多难编码、用错误分布编码要多贵，以及为什么 cross entropy 会自然成为分类和语言模型训练目标。

Entropy、Cross Entropy 和 KL Divergence：从编码代价理解模型训练

KL Divergence 为什么不是距离：方向一换，问题就变了

📅 2026年07月07日 · ☕ 7 分钟 · ✍️ k4i

用编码代价、SFT/RLHF 目标和连续分布例子解释 KL divergence：为什么 KL(P || Q) 不等于 KL(Q || P)，以及两个方向分别惩罚什么。

常见概率分布：均值、方差与标准差速查

📅 2026年07月02日 · ☕ 8 分钟 · ✍️ k4i

从方差和标准差的直觉出发，总结 Bernoulli、Binomial、Poisson、Uniform、Normal、Exponential、Gamma、Beta、Chi-square、t、F 等常见分布的适用场景、均值、方差和标准差。

Optimizer：从 SGD 到 AdamW，模型参数到底怎么更新

📅 2026年06月29日 · ☕ 9 分钟 · ✍️ k4i

理解深度学习 optimizer 的发展脉络：SGD、Momentum、RMSProp、Adam、AdamW 分别解决什么问题，为什么 AdamW 成了现代深度学习的默认强基线，以及什么时候还会选择别的 optimizer。

vLLM Scheduler：请求队列如何变成 SchedulerOutput

📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i

沿 vLLM V1 源码拆解 Scheduler：它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策，并生成 ModelRunner 消费的 SchedulerOutput。

vLLM ModelRunner：SchedulerOutput 如何变成 GPU Forward

📅 2026年06月23日 · ☕ 6 分钟 · ✍️ k4i

沿 vLLM V1 源码拆解 GPUModelRunner：它如何把 SchedulerOutput 变成 input batch、attention metadata、KV slot mapping、model forward、logits 和 sampled token。

模型里的数值类型：FP32、BF16、FP8、INT8 到 INT4

📅 2026年06月23日 · ☕ 4 分钟 · ✍️ k4i

用一张图和几条规则解释模型中的浮点、整数、量化、storage dtype、compute dtype 和 accumulation dtype。

Loss Function：模型到底在优化什么

📅 2026年06月23日 · ☕ 8 分钟 · ✍️ k4i

从损失函数的视角理解训练目标：MSE、MAE、Huber、binary cross entropy、cross entropy、KL divergence、hinge loss、contrastive loss 分别适合什么任务。

大模型推理采样：temperature、top-p、top-k 到底在控制什么

📅 2026年06月18日 · ☕ 5 分钟 · ✍️ k4i

用一个 5-token 的小例子解释大模型推理时 temperature、top-p、top-k 的区别，并对照 vLLM V1 sampler 看它们在源码里的位置。

Activation Function：神经网络里那个很小但很关键的非线性

📅 2026年06月18日 · ☕ 7 分钟 · ✍️ k4i

从机制出发总结 activation function：为什么神经网络需要非线性，sigmoid、tanh、ReLU、GELU、SiLU 各自解决什么问题，以及为什么 400 个 activation 的综述更适合作为地图而不是菜单。

具身智能模型的三条路线：VLA、世界模型与 WAM

📅 2026年06月18日 · ☕ 7 分钟 · ✍️ k4i

从一个桌面机器人例子出发，梳理具身智能里 VLA、JEPA-style world model 与 WAM 三类模型的预测目标、训练信号和系统边界。

流式传输设计：为什么只靠传输层不够

📅 2026年06月17日 · ☕ 9 分钟 · ✍️ k4i

从上传端和下载端两条路径理解流式传输：传输层负责可靠搬运字节，应用层负责边界、进度、恢复、幂等、背压和业务语义。

vLLM 请求生命周期：从 OpenAI API 到一次 Forward

📅 2026年06月07日 · ☕ 5 分钟 · ✍️ k4i

沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求：HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler，以及 GPUModelRunner 的一次 forward。

Prefill vs Decode：为什么同一个模型有两个完全不同的瓶颈

📅 2026年06月05日 · ☕ 7 分钟 · ✍️ k4i

解释 LLM 推理为什么会分成 compute-bound 的 prefill 和 memory-bandwidth-bound 的 decode，以及这如何决定 TTFT、TPOT、batching、KV cache 压力和推理引擎设计。

LLM Attention Kernels and GPU Primitives：Attention Kernel 与 GPU 基元路线

📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4i

LLM attention kernel 与 GPU 基元系列索引：fused softmax、online softmax、FlashAttention、PagedAttention kernel、Triton/CUDA 和内存访问优化。

LLM Quantization and Low-Precision Serving：量化与低精度推理路线

📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4i

LLM 量化与低精度推理系列索引：INT8/INT4、GPTQ、AWQ、SmoothQuant、NF4、AQLM、KV cache 量化、FP8 serving 和质量/速度/显存权衡。

LLM Inference Lab Reports：推理实验与 Benchmark 路线

📅 2026年06月05日 · ☕ 2 分钟 · ✍️ k4i

LLM 推理实验系列索引：vLLM/SGLang benchmark、TTFT/TPOT、prefix cache、chunked prefill、PagedAttention、量化和 profiler dashboard。

vLLM / SGLang 源码阅读：从请求到一次 Forward

📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4i

vLLM / SGLang 源码阅读系列索引：请求生命周期、scheduler、KV cache 分配、block manager、radix cache 和 benchmark。

LLM Inference Internals：推理引擎核心机制路线

📅 2026年06月04日 · ☕ 1 分钟 · ✍️ k4i

LLM 推理引擎核心机制系列索引：prefill/decode、KV cache、PagedAttention、continuous batching、prefix caching 和 PD 分离。

大模型量化综述：从线性量化到码本量化

📅 2026年06月01日 · ☕ 30 分钟 · ✍️ k4i

从线性量化、非均匀量化和码本量化出发，系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。