归档 – k4i's blog

2026

posts 07-14 Entropy、Cross Entropy 和 KL Divergence：从编码代价理解模型训练
posts 07-07 KL Divergence 为什么不是距离：方向一换，问题就变了
posts 07-02 常见概率分布：均值、方差与标准差速查
posts 06-29 Optimizer：从 SGD 到 AdamW，模型参数到底怎么更新
posts 06-23 vLLM Scheduler：请求队列如何变成 SchedulerOutput
posts 06-23 模型里的数值类型：FP32、BF16、FP8、INT8 到 INT4
posts 06-23 vLLM ModelRunner：SchedulerOutput 如何变成 GPU Forward
posts 06-23 Loss Function：模型到底在优化什么
posts 06-18 大模型推理采样：temperature、top-p、top-k 到底在控制什么
posts 06-18 具身智能模型的三条路线：VLA、世界模型与 WAM
posts 06-18 Activation Function：神经网络里那个很小但很关键的非线性
posts 06-17 流式传输设计：为什么只靠传输层不够
posts 06-07 vLLM 请求生命周期：从 OpenAI API 到一次 Forward
posts 06-05 Prefill vs Decode：为什么同一个模型有两个完全不同的瓶颈
posts 06-05 LLM Attention Kernels and GPU Primitives：Attention Kernel 与 GPU 基元路线
posts 06-05 LLM Quantization and Low-Precision Serving：量化与低精度推理路线
posts 06-05 LLM Inference Lab Reports：推理实验与 Benchmark 路线
posts 06-04 vLLM / SGLang 源码阅读：从请求到一次 Forward
posts 06-04 LLM Inference Internals：推理引擎核心机制路线
posts 06-01 大模型量化综述：从线性量化到码本量化

1
2
3