2026
- LLM Attention Kernels and GPU Primitives:Attention Kernel 与 GPU 基元路线
- LLM Quantization and Low-Precision Serving:量化与低精度推理路线
- LLM Inference Lab Reports:推理实验与 Benchmark 路线
- vLLM / SGLang 源码阅读:从请求到一次 Forward
- LLM Inference Internals:推理引擎核心机制路线
- 大模型量化综述:从线性量化到码本量化
- 从绝对位置编码到 RoPE:位置为什么可以被旋转表示
- 如何估算 LLM 训练和推理需要多少算力与显存
- Agent Skill Management:把 AI 助手从聪明变成稳定
- Disaggregated Prefill:把计算拆到不同机器上
- Prefix Caching:跨请求复用 KV Cache
- Chunked Prefill:把 Prefill 切片,保护 Decode 延迟
- Continuous Batching:按迭代粒度调度
- Paged Attention:GPU 上的虚拟内存
- Online Softmax:为任意大行设计的分块算法
- LLM 推理中为什么 K、V 可以被缓存
- Triton 中的融合 Softmax
- SSH 端口转发:本地与远程隧道详解
- Mitmproxy + Tampermonkey = 更好用的 {LLM, …} 查看器
- 批量梯度下降与随机梯度下降