2026
- Prefix Caching:跨请求复用 KV Cache
- Chunked Prefill:把 Prefill 切片,保护 Decode 延迟
- Continuous Batching:按迭代粒度调度
- Paged Attention:GPU 上的虚拟内存
- Online Softmax:为任意大行设计的分块算法
- LLM 推理中为什么 K、V 可以被缓存
- Triton 中的融合 Softmax
- SSH 端口转发:本地与远程隧道详解
- Mitmproxy + Tampermonkey = 更好用的 {LLM, …} 查看器
- 批量梯度下降与随机梯度下降
- 前向传播与反向传播