Online Softmax:为任意大行设计的分块算法📅 2026年04月21日 · 📝 2026年04月22日 · ☕ 5 分钟 · ✍️ k4ionline softmax 如何将融合 kernel 扩展到超过 SRAM 容量的行,使用数值稳定的两遍分块算法。
LLM 推理中为什么 K、V 可以被缓存📅 2026年04月20日 · 📝 2026年04月22日 · ☕ 6 分钟 · ✍️ k4i解释 KV 缓存如何在自回归解码中避免冗余计算,以及它带来的显存/计算权衡。
Triton 中的融合 Softmax📅 2026年04月20日 · 📝 2026年04月22日 · ☕ 5 分钟 · ✍️ k4i如何在 Triton 中编写融合 softmax kernel,消除冗余内存访问,性能超越 PyTorch 原生实现。
SSH 端口转发:本地与远程隧道详解📅 2026年04月19日 · ☕ 3 分钟 · ✍️ k4iSSH 本地端口转发与远程端口转发的实用指南,包含示例、对比以及通过 ~/.ssh/config 的持久化配置。
Mitmproxy + Tampermonkey = 更好用的 {LLM, …} 查看器📅 2026年03月22日 · 📝 2026年04月26日 · ☕ 7 分钟 · ✍️ k4i用 mitmproxy 捕获 LLM API 流量,再用 Tampermonkey 把 mitmweb 里的原始 JSON 渲染成更易读的对话视图。
批量梯度下降与随机梯度下降📅 2026年02月16日 · 📝 2026年04月19日 · ☕ 3 分钟 · ✍️ k4i理解批量梯度下降(BGD)、随机梯度下降(SGD)以及 mini-batch 梯度下降。