LLM 推理中为什么 K、V 可以被缓存📅 2026年04月20日 · 📝 2026年04月22日 · ☕ 6 分钟 · ✍️ k4i解释 KV 缓存如何在自回归解码中避免冗余计算,以及它带来的显存/计算权衡。
Mitmproxy + Tampermonkey = 更好用的 {LLM, …} 查看器📅 2026年03月22日 · 📝 2026年04月26日 · ☕ 7 分钟 · ✍️ k4i用 mitmproxy 捕获 LLM API 流量,再用 Tampermonkey 把 mitmweb 里的原始 JSON 渲染成更易读的对话视图。