如何估算 LLM 训练和推理需要多少算力与显存📅 2026年05月27日 · 📝 2026年05月28日 · ☕ 11 分钟 · ✍️ k4i从矩阵乘法出发,推导 LLM 训练 FLOPs、推理 FLOPs、权重显存、KV cache 和训练显存的可手算估算方法。
LLM 推理中为什么 K、V 可以被缓存📅 2026年04月20日 · 📝 2026年05月30日 · ☕ 6 分钟 · ✍️ k4i解释 KV 缓存如何在自回归解码中避免冗余计算,以及它带来的显存/计算权衡。