Prefill vs Decode:为什么同一个模型有两个完全不同的瓶颈📅 2026年06月05日 · ☕ 7 分钟 · ✍️ k4i解释 LLM 推理为什么会分成 compute-bound 的 prefill 和 memory-bandwidth-bound 的 decode,以及这如何决定 TTFT、TPOT、batching、KV cache 压力和推理引擎设计。