Prefill vs Decode：为什么同一个模型有两个完全不同的瓶颈

sky_io@outlook.com (K4i) — Fri, 05 Jun 2026 22:30:00 +0800

LLM 推理表面上像一个操作：输入 prompt，然后不断输出 token。底层其实是两个 workload 在共用同一套模型权重。

prefill 负责处理输入 prompt，并构建初始 KV cache。decode 负责逐 token 生成，每一步读取已经存在的 KV cache，再追加新 token 的 KV。权重是同一套，但硬件瓶颈完全不同：prefill 更像大批量矩阵乘法；decode 更像很多小 query 反复读取一张不断增长的内存表。

Prefill on k4i's blog

Prefill vs Decode：为什么同一个模型有两个完全不同的瓶颈