Prefill vs Decode:为什么同一个模型有两个完全不同的瓶颈📅 2026年06月05日 · ☕ 7 分钟 · ✍️ k4i解释 LLM 推理为什么会分成 compute-bound 的 prefill 和 memory-bandwidth-bound 的 decode,以及这如何决定 TTFT、TPOT、batching、KV cache 压力和推理引擎设计。
LLM Quantization and Low-Precision Serving:量化与低精度推理路线📅 2026年06月05日 · ☕ 1 分钟 · ✍️ k4iLLM 量化与低精度推理系列索引:INT8/INT4、GPTQ、AWQ、SmoothQuant、NF4、AQLM、KV cache 量化、FP8 serving 和质量/速度/显存权衡。