2026
- vLLM Scheduler:请求队列如何变成 SchedulerOutput
- 模型里的数值类型:FP32、BF16、FP8、INT8 到 INT4
- vLLM ModelRunner:SchedulerOutput 如何变成 GPU Forward
- Loss Function:模型到底在优化什么
- 大模型推理采样:temperature、top-p、top-k 到底在控制什么
- 具身智能模型的三条路线:VLA、世界模型与 WAM
- Activation Function:神经网络里那个很小但很关键的非线性
- 流式传输设计:为什么只靠传输层不够
- vLLM 请求生命周期:从 OpenAI API 到一次 Forward
- Prefill vs Decode:为什么同一个模型有两个完全不同的瓶颈
- LLM Attention Kernels and GPU Primitives:Attention Kernel 与 GPU 基元路线
- LLM Quantization and Low-Precision Serving:量化与低精度推理路线
- LLM Inference Lab Reports:推理实验与 Benchmark 路线
- vLLM / SGLang 源码阅读:从请求到一次 Forward
- LLM Inference Internals:推理引擎核心机制路线
- 大模型量化综述:从线性量化到码本量化
- 从绝对位置编码到 RoPE:位置为什么可以被旋转表示
- 如何估算 LLM 训练和推理需要多少算力与显存
- Agent Skill Management:把 AI 助手从聪明变成稳定
- Disaggregated Prefill:把计算拆到不同机器上