常见概率分布:均值、方差与标准差速查
· ☕ 8 分钟 · ✍️ k4i
从方差和标准差的直觉出发,总结 Bernoulli、Binomial、Poisson、Uniform、Normal、Exponential、Gamma、Beta、Chi-square、t、F 等常见分布的适用场景、均值、方差和标准差。
常见概率分布:均值、方差与标准差速查
Optimizer:从 SGD 到 AdamW,模型参数到底怎么更新
· ☕ 9 分钟 · ✍️ k4i
理解深度学习 optimizer 的发展脉络:SGD、Momentum、RMSProp、Adam、AdamW 分别解决什么问题,为什么 AdamW 成了现代深度学习的默认强基线,以及什么时候还会选择别的 optimizer。
Optimizer:从 SGD 到 AdamW,模型参数到底怎么更新
vLLM Scheduler:请求队列如何变成 SchedulerOutput
· ☕ 6 分钟 · ✍️ k4i
沿 vLLM V1 源码拆解 Scheduler:它如何在 running/waiting queue、token budget、KV cache block、prefix cache 和 preemption 之间做决策,并生成 ModelRunner 消费的 SchedulerOutput。
vLLM Scheduler:请求队列如何变成 SchedulerOutput
Loss Function:模型到底在优化什么
· ☕ 8 分钟 · ✍️ k4i
从损失函数的视角理解训练目标:MSE、MAE、Huber、binary cross entropy、cross entropy、KL divergence、hinge loss、contrastive loss 分别适合什么任务。
Loss Function:模型到底在优化什么
流式传输设计:为什么只靠传输层不够
· ☕ 9 分钟 · ✍️ k4i
从上传端和下载端两条路径理解流式传输:传输层负责可靠搬运字节,应用层负责边界、进度、恢复、幂等、背压和业务语义。
流式传输设计:为什么只靠传输层不够
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
· ☕ 5 分钟 · ✍️ k4i
沿 vLLM V1 的 OpenAI-compatible server 源码追踪一次请求:HTTP 入口、serving render、AsyncLLM、EngineCore client、Tensor IPC、scheduler,以及 GPUModelRunner 的一次 forward。
vLLM 请求生命周期:从 OpenAI API 到一次 Forward
大模型量化综述:从线性量化到码本量化
· ☕ 30 分钟 · ✍️ k4i
从线性量化、非均匀量化和码本量化出发,系统梳理 LLM.int8()、SmoothQuant、GPTQ、AWQ、NF4、AQLM、KV cache 量化和 FP8 的数学原理、可行性与优缺点。
大模型量化综述:从线性量化到码本量化