常见概率分布：均值、方差与标准差速查

学概率时，很多分布看起来像一张公式清单：Bernoulli、Binomial、Poisson、Normal、Exponential、Gamma、Beta……如果只背概率质量函数或密度函数，很容易忘记它们各自回答什么问题。

更稳定的记法是先问两个问题：

这个随机变量在数什么？
它的波动有多大？

均值回答“中心在哪里”；方差和标准差回答“围绕中心散得有多开”。这篇文章把常见分布放在同一张地图里，重点总结它们的均值、方差、标准差，以及这些公式背后的直觉。

图 1：常见分布的形状速览：离散分布用柱状/针状图表示概率质量，连续分布用曲线表示密度；图只负责直觉，公式放在后面的表格里。

图中的“形状”来自概率质量函数（PMF）或概率密度函数（PDF）：

分布	图对应的公式
Bernoulli	$\Pr(X=1)=p,\ \Pr(X=0)=1-p$
Binomial	$\Pr(X=k)=\binom{n}{k}p^k(1-p)^{n-k}$
Poisson	$\Pr(X=k)=e^{-\lambda}\lambda^k/k!$
Geometric	$\Pr(X=k)=(1-p)^{k-1}p,\ k=1,2,\ldots$
Uniform	$f(x)=1/(b-a),\ a\le x\le b$
Normal	$f(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-(x-\mu)^2/(2\sigma^2)\right]$
Exponential	$f(x)=\lambda e^{-\lambda x},\ x\ge 0$
Gamma / Beta	$f_{\text{Gamma}}(x)=x^{k-1}e^{-x/\theta}/(\Gamma(k)\theta^k)$；$f_{\text{Beta}}(x)=x^{\alpha-1}(1-x)^{\beta-1}/B(\alpha,\beta)$

先把方差和标准差讲清楚

随机变量 $X$ 的方差定义为：

$$\operatorname{Var}(X) = \mathbb{E}\left[(X-\mathbb{E}[X])^2\right]$$

它衡量的是：样本值离均值的平方距离，平均起来有多大。常用的等价计算式是：

$$\operatorname{Var}(X) = \mathbb{E}[X^2] - \mathbb{E}[X]^2$$

标准差是方差的平方根：

$$\sigma_X = \sqrt{\operatorname{Var}(X)}$$

为什么还要标准差？因为方差的单位会被平方。例如 $X$ 的单位是“秒”，方差单位就是“秒平方”；标准差重新回到“秒”，更适合和原变量直接比较。

三个规则很有用：

操作	均值	方差	标准差
平移 $X+c$	$\mathbb{E}[X]+c$	$\operatorname{Var}(X)$	$\sigma_X$
缩放 $aX$	$a\mathbb{E}[X]$	$a^2\operatorname{Var}(X)$	$\lvert a\rvert\sigma_X$
独立相加 $X+Y$	$\mathbb{E}[X]+\mathbb{E}[Y]$	$\operatorname{Var}(X)+\operatorname{Var}(Y)$	不能直接相加

注意最后一行：独立随机变量相加时，方差相加，不是标准差相加。这也是很多分布方差公式的来源。

离散分布：从一次试验到计数

离散分布通常在“数次数、数个数、数第几次成功”。

分布	随机变量在数什么	参数	均值	方差	标准差
Bernoulli	一次 0/1 试验是否成功	$p$	$p$	$p(1-p)$	$\sqrt{p(1-p)}$
Binomial	$n$ 次独立试验中成功几次	$n,p$	$np$	$np(1-p)$	$\sqrt{np(1-p)}$
Geometric	第一次成功发生在第几次试验	$p$	$1/p$	$(1-p)/p^2$	$\sqrt{1-p}/p$
Negative binomial	得到第 $r$ 次成功需要几次试验	$r,p$	$r/p$	$r(1-p)/p^2$	$\sqrt{r(1-p)}/p$
Poisson	固定时间/空间窗口内发生几次稀有事件	$\lambda$	$\lambda$	$\lambda$	$\sqrt{\lambda}$
Discrete uniform	$1,2,\ldots,n$ 中等概率取一个	$n$	$(n+1)/2$	$(n^2-1)/12$	$\sqrt{(n^2-1)/12}$

Bernoulli 和 Binomial：一次成功与多次成功

Bernoulli 是最小的随机试验：成功记为 1，失败记为 0。

若 $X\sim\operatorname{Bernoulli}(p)$，则：

$$\mathbb{E}[X]=p,\qquad \operatorname{Var}(X)=p(1-p)$$

这个方差在 $p=0.5$ 时最大。直觉很简单：如果成功概率接近 0 或 1，结果几乎确定，波动小；如果成功和失败各半，最不确定，波动最大。

Binomial 是 $n$ 个独立 Bernoulli 的和：

$$Y=X_1+X_2+\cdots+X_n,\qquad X_i\sim\operatorname{Bernoulli}(p)$$

所以：

$$\mathbb{E}[Y]=np,\qquad \operatorname{Var}(Y)=np(1-p)$$

这不是一个需要死背的公式，而是“独立相加时方差相加”的直接结果。

举个例子：一枚硬币抛 100 次，$p=0.5$。正面次数的均值是 50，方差是 25，标准差是 5。也就是说，正面次数落在 45 到 55 附近并不奇怪；落在 30 或 70 就非常极端。

Geometric：等待第一次成功

Geometric 分布回答的是等待问题：每次试验成功概率为 $p$，第一次成功在第几次出现？

若 $X\sim\operatorname{Geometric}(p)$，这里采用“试验次数”版本，即 $X=1,2,3,\ldots$，则：

$$\mathbb{E}[X]=\frac{1}{p},\qquad \operatorname{Var}(X)=\frac{1-p}{p^2}$$

如果成功概率 $p=0.2$，平均要等 5 次。但方差是 20，标准差约 4.47，说明等待时间很分散：有时第 1 次就成功，有时要等很久。

有些教材把 Geometric 定义为“第一次成功前失败了几次”，取值从 0 开始。这时均值是 $(1-p)/p$，方差仍是 $(1-p)/p^2$。读公式时一定先确认采用哪种约定。

Poisson：稀有事件计数

Poisson 分布适合描述固定窗口中的事件个数，例如一分钟内服务器收到的请求数、一个网页一天内收到的点击数、某段 DNA 上突变的数量。

若 $X\sim\operatorname{Poisson}(\lambda)$，则：

$$\mathbb{E}[X]=\lambda,\qquad \operatorname{Var}(X)=\lambda$$

Poisson 最特别的地方是均值等于方差。$\lambda=100$ 时，标准差是 10；$\lambda=4$ 时，标准差是 2。相对波动大约是：

$$\frac{\sigma}{\mu}=\frac{\sqrt{\lambda}}{\lambda}=\frac{1}{\sqrt{\lambda}}$$

所以计数越大，相对波动越小。这也是为什么大流量系统看起来更“平滑”：绝对波动变大了，但相对均值的比例变小了。

Poisson 还可以看成 Binomial 的极限：试验次数 $n$ 很大、单次成功概率 $p$ 很小，但 $np=\lambda$ 保持固定。这就是“很多机会，每个机会都很罕见”的数学模型。

连续分布：从均匀、正态到等待时间

连续分布通常描述测量值、误差、比例、等待时间或正数尺度。

分布	随机变量在描述什么	参数	均值	方差	标准差
Uniform	区间内等概率取值	$a,b$	$(a+b)/2$	$(b-a)^2/12$	$(b-a)/\sqrt{12}$
Normal	多个小独立扰动叠加后的误差/测量值	$\mu,\sigma^2$	$\mu$	$\sigma^2$	$\sigma$
Exponential	等待下一次事件的时间	$\lambda$	$1/\lambda$	$1/\lambda^2$	$1/\lambda$
Gamma	等待第 $k$ 次事件的时间	$k,\theta$	$k\theta$	$k\theta^2$	$\sqrt{k}\theta$
Beta	$[0,1]$ 上的比例/概率	$\alpha,\beta$	$\alpha/(\alpha+\beta)$	$\alpha\beta/[(\alpha+\beta)^2(\alpha+\beta+1)]$	方差开根号
Chi-square	标准正态平方和	$\nu$	$\nu$	$2\nu$	$\sqrt{2\nu}$
Student’s t	小样本均值标准化后的不确定性	$\nu$	0（$\nu>1$）	$\nu/(\nu-2)$（$\nu>2$）	$\sqrt{\nu/(\nu-2)}$
F	两个独立样本方差比或两个缩放 Chi-square 的比	$d_1,d_2$	$d_2/(d_2-2)$（$d_2>2$）	$\frac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)}$（$d_2>4$）	方差开根号

Uniform：只有范围，没有偏好

若 $X\sim\operatorname{Uniform}(a,b)$，每个区间位置同样可能。均值在中点：

$$\mathbb{E}[X]=\frac{a+b}{2}$$

方差只取决于区间长度：

$$\operatorname{Var}(X)=\frac{(b-a)^2}{12}$$

这很好理解：把整个区间平移不会改变离散程度；把区间宽度放大 2 倍，标准差也放大 2 倍，方差放大 4 倍。

Normal：误差叠加后的形状

正态分布写作：

$$X\sim\mathcal{N}(\mu,\sigma^2)$$

它的均值就是 $\mu$，方差就是 $\sigma^2$，标准差就是 $\sigma$。这里参数直接把中心和尺度写进了分布名。

正态分布常见不是因为所有东西天然正态，而是因为很多独立小扰动相加后会趋近正态。这是中心极限定理的核心直觉。

经验规则：

约 68% 的值落在 $\mu\pm 1\sigma$；
约 95% 的值落在 $\mu\pm 2\sigma$；
约 99.7% 的值落在 $\mu\pm 3\sigma$。

所以标准差在正态分布里特别直观：它给了一个“典型偏离量”的尺度。

Exponential 和 Gamma：等待一个事件与等待多个事件

如果事件以平均速率 $\lambda$ 发生，等待下一个事件的时间常用 Exponential 分布：

$$X\sim\operatorname{Exponential}(\lambda),\qquad \mathbb{E}[X]=\frac{1}{\lambda},\qquad \operatorname{Var}(X)=\frac{1}{\lambda^2}$$

它的标准差也等于 $1/\lambda$，和均值相同。这意味着等待时间的波动非常大：平均等 10 秒，不代表大多数时候都接近 10 秒。

等待第 $k$ 次事件的时间是 $k$ 个独立 Exponential 的和，也就是 Gamma 分布。若使用 shape-scale 参数化：

$$X\sim\operatorname{Gamma}(k,\theta),\qquad \mathbb{E}[X]=k\theta,\qquad \operatorname{Var}(X)=k\theta^2$$

这里再次出现“独立相加时方差相加”：等待 $k$ 个事件，均值放大 $k$ 倍，方差也放大 $k$ 倍，但标准差只放大 $\sqrt{k}$ 倍。

Gamma 有两种常见参数化：shape-scale $(k,\theta)$ 和 shape-rate $(\alpha,\beta)$。如果使用 rate $\beta=1/\theta$，则均值是 $\alpha/\beta$，方差是 $\alpha/\beta^2$。

Beta：比例的不确定性

Beta 分布定义在 $[0,1]$，适合描述比例或概率本身的不确定性。例如“某个按钮的真实点击率是多少”。

若 $X\sim\operatorname{Beta}(\alpha,\beta)$，则：

$$\mathbb{E}[X]=\frac{\alpha}{\alpha+\beta}$$

$$\operatorname{Var}(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$$

可以把 $\alpha$ 和 $\beta$ 粗略理解为成功和失败的伪计数。$\alpha+\beta$ 越大，分布越集中，方差越小；这对应“样本越多，对比例估计越有把握”。

例如 $\operatorname{Beta}(2,2)$ 和 $\operatorname{Beta}(20,20)$ 的均值都是 0.5，但后者方差小得多，因为它表示更强的证据。

常见关系：很多分布不是孤立的

把分布之间的关系记住，比单独背公式更可靠。

关系	直觉
Binomial = 多个 Bernoulli 相加	多次 0/1 试验的成功总数
Poisson ≈ 稀有事件下的 Binomial	$n$ 很大、$p$ 很小、$np=\lambda$
Gamma = 多个 Exponential 相加	等待第 $k$ 次事件
Chi-square = 多个标准 Normal 平方相加	方差估计和二次型的基础
Normal ≈ 很多小独立扰动相加	中心极限定理的主要直觉
Beta 和 Binomial 共轭	用 Beta 表示未知成功率，用 Binomial 更新证据

一个统一视角是：

均值通常跟“总量”线性增长，方差在独立相加时也线性增长，但标准差只按平方根增长。

这解释了很多公式：

$n$ 次 Bernoulli 的方差是 $np(1-p)$；
$k$ 个 Exponential 的方差是 $k\theta^2$；
$\nu$ 个标准正态平方的 Chi-square 方差是 $2\nu$；
Poisson 的相对波动是 $1/\sqrt{\lambda}$。

怎么选择分布

实际建模时，可以先按随机变量的取值范围和语义来选：

你在建模什么	常见候选
一次成功/失败	Bernoulli
固定次数试验中的成功数	Binomial
等到第一次成功要几次	Geometric
固定窗口里的事件数	Poisson
区间内没有偏好的连续值	Uniform
测量误差或许多小噪声之和	Normal
等待下一个事件的时间	Exponential
等待多个事件的总时间	Gamma
$[0,1]$ 上的比例或概率	Beta
样本方差、标准化统计量	Chi-square、Student’s t、F

最后再用方差检查模型是否合理。比如数据的计数均值约为 10，但样本方差约为 200，那么简单 Poisson 可能不够，因为 Poisson 要求均值等于方差；这时可能要考虑 Negative Binomial 或混合模型。反过来，如果数据被固定在 $[0,1]$，却用无限支撑的 Normal 去建模，也要小心边界外概率带来的问题。

总结

常见分布不只是公式表，而是一组关于“随机变量在数什么”的语言：

Bernoulli 数一次是否成功，Binomial 数多次成功总数；
Geometric 数等到第一次成功的试验次数；
Poisson 数固定窗口里的稀有事件；
Uniform 表示范围内没有偏好；
Normal 表示许多小扰动相加后的误差形状；
Exponential 和 Gamma 描述等待时间；
Beta 描述比例或概率的不确定性；
Chi-square、t、F 常出现在方差估计和假设检验里。

方差和标准差则是这些分布的尺度语言。均值告诉我们中心，方差告诉我们平方尺度上的波动，标准差把波动带回原单位。真正要记住的不是每一个公式，而是这些公式反复体现的结构：平移不改变方差，缩放会平方地改变方差，独立相加时方差相加。

操作	均值	方差	标准差
平移 \(X+c\)	\(\mathbb{E}[X]+c\)	\(\operatorname{Var}(X)\)	\(\sigma_X\)
缩放 \(aX\)	\(a\mathbb{E}[X]\)	\(a^2\operatorname{Var}(X)\)	\(\lvert a\rvert\sigma_X\)
独立相加 \(X+Y\)	\(\mathbb{E}[X]+\mathbb{E}[Y]\)	\(\operatorname{Var}(X)+\operatorname{Var}(Y)\)	不能直接相加

分布	随机变量在数什么	参数	均值	方差	标准差
Bernoulli	一次 0/1 试验是否成功	\(p\)	\(p\)	\(p(1-p)\)	\(\sqrt{p(1-p)}\)
Binomial	\(n\) 次独立试验中成功几次	\(n,p\)	\(np\)	\(np(1-p)\)	\(\sqrt{np(1-p)}\)
Geometric	第一次成功发生在第几次试验	\(p\)	\(1/p\)	\((1-p)/p^2\)	\(\sqrt{1-p}/p\)
Negative binomial	得到第 \(r\) 次成功需要几次试验	\(r,p\)	\(r/p\)	\(r(1-p)/p^2\)	\(\sqrt{r(1-p)}/p\)
Poisson	固定时间/空间窗口内发生几次稀有事件	\(\lambda\)	\(\lambda\)	\(\lambda\)	\(\sqrt{\lambda}\)
Discrete uniform	\(1,2,\ldots,n\) 中等概率取一个	\(n\)	\((n+1)/2\)	\((n^2-1)/12\)	\(\sqrt{(n^2-1)/12}\)

分布	随机变量在描述什么	参数	均值	方差	标准差
Uniform	区间内等概率取值	\(a,b\)	\((a+b)/2\)	\((b-a)^2/12\)	\((b-a)/\sqrt{12}\)
Normal	多个小独立扰动叠加后的误差/测量值	\(\mu,\sigma^2\)	\(\mu\)	\(\sigma^2\)	\(\sigma\)
Exponential	等待下一次事件的时间	\(\lambda\)	\(1/\lambda\)	\(1/\lambda^2\)	\(1/\lambda\)
Gamma	等待第 \(k\) 次事件的时间	\(k,\theta\)	\(k\theta\)	\(k\theta^2\)	\(\sqrt{k}\theta\)
Beta	\([0,1]\) 上的比例/概率	\(\alpha,\beta\)	\(\alpha/(\alpha+\beta)\)	\(\alpha\beta/[(\alpha+\beta)^2(\alpha+\beta+1)]\)	方差开根号
Chi-square	标准正态平方和	\(\nu\)	\(\nu\)	\(2\nu\)	\(\sqrt{2\nu}\)
Student’s t	小样本均值标准化后的不确定性	\(\nu\)	0（\(\nu>1\)）	\(\nu/(\nu-2)\)（\(\nu>2\)）	\(\sqrt{\nu/(\nu-2)}\)
F	两个独立样本方差比或两个缩放 Chi-square 的比	\(d_1,d_2\)	\(d_2/(d_2-2)\)（\(d_2>2\)）	\(\frac{2d_2^2(d_1+d_2-2)}{d_1(d_2-2)^2(d_2-4)}\)（\(d_2>4\)）	方差开根号

分布	图对应的公式
Bernoulli	\(\Pr(X=1)=p,\ \Pr(X=0)=1-p\)
Binomial	\(\Pr(X=k)=\binom{n}{k}p^k(1-p)^{n-k}\)
Poisson	\(\Pr(X=k)=e^{-\lambda}\lambda^k/k!\)
Geometric	\(\Pr(X=k)=(1-p)^{k-1}p,\ k=1,2,\ldots\)
Uniform	\(f(x)=1/(b-a),\ a\le x\le b\)
Normal	\(f(x)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left[-(x-\mu)^2/(2\sigma^2)\right]\)
Exponential	\(f(x)=\lambda e^{-\lambda x},\ x\ge 0\)
Gamma / Beta	\(f_{\text{Gamma}}(x)=x^{k-1}e^{-x/\theta}/(\Gamma(k)\theta^k)\)；\(f_{\text{Beta}}(x)=x^{\alpha-1}(1-x)^{\beta-1}/B(\alpha,\beta)\)