批量梯度下降与随机梯度下降

sky_io@outlook.com (K4i) — Mon, 16 Feb 2026 23:30:00 +0800

引言

从上一篇前向传播与反向传播的文章中，我们已知梯度下降的更新公式：

\[
\theta \leftarrow \theta - \eta \nabla C
\]

其中 \(\nabla C\) 是整个训练数据集上的损失梯度。但计算 \(\nabla C\) 意味着要对每一个训练样本运行前向传播和反向传播，然后取平均。当数据集有数百万样本时，这是极其昂贵的。

sky_io@outlook.com (K4i) — Mon, 16 Feb 2026 23:26:00 +0800

图 1：神经网络示例

每个层可以用数学形式描述如下，从输入层逐层计算到最终输出层的过程称为前向传播（forward propagation）：