Adamw on k4i's blog

Adamw on k4i's bloghttps://k4i.top/zh/tags/adamw/Recent content in Adamw on k4i's blogHugo -- gohugo.iozhsky_io@outlook.com (K4i)sky_io@outlook.com (K4i)All content is subject to the license of <a rel="license noopener" href="https://creativecommons.org/licenses/by-nc-sa/4.0/" target="_blank">CC BY-NC-SA 4.0</a> .Mon, 29 Jun 2026 10:00:00 +0800Optimizer：从 SGD 到 AdamW，模型参数到底怎么更新https://k4i.top/zh/posts/optimizers-adamw/Mon, 29 Jun 2026 10:00:00 +0800sky_io@outlook.com (K4i)Mon, 29 Jun 2026 10:00:00 +0800https://k4i.top/zh/posts/optimizers-adamw/<p>在前面的文章里，我们已经把训练过程拆成了几件事：</p> <ul> <li><a href="https://k4i.top/zh/posts/loss-functions-cross-entropy/">loss function</a> 定义什么叫错；</li> <li><a href="https://k4i.top/zh/posts/forward-and-backward-propagation/">前向传播与反向传播</a> 计算每个参数的梯度；</li> <li><a href="https://k4i.top/zh/posts/batch-vs-stochastic-gradient-descent/">梯度下降</a> 根据梯度更新参数。</li> </ul> <p>但真正写训练代码时，我们通常不会直接写：</p>K4ifeatured imagedeep-learningoptimizeradamwgradient-descentAI