28.梯度下降优化算法

约 525 字大约 2 分钟

2025-09-20

梯度下降法

随机梯度下降:一个一个试，把每一个权重更新

批量梯度下降：先正向传播然后求累计偏导数，再反向传播更新参数

小批量梯度下降：一小波一小波，是梯度下降和随机梯度下降的折中，需要选择batch size

\Delta w = - \alpha \frac{\partial E}{\partial w}

因为有可能产生局部最优，所以要找合适的下山起始点。

整理样本

凸函数一定有全局最优解

梯度下降普通的搜索很有可能陷入局部最小值，因为没有动力，缓的时候下降的慢，效果可能不是很好。

动量法
动量法是指在每次迭代时，都用一个小的步长来代替原来的步长，这样可以加快搜索的速度，并且可以避免陷入局部最小值。
$v_{t} \leftarrow \gamma v_{t-1} + \eta \nabla f(w_t)$ $w_{t} \leftarrow w_t - v_{t-1}$

其中 $\gamma$ 是动量因子， $\eta$ 是学习率， $w_t$ 是当前参数， $v_t$ 是上一次更新的速度， $\nabla f(w_t)$ 是当前参数的梯度。

s_t \leftarrow s_{t-1} + \Delta w_t \odot \Delta w_t

w_t \leftarrow w_{t-1} - \frac{\alpha}{\sqrt{s_t + \epsilon}}\odot \Delta w_t

其中 $\Delta w_t$ 是当前梯度， $s_t$ 是累计梯度平方的累加， $\alpha$ 是学习率， $\epsilon$ 是防止除零错误。

开车不仅要控制速度和油门，还要控制转向（类似于转动惯量）