13.梯度下降

约 438 字大约 1 分钟

2025-09-20

很多情况我们不能得到参数的解析解,所以我们通过不断逼近的搜索策略,即梯度下降法.

我们要考虑:

我们可以通过导数来衡量. $\alpha \frac{\partial f}{\partial x}$ .

梯度是函数曲面陡度. 偏导数是具体方向的陡度. 梯度为所有方向上的偏导向量和.

\nabla J = (\frac{\partial J}{\partial x}, \frac{\partial J}{\partial y}, \frac{\partial J}{\partial z}) ## \text{学习率} \text{不断逼近}. $$\mathbf{w}_{t+1}=\mathbf{w}_t-\eta\nabla L(\mathbf{w}_t)

但是会遇到问题: 局部最优和全局最优.

因为学习率设置上的问题,过小计算量太大,过大容易找不到最小值点,所以在超参数的设置上有一定问题.

于是出现了AdaGrad - 动态调整学习率,但是有得时候调整学习率会变的过小,然后出现问题,然后进化出了RMSprop - 动态调整学习率的指数加权移动平均值,可以解决AdaGrad的学习率过小的问题.

后面又出现了AdaDelta,无需设置学习率,还有Adam - 结合了AdaGrad和RMSprop的优点.

还有动量法,...