13.梯度下降
约 438 字大约 1 分钟
2025-09-20
很多情况我们不能得到参数的解析解,所以我们通过不断逼近的搜索策略,即梯度下降法.
我们要考虑:
- 最优化的核心
- 搜索方向
- 搜索快慢
我们可以通过导数来衡量.α∂x∂f.
梯度是函数曲面陡度. 偏导数是具体方向的陡度. 梯度为所有方向上的偏导向量和.
\nabla J = (\frac{\partial J}{\partial x}, \frac{\partial J}{\partial y}, \frac{\partial J}{\partial z}) ## \text{学习率} \text{不断逼近}. $$\mathbf{w}_{t+1}=\mathbf{w}_t-\eta\nabla L(\mathbf{w}_t)
但是会遇到问题: 局部最优和全局最优.
常见梯度下降策略
- 批量梯度下降(BGD) 使用全部的样本,保证精准度,但是很慢
- 随机梯度下降(SGD) 每次只用一个样本计算,牺牲了精准度,但是快一些
- 小批量梯度下降(MBGD) 每次使用一小批样本,两者折中,速度快于BGD,精准度也不错
更优的下山方法
因为学习率设置上的问题,过小计算量太大,过大容易找不到最小值点,所以在超参数的设置上有一定问题.
于是出现了AdaGrad - 动态调整学习率,但是有得时候调整学习率会变的过小,然后出现问题,然后进化出了RMSprop - 动态调整学习率的指数加权移动平均值,可以解决AdaGrad的学习率过小的问题.
后面又出现了AdaDelta,无需设置学习率,还有Adam - 结合了AdaGrad和RMSprop的优点.
还有动量法,...
