700字范文 > 梯度下降法(Gradient Descent)优化函数的详解（2）随机梯度下降法（SGD Stochastic Gradient Descent）

梯度下降法(Gradient Descent)优化函数的详解（2）随机梯度下降法（SGD Stochastic Gradient Descent）

时间：2019-11-25 23:03:46

前言梯度下降法(Gradient Descent)优化函数的详解（0）线性回归问题梯度下降法(Gradient Descent)优化函数的详解（1）批量梯度下降法（Batch Gradient Descent）梯度下降法(Gradient Descent)优化函数的详解（2）随机梯度下降法（SGD Stochastic Gradient Descent）梯度下降法(Gradient Descent)优化函数的详解（3）小批量随机梯度下降法（mini-batch SGD ）几种算法的比较

随机梯度下降法（Stochasitc Gradient Descent）

针对BGD算法训练速度过慢的缺点，提出了SGD算法，普通的BGD算法是每次迭代把所有样本都过一遍，每训练一组样本就把梯度更新一次。而SGD算法是从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次，在样本量及其大的情况下，可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。这种逐个样本进行loss计算进行迭代的方法，称之为 Stochasitc Gradient Descent 简称SGD。

算法详解

每一次迭代按照一定的学习率α沿梯度的反方向更新参数，直至收敛，公式

θt+1=θt−αdfdθ\theta _{t+1} = \theta _{t}-\alpha \frac{df}{d\theta }θt+1=θt−αdθdf

接下来我们回到房价预测问题上。

这是SGD梯度下降方法：

step1：

yp,i=axi+bloss=12(yp,i−yi)2y_{p,i} = ax_i + b \qquad \qquad loss = \frac{1}{2}(y_{p,i}-y_i)^2yp,i=axi+bloss=21(yp,i−yi)2

step2：要优化的参数有两个，分别是a和b，我们分别对他们求微分，也就是偏微分

∂loss∂a=(axi+b−yi)xi∂loss∂b=axi+b−yi\frac{\partial loss}{\partial a} = (ax_i+b-y_i)x_i \qquad \qquad \frac{\partial loss}{\partial b} = ax_i+b-y_i ∂a∂loss=(axi+b−yi)xi∂b∂loss=axi+b−yi

step3：∂loss∂a\frac{\partial loss}{\partial a}∂a∂loss记为▽a\bigtriangledown a▽a，∂loss∂b\frac{\partial loss}{\partial b}∂b∂loss记为▽b\bigtriangledown b▽b，分别表示loss在a、b方向的梯度，更新参数的方式如下

anew=a−α▽abnew=b−α▽ba_{new} = a - \alpha ▽a \qquad \qquad b_{new} = b - \alpha ▽ banew=a−α▽abnew=b−α▽b

算法实现

直接看图

随机梯度下降的做法实际上就是扫描所有的训练样本，首先是第一组训练样本(x(1), y(1))。

然后只对这第一个训练样本，我们的梯度下降只对这第一个训练样本的代价函数进行。换就话说我们要关注第一个样本，然后把参数稍微修改一点使其对第一个训练样本的拟合变得好一点完成这个内层循环(for i=1,….,m)以后，然后再转向第二个训练样本，把参数稍微修改一点使其对第二个训练样本的拟合变得好一点，然后再转向第三个训练样本以此类推直到完成所有的训练集。

外环(Repeat)的循环次数取决于训练样本的大小，通常1次，最多10次

随机梯度下降算法在每一次计算之后便更新参数 θ，而不需要首先将所有的训练集求和，在梯度下降算法还没有完成一次迭代时，随机梯度下降算法便已经走出了很远。但是这样的算法存在的问题是，不是每一步都是朝着”正确”的方向迈出的。因此算法虽然会逐渐走向全局最小值的位置，但是可能无法站到那个最小值的那一点，而是在最小值点附近徘徊。

等高线图和loss图都很明显的表现了SGD的特点。总体上收敛，局部有一些震荡。