700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > [026] 深度学习--学习笔记(4)Back-propagation反向传播链式法则理论推导

[026] 深度学习--学习笔记(4)Back-propagation反向传播链式法则理论推导

时间:2020-11-22 10:38:40

相关推荐

[026] 深度学习--学习笔记(4)Back-propagation反向传播链式法则理论推导

1、梯度下降(GradientsDescent)

概念:构建Loss(预测值与实际值之间的偏差)与相关权值变量θ(0)和θ(1)的函数关系J(θ(0), θ(1)),在函数图像上随机取初值点,然后求初值点的导数(也就是梯度),并沿着导数最倾斜的方向按照一定的步长更新J点,以及类推总能找到J(min)的局部最优解,也就是预测值与实际值偏差最小的状态。

2、常用函数的求导公式

3、单层感知机(Perceptron)的梯度

不看灰色部分。感知机的输入输出关系为 z =ω ·x,那么输出z对权值ω的导数就是输入x。

4、神经网络的前向数据传递

传递方式:上一层节点的输出ξ乘以权值ω,二者之积经过激活函数σ的非线性变换之后,再输入到下一层节点。

5、链式法则

概念:复合函数的导数是子函数导数的乘积,就像锁链一样一环套一环,故称链式法则。

6、激活函数

概念:在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(激励函数)。

作用:不使用激活函数的话,神经网络的每层都只是做线性变换,多层输入叠加后也还是线性变换。因为线性模型的表达能力通常不够,所以这时候就体现了激活函数的作用了,激活函数可以引入非线性因素。

常用激活函数:有sigmoid、ReLu等。

7、Sigmoid激活函数

作用域:输入x的范围为(-∞,+∞),输出σ(x)的范围为(0,1)。

优势:全范围可导,可做梯度下降运算。

不足:输入x如果过大,其函数导数趋于0。所以输入x一般要做归一化处理,把范围压缩到(-1,1)之间。

Sigmoid函数的导数:

8、神经网络的“层”

层:层 = 某一层所有节点 +输入 +权值 +输入,但要注意输入层不算层。如下方图片是一个两层的神经网络。

隐含层:隐含层 =层数 -输出层 =层数 - 1。如下方图片的神经网络有一层隐含层。

9、神经网络的数学描述

输入:用x表示,x的上标表示第 l 层,下标表示层中的第 j 个节点。如图中x(l, j)表示第 l层第j个节点的输入(加权求和后的值)。

权值:用W表示,W上标表示第几层,下标表示连线为“从上一层第i 个节点到当前层第j个节点”的连线。如图中W(l,ij)表示从(l - 1)层的 i 节点到 l层的j节点之间的权值。

激活函数:用σ(x)表示,常用Sigmoid和ReLu函数作为激活函数。

偏置:用θ表示,θ的上标表示第 l 层,下标表示层中的第 j 个节点。如图中θ(l, j)表示第 l层第j个节点的偏置。添加偏置项是为了使拟合产生平移,增强网络学习能力。

输出:用O表示,上下标含义参考输入。

目标值:只用输出层有目标值(label),用 t 表示。t(j)表示输出层第 j 个节点的目标值。

10、损失函数(LossFunction)

概念:也称为误差函数,是输出层的输出O与目标值t之间的偏差函数。这个偏差值有多种表示方式,如均方误差MSE、CEL等。

均方误差MSE:

11、梯度函数的推导

工作原理:从输出层开始,向后逐层构建损失函数E对权值W的梯度函数,随着多次迭代,就能将权值W逐层优化为最优值。

① 输出层的梯度:

可以看出,输出层的梯度与输出层的输出O,输出层的目标t,以及上一次的输出O有关系。

②隐含层的梯度:

可以看出,隐含层的梯度函数,与本层的输出O,下一次的梯度δ,以及下一层的权值W有关系。

③损失函数 E 对偏置 θ 的偏导

12、神经网络反向传播的过程

①神经网络从输入到输出前向运行一遍,各层都产生输出O;

② 计算误差Error =输出O与 目标t之间的偏差,多数情况下使用均方差MSE计算这个偏差;

③计算误差Error对输出层的权值W的导数(梯度)。由于使用了Sigmoid激活函数,所以此处的导数很好求;

④来到输出层的上一层,计算误差Error对倒数第二层的权值W的导数;

⑤以此类推,从后往前计算每一层的梯度。由于每一层的梯度都与下一层有关,所以误差Error对每一层都有影响;

⑥每一层的权值W的更新量 △W =学习率η *梯度δ *上一层的输出O;

⑦每一层的偏置θ的更新量 △θ =学习率η *梯度δ;

⑧根据 △W 和 △θ更新每一层的权值和偏置;

⑨经过多次迭代训练,最终误差Error达到满意值,权值W和偏置θ趋于某个最优值。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。