700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 深度学习系列--1.入坑模型: 线性回归 logistic 回归 softmax分类器

深度学习系列--1.入坑模型: 线性回归 logistic 回归 softmax分类器

时间:2022-12-20 17:53:31

相关推荐

深度学习系列--1.入坑模型: 线性回归 logistic 回归 softmax分类器

惭愧啊,读研的时候学得正是模式识别;当看着书本上都是公式推导、博士师兄们也都在公式推导研究新算法的时候,排斥心理到了顶点,从此弃疗。

工作三年,重新捡起,因为更关注实际操作,所以选择了《python 深度学习》这本书,辅助Andrew Ng视频+博客,希望能够从应用的角度去使用机器学习这门工具,不重蹈覆辙

不想老生常谈,别人讲得很好的,就直接引用了;之前已经了解的概念,也不赘述了; 只关注自己不懂的、以及记录学习过程,所以这会是一个很“草率”的系列...

一、 线性回归

二、logistic 回归与softmax 分类器:

logistic 回归是一个二分类器,softmax 分类器是一个多分类器,它们的激活函数描绘了事件的分布,也就是某事发生的概率(很重要!很重要!很重要!)

对于logistic回归,采用的sigmoid function;可以看到$g(z)$的取值在(0, 1),且大多数情况下趋于1或0,这不正好表示一个二分类问题嘛:某事发生的概率接近于1,或接近于0

softmax 分类器采用了softmax激活函数,假设输出层有$n$个节点,第$i$个节点的softmax 值为

$ S_i = \frac{e^{x_i} } {\sum_{j=1}^n e^{x_j} }$

每个值在[0,1]之间,且所有和为1,是不是多类别事件的概率呢?

损失函数:

损失函数的作用是什么?描绘一组样本的真实值$y$与预测值$h$之间的差距

对于离散问题,怎么去描绘这个差距呢?这里用的是交叉熵(可参考)

1. 信息量

假设事件i发生的概率为$p(x_i)$, 则它包含的信息量为 $-ln(p(x_i))$

如下图所示,$p(x_i)$ 取值为[0, 1],当一件很小概率的事情发生了,给人直觉的冲击越大,它所包含的信息量越大

2. 熵

熵表示对一个问题信息量的期望

假设一个问题有n种可能性,每种可能发生的概率为$p(x_i)$, 则其熵为:

$H(x) = -\sum_{i=1}^n p(x_i)ln(p(x_i))$

3. KL离散度与交叉熵

KL离散度又称为相对熵,它用来衡量两个概率分布之间的差异,KL离散度越小,分布越接近。

假如样本真实属于P分布,机器学习预测为Q分布,那么它们之间的KL离散度为:

可以看到上式第一项 $-H(p(x))$ 是固定值,第二项就是交叉熵。当交叉熵越小,KL离散度越小,预测分布就越接近于真实分布

所以在logistic回归和softmax分类器中,均使用交叉熵来作为损失函数。对于二分类问题,n=2, 交叉熵又叫作二元交叉熵,其等价为:

$-(p(x_i)ln(q(x_i)) + (1-p(x_i))ln((1-q(x_i))))$

因此,logistic回归损失函数:

softmax分类器损失函数:

三、梯度下降算法

1. 梯度下降的直观理解

想象你在山上的某一点,要以最快的速度下山。 学习率相当于步长,偏导数相当于方向,偏导数越接近于0,越接近一个局部最小点。

初始位置选择不一样,到达的局部最优值也不同

梯度下降算法中权重的初始值可以采用统一初始值,但扩展到反向传播算法却需要随机初始化权重

2. 学习率对梯度下降收敛的影响

3. Normalization Input 有利于梯度下降算法的收敛

其实吧,在Andrew Ng的视频中,归一化、标准化的英文翻译都是Normalization...有时标准化也翻译成standardization,用于以Normalization区分

归一化:

1.Max-min归一化

$x_i = \frac{x_i-x_{min}}{x_{max}-x_{min}}$

2.Mean归一化

$x_i = \frac{x_i-x_\mu}{x_{max}-x_{min}}$

标准化:

1.Z-Score 标准化

$x_i = \frac{x_i-x_\mu}{\sigma}$

其中 $\mu$是样本数据的均值(mean),$\sigma$是样本数据的标准差(std)

什么时候用归一化,什么时候用标准化? sorry,网上的博客没看懂...

四、反向传播算法

可以参考这篇推导过程,关键是用到了链式法则;平常都是用封装好的API,也就略过这部分了

反向传播算法中参数需要随机初始化

1. 一般取值在[-ε, +ε],ε 是一个任意给定的很小的数

什么给很小的数呢?这样$z=\theta^Tx$ 也会是一个在0附近很小的数;对于sigmoid, tanh 等激活函数,z在0附近曲线不那么平缓,收敛速度更快

2. 如果初始化采用统一初始值,隐藏层的输出是相等的,梯度下降更新后,连接相同出发点的权重值是一样的

继续梯度下降更新,连接相同出发点的权重值永远是一样的,隐藏层的表示也相等,从而网络变得冗余,拟合效果也不好

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。