700字范文 > Andrew Ng机器学习公开课笔记 -- Logistic Regression

Andrew Ng机器学习公开课笔记 -- Logistic Regression

时间：2021-12-24 01:49:18

网易公开课，第3，4课

notes，http://cs229.stanford.edu/notes/cs229-notes1.pdf

前面讨论了线性回归问题，

符合高斯分布，使用最小二乘来作为损失函数

下面继续讨论分类问题，分类问题和回归问题不同在于Y的取值是离散的

我们先讨论最简单的binary classification，即Y的取值只有0和1

分类问题一般不会使用回归模型，因为回归模型是输出是连续的，而分类问题需要的输出是离散的

但是一定要用也不是不可以，比如这里继续使用线性回归模型，但是不是非常适合

原因如下，

首先线性模型的Y取值是连续，且没有限制的，而二元分类的取值为[0,1]，对于线性回归模型，参考下图，可以以0.5为分界线，大于则取1，小于则取0，也可以转化为离散的结果

再者，其实只有在分界线周围的样本点对分类模型会有比较大的影响，而比较远的样本点其实对模型没啥影响

但对于线性模型而言，增加任何样本点都会对模型产生相同的影响

所以提出logistic回归模型，这种回归模型可以比较好的解决二元分类问题

从本质上你仍然可以把他理解为线性模型，

你可以看下面给出的H函数，只是在线性回归外面加上logistic函数进行转换，可以理解成把上图的直线转化为那条sigmoid曲线，使其更加符合二元分类的需求

但是本质上可以看成仍然是用那条直线进行划分

参考，对线性回归，logistic回归和一般回归的认识

Logistic function（Sigmoid function）

下面给出H函数

由这个函数生成的曲线称为Sigmoid曲线，这个曲线很有说道，参考/8st3jG1

先不从数学上说为什么这个模型中二元分类上比线性模型好，单纯从图形上看就可以得到直观的结论

首先Y值域在[0,1]，其次图形中中间陡峭而两边平缓，符合二元分类的样本点特性

确定了模型，下面要做的是fit最优的θ，仍然是采用最大似然法，即找出对训练数据可能性最大的那个θ

前面对于线性回归问题，符合高斯分布（连续回归问题往往符合高斯分布），最终我们由最大似然推导出最小二乘回归
但是对于二元分类，符合伯努利分布（the Bernoulli distribution, 又称两点分布，0-1分布），因为二元分类的输出一定是0或1，典型的伯努利实验
by the way，二项分布是n次独立的伯努利实验形成的概率分布，当n=1时，就是伯努利分布
同样，如果离散输出是多个值，就是符合多项分布

看看由最大似然可以推导出什么

首先给出伯努利分布

是否好理解，给定x;θ，y=1的概率等于h的值，看看图中，当然是h的值越大越可能为1，越小越可能为0

那么这个式子可以合并写成，比较tricky的写法，Y为0或1，总有一项为1

那么θ的似然函数定义为，θ的可能性取决于模型对训练集拟合的好坏

同样为了数学计算方便，定义log likelihood，

很显然，对于伯努利分布，这里无法推导出最小二乘呵呵

下面要做的是找到θ使得ℓ(θ)最大，由于这里是找最大值而非最小值，所以使用梯度上升（gradient ascent），道理是一样的

首先计算梯度，计算过程参考原文

所以最终随机梯度上升rule写成，

这个梯度公式，奇迹般的和线性回归中的梯度公式表面上看是一样的，可以仔细比较一样的

之所以说表面上，是因为其中的是不同的，这里是logitics函数