700字范文 > 机器学习之支持向量机（SVM）学习笔记-Datawhale Task05

机器学习之支持向量机（SVM）学习笔记-Datawhale Task05

时间：2018-11-13 21:18:37

SVM笔记-Datawhale Task05

1 概要1.1 定义1.2 通俗理解2 SVM2.1 一些基本概念2.2 线性SVM算法原理2.3 非线性SVM算法原理2.4 常用的核函数及对比3 总结4 参考资料

1 概要

1.1 定义

百度百科

支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面。

好像可以理解一点点，SVM是监督学习，一种二元分类器，目标是求最大超平面……

维基百科

支持向量机（英语：support vector machine，常简称为SVM，又名支持向量网络）是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

懵了……还是来看看大佬们的通俗解释吧！

1.2 通俗理解

看过最通俗的理解来自知乎上@简之大佬的回答，分享一下：

在很久以前的情人节，大侠要去救他的爱人，但魔鬼和他玩了一个游戏。

魔鬼在桌子上似乎有规律放了两种颜色的球，说：“你用一根棍分开它们？要求：尽量在放更多球之后，仍然适用。”

于是大侠这样放，干的不错？

然后魔鬼，又在桌上放了更多的球，似乎有一个球站错了阵营。

SVM 就是试图把棍放在最佳位置，好让在棍的两边有尽可能大的间隙。

现在即使魔鬼放了更多的球，棍仍然是一个好的分界线。

然后，在 SVM 工具箱中有另一个更加重要的 trick。魔鬼看到大侠已经学会了一个 trick ，于是魔鬼给了大侠一个新的挑战。

现在，大侠没有棍可以很好帮他分开两种球了，现在怎么办呢？当然像所有武侠片中一样大侠桌子一拍，球飞到空中。然后，凭借大侠的轻功，大侠抓起一张纸，插到了两种球的中间。

现在，从魔鬼的角度看这些球，这些球看起来像是被一条曲线分开了。

再之后，无聊的大人们，把这些球叫做「data」，把棍子叫做「classifier」, 最大间隙 trick 叫做「optimization」，拍桌子叫做「kernelling」, 那张纸叫做「hyperplane」。

2 SVM

SVM包含如下的相关内容：

什么是支持向量？

support vector （支持向量）的意思就是数据集中的某些点，位置比较特殊。

比如 x+y-2=0 这条直线，直线上面区域 x+y-2>0 的全是 A 类，下面的 x+y-2<0 的全是 B 类，我们找这条直线的时候，一般就看聚集在一起的两类数据，他们各自的最边缘位置的点，也就是最靠近划分直线的那几个点，而其他点对这条直线的最终位置的确定起不了作用，所以我姑且叫这些点叫 “支持点”（意思就是有用的点），但是在数学上，没这种说法，数学里的点，又可以叫向量，比如二维点 (x,y) 就是二维向量，三维度的就是三维向量 (x,y,z)。所以 “支持点” 改叫 “支持向量”。

下图框起来的点就是支持向量。

什么是机？

这里的“机”当然不是机器的意思，而是分类器。也可以理解为算法，机器学习领域里面常常用 “机” 也就是 machine 这个字表示算法。

2.1 一些基本概念

线性可分（linearly separable）: 如上图中的两组数据，它们之间已经分的足够开了，因此很容易就可以在图中画出一条直线将两组数据点分开。在这种情况下，这组数据就被称为线性可分数据。

分隔超平面（ separating hyperplane）: 上述将数据集分隔开来的直线称为分隔超平面。

超平面（hyperplane）: 在上面给出的例子中，由于数据点都在二维平面上，所以此时分隔超平面就只是一条直线。但是，如果所给的数据集是三维的，那么此时用来分隔数据的就是一个平面。显而易见，更高纬度的情况可以依此类推。如果数据是 1024 维的，那么就需要一个 1023 维的某某对象来对数据进行分隔。这个 1023 维的某某对象到底应该叫什么呢？ N-1 维呢？该对象被称为超平面，也就是分类的决策边界。分布在超平面一侧的所有数据都属于某个类别，而分布在另一侧的所有数据则属于另一个类别。

间隔（margin）:我们希望能通过上述的方式来构建分类器，即如果数据点离决策边界越远，那么其最后的预测结果也就越可信。既然这样，我们希望找到离分隔超平面最近的点，确保它们离分隔面的距离尽可能远。这里所说的点到分隔面的距离就是间隔。我们希望间隔尽可能地大，这是因为如果我们犯错或者在有限数据上训练分类器的话，我们希望分类器尽可能健壮。

支持向量（support vector） :就是上面所说的离分隔超平面最近的那些点。

分类器 :分类器就是给定一个样本的数据，判定这个样本属于哪个类别的算法。例如在股票涨跌预测中，我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的，那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。

2.2 线性SVM算法原理

2.3 非线性SVM算法原理

对于输入空间中的非线性分类问题，可以通过非线性变换将它转化为某个维特征空间中的线性分类问题，在高维特征空间中学习线性支持向量机。**由于在线性支持向量机学习的对偶问题里，目标函数和分类决策函数都只涉及实例和实例之间的内积，所以不需要显式地指定非线性变换，而是用核函数替换当中的内积。**核函数表示，通过一个非线性转换后的两个实例间的内积。

具体地，

2.4 常用的核函数及对比

Linear Kernel 线性核

k(xi,xj)=xiTxjk(x_i,x_j)=x_i^{T}x_j k(xi,xj)=xiTxj

线性核函数是最简单的核函数，主要用于线性可分，它在原始空间中寻找最优线性分类器，具有参数少速度快的优势。如果我们将线性核函数应用在KPCA中，我们会发现，推导之后和原始PCA算法一模一样，这只是线性核函数偶尔会出现等价的形式罢了。

Polynomial Kernel 多项式核

k(xi,yj)=(xiTxj)dk(x_i,y_j)=(x_i^{T}x_j)^d k(xi,yj)=(xiTxj)d

也有复杂的形式：

k(xi,xj)=(axiTxj+b)dk(x_i,x_j)=(ax_i^{T}x_j+b)^d k(xi,xj)=(axiTxj+b)d

其中d≥1d\ge1d≥1为多项式次数，参数就变多了，多项式核实一种非标准核函数，它非常适合于正交归一化后的数据，多项式核函数属于全局核函数，可以实现低维的输入空间映射到高维的特征空间。其中参数d越大，映射的维度越高，和矩阵的元素值越大。故易出现过拟合现象。

径向基函数高斯核函数 Radial Basis Function（RBF）

k(xi,xj)=exp(−∣∣xi−xj∣∣22σ2)k(x_i,x_j)=exp(-\frac{||x_i-x_j||^2}{2\sigma^2}) k(xi,xj)=exp(−2σ2∣∣xi−xj∣∣2)

σ>0\sigma>0σ>0是高斯核带宽，这是一种经典的鲁棒径向基核，即高斯核函数，鲁棒径向基核对于数据中的噪音有着较好的抗干扰能力，其参数决定了函数作用范围，超过了这个范围，数据的作用就“基本消失”。高斯核函数是这一族核函数的优秀代表，也是必须尝试的核函数。对于大样本和小样本都具有比较好的性能，因此在多数情况下不知道使用什么核函数，优先选择径向基核函数。

Laplacian Kernel 拉普拉斯核

k(xi,xj)=exp(−∣∣xi−xj∣∣σ)k(x_i,x_j)=exp(-\frac{||x_i-x_j||}{\sigma}) k(xi,xj)=exp(−σ∣∣xi−xj∣∣)

Sigmoid Kernel Sigmoid核

k(xi,xj)=tanh(αxTxj+c)k(x_i,x_j)=tanh(\alpha x^Tx_j+c) k(xi,xj)=tanh(αxTxj+c)

采用Sigmoid核函数，支持向量机实现的就是一种多层感知器神经网络。

其实还有很多核函数，对于核函数如何选择的问题，吴恩达教授是这么说的：