700字范文 > 麦子学院深度学习基础 —— 机器学习 —— 最近邻规则分类 KNN 算法

麦子学院深度学习基础 —— 机器学习 —— 最近邻规则分类 KNN 算法

时间：2019-03-22 21:25:51

最邻近规则分类（K-Nearest Neighbor）KNN 算法

1.综述：

1.1 Cover 和 Hart 在 1968 年提出了最初的近邻算法。

1.2 分类（Classification）算法。

1.3 输入基于实例的学习（instance-based learning）、懒惰学习（lazy learning）。

基于实例的学习：是指每次学习是根据实例来进行的。

懒惰学习：是指我们在处理训练集的时候，并没有建立任何模型，而是在对未知数据进行归类的时候才根据和已知数据的比较结果来进行归类操作。

（临时抱佛脚算法）

2.例子

3.算法详述

3.1步骤：

为了判断未知实例的类别，以所有已知类别的实例作为参照

选择参数K

计算未知实例与所有已知实例的距离

选择最近K个已知实例

根据少数服从多数的投票法则（majority-voting），让未知实例归类为K个最邻近样本中最多树的类别。

3.2 细节：

关于K

关于距离的衡量方法

3.2.1 Euclidean Distance 定义

EuclideanDistance(d)=(x1−x2)2+(y1−y2)2Euclidean Distance (d) = \sqrt{(x_{1}-x_{2})^{2}+(y_{1}-y_{2})^{2}}EuclideanDistance(d)=(x1−x2)2+(y1−y2)2

E(X,Y)=∑i=0n(xi−yi)2E(X,Y) = \sqrt{\sum_{i=0}^{n}(x_{i}-y_{i})^{2}}E(X,Y)=i=0∑n(xi−yi)2

其他距离衡量：余弦值（Cos)、相关度（Correlation）、曼哈顿距离（Manhattan Distance）。

3.3 举例：

import math def ComputerEuclideanDistance(x1, y1, x2, y2):d = math.sqrt(math.pow((x1-x2),2) + math.pow((y1-y2),2))return dd_ag = ComputerEuclideanDistance(3, 104, 18, 90)d_bg = ComputerEuclideanDistance(2, 100, 18, 90)d_cg = ComputerEuclideanDistance(1, 81, 18, 90)d_dg = ComputerEuclideanDistance(101, 10, 18, 90)d_eg = ComputerEuclideanDistance(99, 5, 18, 90)d_fg = ComputerEuclideanDistance(98, 2, 18, 90)print("d_ag: ", d_ag)print("d_bg: ", d_bg)print("d_cg: ", d_cg)print("d_dg: ", d_dg)print("d_eg: ", d_eg)print("d_fg: ", d_fg)

根据计算结果，选择其中举例最近的三个样本(d_ag,d_bg,d_cg)作为未知样本的分类依据。