700字范文 > 数据挖掘十大算法（九）：朴素贝叶斯原理实例与Python实现

数据挖掘十大算法（九）：朴素贝叶斯原理实例与Python实现

时间：2023-09-10 14:47:54

一、条件概率的定义与贝叶斯公式

二、朴素贝叶斯分类算法

朴素贝叶斯是一种有监督的分类算法，可以进行二分类，或者多分类。一个数据集实例如下图所示：

现在有一个新的样本，X = (年龄：<=30, 收入：中，是否学生：是，信誉：中)，目标是利用朴素贝叶斯分类来进行分类。假设类别为C(c1=是或 c2=否)，那么我们的目标是求出P(c1|X)和P(c2|X)，比较谁更大，那么就将X分为某个类。

下面，公式化朴素贝叶斯的分类过程。

三、实例

下面，将下面这个数据集作为训练集，对新的样本X = (年龄：<=30, 收入：中，是否学生：是，信誉：中) 作为测试样本，进行分类。

我们可以将这个实例中的描述属性和类别属性，与公式对应起来，然后计算。

四、Python实现

现在，利用Python编写上述实例对应的代码，代码如下。

# 针对 “买电脑”实例进行朴素贝叶斯分类if __name__ == '__main__':# 描述属性分别用数字替换# 年龄, <=30-->0, 31~40-->1, >40-->2# 收入, '低'-->0, '中'-->1, '高'-->2# 是否学生, '是'-->0, '否'-->1# 信誉: '中'-->0, '优'-->1# 类别属性用数字替换# 购买电脑是-->0, 不购买电脑否-->1MAP = [{'<=30': 0, '31~40': 1, '>40': 2},{'低': 0, '中': 1, '高': 2},{'是': 0, '否': 1},{'中': 0, '优': 1},{'是': 0, '否': 1}]# 训练样本train_samples = ["<=30 高否中否","<=30 高否优否","31~40 高否中是",">40 中否中是",">40 低是中是",">40 低是优否","31~40 低是优是","<=30 中否中否","<=30 低是中是",">40 中是中是","<=30 中是优是","31~40 中否优是","31~40 高是中是",">40 中否优否"]# 下面步骤将文字，转化为对应数字train_samples = [sample.split(' ') for sample in train_samples]# print(train_samples)# exit()train_samples = [[MAP[i][attr] for i, attr in enumerate(sample)]for sample in train_samples]# print(train_samples)# 待分类样本X = '<=30 中是中'X = [MAP[i][attr] for i, attr in enumerate(X.split(' '))]# 训练样本数量n_sample = len(train_samples)# 单个样本的维度：描述属性和类别属性个数dim_sample = len(train_samples[0])# 计算每个属性有哪些取值attr = []for i in range(0, dim_sample):attr.append([])for sample in train_samples:for i in range(0, dim_sample):if sample[i] not in attr[i]:attr[i].append(sample[i])# 每个属性取值的个数n_attr = [len(attr) for attr in attr]# 记录不同类别的样本个数n_c = []for i in range(0, n_attr[dim_sample-1]):n_c.append(0)# 计算不同类别的样本个数for sample in train_samples:n_c[sample[dim_sample-1]] += 1# 计算不同类别样本所占概率p_c = [n_cx / sum(n_c) for n_cx in n_c]# print(p_c)# 将用户按照类别分类samples_at_c = {}for c in attr[dim_sample-1]:samples_at_c[c] = []for sample in train_samples:samples_at_c[sample[dim_sample-1]].append(sample)# 记录每个类别的训练样本中，取待分类样本的某个属性值的样本个数n_attr_X = {}for c in attr[dim_sample-1]:n_attr_X[c] = []for j in range(0, dim_sample-1):n_attr_X[c].append(0)# 计算每个类别的训练样本中，取待分类样本的某个属性值的样本个数for c, samples_at_cx in zip(samples_at_c.keys(), samples_at_c.values()):for sample in samples_at_cx:for i in range(0, dim_sample-1):if X[i] == sample[i]:n_attr_X[c][i] += 1# 字典转化为listn_attr_X = list(n_attr_X.values())# print(n_attr_X)# 存储最终的概率result_p = []for i in range(0, n_attr[dim_sample-1]):result_p.append(p_c[i])# 计算概率for i in range(0, n_attr[dim_sample-1]):n_attr_X[i] = [x/n_c[i] for x in n_attr_X[i]]for x in n_attr_X[i]:result_p[i] *= xprint('概率分别为', result_p)# 找到概率最大对应的那个类别，就是预测样本的分类情况predict_class = result_p.index(max(result_p))print(predict_class)

运行结果如图所示：

表明，样本被分为第一类，即会购买电脑。对应的概率与手动计算的结果相同。

参考：

1. 数据挖掘十大算法

2.数据仓库与数据挖掘李春葆

更新

有在评论中说到这个结果：

[0.0011757789535567313, 0.16457142857142862]

我运行了多次原来的代码，但是结果始终如一。最后，又仔细阅读了一遍代码，发现问题在“n_attr_X”这个变量在转化为list的过程。

n_attr_X={0: [2, 4, 6, 6], 1: [3, 2, 1, 2]}为一个字典，如果转化为list则是[[3, 2, 1, 2], [2, 4, 6, 6]]，这样可以得到我的结果。

但是如果，n_attr_X={1: [3, 2, 1, 2], 0: [2, 4, 6, 6]}，那么转化为list之后就是[[3, 2, 1, 2], [2, 4, 6, 6]]。这样默认是类别为0的各个属性个数为3，2，1，2，因为后面使用的是列表，默认下标就代表着类别标签。可以在这个转化步骤之后，加上这句代码：

n_attr_X[0], n_attr_X[1] = n_attr_X[1], n_attr_X[0]

结果就不一样了。

所以最好用有序字典，并且不要采用“下标就代表着类别标签”的方法。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。