700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 机器学习笔记_贝叶斯分类器(IV)_半朴素贝叶斯分类器

机器学习笔记_贝叶斯分类器(IV)_半朴素贝叶斯分类器

时间:2024-03-13 14:47:31

相关推荐

机器学习笔记_贝叶斯分类器(IV)_半朴素贝叶斯分类器

为什么需要半朴素贝叶斯分类器

1:后验概率 P(c∣x) 计算起来比较困难。

2:属性条件独立性假设在现实任务中往往很难成立。

半朴素贝叶斯分类器的基本思想

适当考虑一部分属性之间的相互依赖信息,从而既不需要进行联合概率计算,又不至于彻底忽略比较强的属性依赖关系。

常用策略_”独依赖估计”

方法:假设每个属性在类别之外最多仅依赖于一个其他属性

P(c∣x)∝P(c)Πdi=1P(xi∣c,pai)

其中 pai 为属性 xi 所依赖的属性,称为 xi 的父属性。此时,对每个属性 xi ,若其夫属性 pai 已知,则可以采用类似 P^(xi∣c)=|Dc,xi|+1|Dc|+Ni 的办法来估计概率值 P(xi∣c,pai) 于是问题就转换为如何确定每个属性的父属性,不同的做法将产生不同的独依赖分类器。

不同的独依赖分类器

NB

就是朴素贝叶斯分类器

SPODE

假设所有的属性都依赖于同一个属性,称为“超父”,然后通过交叉验证的方式来确定超父属性。由此产生了SPODE(Super-Parent ODE)方法。

TAN

TAN(Tree Augmented naive Bayes)在最大带权生成树(maximum weighted spanning tree)算法的基础上,通过下面的步骤将属性间的依赖关系简化为如图所示的树形结构:

1. 计算任意两个属性之间的条件互信息(conditional mutual information)

I(xi,xj∣y)=∑xi,xj;c∈YP(xi,xj∣c)logP(xi,xj∣c)P(xi∣c)P(xj∣c)

2. 以属性为结点构建完全图,任意两个结点之间的边权重重设为 I(xi,xj∣y) ;

3. 构建此完全图的最大带权生成树,挑选根变量,将边置为有向边

4. 加入类别结点 y ,增加从y到每个属性的有向边。

条件互信息 I(xi,xj∣y) 刻画了属性 xi 和 xj 在已知类别的情况下的相关性,因此通过最大生成树算法,TAN实际上仅保留了强相关属性之间的依赖性。

AODE

AODE(Averaged One-Dependent Estimator)是一种基于集成学习机制、更为强大的独依赖分类器,与SPODE通过模型选择确定超父属性不同,AODE尝试将每个属性作为超父来构建SPODE。然后将这些具有足够训练数据支持的SPODE集成起来作为最终结果,即:

P(c∣x)∝∑i=1|Dxi|≥m′dP(c,xi)Πdj=1P(xi∣c,xi)

其中 Dxi 在第 i 个属性上取值为xi的样本的集合, m′ 为阈值或者常数,显然AODE需要估计 P(c,xi) 和 P(xj∣c,xi) 于是:

P^(c,xi)=|Dc,xi|+1|D|+NiP^(xj∣c,xi)=|Dc,xi,xj|+1|Dc,xi|+Nj

其中 Ni 是第 i 个属性可能的取值数,Dc,xi是类别为 c 且在第i个属性上取值为 xi 的样本的集合, Dc,xi,xj 是类别为 c 且在第i和第 j 个属性上取值分别为xi和 xj 的样本的集合。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。