700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > NLP-基础知识-007(机器学习-朴素贝叶斯)

NLP-基础知识-007(机器学习-朴素贝叶斯)

时间:2020-03-04 21:01:36

相关推荐

NLP-基础知识-007(机器学习-朴素贝叶斯)

举个例子: 邮件是否是垃圾邮件

垃圾邮件里经常出现“广告”,“购买”,“产品”这些单词。 也就是 p(“广告”| 垃圾) > p(“广告”| 正常),P(“购买”| 垃圾) > p(“购买”| 正常) …. 这些概率怎么计算?

假设: 每个邮件包含10个单词

正常邮件24个 => 单词: 240个 购买出现过3次

垃圾邮件12个 => 单词: 120个 购买出现7次

p("购买|正常") = 3/240

p("购买|垃圾") = 1/120

贝叶斯定理:p(x,y) = p(x|y)p(y) = p(y|x)p(x) ==> p(x|y) = p(y|x)p(x)/p(y)

条件独立:

p(x,y|z) = p(x|z)p(y|z) x和y是条件独立于变量z

来了一个新邮件"购买物品,不是广告"p(正常|内容) >? p(垃圾|内容)= p(内容|正常)p(正常)/p(内容) >? p(内容|垃圾)p(垃圾)/p(内容)= p(内容|正常)p(正常) >? p(内容|垃圾)p(垃圾)p(正常)、p(垃圾)是先验2/3,1/3p(内容|正常) = p(购买,物品、不是、广告|正常) = p(购买|正常)p(物品|正常)p(不是|正常)p(广告|正常)p(购买|正常)、p(物品|正常)、p(不是|正常)、p(广告|正常)都是通过先验知识计算

通过下面例子即可了解模型过程

背景:判断新邮件是否异常数据如下:垃圾邮件:点击 获得 更多 信息购买 最新 产品 获得 优惠优惠 信息 点击 链接正常邮件:明天 一起 开会开会 信息 详见 邮件最新 竞品 信息新邮件:最新 产品 实惠 点击 链接解决方法:v = {点击、获得、更多、信息、购买、最新、产品、优惠、链接、明天、一起、开会、详见、邮件、竞品} |v| = 15训练模型:p(垃圾) = 1/2 p(正常)=1/2p(点击|垃圾) = 3/28p(获得|垃圾) = 3/28p(最新|垃圾) = 1/14p(产品|垃圾) = 1/14p(实惠|垃圾) = 3/28p(链接|垃圾) = 1/14p(点击|正常) = 1/24p(获得|正常) = 2/25p(最新|正常) = 2/25p(产品|正常) = 1/25p(实惠|正常) = 1/25p(链接|正常) = 1/25预测 p(垃圾|邮件) >? p(正常|邮件)p(邮件|垃圾)p(垃圾) >? p(邮件|正常)p(正常)3/28*3/28*1/14*1/14*3/28*1/14 >? 1/24*2/25*2/25*1/25*1/25*1/25underflow:采取log形式overflow:采取平滑

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。