700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 我对隐含狄利克雷分布(Latent Dirichlet Allocation LDA)的理解

我对隐含狄利克雷分布(Latent Dirichlet Allocation LDA)的理解

时间:2023-05-11 20:47:25

相关推荐

我对隐含狄利克雷分布(Latent Dirichlet Allocation LDA)的理解

LDA应用场景

可以做文本内容提取,比如提取“穆斯林的葬礼”的主题,可能会提取出爱情主题,社会悲剧主题,比如提取“大圣归来影评”的主题,可能提取出怀旧主题,制作精良主题。而每个主题是用一些词语表示的,并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义,可以通过主题词语自己主观猜测,或者把主题词语溯源到文本,自己读读文本总结。

名词介绍

在贝叶斯概率理论中,如果后验概率p(θ│x)和先验概率p(θ)满足同样的分布律,那么先验分布和后验分布被叫做共轭分布,同时先验分布p(θ)叫做似然函数p(x|θ)的共轭先验分布。p(θ│x)∝p(x|θ)p(θ)p(x|θ):似然分布,为啥叫似然,似然,像什么什么的样子,X这个变量像什么什么的样子时候的概率就叫似然概率呗,在这里x为词语属于某个主题的次数。p(θ):在这里θ是主题概率,比如一共三个主题,文本的主题分布有可能是(0.1,0.1,0.8),也有可能是(0.2,0.2,0.6),用(θ1,θ2,1-θ1-θ2)代替,那么θ1,θ2的分布函数就是p(θ)。为啥叫先验分布,没给任何信息时候(文本里每个词属于哪个主题未知)时候,可能的主题分布就叫先验分布。p(θ│x):为啥后验分布,因为这是给定x时(词语属于某个主题的次数)的主题分布。为啥p(θ)构造成Dirichlet分布?不让他是喜闻乐见的正态分布?

因为简单,工程构造的;正态分布的定义域是实数域的,而θ的取值只能从0到1的。

调参时∂的含义

工程构造了主题概率θ服从狄利克雷分布,即如下,k个参数∂预测k-1个参数p(如下公式里的p就是这里的θ),我们实际调参的时候,参数是(∂,k),即令所有∂都相等,这时的狄利克雷分布被称为对称狄利克雷分布

图1来自:邹博的机器学习课程

图像说明:将dirichlet分布的概率密度函数取对数,绘制对称dirichlet分布的图像,取k=3,即底下两个坐标为θ1和θ2,∂1=∂2=∂3=∂

∂=1时,dirichlet分布变为均匀分布,所有的点被选到的概率相同

∂>1时,更容易取到中间的点,因为概率最大,此时θ1=θ2=θ3的那些点更容易被取到

∂<1时,更容易取到是边上那三个高的点,此时θ (i)=1,其他的概率为0

即若输出的主题不鲜明时,可以把∂调成小于1的值

LDA是如何由文本得到主题词及每篇文档的主题分布呢

令这批文本一共有3个主题,每个主题用6个词表示,即每个主题都是6个主题词.

优缺点

优点:能解决一次多义和多词一义的问题。缺点:文本颠倒顺序后不影响最后的结果。

实际工程经验

我曾经做过一个30w条样本,每条内容在100字左右的文本内容提取,发现调不调参无所谓,主题都很鲜明,提取出来的主题也的确是真实的主题。

之前写过的案例

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。