LDA应用场景
可以做文本内容提取,比如提取“穆斯林的葬礼”的主题,可能会提取出爱情主题,社会悲剧主题,比如提取“大圣归来影评”的主题,可能提取出怀旧主题,制作精良主题。而每个主题是用一些词语表示的,并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义,可以通过主题词语自己主观猜测,或者把主题词语溯源到文本,自己读读文本总结。名词介绍
在贝叶斯概率理论中,如果后验概率p(θ│x)和先验概率p(θ)满足同样的分布律,那么先验分布和后验分布被叫做共轭分布,同时先验分布p(θ)叫做似然函数p(x|θ)的共轭先验分布。p(θ│x)∝p(x|θ)p(θ)p(x|θ):似然分布,为啥叫似然,似然,像什么什么的样子,X这个变量像什么什么的样子时候的概率就叫似然概率呗,在这里x为词语属于某个主题的次数。p(θ):在这里θ是主题概率,比如一共三个主题,文本的主题分布有可能是(0.1,0.1,0.8),也有可能是(0.2,0.2,0.6),用(θ1,θ2,1-θ1-θ2)代替,那么θ1,θ2的分布函数就是p(θ)。为啥叫先验分布,没给任何信息时候(文本里每个词属于哪个主题未知)时候,可能的主题分布就叫先验分布。p(θ│x):为啥后验分布,因为这是给定x时(词语属于某个主题的次数)的主题分布。为啥p(θ)构造成Dirichlet分布?不让他是喜闻乐见的正态分布?因为简单,工程构造的;正态分布的定义域是实数域的,而θ的取值只能从0到1的。
调参时∂的含义
工程构造了主题概率θ服从狄利克雷分布,即如下,k个参数∂预测k-1个参数p(如下公式里的p就是这里的θ),我们实际调参的时候,参数是(∂,k),即令所有∂都相等,这时的狄利克雷分布被称为对称狄利克雷分布。图1来自:邹博的机器学习课程
图像说明:将dirichlet分布的概率密度函数取对数,绘制对称dirichlet分布的图像,取k=3,即底下两个坐标为θ1和θ2,∂1=∂2=∂3=∂
∂=1时,dirichlet分布变为均匀分布,所有的点被选到的概率相同
∂>1时,更容易取到中间的点,因为概率最大,此时θ1=θ2=θ3的那些点更容易被取到
∂<1时,更容易取到是边上那三个高的点,此时θ (i)=1,其他的概率为0
即若输出的主题不鲜明时,可以把∂调成小于1的值
LDA是如何由文本得到主题词及每篇文档的主题分布呢
令这批文本一共有3个主题,每个主题用6个词表示,即每个主题都是6个主题词.
优缺点
优点:能解决一次多义和多词一义的问题。缺点:文本颠倒顺序后不影响最后的结果。实际工程经验
我曾经做过一个30w条样本,每条内容在100字左右的文本内容提取,发现调不调参无所谓,主题都很鲜明,提取出来的主题也的确是真实的主题。
之前写过的案例