700字范文 > 我对隐含狄利克雷分布（Latent Dirichlet Allocation LDA）的理解

我对隐含狄利克雷分布（Latent Dirichlet Allocation LDA）的理解

时间：2023-05-11 20:47:25

LDA应用场景

可以做文本内容提取，比如提取“穆斯林的葬礼”的主题，可能会提取出爱情主题，社会悲剧主题，比如提取“大圣归来影评”的主题，可能提取出怀旧主题，制作精良主题。而每个主题是用一些词语表示的，并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义，可以通过主题词语自己主观猜测，或者把主题词语溯源到文本，自己读读文本总结。

名词介绍

在贝叶斯概率理论中，如果后验概率p(θ│x)和先验概率p(θ)满足同样的分布律，那么先验分布和后验分布被叫做共轭分布，同时先验分布p(θ)叫做似然函数p(x|θ)的共轭先验分布。p(θ│x)∝p(x|θ)p(θ)p(x|θ)：似然分布，为啥叫似然，似然，像什么什么的样子，X这个变量像什么什么的样子时候的概率就叫似然概率呗，在这里x为词语属于某个主题的次数。p(θ)：在这里θ是主题概率，比如一共三个主题，文本的主题分布有可能是（0.1,0.1,0.8），也有可能是（0.2,0.2,0.6），用（θ1，θ2，1-θ1-θ2）代替，那么θ1，θ2的分布函数就是p(θ)。为啥叫先验分布，没给任何信息时候（文本里每个词属于哪个主题未知）时候，可能的主题分布就叫先验分布。p(θ│x)：为啥后验分布，因为这是给定x时(词语属于某个主题的次数)的主题分布。为啥p(θ)构造成Dirichlet分布？不让他是喜闻乐见的正态分布？

因为简单，工程构造的；正态分布的定义域是实数域的，而θ的取值只能从0到1的。