700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 【科学文献计量】文本主题挖掘与可视化

【科学文献计量】文本主题挖掘与可视化

时间:2021-10-08 08:49:15

相关推荐

【科学文献计量】文本主题挖掘与可视化

文本主题挖掘与可视化

1 文献记录的摘要主题标签提取,标签与关键词相似度计算2 基于Sklearn库文本数据主题挖掘(NMP和LDA模型)3 基于Gensim库文本数据主题挖掘与pyLDAvis的交互可视化3.1 基于Gensim库文本数据主题挖掘3.2 文本数据主题挖掘与pyLDAvis的交互可视化

本节按照四部分进行文本主题挖掘与可视化:(1)利用Jieba进行文献记录的主题标签提取,并计算标签与文献记录关键词相似度;(2)使用Sklearn进行文献记录主题挖掘(NMP和LDA模型);(3)使用Gensim进行文献记录主题挖掘(LDA模型)并结合pyLDAvis库进行交互可视化展示。

1 文献记录的摘要主题标签提取,标签与关键词相似度计算

以WOS文献数据为例,借助mk库读取数据。首先对于文本数据需要进行停用词的去除,加载cntext中内置的停用词典,选择英文停用词。输出结果中显示该停用词词典共361个单词,数据类型为列表(为展示方便,只输出前50个单词)。除了加载该词典外,也可以自定义词典或者加载其它词典。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。