文本主题挖掘与可视化
1 文献记录的摘要主题标签提取,标签与关键词相似度计算2 基于Sklearn库文本数据主题挖掘(NMP和LDA模型)3 基于Gensim库文本数据主题挖掘与pyLDAvis的交互可视化3.1 基于Gensim库文本数据主题挖掘3.2 文本数据主题挖掘与pyLDAvis的交互可视化本节按照四部分进行文本主题挖掘与可视化:(1)利用Jieba进行文献记录的主题标签提取,并计算标签与文献记录关键词相似度;(2)使用Sklearn进行文献记录主题挖掘(NMP和LDA模型);(3)使用Gensim进行文献记录主题挖掘(LDA模型)并结合pyLDAvis库进行交互可视化展示。
1 文献记录的摘要主题标签提取,标签与关键词相似度计算
以WOS文献数据为例,借助mk库读取数据。首先对于文本数据需要进行停用词的去除,加载cntext中内置的停用词典,选择英文停用词。输出结果中显示该停用词词典共361个单词,数据类型为列表(为展示方便,只输出前50个单词)。除了加载该词典外,也可以自定义词典或者加载其它词典。