700字范文 > 与自定义词典分词_使用jieba库进行中文分词关键词提取添加自定义的词典进行分词...

与自定义词典分词_使用jieba库进行中文分词关键词提取添加自定义的词典进行分词...

时间：2020-09-22 00:10:37

jieba库在中文分词中很常用，做一个简单的介绍和运用~

需求1：打开本地的十九大报告文本，并采用jieba分词器进行分词，最后将分词结果存入名为segresult的文本文件中。

注释:①jieba库cut()函数默认分词模式为cut_all = False，即不是全模式，而是精确模式。全模式分词，以“我来到北京清华大学”为例，全模式分词结果为：我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学。可以看出，全模式分词词与词之间会有内容重叠，会将所有可能的分词结果都展示出来，如清华、清华大学。如果是精确模式则为：我/来到/清华大学。

②在写出分词结果时，t.write('/'.join(seg_list))采用'/'对每个词进行间隔，jieba分词器默认是用空格进行间隔。

结果如下:

需求2：提取十九大报告中的前十个关键词

注释：①使用jieba.analyse模块需要单独加载。②jieba库默认的关键词权重计算方法为TF-IDF。

运行结果如下：

若指定返回的关键字的词性：

需求3：导入本地的词典对默认分词词典进行补充

先用jieba自带的词典对一段中文文本进行分词，代码如下:

分词效果如下：

可以看出，竞选集会、新冠病毒、功夫流感、新冠肺炎病毒、中国病毒等词应该是被划分为一个词才对。因此，我们自定义一个字典，对jieba原有字典进行补充：

字典一般要求一行一个词。

再次进行分词：