jieba库在中文分词中很常用,做一个简单的介绍和运用~
需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中。
注释:①jieba库cut()函数默认分词模式为cut_all = False,即不是全模式,而是精确模式。全模式分词,以“我来到北京清华大学”为例,全模式分词结果为:我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学。可以看出,全模式分词词与词之间会有内容重叠,会将所有可能的分词结果都展示出来,如清华、清华大学。如果是精确模式则为:我/来到/清华大学。
②在写出分词结果时,t.write('/'.join(seg_list))采用'/'对每个词进行间隔,jieba分词器默认是用空格进行间隔。
结果如下:
需求2:提取十九大报告中的前十个关键词
注释:①使用jieba.analyse模块需要单独加载。②jieba库默认的关键词权重计算方法为TF-IDF。
运行结果如下:
若指定返回的关键字的词性:
需求3:导入本地的词典对默认分词词典进行补充
先用jieba自带的词典对一段中文文本进行分词,代码如下:
分词效果如下:
可以看出,竞选集会、新冠病毒、功夫流感、新冠肺炎病毒、中国病毒等词应该是被划分为一个词才对。因此,我们自定义一个字典,对jieba原有字典进行补充:
字典一般要求一行一个词。
再次进行分词:
结果如下: