700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 与自定义词典 分词_使用jieba库进行中文分词 关键词提取 添加自定义的词典进行分词...

与自定义词典 分词_使用jieba库进行中文分词 关键词提取 添加自定义的词典进行分词...

时间:2020-09-22 00:10:37

相关推荐

与自定义词典 分词_使用jieba库进行中文分词 关键词提取 添加自定义的词典进行分词...

jieba库在中文分词中很常用,做一个简单的介绍和运用~

需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中。

注释:①jieba库cut()函数默认分词模式为cut_all = False,即不是全模式,而是精确模式。全模式分词,以“我来到北京清华大学”为例,全模式分词结果为:我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学。可以看出,全模式分词词与词之间会有内容重叠,会将所有可能的分词结果都展示出来,如清华、清华大学。如果是精确模式则为:我/来到/清华大学。

②在写出分词结果时,t.write('/'.join(seg_list))采用'/'对每个词进行间隔,jieba分词器默认是用空格进行间隔。

结果如下:

需求2:提取十九大报告中的前十个关键词

注释:①使用jieba.analyse模块需要单独加载。②jieba库默认的关键词权重计算方法为TF-IDF。

运行结果如下:

若指定返回的关键字的词性:

需求3:导入本地的词典对默认分词词典进行补充

先用jieba自带的词典对一段中文文本进行分词,代码如下:

分词效果如下:

可以看出,竞选集会、新冠病毒、功夫流感、新冠肺炎病毒、中国病毒等词应该是被划分为一个词才对。因此,我们自定义一个字典,对jieba原有字典进行补充:

字典一般要求一行一个词。

再次进行分词:

结果如下:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。