700字范文 > 自然语言处理(NLP)之pyltp的介绍与使用(中文分词词性标注命名实体识别依存句法

自然语言处理(NLP)之pyltp的介绍与使用(中文分词词性标注命名实体识别依存句法

时间：2020-05-17 12:02:26

pyltp的简介

语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广，是国内外最具影响力的中文处理基础平台。它提供的功能包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等。

pyltp 是 LTP 的 Python 封装，同时支持Python2和Python3版本。Python3的安装方法为：

pip3 install pyltp

官网下载网址：/project/pyltp/0.1.7/官方使用说明文档：https://pyltp.readthedocs.io/zh_CN/develop/api.html

若pyltp安装失败，可以参考博文：pyltp安装教程及简单使用 - 大明王 - 博客园

在使用该模块前，需要下载完整的模型文件，文件下载地址为：/share/link?shareid=1988562907&uk=2738088569#list/path=%2F 。pyltp 的所有输入的分析文本和输出的结果的编码均为 UTF-8。模型的数据文件如下：

其中，cws.model用于分词模型，lexicon.txt为分词时添加的用户字典，ner.model为命名实体识别模型，parser.model为依存句法分析模型，pisrl.model为语义角色标注模型，pos为词性标注模型。

pyltp的使用

pyltp的使用示例项目结构如下：

分句

分句指的是将一段话或一片文章中的文字按句子分开，按句子形成独立的单元。示例的Python代码sentenct_split.py如下：

from pyltp import SentenceSplitter# 分句doc = '据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于1月14日访问韩国。' \'盖茨原计划从明年1月9日至14日陆续访问中国和日本，目前，他决定在行程中增加对韩国的访问。莫莱尔表示，' \'盖茨在访韩期间将会晤韩国国防部长官金宽镇，就朝鲜近日的行动交换意见，同时商讨加强韩美两军同盟关系等问题，' \'拟定共同应对朝鲜挑衅和核计划的方案。'# 分句sents = SentenceSplitter.split(doc)for i, sent in enumerate(sents):print(i, sent)

运行结果：

0 据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于1月14日访问韩国。1 盖茨原计划从明年1月9日至14日陆续访问中国和日本，目前，他决定在行程中增加对韩国的访问。2 莫莱尔表示，盖茨在访韩期间将会晤韩国国防部长官金宽镇，就朝鲜近日的行动交换意见，同时商讨加强韩美两军同盟关系等问题，拟定共同应对朝鲜挑衅和核计划的方案。

分词

分词指的是将一句话按词语分开，按词语形成独立的单元。示例的Python代码words_split.py如下：

import osfrom pyltp import Segmentorcws_model_path = os.path.join(os.path.dirname(__file__), 'data/cws.model') # 分词模型路径，模型名称为`cws.model`lexicon_path = os.path.join(os.path.dirname(__file__), 'data/lexicon.txt') # 参数lexicon是自定义词典的文件路径segmentor = Segmentor()segmentor.load_with_lexicon(cws_model_path, lexicon_path)sent = '据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于1月14日访问韩国。'words = segmentor.segment(sent) # 分词print(type(words)) # type:是对象print('/'.join(words))segmentor.release()

运行结果：

<class 'pyltp.VectorOfString'>据/韩联社/12月/28日/反映/，/美/国防部/发言人/杰夫·莫莱尔/27日/表示/，/美/国防部长/盖茨/将/于//1月/14日/访问/韩国/。

词性标注

词性标注指的是一句话分完词后，制定每个词语的词性。示例的Python代码postagger.py如下：

import osfrom pyltp import Segmentor, Postagger# 分词cws_model_path = os.path.join(os.path.dirname(__file__), 'data/cws.model') # 分词模型路径，模型名称为`cws.model`lexicon_path = os.path.join(os.path.dirname(__file__), 'data/lexicon.txt') # 参数lexicon是自定义词典的文件路径segmentor = Segmentor()segmentor.load_with_lexicon(cws_model_path, lexicon_path)sent = '据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于1月14日访问韩国。'words = segmentor.segment(sent) # 分词print(words) # type: object# 词性标注pos_model_path = os.path.join(os.path.dirname(__file__), 'data/pos.model') # 词性标注模型路径，模型名称为`pos.model`postagger = Postagger() # 初始化实例postagger.load(pos_model_path) # 加载模型postags = postagger.postag(words) # 词性标注for word, postag in zip(words, postags):print(word, postag)# 释放模型segmentor.release()postagger.release()'''词性标注结果说明https://ltp.readthedocs.io/zh_CN/latest/appendix.html#id3'''

运行结果：

<pyltp.VectorOfString object at 0x000001B4139C9CF0>据 p韩联社 ni12月 nt28日 nt反映 v， wp美 j国防部 n发言人 n杰夫·莫莱尔 nh27日 nt表示 v， wp美 j国防部长 n盖茨 nh将 d于 p nt1月 nt14日 nt访问 v韩国 ns。 wp

词性标注结果可参考网址：https://ltp.readthedocs.io/zh_CN/latest/appendix.html 。

命名实体识别

命名实体识别（NER）指的是识别出一句话或一段话或一片文章中的命名实体，比如人名，地名，组织机构名。示例的Python代码ner.py如下：

import osfrom pyltp import Segmentor, Postaggerfrom pyltp import NamedEntityRecognizer# 分词cws_model_path = os.path.join(os.path.dirname(__file__), 'data/cws.model') # 分词模型路径，模型名称为`cws.model`lexicon_path = os.path.join(os.path.dirname(__file__), 'data/lexicon.txt') # 参数lexicon是自定义词典的文件路径segmentor = Segmentor()segmentor.load_with_lexicon(cws_model_path, lexicon_path)sent = '据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于1月14日访问韩国。'words = segmentor.segment(sent) # 分词print(list(words))# 词性标注pos_model_path = os.path.join(os.path.dirname(__file__), 'data/pos.model') # 词性标注模型路径，模型名称为`pos.model`postagger = Postagger() # 初始化实例postagger.load(pos_model_path) # 加载模型postags = postagger.postag(words) # 词性标注print(list(postags))# 命名实体识别ner_model_path = os.path.join(os.path.dirname(__file__), 'data/ner.model') # 命名实体识别模型路径，模型名称为`pos.model`recognizer = NamedEntityRecognizer() # 初始化实例recognizer.load(ner_model_path) # 加载模型# netags = recognizer.recognize(words, postags) # 命名实体识别# print(type(netags)) # type: object# 提取识别结果中的人名，地名，组织机构名persons, places, orgs = set(), set(), set()netags = list(recognizer.recognize(words, postags)) # 命名实体识别print(netags)i = 0for tag, word in zip(netags, words):j = i# 人名if 'Nh' in tag:if str(tag).startswith('S'):persons.add(word)elif str(tag).startswith('B'):union_person = wordwhile netags[j] != 'E-Nh':j += 1if j < len(words):union_person += words[j]persons.add(union_person)# 地名if 'Ns' in tag:if str(tag).startswith('S'):places.add(word)elif str(tag).startswith('B'):union_place = wordwhile netags[j] != 'E-Ns':j += 1if j < len(words):union_place += words[j]places.add(union_place)# 机构名if 'Ni' in tag:if str(tag).startswith('S'):orgs.add(word)elif str(tag).startswith('B'):union_org = wordwhile netags[j] != 'E-Ni':j += 1if j < len(words):union_org += words[j]orgs.add(union_org)i += 1print('人名：', '，'.join(persons))print('地名：', '，'.join(places))print('组织机构：', '，'.join(orgs))# 释放模型segmentor.release()postagger.release()recognizer.release()

运行结果：

命名实体识别结果可参考网址：https://ltp.readthedocs.io/zh_CN/latest/appendix.html 。

依存句法分析

依存语法 (Dependency Parsing, DP) 通过分析语言单位内成分之间的依存关系揭示其句法结构。直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。示例的Python代码parser.py代码如下：

import osfrom pyltp import Segmentor, Postagger, Parser# 分词cws_model_path = os.path.join(os.path.dirname(__file__), 'data/cws.model') # 分词模型路径，模型名称为`cws.model`lexicon_path = os.path.join(os.path.dirname(__file__), 'data/lexicon.txt') # 参数lexicon是自定义词典的文件路径segmentor = Segmentor()segmentor.load_with_lexicon(cws_model_path, lexicon_path)sent = '据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于1月14日访问韩国。'words = segmentor.segment(sent) # 分词print(list(words))# 词性标注pos_model_path = os.path.join(os.path.dirname(__file__), 'data/pos.model') # 词性标注模型路径，模型名称为`pos.model`postagger = Postagger() # 初始化实例postagger.load(pos_model_path) # 加载模型postags = postagger.postag(words) # 词性标注print(list(postags))# 依存句法分析par_model_path = os.path.join(os.path.dirname(__file__), 'data/parser.model') # 模型路径，模型名称为`parser.model`parser = Parser() # 初始化实例parser.load(par_model_path) # 加载模型arcs = parser.parse(words, postags) # 句法分析print(arcs) # type: objectrely_id = [arc.head for arc in arcs] # 提取依存父节点idprint(rely_id)relation = [arc.relation for arc in arcs] # 提取依存关系print(relation)heads = ['Root' if id == 0 else words[id - 1] for id in rely_id] # 匹配依存父节点词语print(heads)for i in range(len(words)):print(relation[i] + '(' + words[i] + ', ' + heads[i] + ')')# 释放模型segmentor.release()postagger.release()parser.release()

运行结果：

['据', '韩联社', '12月', '28日', '反映', '，', '美', '国防部', '发言人', '杰夫·莫莱尔', '27日', '表示', '，', '美', '国防部长', '盖茨', '将', '于', '', '1月', '14日', '访问', '韩国', '。']['p', 'ni', 'nt', 'nt', 'v', 'wp', 'j', 'n', 'n', 'nh', 'nt', 'v', 'wp', 'j', 'n', 'nh', 'd', 'p', 'nt', 'nt', 'nt', 'v', 'ns', 'wp']<pyltp.VectorOfParseResult object at 0x000001DDF2F797B0>[12, 5, 4, 5, 1, 1, 8, 9, 10, 12, 12, 0, 12, 15, 16, 22, 22, 22, 21, 21, 18, 12, 22, 12]['ADV', 'SBV', 'ATT', 'ADV', 'POB', 'WP', 'ATT', 'ATT', 'ATT', 'SBV', 'ADV', 'HED', 'WP', 'ATT', 'ATT', 'SBV', 'ADV', 'ADV', 'ATT', 'ATT', 'POB', 'VOB', 'VOB', 'WP']['表示', '反映', '28日', '反映', '据', '据', '国防部', '发言人', '杰夫·莫莱尔', '表示', '表示', 'Root', '表示', '国防部长', '盖茨', '访问', '访问', '访问', '14日', '14日', '于', '表示', '访问', '表示']ADV(据, 表示)SBV(韩联社, 反映)ATT(12月, 28日)ADV(28日, 反映)POB(反映, 据)WP(，, 据)ATT(美, 国防部)ATT(国防部, 发言人)ATT(发言人, 杰夫·莫莱尔)SBV(杰夫·莫莱尔, 表示)ADV(27日, 表示)HED(表示, Root)WP(，, 表示)ATT(美, 国防部长)ATT(国防部长, 盖茨)SBV(盖茨, 访问)ADV(将, 访问)ADV(于, 访问)ATT(, 14日)ATT(1月, 14日)POB(14日, 于)VOB(访问, 表示)VOB(韩国, 访问)WP(。, 表示)

依存句法关系：

依存句法分析结果可参考网址：https://ltp.readthedocs.io/zh_CN/latest/appendix.html 。

语义角色标注

语义角色标注是实现浅层语义分析的一种方式。在一个句子中，谓词是对主语的陈述或说明，指出“做什么”、“是什么”或“怎么样，代表了一个事件的核心，跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有：施事者（Agent）、受事者（Patient）、客体（Theme）、经验者（Experiencer）、受益者（Beneficiary）、工具（Instrument）、处所（Location）、目标（Goal）和来源（Source）等。示例的Python代码rolelabel.py如下：

import osfrom pyltp import Segmentor, Postagger, Parser, SementicRoleLabeller# 分词cws_model_path = os.path.join(os.path.dirname(__file__), 'data/cws.model') # 分词模型路径，模型名称为`cws.model`lexicon_path = os.path.join(os.path.dirname(__file__), 'data/lexicon.txt') # 参数lexicon是自定义词典的文件路径segmentor = Segmentor()segmentor.load_with_lexicon(cws_model_path, lexicon_path)sent = '据韩联社12月28日反映，美国防部发言人杰夫·莫莱尔27日表示，美国防部长盖茨将于1月14日访问韩国。'words = segmentor.segment(sent) # 分词print(list(words))# 词性标注pos_model_path = os.path.join(os.path.dirname(__file__), 'data/pos.model') # 词性标注模型路径，模型名称为`pos.model`postagger = Postagger() # 初始化实例postagger.load(pos_model_path) # 加载模型postags = postagger.postag(words) # 词性标注print(list(postags))# 依存句法分析par_model_path = os.path.join(os.path.dirname(__file__), 'data/parser.model') # 模型路径，模型名称为`parser.model`parser = Parser() # 初始化实例parser.load(par_model_path) # 加载模型arcs = parser.parse(words, postags) # 句法分析print(arcs)# 语义角色标注srl_model_path = os.path.join(os.path.dirname(__file__), 'data/pisrl_win.model') # 语义角色标注模型目录路径labeller = SementicRoleLabeller() # 初始化实例labeller.load(srl_model_path) # 加载模型roles = labeller.label(words, postags, arcs) # 语义角色标注print(roles) # type: object# 打印结果for role in roles:print(words[role.index], end=' ')print(role.index, "".join(["%s:(%d,%d) " % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))# 释放模型segmentor.release()postagger.release()parser.release()labeller.release()

运行结果：

如果windows下使用模型pisrl.model会报错，解决办法：

下载这个把pisrl.model替换掉

http://model./server/3.4.0/pisrl_win.model

自然语言处理(NLP)之pyltp的介绍与使用(中文分词词性标注命名实体识别依存句法分析语义角色标注)

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。