700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 【综述】方面级情感分析 Aspect-level Sentiment Classification

【综述】方面级情感分析 Aspect-level Sentiment Classification

时间:2023-09-14 05:25:52

相关推荐

【综述】方面级情感分析   Aspect-level Sentiment Classification

随着信息技术快速发展,在互联网上发表评论已成为人们表达观点传递经验的重要途径。与此同时,互联网评论文本也成为人们寻找决策参考信息的重要来源。然而,信息爆炸式增长使得从中获取有用信息的难度加大。对评论文本所表达的观点进行自动获取的情感分析技术,通过对文本中的观点、情感、评价和态度进行计算,实现自动化情感识别,为用户获取观点信息带来便利。

文本情感分析,也称为观点挖掘(Opinion Mining),是针对人们对实体(包括产品、服务、组织、个人、议题、事件、话题及他们的属性等)表达的观点、评价、态度和情感进行计算的研究。它涉及了很多细分方向,名称很多,例如观点提取、情感挖掘、主观性分析,情感计算、情绪分析和评论挖掘等。虽然这些任务略有不同,但都属于情感分析的范畴。自2000年初以来,情感分析逐渐成了自然语言处理(Natural Language Processing,NLP)领域的一个重要研究方向。

国际语义评测(International Workshop on Semantic Evaluation,SemEval)和国际自然语言处理与中文计算会议(International conference on Natural Language Processing and Chinese Computing,NLPCC)分别自和起多次组织情感分析的评测任务,发布了一系列基准数据集,吸引大量研究机构和学者参与(统计情况如下表所示)。

文本情感分析可以按分析粒度分为篇章级情感分析句子级情感分析方面级情感分析。早期阶段,篇章级和句子级情感分析任务是研究的重点。它们假设一段文本只有一种情感,并对给定文本进行分析并判断其整体的情感极性是正面、负面或者中性等。篇章级和句子级情感分析的方法仅仅是处理对象文本的长度的差异。目前,针对文本整体进行情感分析的研究技术已经相对成熟,达到了较好的性能。然而,对文本进行整体情感分析会掩盖其细节,且整体情感并不能反映人们对意见目标的、细粒度的情感表达。如果只关注整体情感而忽略具体细节,可能会在推荐系统、问答系统等现实应用中计算出有误的结果。因此,为了进行更完整的情感分析,系统需要发现文本评论的各个方面对象,并确定文本针对每个方面所表达的情感信息,这就是方面级情感分析技术。

与篇章级和句子级情感分析相比,方面级情感分析研究面临了新问题。一方面,方面级情感分析需要获取文本中的评价对象方面信息。评价对象方面可能显式的出现在文本中,也可能隐式的包含在文本语义中。因为方面的形式和数量都不确定,所以方面级情感分析技术不仅要对显式的语言表达结构进行分析,还要对隐式的语义表达进行深层理解。另一方面,方面级情感分析需要为每个评价对象确定对其表达情感的上下文范围。自然语言不但表达连贯、用语灵活,指代词等表达方式也非常普遍。方面级情感分析技术需要正确理解了文本词语级和句子级的语义信息,才能正确地界定对各个评价对象方面进行情感表达的上下文范围。解决上述问题需要更强大的NLP技术。

2000年初,Hu等[1]首次建立了基于规则的细粒度情感分析模型,命名为基于特征的观点摘要(Feature-based Opinion Summarization),受到学术界关注,带动了该领域技术方法的发展。,Thet等[2]明确提出了方面级情感分析(Aspect Based Sentiment Analysis,ABSA)的概念,并定义评论对象“方面”为实体的属性或实体的组成部分。,Liu[3]进一步形式化地给出了观点的定义,为方面级情感分析研究指明了方向。接下来,国际语义评测SemEval从起连续三年将ABSA任务作为其子任务,梳理了四个子任务,提供了一系列人工标注的基准数据集[4-6]。近年来,基于深度学习技术的方面级情感分析研究蓬勃发展,取得了突破性进展。

下面根据Liu[3]和SemEval评测会议[4]的阐述,梳理本文涉及的基本概念。

定义1观点(Opinion):观点对象包含五个元素:(表达者,实体,方面,时间,情感)。其中,表达者是观点表达的主体;实体是主体评价的客体;方面是实体的一个方面;情感一般包括正面、负面和中立等;时间是发表观点的时间。

定义2实体(Entity):实体是评论的目标,这个目标可以是产品、服务、话题、时间、人物、组织或事件等。方面级情感分析研究中的每个观点都有一个目标实体,可以是被评价的实体本身,也可以是实体的一部分、一个模块或相关实体。

定义3方面(Aspect):方面是评论的对象实体属性(如在餐厅评论中,一个方面可以是食品的价格,质量等)。方面是一个较高层次的概念,相对于评论文本包含的词汇,方面概念集合规模很小。

早期研究将评论中的方面信息划分为两类:显式方面与隐式方面显式方面是指在评论文本中显式出现的评价对象方面表述,隐式方面则是暗含在评论文本语义中的评论对象。,SemEval将方面级情感分析任务的方面对象分为方面术语方面类别。方面术语是显式方面表述,方面类别则为方面表述不显示出现在评论文本的情况提供了获取方面信息的解决思路。SemEval提供的基准数据集,由人工标注了评论文本中的方面术语、方面类别和情感极性信息,相关定义如下。

定义4方面术语(Aspect Terms):方面术语是出现在评论文本中的词语序列,是评论对象实体方面的表述信息,通常有较大的词汇量。方面术语可以是一个词也可以由多个词连接组成。

定义5方面类别(Aspect Category):方面类别由评价对象实体及其属性组合而成。

定义6情感极性(Sentiment Polarity):情感极性是指评论文本中表达的正面(positive)、负面(negative)、中性(neutral)或者冲突(conflict)的情感。其中,冲突(conflict)是指评论文本对评价对象既表示了正面情感又表达了负面情感。

<sentence id="35390182#756337#5"><text>Try the rose roll (not on menu).</text><aspectTerms><aspectTerm term="rose roll" polarity="positive" from="8" to="17"/><aspectTerm term="menu" polarity="neutral" from="26" to="30"/></aspectTerms><aspectCategories><aspectCategory category="food" polarity="positive"/></aspectCategories></sentence>

方面级情感分析任务的目标是找到评价目标方面信息及其对应的情感极性。根据定义4定义5,方面信息可以是从实际的评论文本中提取方面术语,也可以是预定义的方面类别。因此,方面级情感分析可划分为方面术语抽取(Aspect Term Extraction,ATE)方面类别检测(Aspect Category Detection,ACD)方面术语极性分类(Aspect Term Polarity,ATP)方面类别极性分类(Aspect Category Polarity,ACP)四个核心子任务。

从研究框架上,该领域研究可分为无监督学习半监督学习有监督学习。目前,多数研究针对方面术语抽取、方面类别检测、方面术语情感分类和方面极性情感分类四个子任务之一进行技术研究,只有少量研究构建了多个子任务的联合模型。

方面术语抽取旨在从无结构的文本中抽取出其中包含的所有方面术语。值得注意的是,该子任务不仅要识别出表达了情感色彩的方面术语,还要识别没有表达情感的或情感为中性的方面术语。已有的方面术语抽取技术可以分为无监督、弱监督和有监督三类。其中,无监督模型基于频繁模式挖掘、句法规则、话题模型和深度学习等方法。弱监督模型基于词对齐、标签传播等方法。有监督模型将方面术语抽取任务视为词语级的序列标注问题,早期基于传统特征工程方法训练序列标注分类器。近年来基于深度学习的序列标注模型达到了目前方面术语抽取任务的最佳性能。

方面类别检测是根据一组预定义的方面类别,找出评论文本所有观点评价的方面类别。一个评论文本可以评价一个或多个方面类别,因此该任务是文本多标签分类任务的特例。早期一些研究基于话题模型实现了无监督的方面目标分类,但这些方面类别尚未遵循“实体#属性”的定义。近年来,SemEval评测会议发布方面类别检测任务基准数据集促进了基于深度学习的有监督模型和半监督模型的研究。

方面术语极性分类和方面类别极性分类分别对方面术语和方面类别确定评论文本对其表达的情感极性信息,本文统称为方面级极性分类。早期细粒度情感分类模型通常基于情感词典和人工规则等实现无监督的极性分类。随着,人工标注数据的发布,有监督的方面级极性分类成为了研究的主流方向。方面级极性分类是文本分类任务的特例,但有自身细节特点,即方面级极性分类需要判断文本语义特征是否与方面目标相关。随着深度学习技术的发展,基于传统特征工程的方法已逐步被深度神经网络的方法超越和取代。近年来,研究者利用注意力机制对评论文本和评价对象方面的依赖关系建模,并根据相关性捕捉关键信息,相对弱化不重要信息,来指导极性分类,使得方面级极性分类任务取得了突破性进展。

一些研究尝试建立子任务联合模型。早期基于话题模型的方面术语抽取模型自动的按照话题将方面术语归类。近期,研究者尝试在序列标注模型的框架下,采用联合标注或者统一标注的方式,同时进行方面术语抽取和方面术语极性分类任务。

[1] 、M.Hu and B. Liu. Mining and summarizing customer reviews. in Proceedings of the ACM {SIGKDD} International Conference on Knowledge Discovery and Data Mining.().

[2]、T.T. Thet, J.-C. Na and C.S.G. Khoo, Aspect-based sentiment analysis of movie reviews on discussion boards. Journal of Information Science. 36(6), 823-848. ().

[3] 、B. Liu, Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies. ().

[4]、M. Pontiki, D. Galanis, J. Pavlopoulos, H. Papageorgiou, I. Androutsopoulos,and S. Manandhar. Semeval- task 4: Aspect based sentiment analysis. in Proceedings of the 8th International Workshop on Semantic Evaluation(SemEval-). ().

[5]、M. Pontiki, D. Galanis, H. Papageorgiou, S. Manandhar, and I. Androutsopoulos.Semeval- task 12: Aspect based sentiment analysis. in Proceedings of the9th International Workshop on Semantic Evaluation (SemEval-). ().

[6]、M. Pontiki, D. Galanis, H. Papageorgiou, I. Androutsopoulos, S. Manandhar, M.Alsmadi, M. Alayyoub, Y. Zhao, B. Qin, O. De Clercq, and others. Semeval- task 5: Aspect based sentiment analysis. in Proceedings of the 10thInternational Workshop on Semantic Evaluation (SemEval-). ().

文章链接:

综述:方面级情感分析(一)Aspect Based Sentiment Analysis

综述:方面级情感分析(二)Aspect Based Sentiment Analysis

综述:方面级情感分析(三)Aspect Based Sentiment Analysis

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。