欢迎,计算机科学与信息计算爱好者!

sentiment analysis

scott 9个月前 (01-12) 76次浏览 0个评论 扫描二维码
文章目录[隐藏]

(文本)情感分析 (text) sentiment analysis
情感分析情感挖掘意见提取意见挖掘观点挖掘
自然语言处理

文本情感分析是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。 通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态,或是作者有意向的情感交流。
链接维基百科

文本情感分析——以下简称为情感分析——也称为意见挖掘,是对人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度的计算研究。这是一个很广泛的领域,也有很多不同的名称和不同的任务,例如情感分析,意见挖掘,意见提取,情感挖掘,主观性分析,情感分析,情感分析,评论挖掘等等。在工业中,情感分析这个术语更常用,在学术界,情感分析和意见挖掘都经常被使用。无论如何,他们基本上代表了同一个研究领域。
按 照Liu对 情 感 的 定 义,情 感 表 达 由 四个元素构成,分别是[Holder,Target,Polarity,Time],其中文本发表的时间通常可以使用简单的规则获取,因此情感分析的目标通常是从无结构的文本中自动分析出Holder(观点持有人)、Target(评价对象)、Polarity(极性)三元素。Holder是观点的发出者;Target是该观点评价的对象(如实体或实体的属性,或者话题);Polarity是所表达的情感类别,由于任务不同,情感类别体系会不同,通常包括褒贬、褒贬中、喜怒哀乐悲恐惊、情感打分(如1-5分)等分类体系。文本中的情感又分为显式情感及隐式情感,显式情感是指包含明显的情感词语(例如高兴、漂亮)情感文本,隐式情感是指不包含情感词语的情感文本,例如“这个桌子上面一层灰”。由于隐式情感分析难度比较大,比较依赖于背景知识及常识知识,目前许多工作集中在显示情感分析研究。
目前的情感分析研究可归纳为:情感资源构建、情感元素抽取、情感分类及情感分析应用系统,具体见下图:
sentiment analysis

情感分析任务和其他自然语言处理任务一样,首先需要资源的支持,在此基础上,开展情感分析元素抽取以及文本情感分类工作,下面我们将进行简要介绍。
1. 文本情感资源构建:情感资源一般包括情感词典和情感语料库。目前人工构建情感词典较多的是收集了褒贬情感词的词典,如哈佛大学GI(General Inquiry)情感词典 、匹兹堡大学提供的OpinionFinder主观情感词典 、伊利诺伊大学Bing Liu提供的词典资源 ,而对于喜、怒、哀、乐、悲、恐、惊等情感相应的词典还比较少,英语中主要有WordNet-Affect,随后有不少学者基于WordNet-Affect又陆续扩展到其他语言。但人工构建词典需要较大的代价,规模也会受限。目前人们已开始研究自动构建情感词典的方法。
2. 情感元素抽取:情感元素抽取旨在抽取文本中的评价发出者、评价对象和情感表达,也称为细粒度情感分析。评价对象和评价表达抽取是情感元素抽取任务的核心。评价对象是指文本中被讨论的主题,具体表现为文本中评价表达所修饰的对象;评价表达抽取主要针对显式情感表达的文本,是指文本中代表情绪、情感、意见或其他个人状态的主观表述,通常以词语或短语形式出现,如“非常漂亮”,“不高兴”。由于评价对象和评价表达紧密联系的,并且可以按照序列标注任务进行识别,尽管两者可以作为独立的任务,但采用联合识别模型会更好的结合两者的信息。目前用来抽取评价表达和评价对象的方法主要分为两种:基于句法规则匹配的方法和基于机器学习的有指导学习算法。
3. 文本情感分类:文本情感分类的目的是判断给定句子或篇章的情感类别,也称为粗粒度情感分析。文本情感分类是情感分析的最终目标,通常可以在情感元素抽取的基础上进行句子或篇章的情感分类。近年来,由于深度学习的兴起,可以越过情感元素的抽取过程,避免级联错误,使端到端的情感分析成为可能。已有的研究工作可以大体分为基于情感词典和基于特征学习方法,在上述分析技术的支持下产生了大批基于情感分析的系统和应用。总体来看,它们应用在商品/服务评论分析、社交网络分析、情感机器人这三方面。传统的情感分析应用聚焦于来自消费产品和服务的评论。基于产品评论的代表性平台有Google Shopping ,它还可以为用户提供在线购物平台的商品检索和比价服务;OpinionEQ 允许商业组织和个人按需定制产品分析服务。微博、Twitter等社交网络服务的爆炸式发展也为研究人员带来了极大的机遇,研究人员能够通过分析大量富情感的数据来分析公众的情绪变化,并对政府管理、经济、娱乐领域产生影响。除了在电商平台和社交网络得到广泛应用,情感分析技术还被引入到对话机器人领域。例如,微软的“小冰”机器人 可以通过分析用户的文本输入和表情贴图,理解用户当前的情绪状况,并据此回复文本或者语音等情感回应。部分研究机构还将情感分析技术融入实体机器人中。
[描述来源:Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan &Claypool Publishers.]
[图片及描述来源:文本情感分析:让机器读懂人类情感|机器之心]

发展历史

虽然语言学和自然语言处理(NLP)历史悠久,但直到2000年起才开始有较多学者从事情感分析,从那时起,该领域就成为一个非常活跃的研究领域。这主要是由于其商业价值极高,并且在发展过程中提出了许多具有挑战性的研究问题。并且随着时代的发展,现在在网络上的社交媒体上拥有大量有见地的数据,这些都促进了情感分析研究的发展。
早期的一些工作主要是对隐喻,情感形容词,主观性和观点的解释。1990年,Janyce M.Wiebe发表文章研究在小说中某一句话是否代表了书中角色的观点,1997年Vasileios Hatzivassiloglou和Kathleen R. McKeown发表论文,从大量语料库中识别和验证形容词的正面或负面语义,他们使用对数线性回归模型,并实现了对该语料库中出现的形容词分类精度超过90%的准确度。这属于当时比较典型的研究。Peter Turney在2002年提出了一种简单的无监督学习算法,他展示了如何通过网络语料库计算交互信息统计数据,可以高度准确地将意见词语分为正面或负面。在Epinions的410条评论中,从四个不同领域(汽车,银行,电影和旅游目的地的评论)抽样评估时, 该算法的平均准确率为74%。同年,Bo Pang等学者根据整体情感来对文档进行分类。他们以电影评论作为训练数据所得出的实证结果显示,标准的机器学习技术明确优于人类的表现。 但他们采用的三种机器学习方法(朴素贝叶斯,最大熵分类和支持向量机)在传统的基于主题的分类方面表现不如情绪分类。
而情感分析一词可能首先出现在Tetsuya Nasukawa和 Jeonghee Yi于2003年发表的论文中,他们阐述了一种情绪分析方法,用于从文档中提取与特定主体的正面或负面相关的情绪,而不是将整个文档分类为正面或负面。他们提出情绪分析中的基本问题是确定情绪在文本中的表达方式 以及这些表达是否表明对该主题有正面(有利)或负面(不利)意见。为了提高情感分析的准确性,正确识别情感表达与主语之间的语义关系是很重要的。通过使用语法分析器和情感词典进行语义分析,他们的原型系统在寻找网页和新闻文章中的情绪时实现了75%-95%的高精度。
而意见挖掘这一术语则最早出现在Kushal Dave等人的文章中,他们希望使用意见挖掘工具从大量的产品评论中生成产品属性列表(质量,功能等)并汇总关于每个项目的观点。他们的分类器利用用于特征提取和评分的信息检索技术。该方法对从网络搜索收集的单个句子进行操作时,由于噪音和模糊性,性能受到限制。在完整的基于Web的工具的上下文中,并且通过将句子分组为属性的简单方法,能够获取在定性FENXI上非常有用的结果。
2005年,Bo Pang和Lillian Lee延伸了早先的基础两极意见研究,将电影影评分类并预测为3至4星的多重级别。结果显示当采用适合于问题的新颖相似性度量时,他们提出的元算法可以对SVM的多元回归表现和回归表现提供显着的改进。2008年,Xiaowen Ding等人利用否定词语和转折词语,提升了基于词典的情感分类方法。
随着社交网络的发展,2010年,以twitter为语料库,Alexander Pak, Patrick Paroubek利用n-gram算法进行了情感分析和意见挖掘。他们构建了一个情感分类器,能够为文档确定积极,消极和中立的情感。实验评估表明,他们提出的技术是有效的,并且比先前提出的方法表现更好。在该研究中语言为英语,但是所提出的技术可以与任何其他语言一起使用。2011年,Maite Taboada和Manfred Stede等人提出语义定向计算器(SO-CAL), 利用词语的情感强度以及情感加强和否定规则判断篇章的情感极性。
基于神经网络的语义组合算法被验证是一种非常有效的特征学习手段,2013年,Richard Socher和Christopher Potts等人提出多个基于树结构的Recursive Neural Network,该方法通过迭代运算的方式学习变量⻓度的句子或短语的语义表示,在斯坦福情感分析树库(Stanford Sentiment Treebank)上验证了该方法的有效性。Nal Kalchbrenner等人描述了一个卷积体系结构,称为动态卷积神经网络(DCNN),他们采用它来进行句子的语义建模。 该网络使用动态k-Max池,这是一种线性序列的全局池操作。 该网络处理不同⻓度的输入句子,并在句子上引入能够明确捕获短程和⻓程关系的特征图。 网络不依赖于解析树,并且很容易适用于任何语言。该模型在句子级情感分类任务上取得了非常出色的效果。2015年,Kai Sheng Tai,Richard Socher, Christopher D. Manning在序列化的LSTM (Long Short-Term Memory)模型的基础上加入了句法结构的因素,该方法在句法分析的结果上进行语义组合,在句子级情感分类和文本蕴含任务(text entailment)上都取得了很好的效果。
2016年,Qiao Qian, Xiaoyan Zhu等人在LSTM和Bi-LSTM模型的基础上加入四种规则约束,这四种规则分别是: Non-Sentiment Regularizer,Sentiment Regularizer, Negation Regularizer, Intensity Regularizer,利用语言资源和神经网络相结合来提升情感分类问题的精度。

主要事件

年份 事件相关论文/Reference

1990
Janyce M. Wiebe发表文章研究在小说中某一句话是否代表了书中角色的观点
Wiebe, J. (1990). Identifying subjective characters in narrative. In Proceedings of the International Conference on computational linguistics (COLING-1990).

1997
VasileiosHatzivassiloglou和Kathleen R. McKeown发表论文,从大量语料库中识别和验证形容词的正面或负面语义
Hatzivassiloglou, V. and McKeown, K. R. (1997). Predicting the semantic orientation of adjectives. In Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL1997).

2002
Peter Turney提出了一种简单的无监督学习算法,可以高度准确地将意见词语分为正面或负面
Turney, P. D. (2002). Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp 417-424.

2002
Bo Pang等学者根据整体情感来对文档进行分类
Pang, B.; Lee, L. and Vaithyanathan, S. (2002).Thumbs up? Sentiment Classification using Machine Learning Techniques. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): 79–86. Nasukawa, T. and Yi, J. (2003).

2003
Tetsuya Nasukawa和 Jeonghee Yi提出情感分析这一词
Nasukawa, T. and Yi, J. (2003). Sentiment analysis: Capturing favorability using natural language processing. In Proceedings of the K-CAP-03, 2nd International Conference on Knowledge Capture.

2003
Kushal Dave等人的文章中提出意见挖掘这一术语
Dave, K.;Lawrence, S. and Pennock, D. M. (2003). Mining the peanut gallery: Opinion extraction and semantic classification of product
reviews. In Proceedings of International Conference on World Wide Web (WWW-2003).

2005
Bo Pang和Lillian Lee延伸了早先的基础两极意见研究,将电影影评分类并预测为3至4星的多重级别
Pang; B.; Lee, L. (2005).Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. Proceedings of the Association for Computational Linguistics (ACL): 115–124.

2008
Xiaowen Ding等人利用否定词语和转折词语,提升了基于词典的情感分类方法
Ding, X.; Liu, B.; Yu, P.(2008). A holistic lexicon-based approach to opinion mining. Proceedings of the International Conference on Web Search and Data Mining. 231–240.

2010
以twitter为语料库,Alexander Pak, Patrick Paroubek利用n-gram进行 了情感分析和意见挖掘
Pak, A.; Paroubek, P. (2010).Twitter as a Corpus for Sentiment Analysis and Opinion Mining.

2011
Maite Taboada和Manfred Stede等人提出语义定向计算器(SO-CAL),利用词语的情感强度以及情感加强和否定规则判断篇章的情感极性
Taboada, M.; Brooke, J.; Tofiloski, M. et al. (2011). Lexicon-based methods for sentiment analysis. Computational linguistics. 37(2):267–307.

2013
Richard Socher和Christopher Potts等人提出多个基于树结构的Recursive Neural Network
Socher, R.; Perelygin, A.; Wu, J. et al. (2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. pp 1631–1642.

2014
Nal Kalchbrenner等人描述了一个卷积体系结构,称为动态卷积神经网络(DCNN),他们采用它来进行句子的语义建模
Kalchbrenner, N.; Grefenstette, E.; Blunsom, P. (2014). A Convolutional Neural Network for Modelling Sentences. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. pp 655–665.

2015
Kai Sheng Tai, Richard Socher, Christopher D. Manning在序列化的LSTM (Long Short-Term Memory)模型的基础上加入了句法结构的因素
Tai, K. S.; Socher, R.; Manning, C. D.(2015). Improved Semantic Representations From Tree- Structured Long Short-Term Memory Networks. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics. pp 1556–1566.

2016
Qiao Qian,Xiaoyan Zhu等人利用语言资源和神经网络相结合来提升情感分类问题的精度
Qian, Q.; Huang, M.; Lei, J.; Zhu, X.(2016). Linguistically Regularized LSTMs for Sentiment Classification. arXiv:1611.03949.

发展分析

瓶颈

现在的情感分析工作已经能够完成一些简单的任务,并表现出机器具有识别人类情感的能力,但是这些任务的复杂度还不足以与实际应用中任务的复杂度匹配。情感分析的研究需要词典资源的支持,特别是在中文领域,目前的词典的质和量都还有提高的空间,并且还需要更多的主客观词典.在情感表达形式上,人们对于情感的表达也多样化的,有直截了当的,也有含蓄不露的,更有通过修辞手段及反讽的多种形式表达情感,因此需要更深层次的机器学习技术以及情感常识库的支持,如何构建常识知识库是亟待解决的问题。

未来发展方向

在情感研究对象上,随着应用领域的不断扩展,情感对象从之前的对产品、服务等的褒贬倾向性评论到对社交媒体中的用户、话题情绪分类,表现形式更加多样,情感种类更加繁多,研究的内容也会发生相应转变,包括更加关注用户的信息以及针对社交媒体中事件用户情感的变迁。在情感分析学习算法上,深度学习的崛起,无疑也为情感分析中的许多任务提供了良好的工具,并在一些任务上初现端倪,随着情感分析研究不断扩展和深入,会发挥更多的作用。
从认知科学角度,情感分析是人工智能的一部分,虽然尚不能完全了解人类情感产生的机理,但是可以和认知科学研究者开展合作研究,通过观察脑电波探知产生各种情
感的脑波形和反射情况,为情感分析研究提供科学依据。在情感分析应用上,情感分析和人工智能结合,将产生一系列的应用,在聊天机器人中识别用户情感,并给予情感抚慰。更进一步,未来情感分析应用于对文章及诗词的鉴赏,自动生成自己的观点、立场及情绪,表达机器自身的情感,从而向强人工智能迈进。

相关资源

数据集3

Sentiment Analysis on Movie Reviews
查看详情
Amazon Reviews for Sentiment Analysis
查看详情
Stanford Sentiment Treebank
查看详情
开发工具3

NLTK
查看详情
salient
查看详情
Awesome Sentiment Analysis
查看详情

教程期刊4

Foundations and Trends in Information Retrieval
IEEE Intelligent Systems
COLING (International Conference on Computational Linguistics)
Communications of the ACM

活动及会议4

ECML (European Conference on Machine Learning)
ACL (Annual Meeting of the Association for Computational Linguistics)
EMNLP (Conference on Empirical Methods in Natural Language Processing)
WWW (World Wide Web conference)
CSIT FUN , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:sentiment analysis
喜欢 (0)
[985016145@qq.com]
分享 (0)
scott
关于作者:
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址