一种细粒度文本情感分析方法

xiaoxiao2020-7-22 72

一种细粒度文本情感分析方法
【专利摘要】本发明公开了一种细粒度文本情感分析方法，步骤一：构建细粒度情感词典；步骤二：语句结构关系判断；步骤三：简单句的情感值评定。本发明可以提取出文本所包含的更多的用户情感相关信息，能更好的刻画用户内心的感受，用于支撑相关的应用研究，例如基于健康的用户情绪状态及变化情况分析。
【专利说明】一种细粒度文本情感分析方法
【技术领域】
[0001]本发明属于英文文本情感分析【技术领域】，涉及一种细粒度文本情感分析方法，具体地说，涉及一种针对评论文本的细粒度情感分析方法。
【背景技术】
[0002]人类的情感是复杂而又多方面的。由于情感的复杂性和与其他外部事物的关系，它属于心理学中最具挑战性的现象。了解一个人的当前的情绪的传统方式有多种:如可以咨询其主观感受，观察其脸部表情或行为上的变化，以及其生理变化。事实上，一个人的情绪是复杂的，并不能被直接测量，仅能通过它们的外在表现形式来识别，如此就催生出各种用于识别人类情感的方法。在一般情况下，最常见的识别一个人的情绪反应的方法大致可以分为三类:(I)自我报告，(2)生理学方法，(3)行为观察。
[0003]基于传统方法监测个人的情绪状态需要大量的人力和物力，难以获得大量用户长时间的情绪相关数据。随着在线社交网络的不断发展，其拥有的用户数量不断增大，人们开始习惯经常将自己的所见所感分享给线上好友，由此研究者可以通过社交网站的API获取大量用户情绪相关数据，基于文本情感分析技术抽取出用户的情绪状态。
[0004]文本情感分析是一个新兴的研究课题，具有很大的研究价值和应用价值。专利200910219161.9根据不同主题文本的语言表达方式估计主题语言模型，计算待处理文本的语言模型与正负情感模型的距离，选取距离最近的情感模型的情感倾向赋予该文本。专利200910083522.1根据训练文本的标签确定测试文本的初始情感分，基于图排序算法利用所述测试文本的初始情感分迭代计算所述测试文本的情感分并进行归一化，以解决跨领域的文本情感倾向性分析问题。专利201210088366.X基于正负情感词典判断所有包含主题词的句子的极性，计算结果集合中正面句子极性之和及负面句子极性之和，从而得出整条微博的情感倾向性。专利201310000734.5通过构造一种具有Two-Level (双层)结构的DCRF模型实现了实体级别的情感倾向性判断，专利201310036034.1利用对象属性与情感词之间的关联信息以及情感词与修饰词之间的关系实现细粒度情感强度量化的统计和计算。
[0005]目前已有的情感分析技术主要将文本包含的用户情感分为两类:正向和负向，在情感类别的划分方面属于粗粒度的文本情感分析，丢失了大量用户情感相关信息。为了充分获得用户评论所含信息，更好的刻画用户的感受，本发明对评论文本做进一步的细粒度情感分析，即将正负面倾向分别进一步划分，例如负面情绪可以是生气，也可以是悲伤等。

【发明内容】

[0006]本发明的目的在于克服上述技术存在的缺陷，提供一种细粒度文本情感分析方法，该方法可以更加充分获得用户评论所含情感信息，可更好的支撑相关的应用研究，例如基于健康的用户情绪状态及变化情况分析。
[0007]其具体技术方案为:
[0008]步骤一:构建细粒度情感词典[0009]选取国际级公认的基准情感分类作为细粒度情感分类，并将基准情感词作为各类别的种子情感词，通过wordNet (由Princeton大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典)查找其同义词集合，并放入对应的类别，完成细粒度情感词典的第一步扩建；
[0010]wordNet将单词分为四类:名词、动词、副词和形容词；由基准情感词扩展得到的名词性情感集合，并按照相同的方式根据基准情感词的形容词、动词和副词形式，分别构建成其形容词、动词和副词形式的情感集合；同类别的情感集合，除了词性的差异之外，并不影响情感值的计算，则将一个类别下的情感集合视为一个大类，从而完成细粒度情感词典的第二步扩建；
[0011]至此，构建的细粒度情感词典还无法覆盖大部分的情感词汇；将其余情感词如何归类到细粒度情感类别的问题，转换为分析其与基准情感词在概念层次上基于常识的相似性，并将其分配到相似性最高的基准情感词所代表的情感类别中；最后分析归类结果，并完善可能存在的缺陷；至此完成细粒度情感词典的扩建；
[0012]步骤二:语句结构关系判断
[0013]判断语句中是否有连词，如果有，则表示该句为复合句，根据句间关系规则获得该连词表示的语句结构关系及语句情感值的计算规则；如果没有，则该语句是简单句；
[0014]步骤三:简单句的情感值评定
[0015]如果是复合句，则拆分为两个分句进行处理；如果为简单句，则直接计算其情感值；现在，考虑简单句的情感值评定方法，评论情感计算要考虑主题词相关性，与主题词无关的情感词会给情感计算带来干扰；而主题主要通过语句的主题(主语和宾语)体现，则只需考虑与主题相关的名词性和形容词性情感特征词；根据句子结构、依赖关系、情感词褒贬度及相关副词修饰强度，计算出简单句的情感值；
[0016]对于评论文本经常出现的不完整短句，利用单词词性，提高依赖关系判断的准确性；当情感词前的修饰短语过长时，将句子结构、单词词性及依赖关系结合起来，具体算法如下:先探测依赖关系，找出主题词，进而找出依附于主题词的修饰关系，根据句子结构分析的结果得到主题词与其修饰短语构成的名词性短语，然后分析此名词性短语的结构和修饰短语所包含的词的词性，得出正确的修饰关系；
[0017]步骤四:评论文本细粒度情感计算
[0018]结合句型和句间关系获得语句情感值；所有语句的情感之和为评论文本的整体情感值。
[0019]与现有技术相比，本发明的有益效果是:可以提取出文本所包含的更多的用户情感相关信息，能更好的刻画用户内心的感受，用于支撑相关的应用研究，例如基于健康的用户情绪状态及变化情况分析。
【专利附图】

【附图说明】
[0020]图1为本发明的细粒度情感词典构建方法流程图；
[0021]图2为本发明的文本细粒度情感分析方法流程图；
[0022]图3为本发明实例中的例句句子结构图。【具体实施方式】
[0023]下面结合附图和具体实施例对本发明的技术方案作进一步详细地说明。
[0024]本发明的细粒度情感词典构建方法实现流程如图1所示，详细步骤如下:
[0025]步骤101:设定基准情感类别及种子情感词。
[0026]迄今为止，心理学界对情感的划分还没有一个公认的标准，本发明以学者Ekman的著名6基准情感为例，具体包括:happiness (高兴)，sadness (悲伤)，anger (生气)，fear (恐惧),surprise (惊喜)and disgust (厌恶)。首先根据将6基准情感词作为各类别的种子情感词，通过wordNet查找其同义词集合，并放入对应的类别,完成细粒度情感词典的第一步扩建。
[0027]步骤102:根据同义词扩展情感词典。
[0028]wordNet将单词分为四类:名词、动词、副词和形容词。我们已经得到由6基准情感词扩展得到的名词性情感集合，将按照相同的方式根据6基准情感词的形容词、动词和副词形式，分别构建成其形容词、动词和副词形式的情感集合。例如，“joy(欢乐)”和“joyful (快乐)”都属于“happiness (高兴)”情感类别,但分属于两个情感集合,joy属于名词性集合，ioyful属于形容词性集合。同类别的情感集合，除了词性的差异之外，并不影响情感值的计算，则本发明将一个类别下的情感集合视为一个大类，从而完成细粒度情感词典的第二步扩建。
[0029]步骤103:基于通用常识库扩展情感词典。
[0030]至此细粒度情感词典总共包含1000多个单词，这对于分析文本情感倾向来说明显不足，还有大量的表达人们情感的词未被覆盖。例如表达出明显情感的动词cry (哭)，它无法通过前面的情感集合种子词语同义词扩展的方式，加入到情感词典。基于常识我们通常会认为cry (哭)与sad(悲伤)和angry (生气)的关联较大，它经常表达出主体悲伤或愤怒的情绪。在对于cry进行细粒度情感词分类时，我们将其转换为分析cry(哭)与六个情感分类所代表的情感在概念层次上基于常识的相似性，相似性越高，我们认为主体想要表达出该类情感的概率越大，则将cry(哭)加入到该类情感的情感词典中。计算情感词与情感分类在概念层次上基于常识推理的相似性，通用常识库是最佳的选择，反映情感的常识性知识是这些常识库中常识知识的一个子集。本发明利用通用常识库计算情感词与情感分类基准词的相似性，并将其分到相似性最高的情感类别中。
[0031]步骤104:设定基准情感类别及种子情感词。
[0032]至此，构建的情感词典可以覆盖绝大多数的情感词，但是根据对结果矩阵的分析，还存在明显的缺陷，我们发现对于一定数量的形容词，虽然对于其原型与基准情感词在概念层次上的相似性结果基本符合常识，但是其比较级和最高级得到的相似度结果却都为O。为解决此类问题，我们为常用形容词建立比较级和最高级词表，其比较级和最高级继承与原型相同的类别和相似度。至此完成细粒度情感词典的扩建。
[0033]本发明的文本细粒度情感分析方法实现流程如图2所示，详细步骤如下:
[0034]步骤201:细粒度情感词典的构建。
[0035]通过设定基准情感类别及种子情感词、根据同义词扩展情感词典、基于通用常识库扩展情感词典、基于已建立的情感词典的缺陷修正等四部分完成情感词典的构建，详细步骤参见步骤101?104。[0036]步骤202:语句结构关系判断。
[0037]判断语句中是否有连词，如果有，则表示该句为复合句，根据句间关系规则获得该连词表示的语句结构关系及语句情感值的计算规则。如果没有，则该语句是简单句。
[0038]一个英语句子中，经常有表达不同关系的连词，例如but (转折)、if (假设)、so (因果)、and(并列)、moreover (递进)。不同的连词会对句子的情感产生不同的影响，本发明应用下列规则进行计算:
[0039](I)句内连词规则:
[0040]I)基于人们常用的语法习惯，如果没有but的话，一般一个句子表达一个倾向。对于包含表并列、递进关系的连词的句子，则应用文献中的规则赋予不同的权重。
[0041]例如:The camera takes great pictures and has a long battery life.本句意为:这部相机照相效果好，电池寿命长。通常，如果我们知道great是正向的,那么long一般也是正向的
[0042](2)句子间连词规则:
[0043]I)基于假设，人们在句子间也经常表达相同的倾向。除非有but(但是)，however (然而)等。
[0044]2)对于包含不同关系的连词，我们赋予其引导子句不同的权重，一般说来递进关系连词引导的从句有增强情感倾向的倾向，因果和并列关系连词引导的从句情感上的变化不是很大，而假设关系连词引导的从句往往是对现实状况的设想，其前提条件在语言表达中起到了更重要的作用，则一般需要弱化假设句的后半分。对于其它连词对其引导的从句的情感倾向的影响权重的设定，本发明应用通用规则。
[0045]3)对于其他一般关系连词，如表示先后次序连词first (首先)基本不会影响其引
导的从句的情感倾向和强度；对于表时间的连词，如when(当......时)则不考虑其的情
感倾向。
[0046]表转折关系的连词，以but (但是)为例，不管作为句内连词还是句间连词，其引导的从句对比前面内容有转折语义，但是其情感正负倾向却不一定相反，即分析文本情感倾向时，but(但是)引导的从句的情感倾向，不一定与其前面的句子情感倾向相反,经分析存在三种情况:与其前面的句子倾向一致、从句没有明显情感倾向、与其前面的句子倾向相反。分别举例如下:
[0047]1、第一种情况:I' m sure the wines are amazing too but I didn/ t regretgetting a pint of the IPA.[0048]句义:我确定那些酒也非常好，但是我不后悔选择了一品脱的这种饮料。
[0049]2、第二种情况:Cool to see but don/ t get too close.[0050]句义:这看起来很酷但是不要靠得太近。
[0051]3、第三种情况:It' s not that cheap as they say, But good for who arecrazy with brands !
[0052]句义:并没有他们说的那么便宜。但是对于酷爱品牌的人来说却很好。
[0053]对于以上三种情况的处理规则:
[0054] 若but(但是)引导的从句，与其前面的短句倾向一致，则其从句有递进的含义，则加重其从句的权重；若131^(但是)引导的从句没有明显情感倾向，可能仅作为说明或提示等，则只考虑其前面句子的情感倾向；Sbut(但是)引导的从句与其前面的从句倾向相反，则发生情感反转，but (但是)前面的分句意思会弱化，而突出转折后的分句。
[0055]步骤203:简单句的情感值评定。
[0056]在一个句子中，情感短语的情感倾向和强度由包含的情感词及依附于其上的修饰成分决定。本发明利用Stanford Parser (斯坦福的句法分析器)，提取句子内部各分词单元间的依赖关系对。本发明所应用到的主要关系对，如表1所示。
[0057]表1主要依赖关系对
[0058]
【权利要求】
1.一种细粒度文本情感分析方法，其特征在于，包括以下步骤: 步骤一:构建细粒度情感词典选取国际级公认的基准情感分类作为细粒度情感分类，并将基准情感词作为各类别的种子情感词，通过WordNet查找其同义词集合，并放入对应的类别，完成细粒度情感词典的第一步扩建； wordNet将单词分为四类:名词、动词、副词和形容词；由基准情感词扩展得到的名词性情感集合，并按照相同的方式根据基准情感词的形容词、动词和副词形式，分别构建成其形容词、动词和副词形式的情感集合；同类别的情感集合，除了词性的差异之外，并不影响情感值的计算，则将一个类别下的情感集合视为一个大类，从而完成细粒度情感词典的第二步扩建；至此，构建的细粒度情感词典还无法覆盖大部分的情感词汇；将其余情感词如何归类到细粒度情感类别的问题，转换为分析其与基准情感词在概念层次上基于常识的相似性，并将其分配到相似性最高的基准情感词所代表的情感类别中；最后分析归类结果，并完善可能存在的缺陷；至此完成细粒度情感词典的扩建；步骤二:语句结构关系判断判断语句中是否有连词，如果有，则表示该句为复合句，根据句间关系规则获得该连词表示的语句结构关系及语句情感值的计算规则；如果没有，则该语句是简单句；步骤三:简单句的情感值评定如果是复合句，则拆分为两个分句进行处理；如果为简单句，则直接计算其情感值；现在，考虑简单句的情感值评定方法，评论情感计算要考虑主题词相关性，与主题词无关的情感词会给情感计算带来干扰；而主题主要通过语句的主语和宾语体现，则只需考虑与主语和宾语相关的名词性和形容词性情感特征词；根据句子结构、依赖关系、情感词褒贬度及相关副词修饰强度，计算出简单句的情感值；对于评论文本经常出现的不完整短句，利用单词词性，提高依赖关系判断的准确性；当情感词前的修饰短语过长时，将句子结构、单词词性及依赖关系结合起来，具体算法如下:先探测依赖关系，找出主题词，进而找出依附于主题词的修饰关系，根据句子结构分析的结果得到主题词与其修饰短语构成的名词性短语，然后分析此名词性短语的结构和修饰短语所包含的词的词性，得出正确的修饰关系；步骤四:评论文本细粒度情感计算结合句型和句间关系获得语句情感值；所有语句的情感之和为评论文本的整体情感值。
【文档编号】G06F17/27GK103995803SQ201410178056
【公开日】2014年8月20日申请日期:2014年4月25日优先权日:2014年4月25日
【发明者】於志文, 夏云云, 郭斌, 周兴社, 王柱申请人:西北工业大学

2012-2014专利技术

最新回复(0)