基于特征选择与特征提取的情绪分类方法

xiaoxiao5月前  47


本发明属于情绪分类,涉及基于特征选择与特征提取的情绪分类方法。


背景技术:

1、目前多数的情感分析研究中,分类目标类别基本是积极、消极以及中性这三种极性分析,对于更加具体的情绪分类研究有所欠缺,导致这样一个结果的原因,一方面是情绪具有主观性,缺少高质量的人工标注的数据;另一方面情绪分类包含了太多的类别,不同的情绪之间具有相似性,对于分类的效果有明显影响。

2、传统的cnn、lstm和bert等模型对文本情绪多分类问题判断的准确度相对较低,没有很好的结合句子中的语法和语义信息进行情感分类任务。随着社交媒体和在线交流的广泛普及,我们面临着海量的文本数据,其中蕴含着丰富的情感信息,情绪分类的结果要求更细,面对数据集质量与数量对深度学习模型的不良影响要求提高预测模型的准确度,进而减少数据集质量对实验造成的影响。


技术实现思路

1、本发明的目的是提供基于特征选择与特征提取的情绪分类方法,具有可以提高情绪分类准确性的特点。

2、本发明所采用的技术方案是基于特征选择与特征提取的情绪分类方法,具体按照以下步骤实施:

3、步骤1、获取英文文本语料库,并对英文文本语料库进行预处理,得到英文文本数据集,对英文文本数据集中的所有文本进行分词,得到单词序列;

4、步骤2、采用句法依存关系和词性特征获取单词序列中的特征词,将这些特征词形成特征词集合;

5、步骤3、对特征词集合中每个特征词采用改进的tf-idf算法进行特征提取,得到每个特征词的权值表示,每个特征词的权值表示组成特征词集合的权重向量,通过权重向量形成权重矩阵;

6、步骤4、将权重矩阵与bert模型输出的注意力矩阵进行加权融合,得到特征矩阵;

7、步骤5、根据特征矩阵确定最终情绪分类结果。

8、本发明的特点还在于:

9、步骤1中对英文文本语料库进行预处理的具体步骤为:首先通过机器挑选的方法去除英文文本语料库中的特殊字符和重复语料,通过人工修正将数据分开得到格式规整的表格数据,然后删除包含无效信息的列标签及数据,删除表情字符串,通过无效字符列表和缩写替换词典,将无效字符剔除并将常见缩写字符展开,运用正则表达式去除不包含情感信息的字符串,最后得到英文文本数据集。

10、步骤2具体为:首先使用stanford corenlp工具包对单词序列根据句法依存关系进行句法依存分析,分析后利用有效依赖关系标签表和词性标签对应表筛选出特征词集合。

11、利用有效依赖关系标签表和词性标签对应表筛选出特征词集合的具体步骤为:首先建立词性标签对应表和有效依赖关系标签表,然后打开单词序列,删除单词序列中可忽略的词性标签对应的单词,再根据单词序列中剩余单词的依赖关系标签删除可忽略的依赖关系标签对应的单词,最后将单词序列中剩余的单词作为特征词,并将这些特征词形成特征词集合。

12、步骤3中,改进的tf-idf算法为:

13、

14、其中,ni,j表示词i在分类j中出现的次数,ns,j表示同义词s在分类j中出现的次数,∑knk,j表示分类j中所有词出现次数的总和,ai表示当前分类包含词i的句子数,bi表示非当前类别包含词i的句子数,as表示当前分类包含词s的句子数,bs表示非当前类别包含词s的句子数,词性的情感影响权重为p。

15、步骤3中通过权重向量形成权重矩阵的具体步骤为:将每个特征词的权值表示放回到单词序列中相应特征词所对应的位置,为单词序列形成一个包含了位置关系的权重矩阵。

16、步骤4具体为:

17、先导入bert模型训练所需的分词器功能模块、numpy库、pytorch库及与pytorch版本对应的gpu版本库至pycharm开发环境中,初始化bert模型和分词器,将单词序列传入bert模型进行前向传播计算,得到注意力矩阵,将步骤3所得的权重矩阵与bert模型输出的注意力矩阵进行加权融合,得到特征矩阵。

18、将步骤3所得的权重矩阵与bert模型输出的注意力矩阵进行加权融合公式为:

19、

20、其中,t是采用的特征选择与特征提取方法的权重矩阵,q表示查询向量,k表示键向量,v表示值向量,d是查询、键和值的维度大小,weight为调节权值;

21、weight表达式为:

22、weight=sigmod(weight_proj(t))     (3)

23、其中,weight_proj为一个线性层,sigmod为激活函数。

24、本发明的有益效果是:

25、1、本发明基于特征选择与特征提取的情绪分类方法提出了基于句法依存关系与词性特征选择方法和基于统计与词性特征提取方法,融合微调预训练模型,具有较高的分类准确率;

26、2、本发明基于特征选择与特征提取的情绪分类方法采用的句法依存关系可以揭示单词之间的语法关系并进一步筛选有效词性的特征词,而词性则提供了关于单词功能和上下文角色的信息,通过结合这两个因素的特征选择方法使得模型能够更好地理解句子的结构和含义;

27、3、本发明基于特征选择与特征提取的情绪分类方法使用的特征提取方法综合词性在情绪表达当中的影响,两者融合从而提高情感分析任务的性能和效果,很大程度提高了句子情绪分类的准确率,有效解决当前分类准确度低、分类类别少的缺点。



技术特征:

1.基于特征选择与特征提取的情绪分类方法,其特征在于,具体按照以下步骤实施:

2.根据权利要求1所述的基于特征选择与特征提取的情绪分类方法,其特征在于,所述步骤1中对英文文本语料库进行预处理的具体步骤为:首先通过机器挑选的方法去除英文文本语料库中的特殊字符和重复语料,通过人工修正将数据分开得到格式规整的表格数据,然后删除包含无效信息的列标签及数据,删除表情字符串,通过无效字符列表和缩写替换词典,将无效字符剔除并将常见缩写字符展开,运用正则表达式去除不包含情感信息的字符串,最后得到英文文本数据集。

3.根据权利要求1所述的基于特征选择与特征提取的情绪分类方法,其特征在于,所述步骤2具体为:首先使用stanford corenlp工具包对单词序列根据句法依存关系进行句法依存分析,分析后利用有效依赖关系标签表和词性标签对应表筛选出特征词集合。

4.根据权利要求3所述的基于特征选择与特征提取的情绪分类方法,其特征在于,所述利用有效依赖关系标签表和词性标签对应表筛选出特征词集合的具体步骤为:首先建立词性标签对应表和有效依赖关系标签表,然后打开单词序列,删除单词序列中可忽略的词性标签对应的单词,再根据单词序列中剩余单词的依赖关系标签删除可忽略的依赖关系标签对应的单词,最后将单词序列中剩余的单词作为特征词,并将这些特征词形成特征词集合。

5.根据权利要求1所述的基于特征选择与特征提取的情绪分类方法,其特征在于,所述步骤3中,改进的tf-idf算法为:

6.根据权利要求1所述的基于特征选择与特征提取的情绪分类方法,其特征在于,所述步骤3中通过权重向量形成权重矩阵的具体步骤为:将每个特征词的权值表示放回到单词序列中相应特征词所对应的位置,为单词序列形成一个包含了位置关系的权重矩阵。

7.根据权利要求6所述的基于特征选择与特征提取的情绪分类方法,其特征在于,所述步骤4具体为:

8.根据权利要求7所述的基于特征选择与特征提取的情绪分类方法,其特征在于,所述将步骤3所得的权重矩阵与bert模型输出的注意力矩阵进行加权融合公式为:


技术总结
本发明公开了基于特征选择与特征提取的情绪分类方法,具体按照以下步骤实施:获取英文文本语料库,并对英文文本语料库进行预处理,得到英文文本数据集,对英文文本数据集中的所有文本进行分词,得到单词序列;采用句法依存关系和词性特征获取单词序列中的特征词,将这些特征词形成特征词集合;对特征词集合中每个特征词采用改进的TF‑IDF算法进行特征提取,得到每个特征词的权值表示,每个特征词的权值表示组成特征词集合的权重向量,通过权重向量形成权重矩阵;将权重矩阵与BERT模型输出的注意力矩阵进行加权融合,得到特征矩阵;根据特征矩阵确定最终情绪分类结果。本发明具有可以提高情绪分类准确性的特点。

技术研发人员:张贝贝,孙雪松,徐小艳,司强,胡子薇,王一川,刘小雪,刘兆丽,聂高扬,闫晋佩
受保护的技术使用者:西安理工大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)