本公开涉及计自然语言处理,尤其涉及一种文本分类方法、装置、设备及计算机可读存储介质。
背景技术:
1、自然语言处理中,文本分类任务是至对给定文本进行情感倾向分类的任务,进而可以根据文本分类的结果进行功能性答复。例如,对用户发起的指令进行领域分类,需要识别出是否是问答任务,或者对用户的意图进行识别,比如天气查询、歌曲搜索、随机闲聊等。
2、现有技术中大多通过神经网络获取文本的关键特征,例如注意力机制或者是卷积神经网络等技术对文本进行关键特征提取,但是对神经网络的模型进行训练时,需要对大量的训练语料进行标注,模型训练成本高,导致文本分类的成本较高。
技术实现思路
1、为了解决上述技术问题,本公开提供了一种文本分类方法、装置、设备及计算机可读存储介质,以降低文本分类的成本。
2、第一方面,本公开实施例提供一种文本分类方法,包括:
3、获取文本数据的词向量文件;
4、将所述词向量文件输入双向长短时记忆网络进行编码,输出所述文本数据的上下文信息;
5、将所述文本数据的上下文信息输入多重条件随机场,得到所述文本数据的局部语义信息,所述局部语义信息用于表征所述文本数据的结构信息;
6、将所述文本数据的上下文信息输入lda模型进行关键词提取,得到所述文本数据的关键词信息;
7、将所述文本数据的局部语义信息与所述文本数据的关键词矩阵进行矩阵拼接,得到所述文本数据的融合语义信息;
8、将所述融合语义信息输入预先训练好的文本分类模型,输出概率最大的文本类别作为所述文本数据的文本分类结果。
9、在一些实施例中,所述将所述文本数据的上下文信息输入lda模型进行关键词提取,得到所述文本数据的关键词信息,包括:
10、基于lda算法计算出所述上下文信息对应的至少一个预设主题中每个主题的权重值,每个预设主题包括至少一个单词的概率分布;
11、按所述权重值从大到小的顺序对至少一个预设主题进行排序,选取排序靠前的预设数量的预设主题作为目标主题;
12、根据所述目标主题所包含的单词的概率分布,构成候选关键词集合;
13、遍历所述上下文信息,将出现在所述关键词集合中的单词作为关键词进行提取,得到所述文本数据的关键词信息。
14、在一些实施例中,所述获取文本数据的词向量文件,包括:
15、获取待分类文本;
16、对所述待分类文本进行分词操作,并去除所述待分类文本中的停用词,得到文本数据;
17、通过开源工具对所述文本数据进行词向量训练,得到文本数据的词向量文件。
18、在一些实施例中,所述将所述词向量文件输入双向长短时记忆网络进行编码,输出所述文本数据的上下文信息,包括:
19、使用正向长短时记忆网络对所述词向量文件中的每个单词进行编码,得到从左向右的序列信息;
20、使用反向长短时记忆网络对所述词向量文件中的每个单词进行编码,得到从右向左的序列信息;
21、将基于所述从左向右的序列信息以及所述从右向左的序列信息进行拼接,得到所述文本数据的上下文信息进行输出。
22、在一些实施例中,所述将所述文本数据的上下文信息输入多重条件随机场,得到所述文本数据的局部语义信息,包括:
23、计算所述文本数据的上下文信息相对于预设标签序列的边际分布概率,所述预设标签用于表示所述文本数据是否属于该预设标签对应的文本类别的范围;
24、对每个所述预设标签所分别对应的边际分布概率进行矩阵拼接,得到所述文本数据的局部语义信息,所述边际分布概率表征所述文本数据属于该预设标签对应的文本类别的范围的可能性。
25、在一些实施例中,所述计算所述文本数据的上下文信息相对于预设标签序列的边际分布概率,包括:
26、计算所述文本数据的上下文信息相对于预设标签序列的过渡分数和发射分数之和;
27、对所述预设标签序列的过渡分数和发射分数之和进行归一化计算,得到归一化计算结果;
28、计算所述归一化计算结果相对于预设标签序列的边际分布概率。
29、在一些实施例中,所述将所述文本数据的局部语义信息与所述文本数据的关键词矩阵进行矩阵拼接,得到所述文本数据的融合语义信息,包括:
30、根据用户的预设配置参数确定与所述预设配置参数对应的矩阵的拼接方向;
31、获取所述局部语义信息在所述拼接方向上的第一元素数以及所述关键词矩阵在所述拼接方向上的第二元素数;
32、将所述文本数据的局部语义信息与所述文本数据的关键词矩阵进行矩阵拼接,得到所述文本数据的融合语义信息,所述融合语义信息在所述拼接方向上的元素数为所述第一元素数与所述第二元素数之和。第二方面,本公开实施例提供一种文本分类装置,包括:
33、获取模块,用于获取文本数据的词向量文件;
34、第一输入模块,用于将所述词向量文件输入双向长短时记忆网络进行编码,输出所述文本数据的上下文信息;
35、第二输入模块,用于将所述文本数据的上下文信息输入多重条件随机场,得到所述文本数据的局部语义信息,所述局部语义信息用于表征所述文本数据的结构信息;
36、第三输入模块,用于将所述文本数据的上下文信息输入lda模型进行关键词提取,得到所述文本数据的关键词信息;
37、拼接模块,用于将所述文本数据的局部语义信息与所述文本数据的关键词矩阵进行矩阵拼接,得到所述文本数据的融合语义信息;
38、分类模块,用于将所述融合语义信息输入预先训练好的文本分类模型,输出概率最大的文本类别作为所述文本数据的文本分类结果。
39、第三方面,本公开实施例提供一种电子设备,包括:
40、存储器;
41、处理器;以及
42、计算机程序;
43、其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
44、第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
45、本公开实施例提供的文本分类方法、装置、设备及计算机可读存储介质,通过采用lda模型对文本的关键词进行提取,通过矩阵拼接从而使关键词的相关信息对最后的分类结果起到更大的作用,且训练数据无需进行标注,在保证文本分类准确性的前提下大大降低了训练成本以及训练时间。
1.一种文本分类方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述文本数据的上下文信息输入lda模型进行关键词提取,得到所述文本数据的关键词信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述获取文本数据的词向量文件,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述词向量文件输入双向长短时记忆网络进行编码,输出所述文本数据的上下文信息,包括:
5.根据权利要求1所述的方法,其特征在于,根据权利要求1所述的方法,其特征在于,所述将所述文本数据的上下文信息输入多重条件随机场,得到所述文本数据的局部语义信息,包括:
6.根据权利要求5所述的方法,其特征在于,所述计算所述文本数据的上下文信息相对于预设标签序列的边际分布概率,包括:
7.根据权利要求1所述的方法,其特征在于,所述将所述文本数据的局部语义信息与所述文本数据的关键词矩阵进行矩阵拼接,得到所述文本数据的融合语义信息,包括:
8.一种文本分类装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。