本发明涉及智慧教育以及人工智能,尤其涉及一种教育信息分类方法及相关设备。
背景技术:
1、随着信息技术的迅猛发展和大数据时代的到来,教育领域的信息量呈现爆炸性增长。教育信息分类作为处理和组织这些海量数据的关键技术,对于提高教育资源的检索效率、促进教育信息化具有重要意义。然而,传统的教育信息分类方法往往基于简单的关键词匹配或人工设定的规则,难以准确地区分教育类型和非教育类型的文本信息,无法满足当前对分类准确性和效率的高要求。
2、为了解决上述问题,近年来,基于机器学习和深度学习技术的自动分类方法逐渐成为研究热点。这些方法通过训练大量的语料数据来构建分类模型,从而实现对教育信息的自动分类。然而,现有的分类方法在处理融合了教育类型和非教育类型文本信息的复杂语料时,由于教育类型的文本中存在非教育类型部分内容,而非教育类型文本可能存在部分教育内容,导致模型在特征提取和分类决策时受到干扰,影响了分类的准确性。
技术实现思路
1、本发明实施例提供一种教育信息分类方法,旨在解决现有教育信息分类准确性不足的问题。通过将包含教育类型文本信息的第一样本语料和包含非教育类型文本信息的第二样本语料进行融合处理,得到融合了教育类型和非教育类型文本信息的第三样本语料,利用第一样本语料、第二样本语料和第三样本语料来训练教育分类模型,能够使得模型在学习过程中更好地理解和区分教育类型和非教育类型的文本特征,充分学习并理解教育类型和非教育类型文本的内在特征及其内在差异,从而提高教育信息的分类准确性。
2、第一方面,本发明实施例提供一种教育信息分类方法,所述方法包括:
3、获取第一样本语料与第二样本语料,所述第一样本语料中包括教育类型的文本信息,所述第二样本语料包括非教育类型的文本信息;
4、对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料,所述第三样本语料包括教育类型与非教育类型的融合文本信息;
5、通过所述第一样本语料、所述第二样本语料以及所述第三样本语料对待训练的教育分类模型进行有监督训练,在训练完成后,得到训练好的教育分类模型,所述教育分类模型的输出为分类类型;
6、获取待分类教育信息,通过训练好的所述教育分类模型对所述待分类教育信息进行分类,得到所述待分类教育信息的分类类型。
7、可选的,所述对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料的步骤包括:
8、在所述教育类型的文本信息中,确定出目标关键词的词长分布,所述词长分布包括词长与数量之间的分布关系,所述目标关键词为教育相关的关键词;
9、在所述词长分布中,确定出至少一个目标词长;
10、基于所述目标词长,对每个所述第一样本语料进行文本随机拆分,得到多个第一子语料数据;
11、基于所述目标词长,对每个所述第二样本语料进行文本随机拆分,得到多个第二子语料数据;
12、基于所述第一子语料数据与所述第二子语料数据,对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料。
13、可选的,所述基于所述第一子语料数据与所述第二子语料数据,对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料的步骤包括:
14、将所述第一子语料数据与所述第二子语料数据按教育类型与非教育类型进行聚类处理,得到所述教育类型的第一子语料数据簇和所述非教育类型的第二子语料数据簇;
15、确定所述第一子语料数据簇与所述第二子语料数据簇之间的中间空间,所述中间空间到所述第一子语料数据簇与到所述第二子语料数据簇的距离相同;
16、以所述中间空间为目标语义空间,基于所述第一子语料数据簇以及所述第二子语料数据簇中的子语料数据来生成所述目标语义空间中的语料文本,得到第三样本语料。
17、可选的,所述以所述中间空间为目标语义空间,基于所述第一子语料数据簇以及所述第二子语料数据簇中的子语料数据来生成所述目标语义空间中的语料文本,得到第三样本语料的步骤包括:
18、在所述第一子语料数据簇中按距离均衡原则随机选取n1个子语料数据,在所述第二子语料数据簇中按距离均衡原则随机选取n2个子语料数据;
19、将n1个子语料数据与n2个子语料数据作为文本生成种子来生成所述目标语义空间中的语料文本,得到第三样本语料。
20、可选的,所述将n1个子语料数据与n2个子语料数据作为文本生成种子来生成所述目标语义空间中的语料文本,得到第三样本语料的步骤包括:
21、确定所述目标语义空间的中心语义向量;
22、将n1个子语料数据与n2个子语料数据编码到向量空间,得到种子向量;
23、以种子向量与所述中心语义向量之间的距离小于所述目标语义空间边界为约束条件,生成所述目标语义空间中的语料文本;
24、基于所述目标语义空间中的语料文本,确定出第三样本语料。
25、可选的,所述基于所述目标语义空间中的语料文本,确定出第三样本语料的步骤包括:
26、计算所述目标语义空间中的每个语料文本到所述第一子语料数据簇以及所述第二子语料数据簇之间的第一距离与第二距离;
27、若所述第一距离大于所述第二距离,则确定所述目标语义空间中的语料文本为伪教育类型,若所述第一距离小于所述第二距离,则确定所述目标语义空间中的语料文本为伪非教育类型。
28、可选的,所述通过所述第一样本语料、所述第二样本语料以及所述第三样本语料对待训练的教育分类模型进行有监督训练的步骤包括:
29、在第一训练阶段,通过所述第一样本语料以及所述第二样本语料对待训练的教育分类模型进行有监督训练,在第一损失值下降到预设损失值后,得到第一阶段训练模型;
30、在第二训练阶段,通过所述第一样本语料、所述第二样本语料以及所述第三样本语料对待训练的教育分类模型进行有监督训练,在第二损失值下降到预设损失值后,得到第二阶段训练模型;
31、将所述第二阶段训练模型确定为训练好的教育分类模型;
32、所述第一损失值通过如下的第一损失函数进行计算得到:
33、loss1=γ1·(y-f(x))2+(1-γ1)·(y-f(x))2;
34、其中,γ1为教育类型时取值为1,为非教育类型时取值为0,f(x)为待训练的教育分类模型的输出,x为第一样本语料或第二样本语料,y为类型标签;
35、所述第二损失值通过如下的第二损失函数进行计算得到:
36、loss2=γ2·(d(y,f`(x`)))2+(1-γ2)·(d(y,f`(x`)))2+γ3·
37、max(a,d(y,f`(x`)))2+(1-γ3)·max(a,d(y,f`(x`)))2;
38、其中,x`为第一样本语料或第二样本语料或第三样本语料,f`(x`)为第一阶段训练模型的输出,γ2在x`为教育类型时取值为1,γ2在x`为非教育类型时取值为0,γ2在x`的伪教育类型或伪非教育类型时为0,γ3在x`为伪教育类型时取1,γ3在x`为伪非教育类型时取0,γ3在x`为教育类型或非教育类型时为0,d(y,f`(x`))表示类型标签与第一阶段训练模型的输出之间的距离,max(a,d(y,f`(x`)))表示当d(y,f`(x`))小于a时取a,当d(y,f`(x`))大于a时取d(y,f`(x`)),a表示所述目标语义空间的中心语义向量到所述第一子语料数据簇或所述第二子语料数据簇的距离。
39、第二方面,本发明实施例还提供了一种教育信息分类装置,所述教育信息分类装置包括:
40、获取模块,用于获取第一样本语料与第二样本语料,所述第一样本语料中包括教育类型的文本信息,所述第二样本语料包括非教育类型的文本信息;
41、处理模块,用于对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料,所述第三样本语料包括教育类型与非教育类型的融合文本信息;
42、训练模块,用于通过所述第一样本语料、所述第二样本语料以及所述第三样本语料对待训练的教育分类模型进行有监督训练,在训练完成后,得到训练好的教育分类模型,所述教育分类模型的输出为所述教育类型或所述非教育类型;
43、分类模块,用于获取待分类教育信息,通过训练好的所述教育分类模型对所述待分类教育信息进行分类,得到所述待分类教育信息的分类类型。
44、第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例提供的教育信息分类方法中的步骤。
45、第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现发明实施例提供的教育信息分类方法中的步骤。
46、本发明实施例中,获取第一样本语料与第二样本语料,所述第一样本语料中包括教育类型的文本信息,所述第二样本语料包括非教育类型的文本信息;对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料,所述第三样本语料包括教育类型与非教育类型的融合文本信息;通过所述第一样本语料、所述第二样本语料以及所述第三样本语料对待训练的教育分类模型进行有监督训练,在训练完成后,得到训练好的教育分类模型,所述教育分类模型的输出为所述教育类型或所述非教育类型;获取待分类教育信息,通过训练好的所述教育分类模型对所述待分类教育信息进行分类,得到所述待分类教育信息的分类类型。通过将包含教育类型文本信息的第一样本语料和包含非教育类型文本信息的第二样本语料进行融合处理,得到融合了教育类型和非教育类型文本信息的第三样本语料,利用第一样本语料、第二样本语料和第三样本语料来训练教育分类模型,能够使得模型在学习过程中更好地理解和区分教育类型和非教育类型的文本特征,充分学习并理解教育类型和非教育类型文本的内在特征及其内在差异,从而提高教育信息的分类准确性。
1.一种教育信息分类方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料的步骤包括:
3.如权利要求2所述的方法,其特征在于,所述基于所述第一子语料数据与所述第二子语料数据,对所述第一样本语料与所述第二样本语料进行融合处理,得到第三样本语料的步骤包括:
4.如权利要求3所述的方法,其特征在于,所述以所述中间空间为目标语义空间,基于所述第一子语料数据簇以及所述第二子语料数据簇中的子语料数据来生成所述目标语义空间中的语料文本,得到第三样本语料的步骤包括:
5.如权利要求4所述的方法,其特征在于,所述将所述n1个子语料数据与所述n2个子语料数据作为文本生成种子来生成所述目标语义空间中的语料文本,得到第三样本语料的步骤包括:
6.如权利要求5所述的方法,其特征在于,所述基于所述目标语义空间中的语料文本,确定出第三样本语料的步骤包括:
7.如权利要求6述的方法,其特征在于,所述通过所述第一样本语料、所述第二样本语料以及所述第三样本语料对待训练的教育分类模型进行有监督训练的步骤包括:
8.一种教育信息分类装置,其特征在于,所述教育信息分类装置包括:
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的教育信息分类方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的教育信息分类方法中的步骤。