本发明涉及信息抽取领域,特别是涉及一种基于多样本增强的非结构化文本持续关系抽取方法、装置、介质及产品。
背景技术:
1、近年来,非结构化文本通常以三元组(头实体,关系,尾实体)的方式对真实世界进行抽样,可以在复杂的应用场景中,凭借于其快速检索和可解释性推理等技术的优势,对只能推荐和决策辅助等实际应用提供知识支撑。然而,在连续数据流下需要抽取的关系集合动态增长,导致增量数据多样性缺乏,训练不充分和灾难性遗忘问题。
2、对于灾难性遗忘问题,具体的来说,在持续关系抽取任务中,现有技术技术通常在回忆已经学习到的知识方面设计了多种机制,如记忆回放、知识蒸馏等,但是却忽视了在新任务学习阶段得到稳定、不易漂移的关系嵌入表示的重要性。在实际场景中,用于学习新关系的增量数据往往是不充足且多样性单一的,这会导致模型不能很好学习到新关系和旧关系之间的细微差异。最终,这些问题会引起在持续学习过程中,模型对学习到的知识发生混淆和遗忘,造成模型性能随着任务增加而显著降低,关系抽取的准确率大幅下降。
技术实现思路
1、本发明的目的是提供一种基于多样本增强的非结构化文本持续关系抽取方法、装置、介质及产品,本发明通过对比学习的记忆回放策略,缓解了非结构化文本持续关系抽取中的灾难性遗忘的问题,可以持续高效地完成关系抽取任务。
2、为实现上述目的,本发明提供了如下方案:
3、一种基于多样本增强的非结构化文本持续关系抽取方法,所述方法包括:
4、获取当前任务的语料训练集;
5、利用语料训练集,采用对比学习损失函数,对预训练的双向语言表征模型中的编码器进行训练,获得一次训练后的编码器;
6、利用一次训练后的编码器计算语料训练集中每个语料样本的关系嵌入表示向量;
7、根据语料训练集中每个语料样本的关系嵌入表示向量,采用k-means算法对语料训练集中的语料样本进行聚类,并获取每一类中距离聚类中心最近的语料样本,添加至记忆库;所述记忆库中至少包括有历史任务中的语料样本;
8、利用记忆库,采用对比学习损失函数和原型相似度损失函数,对一次训练后的编码器进行训练,获得二次训练后的编码器;
9、利用二次训练后的编码器对当前任务中的非结构化文本持续关系进行抽取。
10、可选的,获取当前任务的语料训练集之后,还包括:
11、采用置换样本增强方法、聚焦样本增强方法和翻转样本增强方法对语料训练集进行增强。
12、可选的,利用二次训练后的编码器对当前任务中的非结构化文本持续关系进行抽取之后,还包括:
13、利用二次训练后的编码器计算语料训练集中每个语料样本的关系嵌入表示向量;
14、根据语料训练集中每个语料样本的关系嵌入表示向量,采用k-means算法对语料训练集中的语料样本进行聚类,并获取每一类中距离聚类中心最近的语料样本,添加至记忆库。
15、可选的,利用一次训练后的编码器计算语料训练集中每个语料样本的关系嵌入表示向量,具体包括:
16、利用如下公式,采用一次训练后的编码器,分批次对语料训练集的中每个语料样本的头实体和尾实体嵌入编码,经过线性化和归一化计算后,得到每个语料样本的关系嵌入表示向量:
17、
18、
19、其中,xm为语料训练集的中的第m个样本,为样本xm的归一化后的关系嵌入表示向量,为样本xm的中间关系嵌入表示向量,为向量的模,linear1为第一线性层,linear2为第二线性层,是对样本xm的实体嵌入表示,e11是样本xm的头实体起始位置的占位符,e21是样本xm的尾实体起始位置的占位符,concate为拼接操作。
20、可选的,所述对比学习损失函数如下:
21、
22、其中,loss1为对比学习损失函数,j为语料训练集中第i个批次的样本集,xi,j∈j,z为样本集j中随机不重样抽取的样本组成的样本集,xi,z∈z,q为样本集z中与样本xi,j相同关系标签的样本xi,q组成的样本集,xi,q∈q,|j|为样本集j的样本数量,|q|为样本集q的样本数量,|z|为样本集z的样本数量,为样本xi,j的关系嵌入表示向量,为样本xi,q的关系嵌入表示向量,为样本xi,z的关系嵌入表示向量,τ为可调节的温度超参数,·是向量点积。
23、可选的,所述原型相似度损失函数的计算过程如下:
24、计算记忆库中的语料样本的关系嵌入表示向量,构建记忆原型库;
25、通过如下公式,使用记忆原型库中不同记忆原型之间的相似度来对持续关系抽取进行约束:
26、
27、其中,u和v是第k个任务关系集合rk中的关系,pu是关系u的记忆原型,pv是关系v的记忆原型,suv为记忆原型pu和pv之间的余弦相似度,所述余弦相似度用于表征不同记忆原型之间的差异程度,|pu|为记忆原型pu向量的模,|pv|为记忆原型pv向量的模,t为转置;
28、通过如下公式,基于余弦相似度计算不同记忆原型之间的度量分布:
29、
30、其中,u、v和w为第k个任务关系集合rk中的关系,u、v、w∈rk,mdu为关系u的度量分布,是一个长度为|rk|的向量,|rk|为关系集合rk中关系的数量,τ为可调节的温度超参数;
31、通过如下公式,比较训练前的度量分布和训练过程中的临时度量分布,使用kl散度来计算记忆原型的相似性损失:
32、
33、其中,loss2为原型相似度损失函数,x为第k个任务记忆库mk中的一条样本,kl为kl散度,yx为样本x的关系标签,为关系标签yx的训练前的度量分布,为关系yx的训练过程中的临时度量分布。
34、可选的,所述记忆原型的计算公式如下:
35、
36、其中,r为第k个任务关系集合rk中的关系,pr为关系r的记忆原型,x为第k个任务记忆库mk中的样本,lx为记忆库中样本x的关系嵌入表示向量,yx为样本x关系标签。
37、一种计算机装置,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现以上所述基于多样本增强的非结构化文本持续关系抽取方法。
38、一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以上所述基于多样本增强的非结构化文本持续关系抽取方法。
39、一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以上所述基于多样本增强的非结构化文本持续关系抽取方法。
40、根据本发明提供的具体实施例,本发明公开了以下技术效果:
41、本发明通过采用对比学习损失函数,对预训练的编码器进行训练,获得一次训练后的编码器;进而计算得到语料训练集中每个语料样本的关系嵌入表示向量;然后对语料训练集中的语料样本进行聚类,并获取每一类中距离聚类中心最近的语料样本,添加至记忆库;并采用对比学习损失函数和原型相似度损失函数,对一次训练后的编码器进行训练,获得二次训练后的编码器;利用二次训练后的编码器对当前任务中的非结构化文本持续关系进行抽取。通过对比学习的记忆回放策略,缓解了非结构化文本持续关系抽取中的灾难性遗忘的问题,可以持续高效地完成关系抽取任务。
1.一种基于多样本增强的非结构化文本持续关系抽取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多样本增强的非结构化文本持续关系抽取方法,其特征在于,获取当前任务的语料训练集之后,还包括:
3.根据权利要求1所述的基于多样本增强的非结构化文本持续关系抽取方法,其特征在于,利用二次训练后的编码器对当前任务中的非结构化文本持续关系进行抽取之后,还包括:
4.根据权利要求1所述的基于多样本增强的非结构化文本持续关系抽取方法,其特征在于,利用一次训练后的编码器计算语料训练集中每个语料样本的关系嵌入表示向量,具体包括:
5.根据权利要求1所述的基于多样本增强的非结构化文本持续关系抽取方法,其特征在于,所述对比学习损失函数如下:
6.根据权利要求1所述的基于多样本增强的非结构化文本持续关系抽取方法,其特征在于,所述原型相似度损失函数的计算过程如下:
7.根据权利要求6所述的基于多样本增强的非结构化文本持续关系抽取方法,其特征在于,所述记忆原型的计算公式如下:
8.一种计算机装置,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述基于多样本增强的非结构化文本持续关系抽取方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述基于多样本增强的非结构化文本持续关系抽取方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述基于多样本增强的非结构化文本持续关系抽取方法。