本发明属于文本分析,具体是涉及到一种基于领域自适应半监督学习的因果关系发现方法及系统。
背景技术:
1、在计算机科技和互联网迅猛推进的今天,人类产生的数据正在以前所未有的速度增长。这个趋势的形成,得益于计算机和互联网技术的不断进步和日益普及。在这个信息爆炸的时代,信息量的快速增长给人们带来了巨大的挑战。其中,如何从海量的文本数据中快速准确地提取出有价值的信息是急需面对和解决的问题。
2、文本数据中文本的因果关系则是具有价值的信息之一,现有技术通常采用多种半监督学习方法用于因果关系的提取,包括自训练(self-training)、自集成(self-ensembling)、双重学习(dual learning)等。然而,在现有的半监督学习方法中通常需要应用大量已经具有标记的数据,考虑到标记数据的获取代价较高,且标记的因果数据集规模较小,不能充分支持模型训练,导致大多数现有监督学习模型的性能受到限制,降低了模型的泛化能力。
技术实现思路
1、本发明提供一种基于领域自适应半监督学习的因果关系发现方法及系统,以解决由于模型泛化能力较差,导致难以准确识别到小众的文本数据中因果关系的问题。
2、第一方面,本发明提供一种基于领域自适应半监督学习的因果关系发现方法,该方法包括如下步骤:
3、获取训练数据集和待识别因果关系的目标文本数据,所述训练数据集包括两个不同领域中具有不同分布的有标签数据和无标签数据;
4、构建因果关系识别模型,所述因果关系识别模型包括投影模块、第一分类器和第二分类器;
5、分别将所述有标签数据和所述无标签数据投影至统一的向量空间,得到有标签数据向量和无标签数据向量;
6、将所述有标签数据向量作为第一输入特征,并将所述无标签数据向量作为第二输入特征,利用所述第一输入特征和所述第二输入特征并基于对抗学习策略对所述因果关系识别模型执行模型训练步骤,得到训练完成的最优因果关系识别模型;
7、将所述目标文本数据输入至所述最优因果关系识别模型中,通过所述最优因果关系识别模型输出所述目标文本数据的因果关系识别结果。
8、可选的,所述模型训练步骤具体如下:
9、将所述第一输入特征和所述第二输入特征输入至所述因果关系识别模型中;
10、结合所述第一输入特征和所述第二输入特征对所述第一分类器和所述第二分类器进行对抗性联合训练,并对所述投影模块进行领域适应训练;
11、根据训练结果更新所述第一分类器、所述第二分类器和所述向量空间,并通过所述第一分类器和所述第二分类器输出所述第二输入特征对应的初始预测标签;
12、通过评估所述初始预测标签的标签置信度筛选出所述初始预测标签中的伪标签;
13、利用所述伪标签更新所述无标签数据,并分别将所述有标签数据和更新后的所述无标签数据投影至更新后的所述向量空间,得到更新后的第一输入特征和更新后的第二输入特征;
14、重复执行上述模型训练步骤直至所述模型训练步骤的执行次数达到预设的训练次数或所述因果关系识别模型的总损失函数达到最小值。
15、可选的,所述结合所述第一输入特征和所述第二输入特征对所述第一分类器和所述第二分类器进行对抗性联合训练,并对所述投影模块进行领域适应训练包括如下步骤:
16、将所述第一输入特征输入至所述第一分类器和所述第二分类器中,得到所述第一分类器和所述第二分类器输出的第一分类结果;
17、基于所述第一分类结果的分类差异构建所述第一分类器和所述第二分类器之间对抗性联合训练的第一损失函数;
18、将所述第二输入特征输入至所述第一分类器和所述第二分类器中,得到所述第一分类器和所述第二分类器输出的第二分类结果;
19、基于所述第二分类结果的分类差异构建所述第一分类器和所述第二分类器之间对抗性联合训练的第二损失函数;
20、结合所述第一损失函数和所述第二损失函数并以最大化所述分类差异为第一训练目标,在所述投影模块固定时对所述第一分类器和所述第二分类器进行对抗性联合训练;
21、根据所述第二损失函数并以最小化所述分类差异为第二训练目标对所述投影模块进行领域适应训练。
22、可选的,所述第一损失函数的具体公式如下:
23、
24、式中:lc表示所述第一损失函数,xl和yl分别表示所述有标签数据和数据标签,zl=p(xl)表示所述第一输入特征,其中p(·)表示所述投影模块的投影操作,c1(zl)和c2(zl)表示所述第一分类结果,c1(·)表示所述第一分类器,c2(·)表示所述第二分类器,||·||f表示f范数;
25、所述第二损失函数的具体公式如下:
26、
27、式中:lda表示所述第二损失函数,xu表示所述无标签数据,zu=p(xu)表示所述第二输入特征,c1(zu)和c2(zu)表示所述第二分类结果,dl表示所述第二分类结果的特征维度,[c1(zu)]k表示所述第一分类器所输出的所述第二分类结果的第k个条目;
28、所述第一训练目标的表达公式如下:
29、r1=max(lda+λlc)
30、式中:r1表示所述第一训练目标,max(·)表示最大化目标,λ表示平衡参数;
31、所述第二训练目标的表达公式如下:
32、r2=min(lda)
33、式中:r2表示所述第二训练目标,min(·)表示最小化目标。
34、可选的,所述通过评估所述初始预测标签的标签置信度筛选出所述初始预测标签中的伪标签包括如下步骤:
35、分别计算各个所述初始预测标签与对应所述第二输入特征之间的特征距离,并将所述特征距离作为所述初始预测标签的标签置信度;
36、将小于预设置信度阈值的所述标签置信度作为目标标签置信度;
37、将所述目标标签置信度所对应的目标初始预测标签作为伪标签进行保留,筛除其他所有所述初始预测标签,并基于所述伪标签构建用于训练所述因果关系识别模型的第三损失函数,所述因果关系识别模型的总损失函数为所述第一损失函数与所述第二损失函数之差加上所述第三损失函数,所述第三损失函数的具体公式如下:
38、
39、式中:lr表示所述第三损失函数,yi表示第i个所述第二输入特征的groudtruth标签,表示第i个所述第二输入特征的所述伪标签,n表示所述第二输入特征的特征数量,||·||表示f1范数。
40、第二方面,本发明还提供一种基于领域自适应半监督学习的因果关系发现系统,所述系统包括:
41、数据获取模块,用于获取训练数据集和待识别因果关系的目标文本数据,所述训练数据集包括两个不同领域中具有不同分布的有标签数据和无标签数据;
42、模型构建模块,用于构建因果关系识别模型,所述因果关系识别模型包括投影模块、第一分类器和第二分类器;
43、数据投影模块,用于分别将所述有标签数据和所述无标签数据投影至统一的向量空间,得到有标签数据向量和无标签数据向量;
44、模型训练模块,用于将所述有标签数据向量作为第一输入特征,并将所述无标签数据向量作为第二输入特征,利用所述第一输入特征和所述第二输入特征并基于对抗学习策略对所述因果关系识别模型执行模型训练步骤,得到训练完成的最优因果关系识别模型;
45、因果关系识别模块,用于将所述目标文本数据输入至所述最优因果关系识别模型中,通过所述最优因果关系识别模型输出所述目标文本数据的因果关系识别结果。
46、可选的,所述模型训练模块包括:
47、特征输入子模块,用于将所述第一输入特征和所述第二输入特征输入至所述因果关系识别模型中;
48、综合训练子模块,用于结合所述第一输入特征和所述第二输入特征对所述第一分类器和所述第二分类器进行对抗性联合训练,并对所述投影模块进行领域适应训练;
49、训练更新子模块,用于根据训练结果更新所述第一分类器、所述第二分类器和所述向量空间,并通过所述第一分类器和所述第二分类器输出所述第二输入特征对应的初始预测标签;
50、标签筛选子模块,用于通过评估所述初始预测标签的标签置信度筛选出所述初始预测标签中的伪标签;
51、特征更新子模块,用于利用所述伪标签更新所述无标签数据,并分别将所述有标签数据和更新后的所述无标签数据投影至更新后的所述向量空间,得到更新后的第一输入特征和更新后的第二输入特征;
52、模型训练子模块,用于通过发送指令使上述所有子模块重复执行所执行的步骤直至重复执行次数达到预设的训练次数或所述因果关系识别模型的总损失函数达到最小值。
53、可选的,所述综合训练子模块包括:
54、第一分类单元,用于将所述第一输入特征输入至所述第一分类器和所述第二分类器中,得到所述第一分类器和所述第二分类器输出的第一分类结果;
55、第一损失构建单元,用于基于所述第一分类结果的分类差异构建所述第一分类器和所述第二分类器之间对抗性联合训练的第一损失函数;
56、第二分类单元,用于将所述第二输入特征输入至所述第一分类器和所述第二分类器中,得到所述第一分类器和所述第二分类器输出的第二分类结果;
57、第二损失构建单元,用于基于所述第二分类结果的分类差异构建所述第一分类器和所述第二分类器之间对抗性联合训练的第二损失函数;
58、分类器训练单元,用于结合所述第一损失函数和所述第二损失函数并以最大化所述分类差异为第一训练目标,在所述投影模块固定时对所述第一分类器和所述第二分类器进行对抗性联合训练;
59、向量空间训练单元,用于根据所述第二损失函数并以最小化所述分类差异为第二训练目标对所述投影模块间进行领域适应训练。
60、可选的,所述第一损失函数的具体公式如下:
61、
62、式中:lc表示所述第一损失函数,xl和yl分别表示所述有标签数据和数据标签,zl=p(xl)表示所述第一输入特征,其中p(·)表示所述投影模块的投影操作,c1(zl)和c2(zl)表示所述第一分类结果,c1(·)表示所述第一分类器,c2(·)表示所述第二分类器,||·||f表示f范数;
63、所述第二损失函数的具体公式如下:
64、
65、式中:lda表示所述第二损失函数,xu表示所述无标签数据,zu=p(xu)表示所述第二输入特征,c1(zu)和c2(zu)表示所述第二分类结果,dl表示所述第二分类结果的特征维度,[c1(zu)]k表示所述第一分类器所输出的所述第二分类结果的第k个条目;
66、所述第一训练目标的表达公式如下:
67、r1=max(lda+λlc)
68、式中:r1表示所述第一训练目标,max(·)表示最大化目标,λ表示平衡参数;
69、所述第二训练目标的表达公式如下:
70、r2=min(lda)
71、式中:r2表示所述第二训练目标,min(·)表示最小化目标。
72、可选的,所述标签筛选子模块包括:
73、置信度计算单元,用于分别计算各个所述初始预测标签与对应所述第二输入特征之间的特征距离,并将所述特征距离作为所述初始预测标签的标签置信度;
74、置信度选取单元,用于将小于预设置信度阈值的所述标签置信度作为目标标签置信度;
75、标签筛选单元,用于将所述目标标签置信度所对应的目标初始预测标签作为伪标签进行保留,筛除其他所有所述初始预测标签,并基于所述伪标签构建用于训练所述因果关系识别模型的第三损失函数,所述因果关系识别模型的总损失函数为所述第一损失函数与所述第二损失函数之差加上所述第三损失函数,所述第三损失函数的具体公式如下:
76、
77、式中:lr表示所述第三损失函数,yi表示第i个所述第二输入特征的groudtruth标签,表示第i个所述第二输入特征的所述伪标签,n表示所述第二输入特征的特征数量,||·||表示f1范数。
78、本发明的有益效果是:
79、在本发明中采用双半监督框架,该框架整合了领域适应性以提高因果关系的发现准确性和基于有限标记数据的领域适应性,通过利用未标记数据中的潜在因果信息来克服标记数据稀疏的限制。可以在有限的标记数据下增强因果关系的发现,并促进领域自适应,并解决固有的噪声数据和偏差问题。另一方面,还可以充分利用伪标签数据中的语义信息,提升整体框架的监督学习能力。相较于现有技术,即使面对仅有少量样本数据集的文本数据,也能实现更加精准的因果关系识别。
1.一种基于领域自适应半监督学习的因果关系发现方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于领域自适应半监督学习的因果关系发现方法,其特征在于,所述模型训练步骤具体如下:
3.根据权利要求2所述的基于领域自适应半监督学习的因果关系发现方法,其特征在于,所述结合所述第一输入特征和所述第二输入特征对所述第一分类器和所述第二分类器进行对抗性联合训练,并对所述投影模块进行领域适应训练包括如下步骤:
4.根据权利要求3所述的基于领域自适应半监督学习的因果关系发现方法,其特征在于,所述第一损失函数的具体公式如下:
5.根据权利要求3所述的基于领域自适应半监督学习的因果关系发现方法,其特征在于,所述通过评估所述初始预测标签的标签置信度筛选出所述初始预测标签中的伪标签包括如下步骤:
6.一种基于领域自适应半监督学习的因果关系发现系统,其特征在于,所述系统包括:
7.根据权利要求6所述的基于领域自适应半监督学习的因果关系发现系统,其特征在于,所述模型训练模块包括:
8.根据权利要求7所述的基于领域自适应半监督学习的因果关系发现系统,其特征在于,所述综合训练子模块包括:
9.根据权利要求8所述的基于领域自适应半监督学习的因果关系发现系统,其特征在于,所述第一损失函数的具体公式如下:
10.根据权利要求8所述的基于领域自适应半监督学习的因果关系发现系统,其特征在于,所述标签筛选子模块包括:
