本申请涉及计算机,特别是涉及一种文本分析模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、随着计算机技术的发展,机器学习的应用领域越来越广泛,例如可以应用在文本分析领域,确定待分析文本的文本标签。该文本标签例如可以包括摘要、标题、人物关系、剧情走向等等。
2、传统技术中,通过对多个携带文本分析标签的样本进行机器学习,获得文本分析模型。由于语言描述千变万化,采用传统技术,无法确保训练得到的文本分析模型能够始终输出较优的文本分析结果,存在模型泛化能力不强的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高模型泛化能力的文本分类模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种文本分析模型的训练方法。所述方法包括:
3、获取参考模型、以及包含多个训练样本的样本集;所述训练样本,包含待分析文本、所述待分析文本的负标签以及所述待分析文本的正标签;
4、针对所述样本集中的每一训练样本,在目标轮次使用所述训练样本进行强化学习训练的过程中,确定所述训练样本中正标签相对负标签的参考学习增益;
5、确定所述训练样本对应的迭代模型输出正标签的第一迭代似然统计值、以及所述训练样本对应的迭代模型输出负标签的第二迭代似然概率;所述训练样本对应的迭代模型,基于所述训练样本所属样本批次的前一批次进行强化学习训练得到;在第一轮强化学习训练过程中,第一个样本批次的训练对象为所述参考模型;
6、对所述第一迭代似然统计值和所述第二迭代似然概率进行加权统计,确定所述训练样本的迭代学习增益;所述第一迭代似然统计值的权重,小于所述第二迭代似然概率的权重;
7、在基于每一所述训练样本各自对应的迭代学习增益和参考学习增益,确定所述目标轮次的学习损失收敛的情况下,结束强化学习训练,得到所述参考模型对应的文本分析模型;所述文本分析模型,用于确定目标文本的文本标签。
8、第二方面,本申请还提供了一种文本分析模型的训练装置。所述装置包括:
9、获取模块,用于获取参考模型、以及包含多个训练样本的样本集;所述训练样本,包含待分析文本、所述待分析文本的负标签以及所述待分析文本的正标签;
10、参考学习增益确定模块,用于针对所述样本集中的每一训练样本,在目标轮次使用所述训练样本进行强化学习训练的过程中,确定所述训练样本中正标签相对负标签的参考学习增益;
11、似然概率统计模块,用于确定所述训练样本对应的迭代模型输出正标签的第一迭代似然统计值、以及所述训练样本对应的迭代模型输出负标签的第二迭代似然概率;所述训练样本对应的迭代模型,基于所述训练样本所属样本批次的前一批次进行强化学习训练得到;在第一轮强化学习训练过程中,第一个样本批次的训练对象为所述参考模型;
12、迭代学习增益确定模块,用于对所述第一迭代似然统计值和所述第二迭代似然概率进行加权统计,确定所述训练样本的迭代学习增益;所述第一迭代似然统计值的权重,小于所述第二迭代似然概率的权重;
13、文本分析模型确定模块,用于在基于每一所述训练样本各自对应的迭代学习增益和参考学习增益,确定所述目标轮次的学习损失收敛的情况下,结束强化学习训练,得到所述参考模型对应的文本分析模型;所述文本分析模型,用于确定目标文本的文本标签。
14、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
15、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
16、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
17、上述文本分析模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,由于所使用的训练样本,包含待分析文本、待分析文本的负标签以及待分析文本的正标签,通过针对正标签和负标签的强化学习训练,能够提高模型的性能和稳定性,从而,提升模型的泛化能力。进一步的,针对每一训练样本,还确定该训练样本中正标签相对负标签的参考学习增益,并且,基于训练样本对应的迭代模型输出正标签的第一迭代似然统计值、与该训练样本对应的迭代模型输出负标签的第二迭代似然概率之间的差异,确定该训练样本的迭代学习增益,进而,在基于每一训练样本各自对应的迭代学习增益和参考学习增益,确定目标轮次的学习损失收敛的情况下,结束强化学习训练,得到参考模型对应的文本分析模型,相当于上述强化学习过程中,通过第一迭代似然统计值增加了学习过程对正标签的偏好,能够在迭代过程中持续提升模型输出的准确率,并且,在迭代学习增益的统计过程中,为第二迭代似然概率配置相对较小的权重,能够减少负标签对模型优化的影响,也就是说,采用本申请的方案,能够在使模型输出向正标签聚集的基础上,降低负标签对模型优化的影响,有利于进一步提高模型的性能和稳定性,提升模型的泛化能力。
1.一种文本分析模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述训练样本对应的迭代模型输出正标签的第一迭代似然统计值,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,确定所述训练样本对应的迭代模型相对所述参考模型的负标签增益统计值,包括:
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述确定所述训练样本下强化学习损失的绝对损失权重,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述迭代模型学习增益与所述参考学习增益的第一数值差异,确定所述训练样本下强化学习损失的绝对损失权重,包括:
8.根据权利要求5所述的方法,其特征在于,确定所述训练样本下模型间相对损失的相对损失权重,包括:
9.根据权利要求8所述的方法,其特征在于,所述基于所述正标签学习增益与所述负标签学习增益的第二数值差异,确定所述训练样本下模型间相对损失的相对损失权重,包括:
10.根据权利要求1至9中任意一项所述的方法,其特征在于,获取包含多个训练样本的样本集的过程,包括:
11.根据权利要求1至9中任意一项所述的方法,其特征在于,获取参考模型的过程,包括:
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
13.一种文本分析模型的训练装置,其特征在于,所述装置包括:
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
