本申请涉及计算机,特别是涉及一种文本分析模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、随着计算机技术的发展,机器学习的应用领域越来越广泛,例如可以应用在文本分析领域,确定待分析文本的文本标签。该文本标签例如可以包括摘要、标题、人物关系、剧情走向等等。
2、传统技术中,通过对多个携带标签的样本进行机器学习,获得文本分析模型。由于语言描述千变万化,采用传统技术,无法确保训练得到的文本分析模型能够始终输出较优的文本分析结果,存在模型泛化能力不强的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高模型泛化能力的文本分类模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种文本分析模型的训练方法。所述方法包括:
3、获取参考模型、以及包含多个训练样本的样本集;所述训练样本,包含待分析文本、所述待分析文本的负标签以及所述待分析文本的正标签;
4、针对所述样本集中的每一训练样本,在目标轮次使用所述训练样本进行强化学习训练的过程中,确定所述训练样本对应的迭代模型相对所述参考模型的正标签学习增益;所述训练样本对应的迭代模型,基于所述训练样本所属样本批次的前一批次进行强化学习训练得到;在第一轮强化学习训练过程中,第一个样本批次的训练对象为所述参考模型;
5、基于所述训练样本以及所述训练样本之前的强化学习训练过程,确定所述训练样本对应的迭代模型相对所述参考模型的负标签增益统计值;
6、在基于每一所述训练样本各自对应的正标签学习增益和负标签增益统计值,确定所述目标轮次的学习损失收敛的情况下,结束强化学习训练,得到所述参考模型对应的文本分析模型;所述文本分析模型,用于确定待分析文本的文本标签。
7、第二方面,本申请还提供了一种文本分析模型的训练装置。所述装置包括:
8、获取模块,用于获取参考模型、以及包含多个训练样本的样本集;所述训练样本,包含待分析文本、所述待分析文本的负标签以及所述待分析文本的正标签;
9、正标签学习增益确定模块,用于针对所述样本集中的每一训练样本,在目标轮次使用所述训练样本进行强化学习训练的过程中,确定所述训练样本对应的迭代模型相对所述参考模型的正标签学习增益;所述训练样本对应的迭代模型,基于所述训练样本所属样本批次的前一批次进行强化学习训练得到;在第一轮强化学习训练过程中,第一个样本批次的训练对象为所述参考模型;
10、负标签增益统计值确定模块,用于基于所述训练样本以及所述训练样本之前的强化学习训练过程,确定所述训练样本对应的迭代模型相对所述参考模型的负标签增益统计值;
11、文本分析模型确定模块,用于在基于每一所述训练样本各自对应的正标签学习增益和负标签增益统计值,确定所述目标轮次的学习损失收敛的情况下,结束强化学习训练,得到所述参考模型对应的文本分析模型;所述文本分析模型,用于确定待分析文本的文本标签。
12、第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
13、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
14、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
15、上述文本分析模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,由于所使用的训练样本,包含待分析文本、待分析文本的负标签以及待分析文本的正标签,通过针对正标签和负标签的强化学习训练,能够提高模型的性能和稳定性,从而,提升模型的泛化能力。进一步的,针对每一训练样本,还基于该训练样本以及该训练样本之前的强化学习训练过程,确定该训练样本对应的迭代模型相对参考模型的负标签增益统计值,并在基于每一训练样本各自对应的正标签学习增益和负标签增益统计值,确定目标轮次的学习损失收敛的情况下,结束强化学习训练,得到参考模型对应的文本分析模型,相当于上述强化学习过程中,通过正标签学习增益增加了学习过程对正标签的偏好,能够在迭代过程中持续提升模型输出正标签的概率,并且,由于负标签增益统计值保持了前面的学习结果,为相对稳定的数值,能够使模型训练的下限指标相对稳定,也就是说,采用本申请的方案,能够在下限指标相对稳定的情况下,提升模型的学习上限,有利于进一步提高模型的性能和稳定性,提升模型的泛化能力。
1.一种文本分析模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本以及所述训练样本之前的强化学习训练过程,确定所述训练样本对应的迭代模型相对所述参考模型的负标签增益统计值,包括:
3.根据权利要求2所述的方法,其特征在于,所述在基于所述训练样本的强化学习训练过程中,确定所述训练样本对应的迭代模型相对所述参考模型的负标签学习增益,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本以及所述训练样本之前的强化学习训练过程,确定所述训练样本对应的迭代模型相对所述参考模型的负标签增益统计值,包括:
5.根据权利要求4所述的方法,其特征在于,确定所述样本批次之前历史批次的历史权重,包括:
6.根据权利要求5所述的方法,其特征在于,所述历史批次的数量为多个;所述根据所述批次间隔,确定所述历史批次的历史权重,包括:
7.根据权利要求1所述的方法,其特征在于,获取包含多个训练样本的样本集的过程,包括:
8.根据权利要求1所述的方法,其特征在于,获取参考模型的过程,包括:
9.根据权利要求1所述的方法,其特征在于,所述在目标轮次使用所述训练样本进行强化学习训练的过程中,确定所述训练样本对应的迭代模型相对所述参考模型的正标签学习增益,包括:
10.根据权利要求1-9中任意一项所述的方法,其特征在于,所述方法还包括:
11.根据权利要求1至9中任意一项所述的方法,其特征在于,所述在基于每一所述训练样本各自对应的正标签学习增益和负标签增益统计值,确定所述目标轮次的学习损失收敛的情况下,结束强化学习训练,得到所述参考模型对应的文本分析模型,包括:
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
13.一种文本分析模型的训练装置,其特征在于,所述装置包括:
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
