模型训练方法、文本处理方法、计算设备、存储介质及程序产品与流程

xiaoxiao4小时前  2


本技术实施例涉及计算机,尤其涉及一种模型训练方法、文本处理方法、计算设备、存储介质及程序产品。


背景技术:

1、面向全球用户的一些线上系统中,为了促进不同国家和地区的用户之间的沟通,需要对线上系统的一种语言的文本翻译为另一种语言的文本,因此,如何实现准确翻译,保证翻译质量以提高用户体验成为本领域技术人员需要解决的技术问题。


技术实现思路

1、本技术实施例提供一种模型训练方法、文本处理方法、计算设备、存储介质及程序产品,用以解决现有技术中如何提高翻译准确度的技术问题。

2、第一方面,本技术实施例中提供了一种模型训练方法,包括:

3、收集与目标领域相关且为第一语言的第一文本,并确定所述第一文本对应第二语言的第二文本;

4、由所述第一文本与所述第二文本构成第一样本对;

5、从所述目标领域且为所述第一语言的网页描述信息中收集具有特定组织方式的第三文本,并确定所述第三文本对应第二语言的第四文本;

6、由所述第三文本与所述第四文本构成第二样本对;

7、利用所述第一样本对以及所述第二样本对,训练预训练模型,获得目标翻译模型;所述目标翻译模型用以将所述目标领域相关的第一语言文本翻译为第二语言文本。

8、可选地,所述收集与目标领域相关且为第一语言的第一文本包括:

9、确定基于第一语言的通用字符扩展生成的词汇表;

10、基于所述词汇表中的字符,从所述目标领域且为第一语言的网页描述信息中收集包含所述字符的词语作为第一文本、基于所述字符利用第一大模型生成与所述目标领域相关的词语作为第一文本、和/或从所述目标领域且为第一语言的网页描述信息中收集所述目标领域的专业术语作为第一文本。

11、可选地,所述确定所述第一文本对应第二语言的第二文本包括:

12、利用翻译词典生成所述第一文本对应第二语言的第二文本。

13、可选地,所述确定所述第三文本对应第二语言的第四文本包括:

14、利用第二大模型和/或机器翻译模型生成第三文本对应第二语言的至少一个候选文本;

15、计算所述至少一个候选文本分别与所述第三文本的语义相似度;

16、筛选语义相似度满足相似条件的至少一个待选文本;

17、基于对所述至少一个待选文本的人工校验结果,获得所述第三文本对应第二语言的第四文本。

18、可选地,所述目标领域包括电商领域;

19、所述从所述目标领域且为第一语言的网页描述信息中收集包含所述字符的词语作为第一文本包括:

20、从所述目标领域且为第一语言的商品标题和/或商品详情内容中收集包含所述字符的词语作为第一文本;

21、所述从所述目标领域且为第一语言的网页描述信息中收集所述目标领域的专业术语作为第一文本包括:

22、从所述目标领域且为第一语言的网页描述信息中收集地理名称、文化词汇、和/或品牌名称作为第一文本。

23、可选地,所述从所述目标领域且为所述第一语言的网页描述信息中收集具有特定组织方式的第三文本包括:

24、将所述第一语言的商品标题作为第三文本。

25、可选地,所述利用所述第一样本对以及所述第二样本对,训练预训练模型,获得目标翻译模型包括:

26、利用所述第一样本对训练预训练模型,获得候选翻译模型;

27、利用所述第二样本对训练所述候选翻译模型,获得目标翻译模型。

28、可选地,所述利用所述第一样本对训练预训练模型,获得候选翻译模型包括:

29、将所述第一文本作为所述预训练模型的输入数据,以及所述第二文本作为训练标签,进行两次网络前向传递,并在所述两次网络前向传递过程中随机停用所述预训练模型中的部分单元,以获得第一预测数据以及第二预测数据;

30、基于所述第一预测数据、所述第二预测数据以及所述第二文本之间的差异信息,调整所述预训练模型,以获得候选翻译模型;

31、所述利用所述第二样本对训练所述候选翻译模型,获得目标翻译模型包括:

32、将所述第三文本作为所述候选翻译模型的输入数据,以及所述第四文本作为训练标签,进行两次网络前向传递,并在所述两次网络前向传递过程中随机停用所述候选翻译模型中的部分单元,以获得第三预测数据以及第四预测数据;

33、基于所述第三预测数据、所述第四预测数据以及所述第四文本之间的差异信息,调整所述候选翻译模型,以获得目标翻译模型。

34、可选地,所述基于所述第一预测数据、所述第二预测数据以及所述第二文本之间的差异信息,调整所述预训练模型,以获得候选翻译模型包括:

35、基于所述第一预测数据、所述第二预测数据及所述第二文本,分别利用多个损失函数计算获得多个损失值;

36、将所述多个损失值进行加权处理,获得第一目标损失值;

37、基于所述第一目标损失值,调整所述预训练模型,以获得候选翻译模型;

38、所述基于所述第三预测数据、所述第四预测数据以及所述第四文本之间的差异信息,调整所述候选翻译模型,以获得目标翻译模型包括:

39、基于所述第三预测数据、所述第四预测数据及所述第四文本,分别利用多个损失函数计算获得多个损失值;

40、将所述多个损失值进行加权处理,获得第二目标损失值;

41、基于所述第二目标损失值,调整所述候选翻译模型,以获得目标翻译模型。

42、可选地,所述基于所述第一预测数据、所述第二预测数据及所述第二文本,分别利用多个损失函数计算获得多个损失值包括:

43、利用卡氏散度损失函数,计算所述第一预测数据与第二预测数据的双向散度,作为第一损失值;

44、利用交叉熵损失函数,计算所述第一预测数据与所述第二文本的第一交叉熵损失以及所述第二预测数据与所述第二文本的第二交叉熵损失,并基于所述第一交叉熵损失以及第二交叉熵损失,确定第二损失值;

45、所述基于所述第三预测数据、所述第四预测数据及所述第四文本,分别利用多个损失函数计算获得多个损失值包括:

46、利用卡氏散度损失函数,计算所述第三预测数据与第四预测数据的双向散度,作为第三损失值;

47、利用交叉熵损失函数,计算所述第三预测数据与所述第四文本的第三交叉熵损失以及、所述第四预测数据与所述第四文本的第四交叉熵损失,并基于所述第三交叉熵损失以及第四交叉熵损失,确定第四损失值。

48、可选地,所述利用所述第一样本对训练预训练模型,获得候选翻译模型包括:

49、将属于同一个第一样本对中的第二文本作为第一文本的正样本,不同于第一样本对中的第二文本作为第一文本的负样本;

50、利用所述第一文本、所述第二文本的正样本以及所述第二文本的负样本,训练预训练模型,获得候选翻译模型;

51、所述利用所述第二样本对训练所述候选翻译模型,获得目标翻译模型包括:

52、将属于同一个第二样本对中的第四文本作为第三文本的正样本,不同于第二样本对中的第四文本作为第三文本的负样本;

53、利用所述第三文本、所述第四文本的正样本以及所述第四文本的负样本,训练所述候选翻译模型,获得目标翻译模型。

54、可选地,所述利用所述第一样本对以及所述第二样本对,训练预训练模型,获得目标翻译模型包括:

55、利用所述第一样本对以及所述第二样本对,基于参数高效微调方式,训练预训练模型,获得目标翻译模型;

56、或者,在预训练模型中增加适配模块,并冻结所述预训练模型的模型参数,利用所述第一样本对以及所述第二样本对,训练所述预训练模型,获得所述适配模型对应的增量参数;由所述预训练模型以及所述适配模块构成所述目标翻译模型。

57、第二方面,本技术实施例中提供了一种文本处理方法,包括:

58、获取目标领域的第一语言文本;

59、利用目标翻译模型将所述第一语言文本翻译为第二语言文本;

60、其中,所述目标翻译模型利用第一样本对以及第二样本对训练预训练模型获得;所述第一样本对由第一语言的第一文本与第二语言的第二文本构成;所述第二样本对由所述第一语言的第三文本与所述第二语言的第四文本构成;所述第三文本为从所述目标领域且为所述第一语言的网页描述信息中收集获得。

61、可选地,所述获取目标领域的第一语言文本包括:

62、响应于针对第一语言的第一目标网页的语言切换请求,从所述第一目标网页的网页描述信息中确定待翻译的第一语言文本;

63、所述方法还包括:

64、将所述第一目标网页中的第一语言文本更新为所述第二语言文本,以获得第二目标网页。

65、可选地,所述获取目标领域的第一语言文本包括:

66、针对第一语言的第一目标网页,从所述第一目标网页的网页描述信息中确定待翻译的第一语言文本;

67、所述方法还包括:

68、将所述第一目标网页中的所述第一语言文本更新为所述第二语言文本,以生成第二目标网页;

69、检测到针对第一目标网页的语言切换请求,将所述第一目标网页切换为所述第二目标网页。

70、第三方面,本技术实施例中提供了一种计算设备,包括处理组件、存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用于被所述处理组件调用并执行,以实现如上述第一方面所述的模型训练方法或者如上述第二方面所述的文本处理方法。

71、第四方面,本技术实施例中提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时,实现如上述第一方面所述的模型训练方法或者如上述第二方面所述的文本处理方法。

72、第五方面,本技术实施例中提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被计算机执行时,实现如上述第一方面所述的模型训练方法或者如上述第二方面所述的文本处理方法。

73、本技术实施例收集与目标领域相关且为第一语言的第一文本,并确定第一文本对应第二语言的第二文本;由第一文本与第二文本构成第一样本对;从目标领域且为第一语言的网页描述信息中收集具有特定组织方式的第三文本,并确定第三文本对应第二语言的第四文本;由第三文本与第四文本构成第二样本对;利用第一样本对以及第二样本对,训练预训练模型,获得目标翻译模型;目标翻译模型用以将目标领域相关的第一语言文本翻译为第二语言文本。由于第一文本对和第二文本对与目标领域相关,因此包含目标领域的特定语料,且第二文本对中第三文本和第四文本具有目标领域的特定组织方式,因此,利用第一文本对以及第二文本对训练预训练模型,获得的目标翻译模型可以学习目标领域的语言特征,可以实现专业领域的准确翻译,从而提高了翻译准确度,保证了翻译质量,提高了用户体验。

74、本技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。


技术特征:

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述收集与目标领域相关且为第一语言的第一文本包括:

3.根据权利要求1所述的方法,其特征在于,所述确定所述第一文本对应第二语言的第二文本包括:

4.根据权利要求1所述的方法,其特征在于,所述确定所述第三文本对应第二语言的第四文本包括:

5.根据权利要求2所述的方法,其特征在于,所述目标领域包括电商领域;

6.根据权利要求5所述的方法,其特征在于,所述从所述目标领域且为所述第一语言的网页描述信息中收集具有特定组织方式的第三文本包括:

7.根据权利要求1所述的方法,其特征在于,所述利用所述第一样本对以及所述第二样本对,训练预训练模型,获得目标翻译模型包括:

8.根据权利要求7所述的方法,其特征在于,所述利用所述第一样本对训练预训练模型,获得候选翻译模型包括:

9.根据权利要求8所述的方法,其特征在于,所述基于所述第一预测数据、所述第二预测数据以及所述第二文本之间的差异信息,调整所述预训练模型,以获得候选翻译模型包括:

10.根据权利要求9所述的方法,其特征在于,所述基于所述第一预测数据、所述第二预测数据及所述第二文本,分别利用多个损失函数计算获得多个损失值包括:

11.根据权利要求7所述的方法,其特征在于,所述利用所述第一样本对训练预训练模型,获得候选翻译模型包括:

12.根据权利要求1所述的方法,其特征在于,所述利用所述第一样本对以及所述第二样本对,训练预训练模型,获得目标翻译模型包括:

13.一种文本处理方法,其特征在于,包括:

14.根据权利要求13所述的方法,其特征在于,所述获取目标领域的第一语言文本包括:

15.根据权利要求13所述的方法,其特征在于,所述获取目标领域的第一语言文本包括:

16.一种计算设备,其特征在于,包括处理组件、存储组件;所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用于被所述处理组件调用并执行,以实现如权利要求1~12任一项所述的模型训练方法或者如权利要求13~15任一项所述的文本处理方法。

17.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时,实现如权利要求1~12任一项所述的模型训练方法或者如权利要求13~15任一项所述的文本处理方法。

18.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被计算机执行时,实现如权利要求1~12任一项所述的模型训练方法或者如权利要求13~15任一项所述的文本处理方法。


技术总结
本申请实施例提供一种模型训练方法、文本处理方法、计算设备、存储介质及程序产品。其中,收集与目标领域相关且为第一语言的第一文本,并确定所述第一文本对应第二语言的第二文本;由所述第一文本与所述第二文本构成第一样本对;从所述目标领域且为所述第一语言的网页描述信息中收集具有特定组织方式的第三文本,并确定所述第三文本对应第二语言的第四文本;由所述第三文本与所述第四文本构成第二样本对;利用所述第一样本对以及所述第二样本对,训练预训练模型,获得目标翻译模型;所述目标翻译模型用以将所述目标领域相关的第一语言文本翻译为第二语言文本。本申请实施例提供的技术方案提高了翻译准确度。

技术研发人员:陈犇,陈凯迪,戴煌宇
受保护的技术使用者:杭州阿里巴巴海外互联网产业有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)