本技术属于语音处理,特别涉及一种语音文本后处理方法、装置、电子设备和存储介质。
背景技术:
1、在相关技术中,一般的语音文本后处理任务包含逆文本规范化任务、标点预测(punctuation restoration)任务和口语顺滑(disfluency detection)任务。对于标点预测任务和口语顺滑任务,相关技术的方案是将标点预测任务和口语顺滑任务分别进行单独处理,这样,会导致占用较多的计算资源。
技术实现思路
1、本技术实施例提供一种语音文本后处理方法、装置、电子设备和存储介质。
2、本技术实施例提供一种语音文本后处理方法,所述方法包括:
3、获取语音文本信息;
4、提取所述语音文本信息的语义特征;
5、将所述语义特征分别输入口语顺滑模型和标点预测模型的特征提取层,得到口语顺滑的语义特征和标点预测的语义特征;
6、根据所述口语顺滑的语义特征得到所述口语顺滑模型的输出结果,并且根据所述标点预测的语义特征得到所述标点预测模型的输出结果;
7、根据所述口语顺滑模型的输出结果和所述标点预测模型的输出结果,得到所述语音文本信息的后处理结果。
8、在一些实施例中,所述方法还包括:获取所述语音文本信息对应的时长特征;所述根据所述口语顺滑的语义特征得到所述口语顺滑模型的输出结果,包括:对所述口语顺滑的语义特征和所述语音文本信息对应的时长特征进行融合,得到第一融合特征;根据所述第一融合特征得到所述口语顺滑模型的输出结果。
9、与相关技术中仅仅根据口语顺滑的语义特征得出口语顺滑模型的输出结果的方案相比,本技术实施例通过融合口语顺滑的语义特征和语音文本信息对应的时长特征,可以提高口语顺滑模型的输出结果的准确性,有利于提升对语音文本信息进行后处理的质量。
10、在一些实施例中,所述根据所述第一融合特征得到所述口语顺滑模型的输出结果,包括:利用第一任务处理模型对所述第一融合特征进行处理,得到所述口语顺滑模型的输出结果;所述第一任务处理模型为第一网络模型、第二网络模型或第三网络模型;所述第一网络模型包括用于进行分类的全连接层,所述第二网络模型包括第一神经网络子模型和与所述第一神经网络子模型连接的第一分类层;所述第三网络模型包括第二神经网络子模型和与所述第二神经网络子模型连接的第二分类层;所述第二神经网络子模型和所述第一神经网络子模型为不同的特征提取模型,且所述第二神经网络子模型的参数量大于所述第一神经网络模型的参数量。
11、可以看出,本技术实施例可以选择多种网络模型中的一种网络模型,从而对第一融合特征进行处理,即,可以灵活地选择对第一融合特征的处理方式,有利于根据实际工作场景确定对第一融合特征进行处理的网络模型。
12、在一些实施例中,所述方法还包括:根据所述口语顺滑模型的训练资源、所述标点预测模型的训练资源和已有的计算资源中的至少一项,确定第一任务处理模型。可以看出,本技术实施例可以根据口语顺滑模型的训练资源、计算资源的不同需求,灵活地选取用于对第一融合特征进行处理的模型,因此,可以更加灵活有效的应用于多种不同的场景。
13、在一些实施例中,所述方法还包括:获取所述语音文本信息对应的时长特征;所述根据所述标点预测的语义特征得到所述标点预测模型的输出结果,包括:对所述标点预测的语义特征和所述语音文本信息对应的时长特征进行融合,得到第二融合特征;根据所述第二融合特征得到所述标点预测模型的输出结果。
14、与相关技术中仅仅根据标点预测的语义特征得出标点预测模型的输出结果的方案相比,本技术实施例通过融合标点预测的语义特征和语音文本信息对应的时长特征,可以提高标点预测模型的输出结果的准确性,有利于提升对语音文本信息进行后处理的质量。
15、在一些实施例中,所述根据所述第二融合特征得到所述标点预测模型的输出结果,包括:利用第二任务处理模型对所述第二融合特征进行处理,得到所述标点预测模型的输出结果;所述第二任务处理模型为第四网络模型、第五网络模型或第六网络模型;所述第四网络模型包括用于进行分类的全连接层,所述第五网络模型包括第三神经网络子模型和与所述第三神经网络子模型连接的第三分类层;所述第六网络模型包括第四神经网络子模型和与所述第四神经网络子模型连接的第四分类层;所述第四神经网络子模型和所述第三神经网络子模型为不同的特征提取模型,且所述第四神经网络子模型的参数量大于所述第三神经网络模型的参数量。
16、可以看出,本技术实施例可以选择多种网络模型中的一种网络模型,从而对第二融合特征进行处理,即,可以灵活地选择对第二融合特征的处理方式,有利于根据实际工作场景确定对第二融合特征进行处理的网络模型。
17、在一些实施例中,所述方法还包括:根据所述标点预测模型的训练资源和已有的计算资源中的至少一项,在所述第四网络模型、所述第五网络模型和所述第六网络模型中确定出第二任务处理模型。可以看出,本技术实施例可以根据训练资源、计算资源的不同需求,灵活地选取用于对第二融合特征进行处理的模型,因此,可以更加灵活有效的应用于多种不同的场景。
18、在一些实施例中,所述根据所述口语顺滑模型的输出结果和所述标点预测模型的输出结果,得到所述语音文本信息的后处理结果,包括:根据所述口语顺滑模型的输出结果和所述标点预测模型的输出结果,分别对所述语音文本信息进行后处理,得到所述语音文本信息的后处理结果。
19、可以看出,由于语音文本信息的后处理结果是根据口语顺滑模型的输出结果和标点预测模型的输出结果得出的,因此,语音文本信息的后处理结果可以满足口语顺滑和标点预测的实际需求,便于针对语音文本信息的后处理结果进行后续处理。
20、本技术实施例还提供了一种语音文本后处理装置,所述装置包括:
21、获取模块,用于获取语音文本信息;
22、处理模块,用于提取所述语音文本信息的语义特征;将所述语义特征分别输入口语顺滑模型和标点预测模型的全连接层,得到口语顺滑的语义特征和标点预测的语义特征;根据所述口语顺滑的语义特征得到所述口语顺滑模型的输出结果,并且根据所述标点预测的语义特征得到所述标点预测模型的输出结果;
23、结果生成模块,用于根据所述口语顺滑模型的输出结果和所述标点预测模型的输出结果,得到所述语音文本信息的后处理结果。
24、本技术实施例还提供了一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序以执行上述任意一种语音文本后处理方法。
25、本技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种语音文本后处理方法。
26、可以看出,本技术实施例可以基于共享的底层语义特征,同时实现标点预测和口语顺滑,相对于相关技术中对标点预测任务和口语顺滑任务分别进行单独处理的方案,可以降低计算量和消耗的计算资源。
1.一种语音文本后处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述语音文本信息对应的时长特征;
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一融合特征得到所述口语顺滑模型的输出结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述语音文本信息对应的时长特征;
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二融合特征得到所述标点预测模型的输出结果,包括:
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述口语顺滑模型的输出结果和所述标点预测模型的输出结果,得到所述语音文本信息的后处理结果,包括:
9.一种语音文本后处理装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的语音文本后处理方法。