本公开涉及计算机,尤其涉及一种语音处理方法及装置。
背景技术:
1、在3d动画制作领域,追求真实感和沉浸式体验已经成为行业发展的必然趋势;其中,角色的口型与语音的精准匹配是实现这一目标的关键环节。在传统动画制作中,口型同步工作既复杂又耗时;动画师需要根据语音对白手动k帧来调整口型变化。特别是对于不同的语种、方言以及个性化角色,对口型的精确调整工作量巨大;对于长篇动画场景,可能需要花费数天甚至数周时间来完成精准的口型对齐。
技术实现思路
1、有鉴于此,本公开提出了一种语音处理方法、语音处理装置、电子设备、存储介质及计算机程序产品。
2、根据本公开的一方面,提供了一种语音处理方法,所述方法包括:
3、获取目标语音;
4、将所述目标语音输入到训练好的口型控制参数生成模型中;
5、利用所述训练好的口型控制参数生成模型分别提取所述目标语音的内容特征及音色特征,并基于所述目标语音的内容特征及所述目标语音的音色特征生成与所述目标语音匹配的目标口型控制参数;所述目标口型控制参数用于控制虚拟角色表达所述目标语音时的口型。
6、在一种可能的实现方式中,所述训练好的口型控制参数生成模型包括第一编码模块及第一解码模块;其中,所述第一编码模块用于分别提取所述目标语音的内容特征及所述目标语音的音色特征;所述第一解码模块用于对第一融合特征及所述目标语音的音色特征进行处理,生成所述目标口型控制参数;其中,所述第一融合特征由所述目标语音的内容特征及所述目标语音的音色特征融合得到。
7、在一种可能的实现方式中,所述第一编码模块包括:内容编码器、音色编码器,其中,所述内容编码器用于提取所述目标语音的内容特征;所述音色编码器用于提取所述目标语音的音色特征。
8、在一种可能的实现方式中,所述方法还包括:
9、获取训练样本;所述训练样本包括训练语音及与所述训练语音匹配的口型控制参数,
10、将所述训练样本输入到待训练的口型控制参数生成模型中;
11、利用所述待训练的口型控制参数生成模型分别提取所述训练语音的内容特征及音色特征,并基于所述训练语音的内容特征及所述训练语音的音色特征生成口型控制参数的预测结果;
12、根据所述训练语音匹配的口型控制参数及所述预测结果,迭代更新所述待训练的口型控制参数生成模型中的参数,以获取所述训练好的口型控制参数生成模型。
13、在一种可能的实现方式中,所述获取训练样本,包括:
14、获取训练视频及所述训练视频中人物的原始口型控制参数;
15、在所述训练视频中提取所述训练语音,并将所述训练语音与所述原始口型控制参数进行时序对齐,得到初始训练数据;
16、对所述初始训练数据进行预处理,得到所述训练样本。
17、在一种可能的实现方式中,所述获取训练视频及所述训练视频中人物的原始口型控制参数,包括:
18、通过面部捕捉软件采集所述训练视频,并基于所述训练视频得到口型控制参数;
19、将所得到的口型控制参数映射为符合预设的控制器参数标准的所述原始口型控制参数;
20、所述对所述初始训练数据进行预处理,得到所述训练样本,包括:
21、采用滑动窗口平滑方式,处理所述初始训练数据中的异常数据抖动,得到所述训练样本。
22、在一种可能的实现方式中,所述待训练的口型控制参数生成模型包括第二编码模块及第二解码模块;其中,所述第二编码模块用于分别提取所述训练语音的内容特征及所述训练语音的音色特征;所述第二解码模块用于对第二融合特征及所述训练语音的音色特征进行处理,生成所述预测结果;其中,所述第二融合特征由所述训练语音的内容特征及所述训练语音的音色特征融合得到;
23、所述根据所述训练语音匹配的口型控制参数及所述预测结果,迭代更新所述待训练的口型控制参数生成模型中的参数,包括:
24、固定所述第二编码模块中参数,根据所述训练语音匹配的口型控制参数及所述预测结果,迭代更新所述第二解码模块中的参数,直到满足预设的第一迭代终止条件;
25、固定满足所述第一迭代终止条件时的所述第二解码模块中的参数,根据所述训练语音匹配的口型控制参数及所述预测结果,迭代更新所述第二编码模块中参数,直到满足预设的第二迭代终止条件。
26、根据本公开的另一方面,提供了一种语音处理装置,所述装置包括:
27、获取模块,用于获取目标语音;
28、输入模块,用于将所述目标语音输入到训练好的口型控制参数生成模型中;
29、生成模块,用于利用所述训练好的口型控制参数生成模型分别提取所述目标语音的内容特征及音色特征,并基于所述目标语音的内容特征及所述目标语音的音色特征生成与所述目标语音匹配的目标口型控制参数;所述目标口型控制参数用于控制虚拟角色表达所述目标语音时的口型。
30、根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
31、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
32、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
33、通过本公开的各方面,获取目标语音,将所述目标语音输入到训练好的口型控制参数生成模型中,利用所述训练好的口型控制参数生成模型分别提取所述目标语音的内容特征及音色特征,并基于所述目标语音的内容特征及所述目标语音的音色特征生成与所述目标语音匹配的目标口型控制参数;所述目标口型控制参数用于控制虚拟角色表达所述目标语音时的口型;这样,通过训练好的口型控制参数生成模型分别提取目标语音的内容特征及音色特征,从而使得对不同的音色的语音具有更强大的泛化能力;基于内容特征及音色特征生成与目标语音匹配的目标口型控制参数,从而实现自动化生成精准的口型控制参数,进而可以达到虚拟角色口型精准的驱动效果;该方法通用性更强,可以显著提高生产效率,节约时间成本,降低人工调整口型的工作量,从而使动画师能够更专注于核心内容,提升动画产品的质量,对准确度要求相对较低的虚拟直播、准确度要求较高的3d动漫或游戏等业务均可以满足需求,具有极大价值。
34、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
1.一种语音处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述训练好的口型控制参数生成模型包括第一编码模块及第一解码模块;其中,所述第一编码模块用于分别提取所述目标语音的内容特征及所述目标语音的音色特征;所述第一解码模块用于对第一融合特征及所述目标语音的音色特征进行处理,生成所述目标口型控制参数;其中,所述第一融合特征由所述目标语音的内容特征及所述目标语音的音色特征融合得到。
3.根据权利要求2所述的方法,其特征在于,所述第一编码模块包括:内容编码器、音色编码器,其中,所述内容编码器用于提取所述目标语音的内容特征;所述音色编码器用于提取所述目标语音的音色特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述获取训练样本,包括:
6.根据权利要求5所述的方法,其特征在于,所述获取训练视频及所述训练视频中人物的原始口型控制参数,包括:
7.根据权利要求4所述的方法,其特征在于,所述待训练的口型控制参数生成模型包括第二编码模块及第二解码模块;其中,所述第二编码模块用于分别提取所述训练语音的内容特征及所述训练语音的音色特征;所述第二解码模块用于对第二融合特征及所述训练语音的音色特征进行处理,生成所述预测结果;其中,所述第二融合特征由所述训练语音的内容特征及所述训练语音的音色特征融合得到;
8.一种语音处理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-7中任意一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行权利要求1-7中任意一项所述的方法。