本发明涉及计算机视觉,尤其涉及一种虚拟数字人音唇同步优化方法、装置、设备及存储介质。
背景技术:
1、在当今数字与娱乐行业迅速发展的背景下,实时互动直播平台成为了用户娱乐和交流的新选择。尤其是2d数字人(虚拟形象)的实时互动直播,以其独有的吸引力和广泛的应用潜力受到了市场的青睐。然而,现行的2d数字人实时音频反馈技术面临着若干挑战,特别是在实现音唇同步方面,现有音唇同步技术目前还存在如嘴型抖动、过渡不自然等驱动效果不佳的问题。
技术实现思路
1、本发明的主要目的在于提供一种虚拟数字人音唇同步优化方法、装置、设备及存储介质,旨在解决现有音唇同步技术存在驱动效果不佳的技术问题。
2、本发明第一方面提供一种虚拟数字人音唇同步优化方法,所述虚拟数字人音唇同步优化方法包括:
3、获取下一时刻虚拟数字人待输出的目标音频片段;
4、判断所述目标音频片段是否属于待处理的音频类型,其中,所述待处理的音频类型包括短时音频类型和静音音频类型;
5、若所述目标音频片段属于待处理的音频类型,则基于预置音唇同步优化策略,生成所述目标音频片段对应的3d人脸嘴型参数帧序列;
6、基于所述3d人脸嘴型参数帧序列,生成对应3d人脸嘴型图像帧序列,并将所述3d人脸嘴型图像帧序列渲染至所述虚拟数字人中。
7、可选的,在本发明第一方面的第一种实现方式中,所述若所述目标音频片段属于待处理的音频类型,则基于预置音唇同步优化策略,生成所述目标音频片段对应的3d人脸嘴型参数帧序列包括:
8、若所述目标音频片段属于短时音频类型,则将所述目标音频片段输入预置音频嘴型转换模型进行处理,输出第一3d人脸嘴型参数序列;
9、获取所述虚拟数字人对应的3d人脸模型的拓扑结构信息,其中,所述拓扑结构信息包括构成3d人脸模型的多个顶点;
10、基于各所述顶点对应的语义信息,识别所述第一3d人脸嘴型参数帧序列中各第一目标顶点,其中,所述第一目标顶点包括嘴部区域的顶点;
11、采用一欧元滤波算法对所述第一3d人脸嘴型参数帧序列中各所述第一目标顶点进行平滑处理,得到所述目标音频片段对应的3d人脸嘴型参数帧序列。
12、可选的,在本发明第一方面的第二种实现方式中,所述若所述目标音频片段属于待处理的音频类型,则基于预置音唇同步优化策略,生成所述目标音频片段对应的3d人脸嘴型参数帧序列包括:
13、若所述目标音频片段属于静音音频类型,则判断所述目标音频片段的前一音频片段是否属于静音音频类型;
14、若所述目标音频片段的前一音频片段属于静音音频类型,则将预置闭嘴状态的第二3d人脸嘴型参数帧序列作为所述目标音频片段对应的3d人脸嘴型参数帧序列。
15、可选的,在本发明第一方面的第三种实现方式中,在所述若所述目标音频片段属于静音音频类型,则判断所述目标音频片段的前一音频片段是否属于静音音频类型之后,还包括:
16、若所述目标音频片段的前一音频片段属于非静音音频类型,则将预置全零音频数组输入预置音频嘴型转换模型进行处理,输出第三3d人脸嘴型参数帧序列;
17、获取所述虚拟数字人对应的3d人脸模型的拓扑结构信息,其中,所述拓扑结构信息包括构成3d人脸模型的多个顶点;
18、基于各所述顶点对应的语义信息,识别所述第三3d人脸嘴型参数帧序列中各第二目标顶点,其中,所述第二目标顶点包括嘴部区域的顶点;
19、采用一欧元滤波算法对所述第三3d人脸嘴型参数帧序列中各所述第二目标顶点进行平滑处理,得到所述目标音频片段对应的3d人脸嘴型参数帧序列。
20、可选的,在本发明第一方面的第四种实现方式中,所述静音音频类型对应的音频片段采用n秒音频时长并与k帧视频相对应,其中,n小于1且k大于1。
21、可选的,在本发明第一方面的第五种实现方式中,在所述获取下一时刻虚拟数字人待输出的目标音频片段之前,还包括:
22、获取具有时序且带标签的多个非静音的音频片段作为原始训练样本,其中,每个音频片段对应一个3d人脸嘴型标签;
23、从各所述原始训练样本中随机选择一个或多个音频片段进行静音处理,得到具有时序且带标签的新训练样本,其中,静音处理后的音频片段保留静音处理前对应的3d人脸嘴型标签;
24、将带时序的各所述新训练样本与对应的3d人脸嘴型标签输入预置网络模型进行训练,得到训练好的音频嘴型转换模型。
25、可选的,在本发明第一方面的第六种实现方式中,所述判断所述目标音频片段是否属于待处理的音频类型包括:
26、对所述目标音频片段分别进行音频时长与音频能量检测;
27、若所述目标音频片段对应的音频时长小于预置时长阈值,则确定所述目标音频片段属于短时音频类型;
28、若所述目标音频片段对应的音频能量小于预置能量阈值,则确定所述目标音频片段属于静音音频类型。
29、本发明第二方面提供一种虚拟数字人音唇同步优化装置,所述虚拟数字人音唇同步优化装置包括:
30、获取模块,用于获取下一时刻虚拟数字人待输出的目标音频片段;
31、判断模块,用于判断所述目标音频片段是否属于待处理的音频类型,其中,所述待处理的音频类型包括短时音频类型和静音音频类型;
32、优化模块,用于若所述目标音频片段属于待处理的音频类型,则基于预置音唇同步优化策略,生成所述目标音频片段对应的3d人脸嘴型参数帧序列;
33、渲染模块,用于基于所述3d人脸嘴型参数帧序列,生成对应3d人脸嘴型图像帧序列,并将所述3d人脸嘴型图像帧序列渲染至所述虚拟数字人中。
34、本发明第三方面提供了一种计算机设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述计算机设备执行上述的虚拟数字人音唇同步优化方法。
35、本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的虚拟数字人音唇同步优化方法。
36、本发明实施例提供的一种虚拟数字人音唇同步优化方法、装置、设备及存储介质。在驱动虚拟数字人时,先获取下一时刻虚拟数字人待输出的目标音频片段,并判断目标音频片段所属的音频类型,由于某些特殊音频类型可能会导致虚拟数字人存在嘴型抖动、过渡不自然等问题,因此需要进行音唇对齐同步优化。先判断目标音频片段是否属于待处理的音频类型,待处理的音频类型包括短时音频类型和静音音频类型;若目标音频片段属于待处理的音频类型,则基于预置音唇同步优化策略,生成目标音频片段对应的3d人脸嘴型参数帧序列,最后再基于优化后的3d人脸嘴型参数帧序列,生成对应3d人脸嘴型图像帧序列,并将3d人脸嘴型图像帧序列渲染至虚拟数字人中,由于预先对待输出的音频片段对应的3d人脸嘴型参数帧序列进行了优化,使其能与音频片段更为匹配,进而保证了音唇同步对齐。本发明能够适应各类音频类型,提升了虚拟数字人在不同音频类型下的嘴型流畅性与自然性。
1.一种虚拟数字人音唇同步优化方法,其特征在于,所述虚拟数字人音唇同步优化方法包括:
2.根据权利要求1所述的虚拟数字人音唇同步优化方法,其特征在于,所述若所述目标音频片段属于待处理的音频类型,则基于预置音唇同步优化策略,生成所述目标音频片段对应的3d人脸嘴型参数帧序列包括:
3.根据权利要求1所述的虚拟数字人音唇同步优化方法,其特征在于,所述若所述目标音频片段属于待处理的音频类型,则基于预置音唇同步优化策略,生成所述目标音频片段对应的3d人脸嘴型参数帧序列包括:
4.根据权利要求3所述的虚拟数字人音唇同步优化方法,其特征在于,在所述若所述目标音频片段属于静音音频类型,则判断所述目标音频片段的前一音频片段是否属于静音音频类型之后,还包括:
5.根据权利要求3或4所述的虚拟数字人音唇同步优化方法,其特征在于,所述静音音频类型对应的音频片段采用n秒音频时长并与k帧视频相对应,其中,n小于1且k大于1。
6.根据权利要求1所述的虚拟数字人音唇同步优化方法,其特征在于,在所述获取下一时刻虚拟数字人待输出的目标音频片段之前,还包括:
7.根据权利要求1所述的虚拟数字人音唇同步优化方法,其特征在于,所述判断所述目标音频片段是否属于待处理的音频类型包括:
8.一种虚拟数字人音唇同步优化装置,其特征在于,所述虚拟数字人音唇同步优化装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的虚拟数字人音唇同步优化方法。