本申请涉及人工智能,尤其涉及一种基于视频的数字人动作迁移方法、装置、设备及存储介质。
背景技术:
1、在数字人领域,现有的技术主要解决了声音与唇形的匹配问题,尤其是在声音与视觉同步方面取得了显著的进展。通过先进的语音合成技术和面部捕捉技术,数字人现在能够根据输入的声音自动调整其嘴唇的动作,以匹配语音的节奏和语调。然而,尽管面部表情的同步已经相对成熟,数字人的肢体语言和整体动作表达仍然存在一定的局限性。
2、目前,数字人的肢体动作通常是基于预设的动作库或者根据输入的语音、文本或情感状态来生成的。这意味着数字人能够执行一些基本的动作,如挥手、点头或简单的手势,但这些动作往往是预先定义好的,缺乏自然流畅性和个性化的表现力。此外,数字人的动作生成还依赖于复杂的算法,这些算法需要分析语音的节奏、语调、情感色彩等,然后生成相应的动作序列。
3、然而,要实现从一个真实人物的视频到数字人的肢体动作迁移,即所谓的动作捕捉和迁移技术,仍然面临一些挑战。这涉及到对视频中人物的动作进行精确捕捉,然后将这些动作数据映射到数字人模型上,提高数字人的动作丰富程度。因此,如何提高视频中人物表达的丰富程度成为了目前亟待解决的技术问题。
技术实现思路
1、本申请提供了一种基于视频的数字人动作迁移方法、装置、设备及存储介质,以提高视频中人物表达的丰富程度。
2、第一方面,本申请提供了一种基于视频的数字人动作迁移方法,所述方法包括:
3、通过姿态估计模块提取源视频的参考姿态估计特征和待迁移人物图像的待迁移姿态估计特征;
4、通过关键点模型提取所述源视频的关键点坐标序列;
5、基于所述关键点坐标序列、所述参考姿态估计特征和所述待迁移姿态估计特征,生成目标数字人的目标迁移姿态视频。
6、进一步地,基于所述关键点坐标序列、所述参考姿态估计特征和所述待迁移姿态估计特征,生成目标数字人的目标迁移姿态视频,包括:
7、通过预设特征融合模块将所述关键点坐标序列、所述参考姿态估计特征和所述待迁移姿态估计特征进行降维处理;
8、通过预设深度学习算法对降维处理后的所述关键点坐标序列、所述参考姿态估计特征和所述待迁移姿态进行加权融合,生成单维度融合特征;
9、通过3d反卷积将所述单维度融合特征进行升维处理,生成多维度融合特征;
10、基于所述多维度融合特征,确定所述目标迁移姿态视频。
11、进一步地,基于所述多维度融合特征,确定所述目标迁移姿态视频,包括:
12、基于预设生成对抗网络与所述多维度融合特征,生成待优化姿态视频;
13、将所述待迁移姿态估计特征对所述待优化姿态视频进行优化,生成所述目标迁移姿态视频。
14、进一步地,通过姿态估计模块提取源视频的参考姿态估计特征和待迁移人物图像的待迁移姿态估计特征,包括:
15、通过所述densepose-rcnn网络提取姿态估计特征,其中,所述姿态估计特征包括所述参考姿态估计特征和所述待迁移姿态估计特征。
16、进一步地,通过关键点模型提取所述源视频的关键点坐标序列,包括:
17、获取预设人体关键点及各所述预设人体关键点的位置坐标;
18、通过所述openpose网络提取所述源视频的源关键点;
19、将与所述源关键点相匹配的所述预设人体关键点的位置坐标进行组合,生成所述关键点坐标序列。
20、进一步地,通过姿态估计模块提取源视频的参考姿态估计特征和待迁移人物图像的待迁移姿态估计特征之前,包括:
21、获取源视频,并将所述源视频按照预设排列方式分解为至少一张所述源视频。
22、进一步地,将所述源视频按照预设排列方式分解为至少一张所述源视频,包括:
23、将所述源视频进行分段处理,生成至少两个源视频片段;
24、根据所述预设排列方式将各所述源视频片段进行排列,其中,所述预设排列方式为上一个所述源视频片段的最后一帧作为下一个所述源视频片段的第一帧;
25、将各所述源视频片段进行分解,生成至少一张所述源视频。
26、第二方面,本申请还提供了一种基于视频的数字人动作迁移装置,所述装置包括:
27、姿态估计特征提取模块,用于通过姿态估计模块提取源视频的参考姿态估计特征和待迁移人物图像的待迁移姿态估计特征;
28、关键点坐标序列提取模块,用于通过关键点模型提取所述源视频的关键点坐标序列;
29、目标迁移姿态视频生成模块,用于基于所述关键点坐标序列、所述参考姿态估计特征和所述待迁移姿态估计特征,生成目标数字人的目标迁移姿态视频。
30、第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的基于视频的数字人动作迁移方法。
31、第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的基于视频的数字人动作迁移方法。
32、本申请公开了一种基于视频的数字人动作迁移方法、装置、设备及存储介质,所述基于视频的数字人动作迁移方法包括通过姿态估计模块提取源视频的参考姿态估计特征和待迁移人物图像的待迁移姿态估计特征;通过关键点模型提取所述源视频的关键点坐标序列;基于所述关键点坐标序列、所述参考姿态估计特征和所述待迁移姿态估计特征,生成目标数字人的目标迁移姿态视频。通过上述方式,本申请通过自动化的关键点检测和姿态估计,减少了对人工操作的依赖,提取源视频和待迁移人物图像的姿态估计特征,确保了动作迁移的准确性,实现更加自然和丰富的肢体动作表达,提高了视频中人物表达的丰富程度。
1.一种基于视频的数字人动作迁移方法,其特征在于,包括:
2.根据权利要求1所述的基于视频的数字人动作迁移方法,其特征在于,所述基于所述关键点坐标序列、所述参考姿态估计特征和所述待迁移姿态估计特征,生成目标数字人的目标迁移姿态视频,包括:
3.根据权利要求2所述的基于视频的数字人动作迁移方法,其特征在于,所述基于所述多维度融合特征,确定所述目标迁移姿态视频,包括:
4.根据权利要求1所述的基于视频的数字人动作迁移方法,其特征在于,所述姿态估计模块包括视频姿态估计模型和图片姿态估计模型,所述姿态估计模块内置densepose-rcnn网络,所述通过姿态估计模块提取源视频的参考姿态估计特征和待迁移人物图像的待迁移姿态估计特征,包括:
5.根据权利要求1所述的基于视频的数字人动作迁移方法,其特征在于,所述关键点模型内置openpose网络,所述通过关键点模型提取所述源视频的关键点坐标序列,包括:
6.根据权利要求1所述的基于视频的数字人动作迁移方法,其特征在于,所述通过姿态估计模块提取源视频的参考姿态估计特征和待迁移人物图像的待迁移姿态估计特征之前,包括:
7.根据权利要求6所述的基于视频的数字人动作迁移方法,其特征在于,所述将所述源视频按照预设排列方式分解为至少一张所述源视频,包括:
8.一种基于视频的数字人动作迁移装置,其特征在于,包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的基于视频的数字人动作迁移方法。