音视频匹配方法、音视频匹配模型的训练方法及装置与流程

xiaoxiao8月前 59

本申请涉及计算机，特别涉及一种音视频匹配方法、音视频匹配模型的训练方法及装置。

背景技术：

1、随着短视频等视频软件的盛行，用户帐号可以自行剪辑并发布视频，一般来说，用户帐号在发布视频时，同时会给视频配上bgm(background music，背景音乐)。

2、相关技术中，音乐人将音乐素材上传至音乐素材库，ai(artificialintelligence，人工智能)对音乐素材库中各个音乐素材的音乐风格进行识别，并对各个音乐素材贴上标签。用户根据视频内容输入相应的提示文本，ai可以从音乐素材库中选择与提示文本最接近的标签对应的音乐素材，进行排列组合，以生成符合提示文本的bgm。

3、然而，上述方法并不是针对视频内容生成bgm，容易导致生成的bgm与视频内容不匹配。

技术实现思路

1、本申请实施例提供了一种音视频匹配方法、音视频匹配模型的训练方法及装置。所述技术方案如下：

2、根据本申请实施例的一个方面，提供了一种音视频匹配方法，所述方法包括：

3、获取待匹配的第一视频；

4、通过视频隐空间编码器提取所述第一视频的视频隐空间特征；

5、通过扩散模型根据所述第一视频的视频隐空间特征，以及音频素材库中包含的各个音频素材的音频隐空间特征，生成与所述第一视频相匹配的音频隐空间特征；其中，所述音频素材的音频隐空间特征是通过音频隐空间编码器提取的；

6、通过音频隐空间解码器根据与所述第一视频相匹配的音频隐空间特征，生成与所述第一视频相匹配的第一音频。

7、根据本申请实施例的一个方面，提供了一种音视频匹配模型的训练方法，所述音视频匹配模型包括：视频隐空间编码器、音频隐空间编码器、音频隐空间解码器和扩散模型；所述方法包括：

8、获取至少一个第一样本对，每个第一样本对包括具有匹配关系的一个第一视频样本和一个第一音频样本；

9、通过所述视频隐空间编码器提取所述第一视频样本的视频隐空间特征；

10、通过所述扩散模型根据所述第一视频样本的视频隐空间特征，以及音频素材库中包含的各个音频素材的音频隐空间特征，生成与所述第一视频样本相匹配的音频隐空间特征；其中，所述音频素材的音频隐空间特征是通过所述音频隐空间编码器提取的；

11、通过所述音频隐空间解码器根据与所述第一视频样本相匹配的音频隐空间特征，生成所述第一视频样本对应的匹配音频；

12、根据与所述第一视频样本具有匹配关系的所述第一音频样本，和所述第一视频样本对应的匹配音频之间的差异，确定第一损失函数值；

13、根据所述第一损失函数值对所述音视频匹配模型的参数进行调整，得到完成训练的音视频匹配模型。

14、根据本申请实施例的一个方面，提供了一种音视频匹配装置，所述装置包括：

15、获取模块，用于获取待匹配的第一视频；

16、提取模块，用于通过视频隐空间编码器提取所述第一视频的视频隐空间特征；

17、特征生成模块，用于通过扩散模型根据所述第一视频的视频隐空间特征，以及音频素材库中包含的各个音频素材的音频隐空间特征，生成与所述第一视频相匹配的音频隐空间特征；其中，所述音频素材的音频隐空间特征是通过音频隐空间编码器提取的；

18、音频生成模块，用于通过音频隐空间解码器根据与所述第一视频相匹配的音频隐空间特征，生成与所述第一视频相匹配的第一音频。

19、根据本申请实施例的一个方面，提供了一种音视频匹配模型的训练装置，所述音视频匹配模型包括：视频隐空间编码器、音频隐空间编码器、音频隐空间解码器和扩散模型；所述装置包括：

20、获取模块，用于获取至少一个第一样本对，每个第一样本对包括具有匹配关系的一个第一视频样本和一个第一音频样本；

21、提取模块，用于通过所述视频隐空间编码器提取所述第一视频样本的视频隐空间特征；

22、特征生成模块，用于通过所述扩散模型根据所述第一视频样本的视频隐空间特征，以及音频素材库中包含的各个音频素材的音频隐空间特征，生成与所述第一视频样本相匹配的音频隐空间特征；其中，所述音频素材的音频隐空间特征是通过所述音频隐空间编码器提取的；

23、音频生成模块，用于通过所述音频隐空间解码器根据与所述第一视频样本相匹配的音频隐空间特征，生成所述第一视频样本对应的匹配音频；

24、损失确定模块，用于根据与所述第一视频样本具有匹配关系的所述第一音频样本，和所述第一视频样本对应的匹配音频之间的差异，确定第一损失函数值；

25、模型确定模块，用于根据所述第一损失函数值对所述音视频匹配模型的参数进行调整，得到完成训练的音视频匹配模型。

26、根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音视频匹配方法，或者实现上述音视频匹配模型的训练方法。

27、根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音视频匹配方法，或者实现上述音视频匹配模型的训练方法。

28、根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述音视频匹配方法，或者实现上述音视频匹配模型的训练方法。

29、本申请实施例提供的技术方案可以带来如下有益效果：

30、通过采用扩散模型，并结合第一视频的视频隐空间特征和音频素材库中包含的各个音频素材的音频隐空间特征，生成与第一视频相匹配的音频隐空间特征，从而生成与第一视频相匹配的第一音频。相较于相关技术中仅根据用户输入的与视频内容相关的提示文本，生成与视频向匹配的背景音乐，而导致生成的背景音乐容易与视频内容不匹配的问题，本申请基于待匹配的第一视频的视频隐空间特征，从音频素材库中包含的各个音频素材的音频隐空间特征中确定与第一视频相匹配的第一音频对应的音频隐空间特征，避免了生成的音频与待匹配的视频不匹配的情况，并通过扩散模型多次迭代，进一步提高了生成的音频与待匹配的视频之间的匹配度，提升匹配效果。

技术特征：

1.一种音视频匹配方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述扩散模型包括n+1个第一残差模块和n个第一交叉注意力模块，且所述第一残差模块和所述第一交叉注意力模块逐个相间排布，n为正整数；

3.根据权利要求2所述的方法，其特征在于，所述第一残差模块包括：维度调整单元和第一特征处理单元；

4.根据权利要求3所述的方法，其特征在于，所述第一残差模块还包括：第二特征处理单元和第三特征处理单元；

5.根据权利要求2所述的方法，其特征在于，所述通过所述第i个第一交叉注意力模块，对所述第i个第一交叉注意力模块的输入数据进行处理，得到所述第i个第一交叉注意力模块的输出数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一视频的视频隐空间特征与各个所述音频素材的音频隐空间特征之间的匹配度，对不满足匹配度阈值条件的所述第i个第一残差模块的输出数据中的特征进行调整，得到所述第i个第一交叉注意力模块的输出数据，包括：

7.根据权利要求2所述的方法，其特征在于，所述第i个第一交叉注意力模块的输入数据还包括所述第一视频对应的参考音频的音频隐空间特征；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种音视频匹配模型的训练方法，其特征在于，所述音视频匹配模型包括：视频隐空间编码器、音频隐空间编码器、音频隐空间解码器和扩散模型；所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述扩散模型包括n+1个第一残差模块和n个第一交叉注意力模块，且所述第一残差模块和所述第一交叉注意力模块逐个相间排布，n为正整数；

12.根据权利要求10所述的方法，其特征在于，所述音视频匹配模型还包括：视频隐空间解码器；所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，所述扩散模型包括n+1个第二残差模块和n个第二交叉注意力模块，且所述第二残差模块和所述第二交叉注意力模块逐个相间排布，n为正整数；

14.根据权利要求10所述的方法，其特征在于，所述方法还包括：

15.根据权利要求10所述的方法，其特征在于，所述音视频匹配模型还包括：视频隐空间解码器；所述方法还包括：

16.一种音视频匹配装置，其特征在于，所述装置包括：

17.一种音视频匹配模型的训练装置，其特征在于，所述音视频匹配模型包括：视频隐空间编码器、音频隐空间编码器、音频隐空间解码器和扩散模型；所述装置包括：

18.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的音视频匹配方法，或者实现如权利要求10至15任一项所述的音视频匹配模型的训练方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一项所述的音视频匹配方法，或者实现如权利要求10至15任一项所述的音视频匹配模型的训练方法。

20.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一项所述的音视频匹配方法，或者实现如权利要求10至15任一项所述的音视频匹配模型的训练方法。

技术总结
本申请公开了一种音视频匹配方法、音视频匹配模型的训练方法及装置，涉及计算机技术领域。所述方法包括：获取待匹配的第一视频；通过视频隐空间编码器提取第一视频的视频隐空间特征；通过扩散模型根据第一视频的视频隐空间特征，以及音频素材库中包含的各个音频素材的音频隐空间特征，生成与第一视频相匹配的音频隐空间特征；其中，音频素材的音频隐空间特征是通过音频隐空间编码器提取的；通过音频隐空间解码器根据与第一视频相匹配的音频隐空间特征，生成与第一视频相匹配的第一音频。本申请通过采用扩散模型，并结合第一视频的视频隐空间特征和各个音频素材的音频隐空间特征，提高了生成的音频与待匹配的视频之间的匹配度。

技术研发人员：张韵璇
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)