本申请实施例涉及人工智能,特别涉及一种音视频匹配模型的训练方法、装置、设备及存储介质。
背景技术:
1、随着短视频等视频软件的盛行,用户帐号可以自行剪辑并发布视频,一般来说,用户帐号在发布视频时,同时会给视频配上bgm(background music,背景音乐)。
2、相关技术中,会根据bgm的热度(被使用次数/被播放次数)来给用户帐号的视频进行bgm推荐,例如,根据音频播放次数从大到小,来给用户帐号推荐bgm。
3、而相关技术中,根据热度来给用户推荐bgm,很有可能导致推荐给用户的bgm和用户待发布视频的内容不适配,导致推荐bgm的命中率(发布的bgm来自推荐的bgm的视频数量与发布的带bgm的视频数量的比值)低。
技术实现思路
1、本申请实施例提供了一种音视频匹配模型的训练方法、装置、设备及存储介质。所述技术方案如下:
2、根据本申请实施例的一个方面,提供了一种音视频匹配模型的训练方法,所述方法包括:
3、对于音频样本集中的每一个音频样本,确定采用所述音频样本作为背景音乐的至少一个视频样本;
4、根据所述至少一个视频样本的标签,确定所述音频样本的标签;其中,所述视频样本和所述音频样本共用同一个标签集合,所述标签是指所述视频样本或所述音频样本的分类标注;
5、根据所述视频样本和所述视频样本的标签,对所述视频特征提取器进行预训练;以及,根据所述音频样本和所述音频样本的标签,对所述音频特征提取器进行预训练;
6、在对所述视频特征提取器和所述音频特征提取器预训练完成之后,对所述音视频匹配模型进行训练,所述音视频匹配模型用于确定所述视频样本和所述音频样本之间的匹配关系。
7、根据本申请实施例的一个方面,提供了一种基于音视频匹配模型的音视频匹配方法,所述方法包括:
8、获取待匹配的第一视频;
9、通过所述视频特征提取器提取所述第一视频对应的特征信息;
10、根据所述第一视频对应的特征信息以及n个音频分别对应的特征信息,确定所述第一视频与各个所述音频之间的匹配度;其中,所述音频对应的特征信息是通过所述音频特征提取器得到的,所述视频特征提取器和所述音频特征提取器在预训练阶段共用同一个标签集合,n为大于1的整数;
11、根据所述第一视频与各个所述音频之间的匹配度,从所述n个音频中确定与所述第一视频相匹配的至少一个匹配音频。
12、根据本申请实施例的一个方面,提供了一种音视频匹配模型的训练装置,所述装置包括:
13、样本确定模块,用于对于音频样本集中的每一个音频样本,确定采用所述音频样本作为背景音乐的至少一个视频样本;
14、标签确定模块,用于根据所述至少一个视频样本的标签,确定所述音频样本的标签;其中,所述视频样本和所述音频样本共用同一个标签集合,所述标签是指所述视频样本或所述音频样本的分类标注;
15、预训练模块,用于根据所述视频样本和所述视频样本的标签,对所述视频特征提取器进行预训练;以及,根据所述音频样本和所述音频样本的标签,对所述音频特征提取器进行预训练;
16、模型训练模块,用于在对所述视频特征提取器和所述音频特征提取器预训练完成之后,对所述音视频匹配模型进行训练,所述音视频匹配模型用于确定所述视频样本和所述音频样本之间的匹配关系。
17、根据本申请实施例的一个方面,提供了一种基于音视频匹配模型的音视频匹配方法,所述音视频匹配模型包括视频特征提取器和音频特征提取器,所述装置包括:
18、视频获取模块,用于获取待匹配的第一视频;
19、特征提取模块,用于通过所述视频特征提取器提取所述第一视频对应的特征信息;
20、匹配度确定模块,用于根据所述第一视频对应的特征信息以及n个音频分别对应的特征信息,确定所述第一视频与各个所述音频之间的匹配度;其中,所述音频对应的特征信息是通过所述音频特征提取器得到的,所述视频特征提取器和所述音频特征提取器在预训练阶段共用同一个标签集合,n为大于1的整数;
21、音频确定模块,用于根据所述第一视频与各个所述音频之间的匹配度,从所述n个音频中确定与所述第一视频相匹配的至少一个匹配音频。
22、根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述方法。
23、根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述方法。
24、根据本申请实施例的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述方法。
25、本申请实施例提供的技术方案可以包括如下有益效果:
26、通过利用同一个标签集合对视频特征提取器以及音频特征提取器分别进行预训练,并基于预训练完成的视频特征提取器以及预训练完成的音频特征提取器进一步构建音视频匹配模型,并继续对音视频匹配模型进行训练。由于该音视频匹配模型中视频特征提取器以及音频特征提取器是采用同一的标签集合进行预训练的,而且在该音视频匹配模型结合了视频模态以及音频模态的特征,因此可以提升该音视频匹配模型用于音视频匹配的能力。进一步地,基于该音视频匹配模型来开展下游音视频匹配任务,来确定推荐给待匹配视频的音频,可以提高bgm命中率。
1.一种音视频匹配模型的训练方法,其特征在于,所述音视频匹配模型包括视频特征提取器和音频特征提取器;所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个视频样本的标签,确定所述音频样本的标签,包括:
3.根据权利要求2所述的方法,其特征在于,所述标签集合中包括k个不重复的标签,k为小于或等于m的正整数;
4.根据权利要求1所述的方法,其特征在于,所述对所述音视频匹配模型进行训练,包括:
5.根据权利要求4所述的方法,其特征在于,所述音视频匹配模型还包括视频节奏特征提取器和音频节奏特征提取器;所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述通过所述视频节奏特征提取器提取所述视频样本对应的节奏信息,包括:
7.根据权利要求5所述的方法,其特征在于,所述通过所述音频节奏特征提取器提取所述音频样本对应的节奏信息,包括:
8.根据权利要求5所述的方法,其特征在于,所述音视频匹配模型还包括视频特征编码器、音频特征编码器和音视频匹配模块;所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述音视频匹配模块包括注意力子模块、视频特征映射子模块和音频特征映射子模块;
10.根据权利要求8所述的方法,其特征在于,所述音视频匹配模型还包括视频特征重建模块、音频特征重建模块、视频特征解码器和音频特征解码器;所述方法还包括:
11.根据权利要求9所述的方法,其特征在于,所述音视频匹配模型还包括文本模块,所述文本模块包括标签特征提取器、标签特征映射子模块以及标签特征解码器;所述方法还包括:
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
13.一种基于音视频匹配模型的音视频匹配方法,其特征在于,所述音视频匹配模型包括视频特征提取器和音频特征提取器;所述方法包括:
14.根据权利要求13所述的方法,其特征在于,所述音视频匹配模型还包括视频节奏特征提取器、音频特征节奏提取器、视频特征编码器以及音频特征编码器;
15.一种音视频匹配模型的训练装置,其特征在于,所述音视频匹配模型包括视频特征提取器和音频特征提取器;所述装置包括:
16.一种基于音视频匹配模型的音视频匹配装置,其特征在于,所述音视频匹配模型包括视频特征提取器和音频特征提取器;所述装置包括:
17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上述权利要求1至12任一项所述的方法,或实现如上述权利要求13至14任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至12任一项所述的方法,或实现如上述权利要求13至14任一项所述的方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现如上述权利要求1至12任一项所述的方法,或实现如上述权利要求13至14任一项所述的方法。
