视频的语音生成方法、设备和存储介质

xiaoxiao3月前 15

本发明涉及语音处理，尤其涉及一种视频的语音生成方法、设备和存储介质。

背景技术：

1、随着全球数字内容创作的迅速增长，视频制作的需求日益增加。然而，在传统的视频配音过程中，各流程操作相对独立，需要用户先从视频中提取出文本，进而再通过搜索引擎等方式对文本进行翻译，最终由用户录入翻译后的文本后进行上传。

2、由此可知，传统的视频配音方法中各流程操作之间独立，存在着人工成本高、配音匹配度低以及耗时长等问题。

3、有鉴于此，特提出本发明。

技术实现思路

1、为了解决上述技术问题，本发明提供了一种视频的语音生成方法、设备和存储介质，解决传统视频配音过程中存在的成本高、配音匹配度低、耗时长的问题，提高用户视频配音效果以及操作便捷性，实现了高效、精准的视频配音，满足用户个性化需求。

2、本发明实施例提供了一种视频的语音生成方法，该方法包括：

3、获取用户于用户端界面中上传的待配音视频，并确定所述待配音视频的目标配音模式；

4、对所述待配音视频进行语音识别，得到原始语音文本，并将所述原始语音文本转换成与目标语言类型对应的文本，得到翻译文本；

5、在所述目标配音模式为模型配音的情况下，确定所述待配音视频对应的领域类型和情绪类型，基于与所述领域类型和所述情绪类型对应的声音合成模型，生成所述翻译文本对应的配音语音数据；

6、通过所述用户端界面展示所述配音语音数据，并获取用户于所述用户端界面中反馈的情绪调整操作数据，基于所述情绪调整操作数据调整所述配音语音数据的情绪；

7、基于所述待配音视频、所述翻译文本以及所述配音语音数据，生成视频配音文件，并通过所述用户端界面显示所述视频配音文件，以使用户通过所述用户端界面导出所述视频配音文件。

8、本发明实施例提供了一种电子设备，所述电子设备包括：

9、处理器和存储器；

10、所述处理器通过调用所述存储器存储的程序或指令，用于执行任一实施例所述的视频的语音生成方法的步骤。

11、本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行任一实施例所述的视频的语音生成方法的步骤。

12、本发明实施例具有以下技术效果：

13、通过获取用户于用户端界面中上传的待配音视频，并确定待配音视频的目标配音模式，对该视频进行语音识别，得到原始语音文本，并将其转换成与目标语言类型对应的文本，得到翻译文本，实现对视频语音的翻译，进而在目标配音模式为模型配音的情况下，确定待配音视频对应的领域类型和情绪类型，基于对应的声音合成模型生成翻译文本对应的配音语音数据，实现结合领域和情绪的翻译语音生成，进而通过用户端界面展示配音语音数据，并获取用户于界面中反馈的情绪调整操作数据，基于该数据调整配音语音数据的情绪，实现结合用户个性化需求的配音情绪精细化调整，进而根据待配音视频、翻译文本以及配音语音数据生成视频配音文件，通过用户端界面展示该视频配音文件供用户导出，该方法通过视频语音识别、翻译处理、配音语音生成和情绪调整，可以帮助用户快速生成符合用户需求的配音，无需用户单独操作，解决传统视频配音过程中存在的成本高、配音匹配度低、耗时长的问题，提高用户视频配音效果以及操作便捷性，实现了高效、精准的视频配音，满足用户个性化需求，使得配音效果更加自然和个性化。

技术特征：

1.一种视频的语音生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述得到翻译文本之后，还包括：

3.根据权利要求1所述的方法，其特征在于，基于与所述领域类型和所述情绪类型对应的声音合成模型，生成所述翻译文本对应的配音语音数据，包括：

4.根据权利要求1所述的方法，其特征在于，在通过所述用户端界面展示所述配音语音数据的同时，还包括：

5.根据权利要求1所述的方法，其特征在于，在通过所述用户端界面展示所述配音语音数据之后，还包括：

6.根据权利要求1所述的方法，其特征在于，获取用户于所述用户端界面中反馈的情绪调整操作数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，在对所述音轨数据中的音色和情绪进行调整之后，还包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至8任一项所述的视频的语音生成方法的步骤。

技术总结
本发明涉及语音处理技术领域，公开了一种视频的语音生成方法、设备和存储介质，该方法通过获取用户于用户端界面中上传的待配音视频，并确定目标配音模式，进而对该视频进行语音识别，得到原始语音文本，并将其转换成与目标语言类型对应的文本，得到翻译文本，进而在目标配音模式为模型配音的情况下，确定对应的领域类型和情绪类型，基于对应的声音合成模型生成对应的配音语音数据，进而通过用户端界面展示配音语音数据，并根据情绪调整操作数据调整配音语音数据的情绪，最后生成视频配音文件，通过用户端界面展示以供用户导出，可以帮助用户快速生成符合用户需求的配音，解决传统视频配音过程中存在的成本高、配音匹配度低、耗时长的问题。

技术研发人员：温雪怡,胡开宝,张凯,刘坚
受保护的技术使用者：上海外国语大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)