基于情绪的文本到语音的制作方法

xiaoxiao8月前 50

本公开内容一般涉及社交网络的。特别地，本示例一般涉及执行语音到文本(text-to-speech，tts)。

背景技术：

1、随着社交网络的普及增长，社交网络不断扩展其能力。为了提高易用性，社交网络集成了越来越多的功能，使得用户可以在社交网络自身内完成许多或者甚至大多数他们基于计算机的任务。一些社交网络允许用户生成包括由给定人所说出的文本的视频。

技术实现思路

技术特征：

1.一种方法，包括：

2.根据权利要求1所述的方法，其中，所述声码器包括经训练的神经网络，所述经训练的神经网络被配置成将梅尔频谱图格式的给定说话者的语音翻译成声学音频流。

3.根据权利要求1-2中任一项所述的方法，还包括：

4.根据权利要求3所述的方法，其中，生成所述第三嵌入包括：

5.根据权利要求3-4中任一项所述的方法，还包括：

6.根据权利要求3-5中任一项所述的方法，其中，生成所述第三嵌入包括：

7.根据权利要求1-6中任一项所述的方法，还包括：

8.根据权利要求1-7中任一项所述的方法，其中，所述第二情绪包括中性、喜悦、悲伤、愤怒、困倦、厌恶、惊讶或恐惧中的至少一种。

9.根据权利要求1-8中任一项所述的方法，还包括：

10.根据权利要求9所述的方法，其中，所述机器学习技术包括随机森林、神经网络或支持向量机，所述机器学习技术被训练成基于语言模型来预测文本的强度。

11.根据权利要求9-10中任一项所述的方法，还包括：

12.根据权利要求9-11中任一项所述的方法，其中，生成所述第三嵌入包括：

13.根据权利要求9-12中任一项所述的方法，还包括：

14.根据权利要求12-13中任一项所述的方法，其中，所述音频流包括由所述第一说话者以所述第一情绪的一部分和所述第二情绪的一部分说出的一个或更多个词语。

15.根据权利要求1-14中任一项所述的方法，还包括：

16.根据权利要求1-15中任一项所述的方法，还包括：

17.根据权利要求16所述的方法，其中，响应于在消息收发应用上启动所述增强现实体验，从用户接收所述音频指令、所述推荐或所述信息作为所述文本串。

18.根据权利要求1-17中任一项所述的方法，还包括：确定所述第二情绪和所述第一说话者的嵌入不可用，其中，响应于确定所述第二情绪和所述第一说话者的嵌入不可用而生成所述第三嵌入。

19.一种系统，包括：

20.一种非暂态机器可读存储介质，所述非暂态机器可读存储介质包括指令，所述指令在由一个或更多个处理器执行时使所述一个或更多个处理器执行包括以下的操作：

技术总结
提供了用于提供基于情绪的文本到语音的系统和方法。这些系统和方法执行包括以下的操作：访问文本串；存储与多个说话者相关联的多个嵌入，多个说话者中的第一说话者的第一嵌入与第一情绪相关联，并且第二说话者的第二嵌入与第二情绪相关联；选择说出文本串中的一个或更多个词语的第一说话者；确定一个或更多个词语与第二情绪相关联；基于第一嵌入和第二嵌入生成用于与第二情绪相关联的第一说话者的第三嵌入；以及将第三嵌入和文本串应用于声码器以生成音频流，该音频流包括由第一说话者以第二情绪说出的一个或更多个词语。

技术研发人员：利龙·哈拉齐,雅茨凯·阿萨,艾伦·贝克尔
受保护的技术使用者：斯纳普公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)