本公开内容一般涉及社交网络的。特别地,本示例一般涉及执行语音到文本(text-to-speech,tts)。
背景技术:
1、随着社交网络的普及增长,社交网络不断扩展其能力。为了提高易用性,社交网络集成了越来越多的功能,使得用户可以在社交网络自身内完成许多或者甚至大多数他们基于计算机的任务。一些社交网络允许用户生成包括由给定人所说出的文本的视频。
技术实现思路
1.一种方法,包括:
2.根据权利要求1所述的方法,其中,所述声码器包括经训练的神经网络,所述经训练的神经网络被配置成将梅尔频谱图格式的给定说话者的语音翻译成声学音频流。
3.根据权利要求1-2中任一项所述的方法,还包括:
4.根据权利要求3所述的方法,其中,生成所述第三嵌入包括:
5.根据权利要求3-4中任一项所述的方法,还包括:
6.根据权利要求3-5中任一项所述的方法,其中,生成所述第三嵌入包括:
7.根据权利要求1-6中任一项所述的方法,还包括:
8.根据权利要求1-7中任一项所述的方法,其中,所述第二情绪包括中性、喜悦、悲伤、愤怒、困倦、厌恶、惊讶或恐惧中的至少一种。
9.根据权利要求1-8中任一项所述的方法,还包括:
10.根据权利要求9所述的方法,其中,所述机器学习技术包括随机森林、神经网络或支持向量机,所述机器学习技术被训练成基于语言模型来预测文本的强度。
11.根据权利要求9-10中任一项所述的方法,还包括:
12.根据权利要求9-11中任一项所述的方法,其中,生成所述第三嵌入包括:
13.根据权利要求9-12中任一项所述的方法,还包括:
14.根据权利要求12-13中任一项所述的方法,其中,所述音频流包括由所述第一说话者以所述第一情绪的一部分和所述第二情绪的一部分说出的一个或更多个词语。
15.根据权利要求1-14中任一项所述的方法,还包括:
16.根据权利要求1-15中任一项所述的方法,还包括:
17.根据权利要求16所述的方法,其中,响应于在消息收发应用上启动所述增强现实体验,从用户接收所述音频指令、所述推荐或所述信息作为所述文本串。
18.根据权利要求1-17中任一项所述的方法,还包括:确定所述第二情绪和所述第一说话者的嵌入不可用,其中,响应于确定所述第二情绪和所述第一说话者的嵌入不可用而生成所述第三嵌入。
19.一种系统,包括:
20.一种非暂态机器可读存储介质,所述非暂态机器可读存储介质包括指令,所述指令在由一个或更多个处理器执行时使所述一个或更多个处理器执行包括以下的操作: