本发明涉及智能网络摄像头,尤其涉及一种语音处理方法、语音处理装置和可读存储介质。
背景技术:
1、智能网络摄像头,是一种结合传统摄像机与网络技术所产生的新一代摄像机。除了具备一般传统摄像机所具有的图像捕捉功能外,机内还内置了数字化压缩控制器和基于web(world wide web,全球广域网)的操作系统,使得视频数据经压缩加密后,通过局域网、因特网或无线网络送至远端用户。远端用户可通过移动终端(如手机)对网络摄像机进行访问,实时监控现场的情况,可以满足用户远程看家看店、看护老人孩童、看护宠物等家用需求。
2、智能网络摄像头采用双向全双工语音技术,手机端和智能网络摄像头端的用户可实现双向语音通话。
技术实现思路
1、本发明实施例提供一种语音处理方法、语音处理装置和可读存储介质,可以提高双方语音通话的效果和体验,以及提高语音情感识别的准确性。
2、第一方面,本发明实施例公开了一种语音处理方法,应用于第一端设备,所述方法包括:
3、利用训练完成的语音情感识别模型对第一语音进行情感识别,得到所述第一语音对应的第一情感类别;所述语音情感识别模型为基于声音事件检测和语音情感识别的多任务模型训练得到,所述第一语音来自所述第一端设备;
4、在接收到第二语音时,基于第二情感类别对所述第二语音进行情感转换,并播放转换后的第二语音,所述第二情感类别根据所述第一情感类别确定,所述第二语音来自第二端设备。
5、第二方面,本发明实施例公开了一种语音处理装置,应用于第一端设备,所述装置包括:
6、情感识别模块,用于利用训练完成的语音情感识别模型对第一语音进行情感识别,得到所述第一语音对应的第一情感类别;所述语音情感识别模型为基于声音事件检测和语音情感识别的多任务模型训练得到,所述第一语音来自所述第一端设备;
7、情感转换模块,用于在接收到第二语音时,基于第二情感类别对所述第二语音进行情感转换,并播放转换后的第二语音,所述第二情感类别根据所述第一情感类别确定,所述第二语音来自第二端设备。
8、第三方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如前述一个或多个所述的语音处理方法。
9、本发明实施例包括以下优点:
10、本发明实施例利用训练完成的语音情感识别模型对第一端设备的第一语音进行情感识别,得到所述第一语音对应的第一情感类别。在所述第一端设备接收到第二语音时,根据所述第一情感类别确定第二情感类别,基于所述第二情感类别对所述第二语音进行情感转换,并播放转换后的第二语音。由此,近端用户听到的仍然是远端用户的声音及说话内容,只是第二语音的情感可能发生了变化,变为第二情感类别,第二情感类别更加符合当前第一情感类别的情境,从而可以提高双方语音通话的效果和体验。此外,本发明实施例基于声音事件检测和语音情感识别的多任务模型训练得到的语音情感识别模型,在识别情感类别时,除了依据说话人的语速、语调、以及说话内容等信息之外,还参考了声音事件,也即参考了场景信息,因此,识别的情感类别更加准确。
1.一种语音处理方法,其特征在于,应用于第一端设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述利用所述第一训练数据集和所述第二训练数据集对所述多任务模型进行迭代训练,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于第二情感类别对所述第二语音进行情感转换,包括:
5.根据权利要求4所述的方法,其特征在于,所述训练完成的情感语音转换模型包括编码器和解码器;所述将所述第二情感类别和所述第二语音输入训练完成的情感语音转换模型,通过所述情感语音转换模型输出转换后的第二语音,包括:
6.根据权利要求4所述的方法,其特征在于,所述情感语音转换模型为通过生成对抗网络训练得到。
7.根据权利要求1至6任一所述的方法,其特征在于,所述第二语音为即时通讯的用户语音,或者,所述第二语音为基于目标文本合成的语音。
8.一种语音处理装置,其特征在于,应用于第一端设备,所述装置包括:
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
10.一种机器可读存储介质,其上存储有指令,当所述指令由装置的一个或多个处理器执行时,使得装置执行如权利要求1至7中任一所述的语音处理方法。