本申请涉及显示设备,尤其涉及一种显示设备及语音识别方法。
背景技术:
1、显示设备可以支持语音交互。语音交互是指用户与显示设备通过自然语言进行信息传递,以控制显示设备执行交互反馈的过程。在语音交互中,需要进行语音活动检测。语音活动检测是从包含语音的一段信号中准确地确定语音的起始点和终止点,并区分语音和非语音信号。
2、显示设备可以基于机器学习执行语音活动检测。机器学习检测是通过收集大量的语音和非语音样本,基于深度神经网络(deep neural networks,dnn)构建模型,神经网络模型可以在语音数据中提取合适的神经网络输入参数(特征),然后使用深度神经网络开发工具搭建网络模型,其中,网络模型的网络结构可以基于深度神经网络,根据训练结果选择适合的模型和参数部署模型,使最终训练得到的模型输出结果可以更加逼近真实的语音含义。
3、但是,基于神经网络构建语音模型的过程中,由于需要处理大量的语音和非语音样本,并从大量样本中提取特征,使得构建的语音模型计算资源消耗大,并且,神经网络模型的泛化能力差。
技术实现思路
1、本申请一些实施例提供一种显示设备及语音识别方法,以解决语音模型计算资源消耗大的问题。
2、第一方面,本申请一些实施例提供一种显示设备,包括显示器、声音采集器和控制器。其中,显示器被配置为显示用户界面。声音采集器被配置为采集用户输入的交互语音数据。控制器被配置为执行以下步骤:
3、响应于用户输入的语音交互指令,获取交互语音数据,所述交互语音数据包括至少一帧语音信号;
4、对所述语音信号执行小波包分解,以获得不同频带的子信号;
5、从所述子信号中提取目标特征,以生成特征向量,所述目标特征包括频带能量、移动有效值、频谱平坦度以及基音周期中的一项或多项的组合;
6、将所述特征向量输入预训练的语音活动检测模型,以获得所述语音活动检测模型输出的语音识别结果,所述语音活动检测模型为根据训练音频数据训练获得的深度学习神经网络模型;所述语音识别结果包括所述交互语音数据中的语音端点;
7、根据所述语音端点在所述交互语音数据截取有效语音数据段,以及根据所述有效语音数据段执行语音交互。
8、第二方面,本申请一些实施例还提供一种语音识别方法,应用于第一方面所述的显示设备,所述方法包括:
9、响应于用户输入的语音交互指令,获取交互语音数据,所述交互语音数据包括至少一帧语音信号;
10、对所述语音信号执行小波包分解,以获得不同频带的子信号;
11、从所述子信号中提取目标特征,以生成特征向量,所述目标特征包括频带能量、移动有效值、频谱平坦度以及基音周期中的一项或多项的组合;
12、将所述特征向量输入预训练的语音活动检测模型,以获得所述语音活动检测模型输出的语音识别结果,所述语音活动检测模型为根据训练音频数据训练获得的深度学习神经网络模型;所述语音识别结果包括所述交互语音数据中的语音端点;
13、根据所述语音端点在所述交互语音数据截取有效语音数据段,以及根据所述有效语音数据段执行语音交互。
14、由以上技术方案可知,本申请一些实施例中提供一种显示设备及语音识别方法,所述方法可以响应于用户输入的语音交互指令,获取交互语音数据。并对交互语音数据中的语音信号执行小波包分解,以获得不同频带的子信号。再从子信号中提取目标特征,以生成特征向量,其中,目标特征包括频带能量、移动有效值、频谱平坦度以及基音周期中的一项或多项的组合。通过将特征向量输入预训练的语音活动检测模型,以获得语音活动检测模型输出的语音识别结果,以根据语音端点在交互语音数据截取有效语音数据段,以及根据有效语音数据段执行语音交互。所述方法可以在时域或频域信号中分别进行特征提取,可节省计算时间,降低语音活动检测模型的网络结构层数,在满足实时响应性的同时降低能耗。
1.一种显示设备,其特征在于,包括:
2.根据权利要求1所述的显示设备,其特征在于,所述控制器还被配置为:
3.根据权利要求2所述的显示设备,其特征在于,所述控制器执行获取训练音频数据还被配置为:
4.根据权利要求3所述的显示设备,其特征在于,所述控制器执行生成所述含噪信号,还被配置为:
5.根据权利要求3所述的显示设备,其特征在于,所述控制器执行生成所述含噪信号,还被配置为:
6.根据权利要求1所述的显示设备,其特征在于,所述控制器执行对所述语音信号执行小波包分解,以获得不同频带的子信号,还被配置为:
7.根据权利要求1所述的显示设备,其特征在于,所述控制器执行从所述子信号中提取目标特征,以生成特征向量,还被配置为:
8.根据权利要求1所述的显示设备,其特征在于,所述控制器执行从所述子信号中提取目标特征,以生成特征向量,还被配置为:
9.根据权利要求1所述的显示设备,其特征在于,所述控制器执行从所述子信号中提取目标特征,以生成特征向量,还被配置为:
10.一种语音识别方法,其特征在于,应用于权利要求1-9任一项所述的显示设备,所述方法包括: