本申请涉及语音处理,特别是涉及一种语音理解方法、装置、设备和介质。
背景技术:
1、语音理解技术可以理解用户输入的语音,识别用户意图,使用户可以通过语音实现相关功能。语音理解技术已经应用在智能手机、智能家居、智能座舱等多种应用场景中。
2、目前的语音理解模型通常包括:声学模型、语言模型和词典。对应的语音理解过程,具体包括:首先利用声学模型确定语音对应的音素,然后利用语言模型确定音素对应的文本,接着,将文本与词典进行匹配,以得到对应的意图识别结果。
3、在实际应用中,语言模型通常需要占用一定的存储空间,这样,在语音理解模型应用于智能手机等终端侧的情况下,语音理解模型将会占用终端的大量存储空间。
技术实现思路
1、本申请实施例提供了一种语音理解方法,能够降低语音理解模型所占用的存储空间。
2、相应的,本申请实施例还提供了一种语音理解装置、一种电子设备和一种机器可读介质,用以保证上述方法的实现及应用。
3、为了解决上述问题,本申请实施例公开了一种语音理解方法,所述方法包括:
4、接收语音序列;
5、利用语音理解模型的特征提取单元,对所述语音序列进行特征提取,以得到语音特征;
6、利用所述语音理解模型的语音转拼音单元,将所述语音特征转换为拼音结果;
7、根据所述拼音结果,在指令词词典中进行查找,以得到对应的目标指令词,作为第一指令结果。
8、为了解决上述问题,本申请实施例公开了一种语音理解装置,所述装置包括:
9、接收模块,用于接收语音序列;
10、特征提取模块,用于利用语音理解模型的特征提取单元,对所述语音序列进行特征提取,以得到语音特征;
11、语音转换模块,用于利用所述语音理解模型的语音转拼音单元,将所述语音特征转换为拼音结果;
12、查找模块,用于根据所述拼音结果,在指令词词典中进行查找,以得到对应的目标指令词,作为第一指令结果。
13、可选地,所述装置还包括:
14、分类模块,用于利用所述语音理解模型的分类单元,确定所述语音特征对应的目标指令词类别,作为第二指令结果;
15、语音理解结果确定模块,用于根据所述第一指令结果对应的第一得分和所述第二指令结果对应的第二得分,确定语音理解结果。
16、可选地,所述语音理解结果确定模块包括:
17、第一确定模块,用于在所述第一得分和所述第二得分均大于或等于阈值的情况下,对所述第一得分和所述第二得分进行比较,并根据比较结果中的大者对应的指令结果,确定语音理解结果;或者
18、第二确定模块,用于在所述第一得分大于或等于阈值、且所述第二得分小于阈值的情况下,根据所述第一指令结果,确定语音理解结果;或者
19、第三确定模块,用于在所述第一得分小于阈值、且所述第二得分大于或等于阈值的情况下,根据所述第二指令结果,确定语音理解结果。
20、可选地,所述装置还包括:
21、第一训练模块,用于利用语音样本,对所述语音理解模型的特征提取单元和语音转拼音单元进行第一训练,以得到所述特征提取单元对应的第一参数和所述语音转拼音单元对应的第二参数。
22、可选地,所述装置还包括:
23、第二训练模块,用于在所述特征提取单元对应第一参数的情况下,利用指令语音样本,对所述语音理解模型的特征提取单元和分类单元进行第二训练,以得到所述特征提取单元对应的第三参数和所述分类单元对应的第四参数。
24、本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例所述的方法。
25、本申请实施例还公开了一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例所述的方法。
26、本申请实施例包括以下优点:
27、在本申请实施例的技术方案中,利用语音理解模型的特征提取单元和语音转拼音单元、以及指令词词典,确定语音序列对应的第一指令结果;其中,特征提取单元用于对该语音序列进行特征提取,以得到语音特征;语音转拼音单元用于将该语音特征转换为拼音结果;指令词词典用于提供拼音结果对应的目标指令词。由于本申请实施例的语音理解模型可以输出拼音结果,而传统的语言模型用于确定音素对应的文本;这样,本申请实施例的语音模型可以在不使用语言模型的情况下,实现语音序列到拼音结果的理解;因此,本申请实施例能够降低语言模型所占用的存储空间,进而,本申请实施例能够降低语音理解模型所占用的存储空间。
1.一种语音理解方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述确定语音理解结果,包括:
4.根据权利要求1至3中任一所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.一种语音理解装置,其特征在于,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
8.根据权利要求7所述的方法,其特征在于,所述语音理解结果确定模块包括:
9.一种电子设备,其特征在于,包括:处理器;和
10.一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-5中任一项所述的方法。