语音请求处理方法、设备及存储介质与流程

本技术涉及语音处理，具体涉及一种语音请求处理方法、服务器设备及计算机可读存储介质。

背景技术：

1、目前相关技术中，车辆座舱内部的语音交互系统一般都支持在每个座位上单独对车辆硬件进行控制，也即多音区交互。但车辆座舱内部的声音环境比较复杂，各类声音交错，而通过目前相关技术中的语音分离技术一般都会存在人声噪声残留，去除难度较高，但若不去除则会对vad算法的执行造成不利影响，导致语音分离切分过程出现错误，从而造成非目标音区语音识别的严重插入错误，进而导致语音控制的结果失控，很可能对行车安全造成威胁。

技术实现思路

1、本技术提供了一种语音请求处理方法、服务器设备及计算机可读存储介质，用以解决背景技术中所述的至少一个技术问题。

2、本技术实施方式涉及的语音请求处理方法，包括如下步骤：

3、接收车辆转发的当前语音请求，其中所述车辆的座舱空间内包括多个音区；

4、对所述当前语音请求进行第一分离处理，确定各所述音区对应的当前语音请求子信息；

5、根据预设音频信息，对所述当前语音请求子信息进行第二分离处理，确定各所述音区内所述当前语音请求子信息对应的车辆控制指令，其中所述预设音频信息根据预存储的历史语音请求以及所述当前语音请求确定，所述预设音频信息用于描述根据音频能量进行语音信息分离的分离边界。

6、如此，本技术能够在接收到车辆转发来的语音请求后，通过两次分离处理并利用一个可以根据语音请求数据的积累实时变化的音频能量阈值，对语音请求在车辆座舱内各个音区的分量进行筛选，得到每一个音区内与语音请求相对应的语音指令，以便于根据上述的语音指令来控制车辆座舱内的硬件。也即利用上述音频能量阈值的动态更新，提高针对人声残留进行滤除的精确性以及针对不同类型人声的适应性，进而提高语音请求分离的精确度，降低出现插入错误或者语音指令泄露的概率。

7、在某些实施方式中，所述预设音频信息根据如下方法确定：

8、根据所述历史语音请求以及所述当前语音请求，确定各所述音区对应的平均音频能量；

9、根据所述历史语音请求，经预设神经网络处理，确定各所述音区对应的指令泄露概率以及音频能量参数；

10、根据所述平均音频能量、所述指令泄露概率以及所述音频能量参数，确定所述预设音频信息。

11、.如此，本技术能够基于历史语音请求以及当前语音请求获取能够实时更新的平均音频能量参数，同时还能够基于大量的历史语音请求确定出每个音区可能出现指令泄露的概率以及音频能量参数，最终基于上述的各项参数得到一个能够实时更新的预设音频信息。

12、在某些实施方式中，所述根据所述历史语音请求以及所述当前语音请求，确定各所述音区对应的平均音频能量，包括：

13、根据所述历史语音请求以及所述当前语音请求，获取目标音区内的历史语音请求子信息以及当前语音请求子信息；

14、将所述目标音区内的历史语音请求子信息以及当前语音请求子信息，确定为当前语音请求队列；

15、根据预设的语音识别处理以及音频能量统计，对所述当前语音请求队列根据音频能量进行分组处理，确定所述目标音区对应的第一平均音频能量、以及第二平均音频能量。

16、如此，本技术能够基于针对语音请求的识别结果以及音频能量的统计结果，将各音区内历史语音请求以及当前语音请求的分量进行分组，并对不同的分组分别确定平均音频能量，从而提高确定出的平均音频能量的精确度。

17、在某些实施方式中，所述根据预设的语音识别处理以及音频能量统计，对所述当前语音请求队列根据音频能量进行分组处理，确定所述目标音区对应的第一平均音频能量、以及第二平均音频能量，包括：

18、根据所述语音识别处理，将所述当前语音请求队列划分为第一数据组以及第二数据组，其中根据所述第一数据组识别出的语音文本的清晰程度、高于根据所述第二数据组识别出的语音文本的清晰程度；

19、根据所述音频能量统计，对所述第一数据组进行能量统计处理，确定所述目标音区对应的所述第一平均音频能量；

20、根据所述音频能量统计，对所述第二数据组进行能量统计处理，确定所述目标音区对应的所述第二平均音频能量。

21、如此，本技术提供了针对各个音区内的历史语音请求以及当前语音请求的划分方式。

22、在某些实施方式中，所述根据所述历史语音请求，经预设神经网络处理，确定各所述音区对应的指令泄露概率以及音频能量参数，包括：

23、根据所述历史语音请求在所述座舱空间中各音区间的泄露情况，确定目标音区中所述历史语音请求泄露到座舱内所述目标音区以外的其他音区的指令泄露概率。

24、如此，本技术能够针对座舱内各个音区之间的指令泄露情况进行两两之间的指令泄露评估，并确定出各个音区两两之间的指令泄露概率。

25、在某些实施方式中，所述根据所述历史语音请求，经预设神经网络处理，确定各所述音区对应的指令泄露概率以及音频能量参数，还包括：

26、根据所述历史语音请求在所述座舱空间中各音区内的音频能量信息，确定目标音区中所述历史语音请求泄露到座舱内所述目标音区以外的其他音区的音频能量参数，其中所述音频能量参数用于描述指令泄露过程中的能量衰减程度。

27、如此，本技术还能够针对座舱内各个音区之间出现指令泄露之后历史语音请求的音频能量信息，确定出各音区两两之间出现指令泄露时音频能量的衰减情况。

28、在某些实施方式中，所述根据所述平均音频能量、所述指令泄露概率以及所述音频能量参数，确定所述预设音频信息，包括：

29、根据各所述音区对应的平均音频能量、目标音区向除所述目标音区以外的其他音区泄露所述历史语音请求的指令泄露概率、所述目标音区向除所述目标音区以外的其他音区泄露所述历史语音请求的音频能量参数，确定所述目标音区对应的所述预设音频信息。

30、如此，本技术提供了根据上述的各个参数确定出预设音频信息的方式。

31、在某些实施方式中，所述根据预设音频信息，对所述当前语音请求子信息进行第二分离处理，确定各所述音区内所述当前语音请求子信息对应的车辆控制指令，包括：

32、根据所述预设音频信息，将各所述音区对应的所述当前语音请求子信息中的有效部分，确定为待识别语音信息，其中所述有效部分的音频能量与所述预设音频信息满足预设数量关系；

33、根据预设的语音识别模型以及所述待识别语音信息，确定各所述音区内与所述当前语音请求子信息对应的车辆控制指令。

34、如此，本技术还提供了根据上述的预设音频信息对各音区中当前语音请求分量进行二次分离以及语音识别以控制车辆的具体方式。

35、本技术实施方式中的服务器设备包括存储器与处理器，所述存储器存储有计算机程序，在所述计算机程序被所述处理器执行的情况下，实现上述的方法。

36、本技术实施方式中的计算机可读存储介质存储有计算机程序，在所述计算机程序被一个或多个处理器执行的情况下，实现上述的方法。

37、本技术的实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实施方式的实践了解到。

技术特征：

1.一种语音请求处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预设音频信息根据如下方法确定：

3.根据权利要求2所述的方法，其特征在于，所述根据所述历史语音请求以及所述当前语音请求，确定各所述音区对应的平均音频能量，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据预设的语音识别处理以及音频能量统计，对所述当前语音请求队列根据音频能量进行分组处理，确定所述目标音区对应的第一平均音频能量、以及第二平均音频能量，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述历史语音请求，经预设神经网络处理，确定各所述音区对应的指令泄露概率以及音频能量参数，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述历史语音请求，经预设神经网络处理，确定各所述音区对应的指令泄露概率以及音频能量参数，还包括：

7.根据权利要求2所述的方法，其特征在于，所述根据所述平均音频能量、所述指令泄露概率以及所述音频能量参数，确定所述预设音频信息，包括：

8.根据权利要求2所述的方法，其特征在于，所述根据预设音频信息，对所述当前语音请求子信息进行第二分离处理，确定各所述音区内所述当前语音请求子信息对应的车辆控制指令，包括：

9.一种服务器设备，其特征在于，所述服务器设备包括存储器与处理器，所述存储器存储有计算机程序，在所述计算机程序被所述处理器执行的情况下，实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，在所述计算机程序被一个或多个处理器执行的情况下，实现如权利要求1-8任一项所述的方法。

技术总结
本申请公开了一种语音请求处理方法、服务器设备及计算机可读存储介质，包括如下步骤：接收车辆转发的当前语音请求，其中车辆的座舱空间内包括多个音区；对当前语音请求进行第一分离处理，确定各音区对应的当前语音请求子信息；根据预设音频信息，对当前语音请求子信息进行第二分离处理，确定各音区内当前语音请求子信息对应的车辆控制指令。本申请能够通过两次分离处理并利用实时变化的音频能量阈值，对语音请求在各个音区的分量进行筛选，得到每一个音区内的语音指令，以便于根据语音指令控制车辆。也即利用音频能量阈值的动态更新，提高针对人声残留的滤除精确性以及针对不同人声的适应性，提高语音请求分离的精确度，降低出现指令泄露的概率。

技术研发人员：张辽,黄搏培,余骁捷
受保护的技术使用者：广州小鹏汽车科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)