语音交互方法、装置、设备、存储介质及车辆与流程

xiaoxiao8月前 57

本公开涉及语音，尤其涉及一种语音交互方法、装置、设备、存储介质及车辆。

背景技术：

1、随着语音技术的发展，车辆可以支持语音控制服务，如语音控制车窗开启等。在实际用车场景中，可能存在多人同时说话的场景，即用户从车内多个音区发出语音。

2、现有技术中，单识别引擎只能处理一路数据，单路输入才能正确响应单音区人员话术，因为识别引擎在单音区输入时会抑制其他音区输入，所以导致其他音区人员话术遗漏，无法响应多人语音交互的场景需求。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种语音交互方法、装置、设备、存储介质及车辆，以实现多人语音交互的场景需求。

2、第一方面，本公开实施例提供一种语音交互方法，包括：

3、获取多音区的多个语音信息，所述多音区包括唤醒音区和至少一个非唤醒音区，所述唤醒音区是车辆语音功能被唤醒的音区；

4、根据预设语音缓存策略对所述多个语音信息进行排序，得到唤醒音区语音队列和至少一个非唤醒音区语音队列；

5、根据预设送音策略，从所述唤醒音区语音队列和所述至少一个非唤醒音区语音队列中选取目标语音信息；

6、将所述目标语音信息发送到识别引擎，得到所述目标语音信息的识别结果，完成所述目标语音信息的语音交互。

7、第二方面，本公开实施例提供一种语音交互装置，包括：

8、获取模块，用于获取多音区的多个语音信息，所述多音区包括唤醒音区和至少一个非唤醒音区，所述唤醒音区是车辆语音功能被唤醒的音区；

9、排序模块，用于根据预设语音缓存策略对所述多个语音信息进行排序，得到唤醒音区语音队列和至少一个非唤醒音区语音队列；

10、选取模块，用于根据预设送音策略，从所述唤醒音区语音队列和所述至少一个非唤醒音区语音队列中选取目标语音信息；

11、识别模块，用于将所述目标语音信息发送到识别引擎，得到所述目标语音信息的识别结果，完成所述目标语音信息的语音交互。

12、第三方面，本公开实施例提供一种电子设备，包括：

13、存储器；

14、处理器；以及

15、计算机程序；

16、其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

17、第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

18、第五方面，本公开实施例还提供了一种车辆，包括：如第二方面所述的语音交互装置；或者，如第三方面所述的电子设备；或者，如第四方面所述的计算机可读存储介质。

19、本公开实施例提供的语音交互方法、装置、设备、存储介质及车辆，通过获取多音区的多个语音信息；根据预设语音缓存策略对多个语音信息进行排序，得到唤醒音区语音队列和至少一个非唤醒音区语音队列，明确了各个音区语音信息的先后顺序；根据预设送音策略，从所述唤醒音区语音队列和所述至少一个非唤醒音区语音队列中选取目标语音信息，明确即将进行识别交互的目标语音信息；将所述目标语音信息发送到识别引擎，得到所述目标语音信息的识别结果，完成所述目标语音信息的语音交互，实现了多音区语音信息的同时输入，避免现有技术中单音区输入时抑制其他音区输入导致其他音区人员话术遗漏的问题，实现了多人语音交互的场景需求，最大限度的保证了语音交互的完整性。

技术特征：

1.一种语音交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据预设语音缓存策略对所述多个语音信息进行排序，得到唤醒音区语音队列和至少一个非唤醒音区语音队列，包括：

3.根据权利要求1所述的方法，其特征在于，所述语音队列包括语音检测起点、语音信息、语音检测终点；

4.根据权利要求3所述的方法，其特征在于，所述预设送音策略还包括：非唤醒音区送音策略；

5.根据权利要求1所述的方法，其特征在于，所述至少一个非唤醒音区包括第一非唤醒音区和第二非唤醒音区；

6.根据权利要求1所述的方法，其特征在于，将所述目标语音信息发送到识别引擎，得到所述目标语音信息的识别结果，完成所述目标语音信息的语音交互，包括：

7.一种语音交互装置，其特征在于，所述装置包括：

8.一种电子设备，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。

10.一种车辆，其特征在于，包括：如权利要求7所述的语音交互装置；或者，如权利要求8所述的电子设备；或者，如权利要求9所述的计算机可读存储介质。

技术总结
本公开涉及一种语音交互方法、装置、设备、存储介质及车辆。本公开通过获取多音区的多个语音信息；根据预设语音缓存策略对多个语音信息进行排序，得到唤醒音区语音队列和至少一个非唤醒音区语音队列，明确了各个音区语音信息的先后顺序；根据预设送音策略，从所述唤醒音区语音队列和所述至少一个非唤醒音区语音队列中选取目标语音信息，明确即将进行识别交互的目标语音信息；将所述目标语音信息发送到识别引擎，得到所述目标语音信息的识别结果，完成所述目标语音信息的语音交互，实现了多音区语音信息的同时输入，避免现有技术中单音区输入时抑制其他音区输入导致其他音区人员话术遗漏的问题，实现了多人语音交互的场景需求。

技术研发人员：高攀
受保护的技术使用者：北京罗克维尔斯科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)