音频处理方法、装置、电子设备及存储介质与流程

xiaoxiao8月前 59

本技术涉及电子，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术：

1、随着智能手机中视频采集功能的智能化，越来越多的用户习惯通过录制视频来记录身边的事物，或者将其分享给其他人。

2、但是，在一些场景下，所录制的视频中可能会出现一些部分不适合分享或传播的内容，例如，在视频中存在不文明用语或者涉及个人隐私的言语等，可能会给观看视频的人带来不适或造成用户隐私的泄露，影响用户体验。

技术实现思路

1、本技术提供一种音频处理方法、装置、电子设备及存储介质。

2、第一方面，本技术实施例提供一种音频处理方法，由电子备执行，所述方法包括：

3、检测预设操作；

4、在检测到预设操作时，将由所述电子设备采集的音频数据进行分帧处理，得到多个音频帧；

5、对每个所述音频帧进行特征提取，得到音频特征；

6、在基于所述音频特征确定所述音频数据中存在所述第一音频时，将所述第一音频替换为第二音频。

7、可选地，所述方法还包括：

8、根据包含所述音频数据的视频的图像数据和/或所述音频数据，确定所述第二音频。

9、可选地，所述根据包含所述音频数据的视频的图像数据和/或所述音频数据，确定所述第二音频，包括：

10、将所述第一音频中分离的背景音，作为所述第二音频；

11、或者，

12、根据所述音频数据包含的第三音频，生成所述第二音频；其中，所述第三音频和所述第一音频为所述音频数据中不同时段的音频。

13、可选地，所述根据包含所述音频数据的视频的图像数据和/或所述音频数据，确定所述第二音频，还包括：

14、根据所述视频中所述第一音频对应的图像帧，从预设音频中选择第二音频；

15、或者，

16、根据所述视频各图像帧的主题，从预设音频中选择第二音频。

17、可选地，所述方法还包括：

18、获取所述音频数据中第四音频的第一音频参数；其中，所述第一音频参数包括：音量、音色，和/或，所述音频数据的频率响应，所述第四音频和所述第一音频为所述音频数据中不同时段的音频；

19、基于所述第一音频参数，设置所述第二音频的第二音频参数。

20、可选地，所述方法，还包括：

21、将所述音频特征输入声学模型，得到所述声学模型输出的多个第一音素；

22、将所述多个第一音素输入所述语言模型中，得到所述语言模型输出的第一文本；

23、若所述第一文本中存在目标字符，确定所述音频数据中存在所述第一音频和/或所述第一音频对应的音频帧。

24、可选地，所述将所述第一音频替换为第二音频，包括：

25、从所述多个第一音素中，确定所述目标字符对应的第二音素；

26、将所述第二音素在所述音频数据中对应的音频帧，作为所述第一音频对应的音频帧；

27、将所述音频数据中，所述第一音频对应的音频帧替换为所述第二音频。

28、可选地，所述方法还包括：

29、在确定所述音频数据中存在所述第一音频时，为所述音频数据添加预设标记，其中，所述预设标记，用于提示所述音频数据包含所述第一音频。

30、第二方面，本技术实施例提供了一种音频处理装置，所述装置包括：

31、检测模块，用于检测预设操作；

32、分帧模块，用于在检测到预设操作时，将由所述电子设备采集的音频数据进行分帧处理，得到多个音频帧；

33、提取模块，用于对每个所述音频帧进行特征提取，得到音频特征；

34、替换模块，用于在基于所述音频特征确定所述音频数据中存在所述第一音频时，将所述第一音频替换为第二音频。

35、可选地，所述装置还包括：

36、第一确定模块，用于根据包含所述音频数据的视频的图像数据和/或所述音频数据，确定所述第二音频。

37、可选地，所述第一确定模块用于：

38、将所述第一音频中分离的背景音，作为所述第二音频；

39、或者，

40、根据所述音频数据包含的第三音频，生成所述第二音频；其中，所述第三音频和所述第一音频为所述音频数据中不同时段的音频。

41、可选地，所述第一确定模块，还用于：

42、根据所述视频中所述第一音频对应的图像帧，从预设音频中选择第二音频；

43、或者，

44、根据所述视频各图像帧的主题，从预设音频中选择第二音频。

45、可选地，所述装置还包括：

46、获取模块，用于获取所述音频数据中第四音频的第一音频参数；其中，所述第一音频参数包括：音量、音色，和/或，所述音频数据的频率响应，所述第四音频和所述第一音频为所述音频数据中不同时段的音频；

47、设置模块，用于基于所述第一音频参数，设置所述第二音频的第二音频参数。

48、可选地，所述装置，还包括：

49、第一输出模块，用于将所述音频特征输入声学模型，得到所述声学模型输出的多个第一音素；

50、第二输出模块，用于将所述多个第一音素输入所述语言模型中，得到所述语言模型输出的第一文本；

51、第二确定模块，用于若所述第一文本中存在目标字符，确定所述音频数据中存在所述第一音频和/或所述第一音频对应的音频帧。

52、可选地，所述替换模块，包括：

53、确定单元，用于从所述多个第一音素中，确定所述目标字符对应的第二音素；

54、作为单元，用于将所述第二音素在所述音频数据中对应的音频帧，作为所述第一音频对应的音频帧；

55、替换单元，用于将所述音频数据中，所述第一音频对应的音频帧替换为所述第二音频。

56、可选地，所述装置，还包括：

57、标记模块，在确定所述音频数据中存在所述第一音频时，为所述音频数据添加预设标记，其中，所述预设标记，用于提示所述音频数据包含所述第一音频。

58、第三方面，本技术实施例提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如上所述的音频处理方法。

59、第四方面，本技术实施例提供了一种电子设备，包括：

60、用于存储处理器可执行指令的存储器；

61、处理器，与所述存储器连接；

62、其中，所述处理器用于执行上述任一项所述的音频处理方法。

63、本技术实施例提供的技术方案可以包括以下有益效果：

64、在本技术实施例中，可以在检测到预设操作时，先对电子设备采集的音频数据进行分帧处理和特征提取，并基于提取的特征确定该音频数据中是否存在第一音频，若电子设备采集的音频数据中存在第一音频，则将第一音频替换成第二音频，这样可以至少部分减少用户因听到第一音频引起的不适或者造成用户隐私的泄露，提高了用户体验，且实现了音频采集时就对第一音频数据的替换，从而从音频数据的源头就减少了不适宜转发或分享等传播操作的音频数据分发。

65、另外，在对电子设备采集的音频数据进行分帧之后，再对每个音频帧的音频特征进行提取，与直接对整个音频数据的音频特征进行提取相比，由于分帧处理之后，每个音频帧的时长远小于整个音频数据的总时长，这样可以降低电子设备的单次数据处理量和处理难度，进而降低本技术实施例的音频处理方法对电子设备中的计算资源的占用。

技术特征：

1.一种音频处理方法，其特征在于，由电子备执行，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据包含所述音频数据的视频的图像数据和/或所述音频数据，确定所述第二音频，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据包含所述音频数据的视频的图像数据和/或所述音频数据，确定所述第二音频，还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第一音频替换为第二音频，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种音频处理装置，其特征在于，由电子备执行，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块用于：

12.根据权利要求10所述的装置，其特征在于，所述第一确定模块，还用于：

13.根据权利要求11所述的装置，其特征在于，所述装置还包括：

14.根据权利要求9所述的装置，其特征在于，所述装置，还包括：

15.根据权利要求14所述的装置，其特征在于，所述替换模块，包括：

16.根据权利要求9所述的装置，其特征在于，所述装置，还包括：

17.一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算机的处理器执行时，使得计算机能够执行如权利要求1至8中任一项所述的音频处理方法。

18.一种电子设备，其特征在于，包括：

技术总结
本申请实施例公开了一种音频处理方法、装置、电子设备及存储介质，该方法包括：检测预设操作；在检测到预设操作时，将由电子设备采集的音频数据进行分帧处理，得到多个音频帧；对每个音频帧进行特征提取，得到音频特征；在基于音频特征确定由电子设备采集的音频数据中存在第一音频时，将第一音频替换为第二音频。

技术研发人员：孟子威
受保护的技术使用者：北京小米移动软件有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)