音频处理方法、装置及电子设备、存储介质与流程

xiaoxiao8月前 48

本技术涉及音频处理技术，尤其涉及一种音频处理方法、装置及电子设备、存储介质。

背景技术：

1、音频上混是一种音频处理过程，音频上混的目的是让输出音频声道数比输入音频声道数更多。音频上混的过程十分复杂，如果可以妥善上混，就可以获取更自然、更具有空间感的音频。

2、目前，一些方案提出了基于乐器音轨的立体声上混方法，即，使用乐器的分离模型从原始音频中分离出各种乐器的音轨，再按照混音的流程，人工加入音轨的空间信息和环境信息，以创造更具沉浸感的立体声音频。但是，这种方法将上混中的“声像”建立过程分解为音轨分离和混音两个过程，流程比较复杂，除此之外还需要人工参与，无法实现音频自动上混。

3、因此，如何实现音频自动上混，以及简化音频上混的流程，从而提升音频上混效率，仍然是亟待解决的。

技术实现思路

1、本技术提供一种音频处理方法、装置及电子设备、存储介质，用以解决如何实现音频自动上混，以及简化音频上混的流程，从而提升音频上混效率的问题。

2、一方面，本技术提供一种音频处理方法，包括：

3、获取待处理音频，以及，获取多声道音频的风格特征数据，所述风格特征数据为向量数据；

4、对所述待处理音频进行处理，获取到所述待处理音频的时频域向量数据；

5、将所述待处理音频的时频域向量数据与所述多声道音频的所述风格特征数据合并，并将合并后的数据转换为时域信号后，获取到所述待处理音频的上混音频。

6、其中一个实施例中，对所述待处理音频进行处理，获取到所述待处理音频的时频域向量数据包括：

7、按照所述待处理音频中每段音频携带的时间信息，提取所述待处理音频中的第n段音频，并将所述第n段音频分解为l个子带，其中，n、l为大于零的自然数；

8、将每个子带的数据转换为时频域数据后，获取到所述第n段音频的时频域向量数据；

9、将n加1，并重复执行步骤所述提取所述待处理音频中的所述第n段音频，直到获取所述待处理音频中每段音频的时频域向量数据时，获取所述待处理音频的时频域向量数据；

10、所述将所述待处理音频的时频域向量数据与所述多声道音频的所述风格特征数据合并，并将合并后的数据转换为时域信号后，获取到所述待处理音频的上混音频包括：

11、将所述风格特征数据分别与所述待处理音频中每段音频的时频域向量数据合并，获取多个合并数据，将每个合并数据转换为时域信号后，获取到所述待处理音频的上混音频。

12、其中一个实施例中，所述按照所述待处理音频中每段音频携带的时间信息，提取所述待处理音频中的第n段音频之前，所述方法还包括：

13、至少对所述待处理音频进行归一化处理；

14、所述将所述第n段音频分解为l个子带包括：

15、对所述第n段音频进行滤波处理，以将所述第n段音频分解为l个子带。

16、其中一个实施例中，所述将每个合并数据转换为时域信号后，获取到所述待处理音频的上混音频包括：

17、针对一个合并数据，将一个合并数据输入至深度学习网络的解码网络，获取所述解码网络的输出数据，将所述输出数据转换为时域信号后，再对时域信号进行逆滤波处理，获取到一个合并数据对应的一段上混音频；

18、在获取到每个合并数据对应的一段上混音频后，合并每个合并数据对应的一段上混音频，获取到所述待处理音频的上混音频。

19、其中一个实施例中，所述获取多声道音频的风格特征数据包括：

20、获取所述多声道音频；

21、按照所述多声道音频中每段音频携带的时间信息，提取所述多声道音频中的第m段音频，并将所述第m段音频分解为l个子带，其中，m、l为大于零的自然数；

22、将每个子带的数据转换为时频域信号后，将每个时频域信号输入至深度学习网络的编码网络，获取到所述编码网络输出的所述第m段音频的风格特征数据，其中，所述编码网络用于对时频域信号进行特征提取和维度压缩；

23、将m加1，并重复执行步骤所述提取所述多声道音频中的第m段音频，直到获取所述多声道音频中每段音频的风格特征数据时，获取到所述多声道音频的所述风格特征数据。

24、其中一个实施例中，所述按照所述多声道音频中每段音频携带的时间信息，提取所述多声道音频中的第m段音频之前，所述方法还包括：

25、至少对所述多声道音频进行归一化处理；

26、所述将所述第m段音频分解为l个子带包括：

27、对所述第m段音频进行滤波处理，以将所述第m段音频分解为l个子带。

28、其中一个实施例中，所述将所述风格特征数据分别与所述待处理音频中每段音频的时频域向量数据合并，获取多个合并数据包括：

29、将所述第m段音频的风格特征数据的维度变更为所述第n段音频的时频域向量数据具有的维度后，将所述第n段音频的时频域向量数据与所述第m段音频的风格特征数据进行合并，获取到多个子合并数据，其中m与n相等；

30、将n加1且将m加1，并重复执行步骤所述将所述第m段音频的风格特征数据的维度变更为所述第n段音频的时频域向量数据具有的维度，直到n无法再增加时，获取所述多个合并数据，每个合并数据包括所述多个子合并数据。

31、其中一个实施例中，所述将每个时频域信号输入至深度学习网络的编码网络之前，所述方法还包括：

32、获取初始深度学习网络；

33、根据所述初始深度学习网络的输入信号和输出信号之间的重构损失，对所述初始深度学习网络的模型参数进行调整，并获取调整了模型参数后的所述初始深度学习网络对应的重构损失；

34、若调整了模型参数后的所述初始深度学习网络对应的重构损失大于预设损失，则重复执行步骤所述根据所述初始深度学习网络的输入信号和输出信号之间的重构损失，直到所述初始深度学习网络对应的重构损失小于或等于所述预设损失时或者重复执行步骤的次数超过规定的数值，获取重构损失最小时对应的所述初始深度学习网络为所述深度学习网络，所述深度学习网络包括编码网络和解码网络。

35、其中一个实施例中，所述获取多声道音频的风格特征数据包括：

36、从标准分布中随机采样获取到所述多声道音频的风格特征数据，其中，所述标准分布遵循标准高斯分布或遵循标准均值分布。

37、另一方面，本技术提供一种音频处理装置，包括：

38、获取模块，用于获取待处理音频，以及，获取多声道音频的风格特征数据，所述风格特征数据为向量数据；

39、处理模块，用于对所述待处理音频进行处理，获取到所述待处理音频的时频域向量数据；

40、所述处理模块还用于将所述待处理音频的时频域向量数据与所述多声道音频的所述风格特征数据合并，并将合并后的数据转换为时域信号后，获取到所述待处理音频的上混音频。

41、另一方面，本技术提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

42、所述存储器存储计算机执行指令；

43、所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的音频处理方法。

44、另一方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述指令被执行时，使得计算机执行如第一方面所述的音频处理方法。

45、另一方面，本技术提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的音频处理方法。

46、综上，本技术的实施例提供一种音频处理方法，包括：获取待处理音频，以及，获取多声道音频的风格特征数据，该风格特征数据为向量数据；对该待处理音频进行处理，获取到该待处理音频的时频域向量数据；将该待处理音频的时频域向量数据与该多声道音频的该风格特征数据合并，并将合并后的数据转换为时域信号后，获取到该待处理音频的上混音频。即，在获取到待处理音频(待上混音频)后，对该待处理音频进行处理，获取到该待处理音频的时频域向量数据。将该待处理音频的时频域向量数据与该多声道音频的该风格特征数据合并，并对合并后的数据进行处理，获取到该待处理音频的上混音频。如此，不用人工参与的情况下就可以实现时频域(空间)上的音频上混，不仅实现了音频自动上混，还简化了音频上混的流程，从而提升了音频上混效率。

技术特征：

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述待处理音频进行处理，获取到所述待处理音频的时频域向量数据包括：

3.根据权利要求2所述的方法，其特征在于，所述按照所述待处理音频中每段音频携带的时间信息，提取所述待处理音频中的第n段音频之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将每个合并数据转换为时域信号后，获取到所述待处理音频的上混音频包括：

5.根据权利要求2所述的方法，其特征在于，所述获取多声道音频的风格特征数据包括：

6.根据权利要求5所述的方法，其特征在于，所述按照所述多声道音频中每段音频携带的时间信息，提取所述多声道音频中的第m段音频之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述风格特征数据分别与所述待处理音频中每段音频的时频域向量数据合并，获取多个合并数据包括：

8.根据权利要求5所述的方法，其特征在于，所述将每个时频域信号输入至深度学习网络的编码网络之前，所述方法还包括：

9.根据权利要求1-4任一项所述的方法，其特征在于，所述获取多声道音频的风格特征数据包括：

10.一种音频处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述指令被执行时，使得计算机执行如权利要求1-9中任一项所述的音频处理方法。

技术总结
本申请提供一种音频处理方法、装置及电子设备、存储介质。该方法包括：获取待处理音频，以及，获取多声道音频的风格特征数据，所述风格特征数据为向量数据；对所述待处理音频进行处理，获取到所述待处理音频的时频域向量数据；将所述待处理音频的时频域向量数据与所述多声道音频的所述风格特征数据合并，并将合并后的数据转换为时域信号后，获取到所述待处理音频的上混音频。本申请的方法可以解决如何实现音频自动上混，以及简化音频上混的流程，从而提升音频上混效率的问题。

技术研发人员：陈笑天,蒋毅,龚义辉
受保护的技术使用者：北京全景声信息科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)