本发明涉及语音分离技术,具体是一种混响环境下基于注意力加权的多通道语音分离的方法
背景技术:
1、在鸡尾酒会场景中,同时发生了多种声音,例如目标说话人的语音、其它说话人的声音、背景噪声、桌椅板凳移动的声音以及上述声音在室内经过天花板等障碍的反射声音,其中获取目标说话人的语音的过程就叫做语音分离。语音分离能够从混合语音中提取出目标语言,目标语音可以用于语音识别、语义分析、同声传译、智能搜索和智能机器人等。
2、传统的单通道语音分离技术大多采用基于信号处理的方式,例如谱减法、维纳滤波、基于统计的方法等。谱减法需要假设语音中的噪声只有加性噪声,只要将带噪语音减去噪声谱,就可以得到纯净语言。维纳滤波则是一种基于最小均方误差准测、对平稳过程的最优估计器,这种滤波器的估计语音与期望的输出之间的均方误差最小,是一个最佳滤波系统,但是知道半无限时间区间内的全部观察数据这一条件很难满足。基于统计模型的方法是将分离过程归入到一个统计的估计框架中,虽然在一定程度上可以弥补谱减法带来的噪声估计不准确以及产生音乐噪声等缺点,但是往往需要语音信号和噪声信号是相互独立的,并且服从特定分布。
3、综上而言,传统的语音分离技术往往需要一些前提或者假设,尤其是在室内环境较复杂的情况下,除了一些不相干的噪声信号,语音信号遇到室内的墙壁、天花板等障碍物反射带来的回响噪声对于目标语音来说是相干噪声,该噪声对人耳来说可能不算噪声,反而会觉得听起来更加响亮,但是对于机器而言,会使原本的语音信号无论在时域还是频域都会形成失真。很明显,传统的单通道语音分离技术难以应对这一复杂环境,于是有学者提出了基于阵列信号处理的多通道麦克风阵列,并以此为基础提出了多通道麦克风阵列语音分离算法。
4、此外,随着深度学习的发展,有学者将语音分离问题看作监督学习问题。基于深度学习的语音分离系统作为一种输入输出结构,所以包含更多目标语音信号信息的输入往往能够表现出更好的语音分离性能。在多通道麦克风中,每两个麦克风之间组成通道间相位差,随着麦克风通道数的增加,通道间相位差数量急速增加,我们在研究中为了更好的还原目标语音信号,就需要尽可能多的获取目标语言信号的空间信息,为了达到这种效果,就需要尽可能的使用足够多的通道间相位差数量,但是受到模型大小以及算法计算量的约束,需要降低输入特征的维度不得不减少使用通道间相位差的数量,造成某些麦克风通道的浪费。
技术实现思路
1、针对室内混响环境中,噪声中包含回声带来的相干噪声,需要更多的空间信息对语音信号进行分离,但是受到模型大小及算法计算量限制的问题,提出了一种混响环境下基于注意力加权的多通道语音分离方法,实现了混响环境下的语音分离任务。该方法采用加权打分的方式,解决了麦克风通道浪费的问题,尽可能多的使用通道间相位差,减少了语音信号空间信息的损失,使得语音分离性能得到了提升。
2、本发明一种混响环境下基于注意力加权的多通道语音分离方法,包括以下步骤:
3、s1、利用多通道麦克风阵列收集混合语言;
4、s2、对收集到的多通道混合语音进行快速傅里叶变换,得到混合语音信号时频谱y(t,f);
5、s3、对时频谱进行特征处理,获得对数功率谱特征lps、通道间相位差特征ipd;以及方向特征dθ(t,f);
6、s4、对多路通道间相位差特征进行注意力加权,加权以后与获得的对数功率谱特征和方向特征进行拼接得到输入特征infeature;
7、s5、将输入特征infeature送入时域卷积网络模型获得目标语音分离masktcn,并将masktcn与混合语言时频谱y(t,f)点积获得估计语音的时频谱;
8、s6、估计语音的时频谱经过反傅里叶变换得到估计语音s(t),并与参考语言计算等比信噪比损失进行反向传播,迭代学习,最终获得语音分离模型,通过语言分离模型将估计语言从混合语音中分离出来。
9、进一步地,s1具体包括:
10、假设目标语言说话人为即参考语言,噪声信号为n(t),二者都在一个房间冲激响应为h的房间内,所以二者都受到混响的影响,此外还有一些环境背景噪声以及各个麦克风通道间的干扰构成的加性噪声为n0,最终得到混合带噪语音的信号模型为:
11、
12、进一步地,s2具体包括:
13、用混合语音的频谱特征,该特征由混合语音信号y(t)经过傅里叶变换得到,将混合语音从时域转换到时频域:
14、
15、进一步地,s3具体包括:
16、根据相应的频谱特征构建对数域功率谱特征lps:
17、lps=10 logy(t,f) (3)
18、选择第一个通道为参考通道,定义为通道0,从通道0接收到的混合语言的对数功率谱作为特征lps;
19、在室内混响环境下,引入目标说话人的方向信息,获得目标语音信号的空间信息,就可以相应的获得包含目标语音空间信息的方向特征,以此更加明确目标语音的空间谱,假设目标语音来自θ方向的说话人,那么dfθ(t,f)就会接近于1,否则就接近于0,方向特征根据说话人方向计算得出:
20、
21、
22、其中,f是频率,c是声速,fs表示采样率,tpdm(f,θt)目标相关相位差是经历的平面波的相位延迟,在第m对麦克风之间的距离,在实验过程中说话人移动是小概率事件,所以实验过程中θt=0;
23、从公式(4)和公式(5)可以看出,方向特征表示的是转向矢量和通道间相位差特征的余弦距离;
24、此外,通道间相位差是由各个通道接收的语音信号的时频域的相位差计算得出,可以反映出声源到达方向doa的细微变化,构筑了语音信号的空间谱,携带了语音信号的空间信息:
25、
26、其中,m是麦克风对的数量,m1和m2分别是第m对麦克风对中的两个麦克风,当实验中使用的麦克风数量更多时,麦克风对的数量也会增多,但不是线性增长,而是麦克风对的数量m随着麦克风通道数t的平方呈线性增长:
27、
28、为了更好的还原目标语音信号,就需要尽可能多的获取目标语言信号的空间信息,为了达到这种效果,就需要尽可能的使用足够多的通道间相位差特征的数量m≤m,但是受到模型大小以及算法计算量的约束,需要适当的降低空间特征的维度不得不减少使用通道间相位差的数量m≥0,并且以ipdm(t,f)的形式串联成为通道间相位差特征:
29、
30、由于上述矛盾的存在,有部分学者往往仅采用不同的麦克风距离的通道间相位差来尽量表征信号的空间特征,但是很明显这样会损失语音信号的空间信息,造成某些通道麦克风的浪费。
31、麦克风通道数越多,通道间相位差的数量越多,而且通道间相位差的数量随着麦克风通道的二次幂增长,随着麦克风数量的增多,通道间相位差的数量急速增多,但是系统的输入的通道间相位差数量会受到系统模型的限制。
32、为了解决该问题,本发明提出了基于注意力加权的特征融合方式,能够使模型在不改变系统输入的情况下使用更多的通道间相位差或使用相同通道间相位差的情况下,减少系统的输入和负载。
33、进一步地,s4具体包括:
34、注意机制的本质是通过计算键向量和查询向量之间的相似度得到的权重系数,然后将值向量加权求和:
35、attention(q,k,v)=softmax(q*kt)*v (9)
36、注意力机制的本质上是一个打分加权求和的过程,将这种思想运用在多个通道间相位差特征的聚合上,将不同的通道间相位差特征作为输入,最终得到融合后的ipdatt:
37、ipdatt=attention(ipd1,ipd2,ipd3) (10)
38、与其它形式的特征拼接组成输入特征:
39、inatt-feature=cat{lps,ipdatt,dθ(t,f)} (11)
40、其中cat{·}表示拼接,表示将获得对数功率谱特征、注意力加权后的通道间相位差特征以及dθ(t,f)三者拼接起来。
41、进一步地,s5具体包括:
42、将输入特征infeature送入搭建好的时域卷积网络模型训练语音分离掩蔽函数:
43、masktcn=tcn(inatt-feature) (12)
44、并将掩蔽函数masktcn与混合语音的时频谱点积,得到估计语音的时频谱:
45、s(t,f)=y(t,f)*masktcn(13)。
46、进一步地,s6的具体步骤是:
47、估计语音的时频谱经过反傅里叶变换获得相应的估计语音s(t):
48、
49、并与参考语言计算等比信噪比损失:
50、
51、其中:
52、
53、所以:
54、
55、并进行反向传播,迭代训练,最终得到相应的语音分离模型。
56、本发明多通道语音分离方法,基于注意力机制的思想,采用注意力加权打分的方式,通过对多路通道间相位差特征的特征融合,减少了输入特征的维度,能够在不增大输入特征维度的前提下,尽可能多的使用通道间相位差特征,解决了麦克风通道浪费的问题,减少了语音信号空间信息的损失,使得语音分离性能得到了提升。在不增加系统负载和模型输入维度大小的情况下,有效的利用更多的通道间相位差特征,获取更多的语音信号空间信息,提高混响环境下的室内语音分离系统的分离性能。
1.一种混响环境下基于注意力加权的多通道语音分离方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的多通道语音分离方法,其特征在于,s1具体包括:
3.根据权利要求2所述的多通道语音分离方法,其特征在于,s2具体包括:用混合语音的频谱特征,该特征由混合语音信号y(t)经过傅里叶变换得到,将混合语音从时域转换到时频域:
4.根据权利要求3所述的多通道语音分离方法,其特征在于,s3具体包括:
5.根据权利要求4所述的多通道语音分离方法,其特征在于,s4具体包括:
6.根据权利要求5所述的多通道语音分离方法,其特征在于,s5具体包括:
7.根据权利要求6所述的多通道语音分离方法,其特征在于,s6的具体步骤是:估计语音的时频谱经过反傅里叶变换获得相应的估计语音s(t):
