适用于微型麦克风阵列的声强估计声源定向方法

xiaoxiao2020-10-23 39

适用于微型麦克风阵列的声强估计声源定向方法
【技术领域】
[0001] 本发明涉及小尺寸阵列，尤其是直径小于4cm的阵列下的声强估计声源定向方法，可用于视频会议系统、机器人听觉、助听器、人机语音交互系统、以及音频监控等诸多领域。
【背景技术】
[0002] 在很多实际应用中，由于受到安装平台限制或系统设计要求，往往只能采用小尺寸麦克风阵列。而在小尺寸阵列孔径条件下，传统的声源定向方法如时延估计法、可控功率波束形成法等已经无法满足实际定向精度的要求。基于差分思想的声强估计声源定向方法为小尺寸阵列条件下的高精度声源定向提供了一个重要技术途径。目前，基本的声强估计声源定向方法有复声强法（见文献[l]GUnel B，Hacihabiboglu H,Kondoz A M. Acoustic Source Separation of Convolutive Mixtures Based on Intensity Vector Statistics[J]. IEEE Transactions on Audio,Speech, and Language Processing，2008, 16(4) :748-756;文献[2]陈华伟，赵俊渭.基于矢量传感器复声强测量的低空目标二维波达方向估计[J].声学学报：中文版，2004,（3) :277-282.)和直方图法（见文献[3] Zhong，X.，Chen, X.，Wang, W.，Mlinaghi，Acoustic vector sensor based reverberant speech separation with probabilistic time-frequency masking. European Signal Processing Conference. IEEE, 2013:1-5 ;文献[4]惠俊英，惠娟?矢量声信号处理基础[M].国防工业出版社，2009)。对于复声强法，其虽然对空间不相关噪声具有很强的抑制能力，但对混响较为敏感，随着混响的增大其性能急剧下降。而对于直方图法，信噪比较低时，其性能较差，并且该方法须通过搜索峰值来确定方位角，实时性较差。因此，为了克服以上方法的缺陷，本发明提出了一种同时对噪声和混响具有鲁棒性的声源定向方法，并且所提出的方法具有闭式解，无需峰值搜索，便于实时实现。

【发明内容】

[0003] 本发明的目的是针对上述【背景技术】中的不足，提供一种适用于微型麦克风阵列的声强估计声源定向方法，同时对噪声和混响具有鲁棒性，并且具有闭式解，无需峰值搜索，便于实时实现。
[0004] 为实现上述目的，本发明采用以下技术方案：
[0005] -种适用于微型麦克风阵列的声强估计声源定向方法，包括如下步骤：
[0006]步骤1，借助语音信号的稀疏特性对各时频点构造方位估计时频图，利用滑动窗对选定的时频块对应的瞬时方位估计值进行局部标准差估计；
[0007] 步骤2,根据设定的局部标准差门限参数值对时频点进行二值掩蔽处理；
[0008] 步骤3,对过滤出的时频点进行重新排布，并再次进行局部标准差估计和门限判断；
[0009] 步骤4,将满足条件的时频点对应的各方向上的瞬时声强进行求和平均，得出方位角估计值。
[0010] 所述步骤1的具体步骤为：对每个时频点各方向上的声强估计值进行求和平均，并取实部，即可得到方位角估计值：
[0012] 上式中，IM(t, f)、Ijt，f)分别表示各时频点在x轴和y轴方向上声强分量，Re 表示取实部；
[0013] 为了更加清楚的了解每个时频点对方位估计的贡献，利用下式对每个时频点进行瞬时方位估计，
[0015]因为是圆形阵列，考虑到方位估计的范围为[-180°，180° )，-180°又与180° 重合，为了防止180°附近定向产生偏差，在利用复声强法得到初步估计结果后对方位估计值在180°附近的时频点进行修正，如果||巾|| >L，（r3ci< ° ]，那么对每个时频点对应的小于0°的方位角进行360°补偿，即（i>(t，f) - (i>(t，f)+360°。然后对修正之后的瞬时方位估计值.4^，/：)计算局部标准差。
[0016] 所述步骤2中，如果0 Jti，fi) > a，那么将所有符合条件的时频点信息都置为0，即=0，1。7(1^，;^) =0。这样做的目的是为了初步筛选出那些局部标准差较大且定向精度不高的时频点。
[0017] 所述步骤3中的时频点重新排布，是将过滤出的时频点对应的方位角、各方向声强分量信息分别载入一个新向量中。
[0018] 所述步骤3中，将满足〇1(tk，fk)彡a条件的二维时频图中的时频点信息分别载入到一维向量中，即伞'（k) = <Htk，fk)，I ' 。x(k) = Iox(tk，fk)，I' 。y(k) = Ioy(tk，fk)，这样做的目的，可以有效的分散开原先局部标准差较小，但是定向精度很差的区域中的时频点，然后计算出对应时频点的局部标准差。 2(k)。如果〇2〇〇彡0，就按照步骤2的方法将不满足条件的时频点信息置0,其他时频点信息保留，巾"（j) = 4>' 0〇，1" M(j) =r 0!￡(^),i"oy(j) = r oy(ki)〇
[0019] 所述步骤4中，将步骤3中最终保留的数据按照下式即可得出方位角估计值：
[0021] 本发明的有益效果为：相比现有技术，本发明对混响和噪声具有更高的鲁棒性，方位估计精度也较高，具体为：
[0022] (1)由于对时频点进行局部标准差估计时，往往会出现局部标准差较小但方位估计值也不完全精确的情况，如果按照局部标准差进行加权，必定会造成这些方位估计误差较大的时频点占据更大的权重，从而导致最后估计结果偏离真实值。为此，本发明巧妙利用二次门限时频重排的方式，有效克服了局部标准差较小而方位估计值不准的异常情况。
[0023] (2)本发明克服了直方图法的缺陷，一方面在信噪比降低时也能保持很高的定向精度，另一方面避免了峰值搜索过程，实时性较高。
[0024] (3)相比现有的方法，本发明适用于小尺寸麦克风阵列，且具有较高的抗混响能力和空间噪声抑制能力，在混响噪声环境下的方位估计精度高。
【附图说明】
[0025] 图1为阵列结构和坐标定义示意图；
[0026] 图2为本发明方法原理流程图；
[0027] 图3为时频重排前后部分时频信息分布图，其中，（a)第一次门限判断后部分时频信息分布，（b)时频重排方式1，（c)时频重排方式2,（d)第二次门限判断后部分时频信息的一种分布方式；
[0028] 图4为实施例1的仿真结果图，其中，（a)局部标准差小于30°但方位估计值大于 30°的时频分布，（b)第一次门限判断后，局部标准差小于30°但方位估计大于30°的时频分布，（c)第二次门限判断后，局部标准差小于30°但方位估计大于30°的时频分布；
[0029] 图5为对比例1的仿真结果图，其中，（a)信噪比20dB时复声强法、直方图法和本发明方法的均方根误差对比图，（b)信噪比10dB时复声强法、直方图法和本发明方法的均方根误差对比图；
[0030] 图6为对比例2的实测结果图，其中，（a)复声强法、直方图法和本发明方法平均绝对误差对比图，（b)复声强法、直方图法和本发明方法最大绝对误差对比图。
【具体实施方式】
[0031] 本发明中所指的微型麦克风阵列是指尺寸较小的阵列，一般是指直径小于4cm的阵列（即下文所述的D〈4cm)，本发明实施例和对比例中都选用2. 5cm。
[0032] 下面结合附图对发明的技术方案进行详细说明。
[0033] 本发明方法是在如图1所示的麦克风阵列的基础上，按照图2所示的原理流程图进行研宄的。四个全向麦克风等间隔的分布在直径为D的圆周上，那么原点处声压由四个麦克风接收到的信号的平均值近似求得：
[0035]其中，Pl (t)、p2(t)、p3(t)、p4⑴分别表示麦克风Mi、M2、M3、M 4接收到的信号，原点处振速的两个正交分量为：
[0037]式中，P为媒质密度。考虑到语音信号具有短时平稳的特性，因此我们采用时频处理方法。对接收到的信号分别进行短时傅里叶变换，得到原点处振速的两个正交分量为：
[0040]其中，
Pi(t，f)、P2(t，f)、P3(t，f)、P 4(t，f)分别为四个麦克风接收信号的短时傅里叶变换。原点处声压信号P( l(t)的短时傅里叶变换为PJt，f)，则各方向上的瞬时复声强可以表示为：
[0043]PQ(t, f)表示PQ(t, f)的希尔伯特变换，由于振速和声压的相位相差90°，采用希尔伯特变换以消除相位差，符号*表示共轭运算。然后利用式（2)计算出时频点的瞬时方位值，并利用下式进行局部标准差估计，
[0045]其中Q表示滑动窗，N表示滑动窗的大小，y(t，f)表示方位估计的局部均值，由下式求得：
[0047] 接下来根据时频点的局部标准差进行掩蔽和重排。图3(a)表示第一次门限判断以后时频点分布情况，其中灰色部分表示局部标准差oJkfi) > a的时频点，E(t，f)表示时频点信息，包括这些时频点的瞬时方位估计值、各方向上的声强分量等，图3(b)给出了一种经过第一次门限判断保留的时频点进行时频重排后的表现图。由于时频重排前后满足能量守恒定律，因此这样的时频重排方法有很多，图3(b)、3(c)只是给出了较为简单的时频重排方式，可根据实际情况自主进行重排。而图中的灰色部分表示第二次门限判断局部标准差〇 20〇 > 0的时频点。根据第二次门限判断的结果，将保留的时频点信息，任意的（不用考虑时频点排序问题，因为本次排布不影响最后定位精度）放置在一个新的向量中，如图3(d)给出了随机的一种排布。最后，将这些时频点各方向上声强分量按照式（3) 得到最终的方位估计值。
[0048] 下面结合一些具体实施例以及对比例对本发明做进一步说明。
[0049] 实施例
[0050] 本发明方法对瞬时方位估计异常时频点的掩蔽效果。
[0051] 对瞬时方位估计异常时频点的掩蔽是本发明的关键技术。为此，举例说明对异常点的掩蔽效果。考虑混响时间为200ms，信噪比为20dB时，真实方位角为120°，门限值设为50°。图4(a)为瞬时方位估计偏差大于30°的时频点（异常的时频点）的分布情况，异常时频点的总数共为7167个，占总时频点的比例高达11. 29%。经过第一次门限判断并进行时频掩蔽后，此时异常时频点的分布如图4(b)所示，其异常时频点的总数下降为2145 个，占总时频点的比例为3. 38%。而采用本发明方法的两次门限判断并进行时频掩蔽后，对应的异常时频点的分布如图4(c)所示，其异常时频点的总数进一步减少为102个，其占总时频点的比例仅为0. 16%。通过以上仿真分析表明，本发明方法对异常时频点具有良好的抑制作用，有效提高了声源方位估计的精度。
[0052] 对比例1
[0053] 高混响下复声强法、直方图法与本发明方法的仿真比较。
[0054] 令D = 2. 5cm，阵列中心到声源距离为2m，声音在空气的速度为340m/s。选择房间参数为7X6X4m，阵列中心置于（3. 5, 2. 8, l)m。混响时间为500ms，信噪比分别20dB、 10dB。a为最大局部标准差的35%，0为最大局部标准差的30%。考虑方位角从-180° 到180°，且以10°为间隔，进行100次蒙特卡洛实验。对这100次结果求取均值和方差，利用均方根误差作为评价指标。
[0055] 图5(a)表示信噪比为20dB时三种方法各个方位角的均方根误差，其中对于平均均方根误差，复声强法为4.86°，直方图法为5.42°，本发明方法为3.79°。而最大均方根误差，复声强法达到15. 11°，直方图法为9.39°，本发明方法为8.09°。图5(b)为信噪比为10dB时三种方法各个方位角的均方根误差，其中对于平均均方根误差，复声强法为5.11°，直方图法为13. 13°，本发明方法为4.23°。而最大均方根误差，复声强法为 15. 22°，直方图法为26.42°，本发明方法为8.7°。从仿真结果来看，直方图法在高混响低信噪比环境下基本失效，在高混响高信噪比环境下虽然可以定向，但是定向精度还有待提高。此外，直方图法通过搜索峰值带来的高计算复杂度也是一大问题。而复声强法和本发明方法对噪声具有一定的鲁棒性，实时性也比较高。但是，复声强法虽整体上要优于直方图法，但是精度也不是很高，甚至在某些角度也失去了定向性能。因此本发明方法整体上要优于以上两种方法。
[0056] 对比例2
[0057]实际环境下复声强法、直方图法与本发明方法的比较。
[0058] 将整套系统放置在房间参数为6. 69X7. 79X2. 68m的会议室进行实测。阵列置于房间中心附近，声源和阵列放置在不同高度。利用采集卡对四路麦克风信号同时进行数据采集，然后利用电脑对导入的数据进行处理。考虑方位角由-180°到180°以30°间隔递增，每个角度再进行10次实验。其中，图6(a)表示三种方法各个方位角的平均绝对误差，图6(b)表示三种方法各个方位角的最大绝对误差。由实测结果可以看出，本发明方法整体上误差都要小于复声强法和直方图法，精度较高，且具有一定的鲁棒性。
[0059] 以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
【主权项】
1. 一种适用于微型麦克风阵列的声强估计声源定向方法，其特征在于：包括如下步骤：步骤1，借助语音信号的稀疏特性对各时频点构造方位估计时频图，利用滑动窗对选定的时频块对应的瞬时方位估计值进行局部标准差估计；步骤2,根据设定的局部标准差门限参数值对时频点进行二值掩蔽处理；步骤3,对过滤出的时频点进行重新排布，并再次进行局部标准差估计和门限判断；步骤4,将满足条件的时频点对应的各方向上的瞬时声强进行求和平均，得出方位角估计值。2. 如权利要求1所述的适用于微型麦克风阵列的声强估计声源定向方法，其特征在于：所述步骤1的具体步骤为：对每个时频点各方向上的声强估计值进行求和平均，并取实部，即可得到方位角初步估计值：上式中，Im (t，f)、Itjy (t，f)分别表示各时频点在X轴和y轴方向上声强分量，Re表示取实部；利用下式对每个时频点进行瞬时方位估计，在利用复声强法得到初步估计结果后对方位估计值在180°附近的时频点进行修正，如果I I Φ I I > L，（135° < L < 150° )，那么对每个时频点对应的小于0°的方位角进行 360°补偿，即（Ht，f) - (Ht，f)+360°，然后对修正之后的瞬时方位估计值一(?,/)计算局部标准差。3. 如权利要求1所述的适用于微型麦克风阵列的声强估计声源定向方法，其特征在于：所述步骤2中，如果〇 Jbfi) > α，那么将所有符合条件的时频点信息都置为0,即 Φ (ti，fi) = 0, IoxUi, fi) = 0, IoyUi, fi) = 0〇4. 如权利要求1所述的适用于微型麦克风阵列的声强估计声源定向方法，其特征在于：所述步骤3中的时频点重新排布，是将过滤出的时频点对应的方位角、各方向声强分量信息分别载入一个新向量中。5. 如权利要求4所述的适用于微型麦克风阵列的声强估计声源定向方法，其特征在于：所述步骤3中，将满足〇1(tk，fk) < α条件的二维时频图中的时频点信息分别载入到一维向量中，即 Φ' （k) = Φ (tk，fk)，I ' 。x(k) = Iox(tk，fk)，I' 。y(k) = Ioy(tk，fk)。6. 如权利要求4所述的适用于微型麦克风阵列的声强估计声源定向方法，其特征在于：所述步骤3中，计算出对应点的局部标准差〇2(k)，如果O2GO彡β，就按照步骤2的方法将不满足条件的时频点信息置0,其他时频点信息保留，即Φ"?) = Φ' 0〇，1" M(j) =I'。χ0〇，I" oy(j) = I'。y(ki)。
【专利摘要】本发明公开了一种适用于微型麦克风阵列的声强估计声源定向方法，首先，借助语音信号的稀疏特性对各时频点构造方位估计时频图，利用滑动窗对选定的时频块对应的瞬时方位估计值进行局部标准差估计；然后，根据设定的局部标准差门限参数值对时频点进行二值掩蔽处理；再次，对过滤出的时频点进行重新排布，并进行第二次局部标准差估计和门限判断；最后，将满足条件的时频点对应的各方向上的瞬时声强进行求和平均，得出方位角估计值。相比现有技术，本发明对混响和噪声具有更高的鲁棒性，方位角估计精度也较高。
【IPC分类】G01S3/802
【公开号】CN104898086
【申请号】CN201510256448
【发明人】何赛娟, 陈华伟, 丁少为
【申请人】南京航空航天大学
【公开日】2015年9月9日
【申请日】2015年5月19日

2012-2014专利技术

最新回复(0)