用于估计目标和噪声谱方差的多传声器方法

xiaoxiao2020-10-23  21

用于估计目标和噪声谱方差的多传声器方法
【技术领域】
[0001] 本申请设及用于估计有噪声(如混响)信号中的相应目标和噪声(如混响)信号 分量的谱方差的音频处理方法和音频处理系统,及该音频处理系统的用途。本申请还设及 包括处理器和程序代码的数据处理系统,程序代码使得处理器执行本发明方法的至少部分 步骤。
[0002] 例如,本发明的实施可用在助听装置如助听器、头戴式耳机、耳麦、有源耳朵保护 系统、免提电话系统、移动电话等应用中或者用在远程会议系统、广播系统、卡拉0K系统、 教室放大系统等系统中。
【背景技术】
[0003] 下面的现有技术说明设及本申请的应用领域之一,即助听器。
[0004] 已知助听器用户在混响环境如具有硬壁的房间、教堂、讲演厅等中面临理解语音 的问题。尽管该用户问题众所周知,但似乎只有为数不多的与该问题有关的助听器信号处 理算法。
[0005]US2009248403A公开了多传声器系统及消除混响的线性预测模型。W012159217A1 设及在混响环境中或在除直接声音之外还具有扩散声音的其它环境中提高语音可懂度的 技术。US2013343571A1公开了传声器阵列处理系统,其包括配置成减少波束形成剩下的噪 声分量(如混响)的自适应波束形成和后滤波。US2010246844A1设及确定信号分量W减 少输入信号中的噪声(如混响)的方法。[化aun&H油ets;2013]设及有噪声环境中的去混 响。[Shimitzuetal. ;2007]设及功率谱域中通过对称传声器阵列的各向同性噪声抑制。 所描述的方法基于自由场假设确定目标信号的谱方差,其中协方差矩阵圆形对称。

【发明内容】

[0006] 撞击在传声器上的混响和有噪声语音信号可分为两个(非必须地,=个)部分:
[0007]a)语音信号的直接声音和前几次反射(包括直接声音之后的约50ms脉冲响应);
[000引 b)后混响信号,即比直接声音晚约50ms到达的反射语音信号分量;及非必须地
[0009]C)附加噪声分量。
[0010] 假定附加噪声的信号功率(具体地,输入变换器间协方差矩阵,参见后述)已知。 在本发明中,附加噪声的例子为传声器噪声、发动机噪声(如在汽车或飞机中)、大的喧哗 噪声(如所谓的"鸡尾酒会噪声")。
[0011] 众所周知,大约说来,部分a)有益于语音可懂度,而部分b)和C)对正常听力和听 力受损听者而言均降低可懂度。
[0012] 本发明的主要目标在于使用两个W上传声器将信号功率在线估计为每一信号分 量a)和b)的时间和频率的函数(即动态地,在使用音频处理装置如助听装置期间)。所提 出的方法与传声器位置和数量无关,也就是说,其可在助听器本地有两个传声器可用的情 形下起作用,也可在外部传声器信号如来自对侧助听器或外部装置的传声器信号可用的情 形下起作用。
[0013] 如下面更详细归纳地,该主要想法具有几个潜在的用途:
[0014]i)用于在助听器中选择适当的处理方法;
[0015]ii)用于通知用户助听器在特定环境中能够何种程度地适当运行;
[0016]iii)用于处理信号W减少混响及可选地减少附加噪声,等等。
[0017] 本发明基于典型目标语音信号和混响声场的空间特性十分不同的事实。具体地, 所提出的方法利用混响声场可建模为适当各向同性,即对于特定频率,源自任何方向的混 响信号功率(大约)一样。另一方面,目标语音信号的直接部分大致上局限于一个方向。
[0018] 在本发明的实施例中,提出了用于语音去混响的算法,其使能也在语音存在 期间联合估计目标和干扰谱方差。该算法使用最大似然估计(ML巧方法,例如参见 [化&DeGroat;1995]。我们假定混响的各向同性空间分布及已知讲话者方向。因此,语音和 混响的传声器间协方差矩阵的结构已知,在MLE框架中仅估计时变谱方差(该些矩阵的换 算因子)。
[0019] 应注意,本发明中提出的算法也可适用于不同于语音的目标信号及不同于混响的 干扰类型。然而,前提条件是干扰的空间分布各向同性,或者已知或已估计该空间分布。
[0020] 本发明的目标在于提供用于将信号功率估计为混响语音信号的混响部分的时间 和频率的函数的方法。本发明的另外的目标在于(相较于现有解决方案)提高有噪声情形 下的语音可懂度。本发明的目标还在于提高有噪声情形下的声音质量。
[0021] 本申请的目标由所附权利要求限定的及下面描述的发明实现。
[0022] 化理有啜声音频信号的方法
[0023] 在本申请的一方面,本申请的目标由包括目标信号分量x(n)和第一噪声信号分 量v(n)的有噪声音频信号y(n)的处理方法实现,n表示时间,该方法包括:
[0024]a)提供或接收多个频带和多个时刻时第i个输入单元处的有噪声音频信号(n) 的时频表示Yi也m),i= 1,2,…,M,其中M大于或等于2,k为频带指数,及m为时间指数; [00巧]b)提供目标信号分量和第一噪声信号分量的特性;及
[0026]C)将第一噪声信号分量V和目标信号分量X的谱方差或其换算版AV,Ax分别估 计为频率指数k和时间指数m的函数,Av和AX的估计量在最大似然方面共同最佳,基于 下述统计假设;a)相应信号yi(n)、及信号分量Xi(n)和Vi(n)的时频表示Yi化,m),Xi化,m) 和Vi也m)均为零均值、复值高斯分布;b)它们中的每一个跨时间m和频率k统计上独立; 及c)Xi(k,m)和Vi(k,m)不相关。
[0027] 本发明的优点在于其为提高输入语音信号的可懂度提供基础。本发明的另一优点 在于有噪声音频信号的信号分量的谱方差的所得估计与输入单元的数量和/或位置无关。
[0028] 总的来说,"噪声信号分量的特性"(称为"第一"、"第二"或其它)意为噪声信号 分量关于空间、频率和/或时间的特性(如与信号能量随时间、频率和空间的变化有关)。 该些特性总体上例如可与在不同空间位置(如在输入单元如传声器处)测得的噪声功率谱 密度及其跨时间的变化有关。另外或作为备选,其与噪声能量的方向或空间分布有关,即与 作为方向的函数撞击在输入单元上的噪声能量的量有关(对于特定频率和时刻)。在重要 实施例中,该方法设及附加噪声的"空间特性"。在实施例中,"噪声信号分量的特性"意为 "空间特性"或"空间指纹"。在实施例中,噪声信号分量的"空间特性"或"空间指纹"通过 输入单元间(如传声器间)噪声协方差矩阵定义。
[0029] 在优选实施例中,本发明方法基于空间滤波。在实施例中,目标信号分量和第一噪 声信号分量的特性为空间特性。
[0030] 术语"其换算版"意为"乘W实数"(不同于零)。
[0031] 在实施例中,噪声信号分量通过(如空间)特性的假设定义。换言之,有噪声音频 信号的满足所述假设的分量被视为包括在噪声中(如构成噪声)。通常假定输入单元i处 的目标信号分量Xi(n)和噪声信号分量(如Vi(n))不相关。
[0032] (可能归一化的)谱方差(或其换算版)AV,Ax通过基于统计模型的最大似然方 法确定。在实施例中,最大似然方法的用于分别确定第一噪声信号分量V和目标信号分量 X的谱方差Av,Ax的统计模型在于相应信号yi(n)和信号分量Xi(n)及Vi(n)的时频表示 Yi也m),Xi也m)和Vi也m)均为零均值、复值高斯分布,它们中的每一个跨时间m和频率k 统计上独立,及Xi化,m)和Vi化,m)不相关。在实施例中,AV和AX的最大似然估计排他地 基于所提及的假设。
[0033] 在本说明书中,术语"共同最佳"意于强调谱方差Av,Ax中的二者均在同一最大 似然估计过程中进行估计。
[0034] 该方法总体上基于噪声信号分量的特性的假设。在实施例中,该方法还基于目标 信号分量的特性的假设。在实施例中,目标信号分量的特性包括输入单元相较于目标信号 方向的特定空间安排。在实施例中,目标信号分量的特性包括其时间变化(如其调制)、其 频率含量(如其随频率的功率电平)等。
[0035] 在实施例中,有噪声音频信号yi(n)包括混响信号分量Vi(n)。
[0036] 在实施例中,有噪声音频信号yi(n)包括具有目标信号分量和混响信号分量的混 响信号。在实施例中,混响信号分量为(第一)噪声信号分量v(n)的主要部分。在实施例 中,仅考虑(第一)噪声信号分量Vi(n)的混响信号分量。在实施例中,混响信号分量等于 (第一)噪声信号分量Vi(n)。
[0037] 在实施例中,目标信号分量包括或构成目标语音信号分量Xi(n)。在实施例中,有 噪声音频信号yi(n)为包括目标语音信号分量Xi(n)和第一噪声信号分量Vi(n)的有噪声 目标语音信号,换言之,y; (n) =Xi(n)+Vi(n),i= 1,2,…,M。在实施例中,有噪声音频信号 为包括目标语音信号分量Xi(n)和混响信号分量Vi(n)的混响目标语音信号(n)。
[0038] 在实施例中,第一噪声信号分量的特性的假设为;第一噪声信号分量Vi(n)实质上 空间各向同性。术语"噪声信号分量实质上空间各向同性"意为噪声信号分量"从所有可能 的方向均匀地"到达特定输入单元,即"球形各向同性"(例如由于大生产设施中的背景噪 声、"鸡尾酒会噪声"、来自房间墙壁的(后期)反射等)。换言之,对于特定频率,源自任何 方向的噪声信号功率均一样。在实施例中,"空间各向同性"限于"圆柱形各向同性"。
[0039] 在实施例中,从目标源传播到听者(输入单元)的目标信号,当其到达听者时,分 为第一部分和第二部分。通常,包括直接(未反射)声音分量和前几次反射的第一部分有 益于语音可懂度,而包括后期反射的第二部分降低语音可懂度(二者均对正常听力和听力 受损听者而言)。在实施例中,第一部分视为目标信号分量Xi,而第二部分Vi取为噪声(混 响)信号分量。
[0040] 在实施例中,第一噪声信号分量Vi(n)由后期混响构成。在本说明书中,术语"后 期混响"指包括在脉冲响应的第一波峰已到达所设及输入单元之后的预定时间Atpd到达 特定输入单元(如第i个)的声音信号分量的"后期反射"(例如参见图1A-1C)。在实施 例中,预定时间Atpd大于或等于30ms,如大于或等于40ms,如大于或等于50ms。在实施例 中,前述"后期混响"包括已遭受从环境中的表面(如墙壁)S次W上反射的声音分量。"后 期混响"由比直接声音(直接声音由实质上未遭受反射的声音分量构成)更晚(晚AtpdW 上)到达接收装置(即输入单元)(因反射导致的声源和接收装置之间更长的声传播通路) 的声音分量构成。
[0041] 在实施例中,有噪声音频信号y(n)包括目标信号分量X(n)、为混响信号分量V(n) 的第一噪声信号分量、和为附加噪声信号分量w(n)的第二噪声信号分量,及其中本发明方 法包括提供第二噪声信号分量的特性。换言之,在分别确定目标信号分量X和(第一)噪 声信号分量V的谱方差Ax和AV时考虑另外的(知道的)噪声源。
[0042] 在实施例中,第i个输入单元处的有噪声音频信号(n)包括目标信号分量Xi(n)、 混响信号分量Vi(n)和附加噪声分量Wf(n)。
[0043] 在实施例中,第二噪声信号分量的特性为空间特性。在实施例中,第二噪声信号分 量W的特性通过附加噪声的预定输入单元间协方差矩阵C"表示。
[0044] 在实施例中,本发明方法包括确定目标信号和噪声信号分量的分开的特性(如空 间指纹)。术语"空间指纹"意为特定声学场景的输入单元(如传声器)信号的全收集(包 括声学物体如声学反射器等的3D位置)。术语"空间指纹"例如包括所设及信号源的(如 S维)几何(空间)特性,包括其传播的特性。在实施例中,"空间指纹"表示噪声信号(如 第一噪声信号)各向同性的声学情形。在实施例中,"空间指纹"由(时变)输入单元间协 方差矩阵表示。在实施例中,目标信号的空间指纹实质上限于一个方向。目标和噪声信号 的空间特性问题的分开是有利的,因为如果声源空间上分开,即使它们时间和频率重叠,它 们也可经空间滤波/波束形成分开。从而如果目标和/或噪声信号的各个特性已知(即先 验知识可成为系统的一部分),则可进行简化。
[004引在实施例中,目标信号的特性(如空间指纹)由视向量d(k,m)表示,其元素(i=1,2,…,M)定义从目标信号源到M个输入单元中的每一个的(随频率和时间而变的) 绝对声学传递函数,或者从第i个输入单元到参考输入单元的相对声学传递函数。视向量 d也m)为M维向量,第i个元素中也m)定义从目标信号源到第i个输入单元(如传声器) 的声学传递函数。作为备选,第i个元素di也m)定义从第i个输入单元到参考输入单元 ref的相对声学传递函数。对于特定频率k和时间单位m,视向量中化,m)通常为复数。在 实施例中,视向量预先确定,例如在离线程序中进行测量(或理论上确定)或者在使用之前 或期间进行估计。在实施例中,视向量在离线校准程序中进行估计。如果目标源在相较于 输入单元的固定位置(或方向)处,例如如果目标源(假定)在相对于用户(如用户前方) 的特定位置(或方向)(即相对于输入单元位于其中的装置(由用户佩戴或携带)),该将会 很适宜。
[0046] 在实施例中,源自特定目标源的功率谱密度在参考输入单元(如参考传声器)处 进行测量。在实施例中,源自噪声(具有预定协方差结构,如各向同性分布的噪声)的功率 谱密度在参考输入单元(如参考传声器)处进行测量。测量例如在离线程序中进行(在音 频处理系统进入正常使用之前)及其结果保存在音频处理系统(的存储器)中。测量优选 用处于"正常局部环境"中的音频处理系统进行,例如对于音频处理系统如助听系统,包括 一个或多个位于人身体如头部处的装置。从而当测量目标和噪声信号分量的功率谱("空 间指纹")时,可考虑局部环境的影响。
[0047] 在实施例中,M个输入单元中的至少一个包括传声器。在实施例中,M个输入单元 中的大部分如全部包括传声器。在实施例中 ,M等于2。在实施例中,M大于或等于3。在实 施例中,M个输入单元中的第一个位于音频处理装置(如助听器装置)中。在实施例中,其余 输入单元中的至少一个位于距第一输入单元大于音频处理装置(第一输入单元位于其中) 的最大外尺寸的距离处。在实施例中,M个输入单元中的第一个位于第一音频处理装置中, 及M个输入单元中的第二个位于另一装置中,音频处理装置及另一装置配置成在其间建立 通信链路。在实施例中,至少一输入单元包括电极,如用于拾取脑电波信号的电极,如用于 拾取与关于输入单元位于其中的目前声学场景的音频信号相关联的信号的EEG电极。在实 施例中,至少一输入单元包括无线接收器,用于接收与输入单元位于其中的目前声学场景 有关的音频信号。在实施例中,至少一输入单元包括摄像机,用于拾取与输入单元位于其中 的目前声学场景有关的图像。在实施例中,至少一输入单元包括振动传感器(如包括加速 计),用于拾取来自身体如人骨(例如顾骨)的振动。
[0048] 在实施例中,来自输入单元(i= 1,2,…,M)的电输入信号被归一化。该具有各 个信号的信号含量可容易比较的优点。在实施例中,音频处理装置包括在运行时连接到电 输入的归一化滤波器,该归一化滤波器配置成具有传递函数咕(f),其使提供所设及电输入 信号的源可与其它源比较和互换。归一化滤波器优选配置成使能直接比较输入信号和输入 信号分量Yi化,m) (TF单元或窗口)。归一化例如可补偿两个电输入信号之间的恒定电平差 (例如因提供输入信号的两个源输入变换器相对于当前声源的位置引起)。此外,归一化例 如使能比较来自不同类型的输入单元的电输入信号,如传声器、机械振动传感器、用于拾取 脑电波的电极、或用于在讲话时对用户嘴己进行读唇的摄像机等。在实施例中,归一化滤波 器包括自适应滤波器。
[0049] 在实施例中,归一化M个电输入信号的方法包括;a)选择参考源输入信号(如该 信号假定为最可靠的信号)如信号Yi;b)对于每一其它源输入信号Y。i= 2,…,M,计算相 对于参考源输入信号的、随频率的量值差(如对于信号的公共时间段和/或对于跨某一时 间求平均的相应信号);及C)通过乘W(可能复数)校正值而换算每一源。
[0050] 在实施例中,(第一)噪声信号V的特性(如空间指纹)由噪声信号输入单元间协 方差矩阵Cv表示。在实施例中,(噪声)输入单元间协方差矩阵预先确定,如在离线程序中 进行测量(或理论上确定)或者在使用之前或期间进行估计。在实施例中,(第一)噪声 信号V的特性(如空间指纹)由撞击在输入单元上的噪声的输入单元间协方差矩阵Cv的估 计量或者其换算版表示。在实施例中,噪声(如后期混响)的输入单元间协方差矩阵Cv确 定为产生于各向同性场的协方差。该可写为Cv化,m) =Av化,m) 'Ck。化,m),其中Av化,m) 为(第一)噪声信号分量V的谱方差(或其换算版),及Ck。化,m)为各向同性(噪声)场 的协方差矩阵(或其换算版)。优选地,谱方差入V的可能换算版AV'(AV' =ki?AV,及 ki为不同于0的实数)和各向同性场的协方差矩阵Ck。的换算版Ck。'(Ck。' =k2'Ck。,及 k2为不同于0的实数)满足关系AV'.Ck。' =Av'Ck。(即ki=l/k2)。矩阵Ck。化,m)例 如可在离线程序中进行估计。在实施例中,Ck。化,m)通过将安装在仿真头上的包括输入单 元的音频处理装置或系统(如助听器)暴露于混响声场(如近似为各向同性场)并测量 所得的输入单元间(如传声器间)协方差矩阵(~Cka(k,m))进行估计。[Kjems&Jensen; 2012]描述了在多传声器语音配置中进行噪声协方差矩阵估计的各个方面。
[0051] 目标信号分量和噪声信号分量通常假定为不相关。在该情形下,有噪声音频信号y 的输入单元间协方差矩阵Cy为目标信号X的输入单元间协方差矩阵CX及第一和非必须地 第二噪声信号的输入单元间协方差矩阵Cv,C,的和。
[0052] 在实施例中,目标信号分量和第一噪声信号分量的特性分别由视向量d也m)(或 输入间协方差矩阵d-單)和输入单元间协方差矩阵Cv(~Ck"(k,m))定义。
[0053] 在实施例中,(纯净)目标信号X的输入单元间协方差矩阵Cx由视向量骑日目标 信号X的谱方差Ax确定。该可写为Cx化,m) =Ax化,m) 'd化,m) 'd化,m)H,其中Ax化,m) 为目标信号分量X的谱方差,及d也m)为所设及输入单元设置(i= 1,2,…,M)的(可能 归一化的)视向量,及H指厄米转置。谱方差Ax也m)为实数(非负数),视向量d也m) 为M(=输入单元数量)维(或规模)的向量,及协方差矩阵Cx为MxM阶(或度)。
[0054] 优选地,输入单元间协方差矩阵通过基于最大似然的方法进行估计(例如参见 [Kjems&Jensen;2012])〇
[00巧]在实施例中,目标信号X的谱方差Ax(k,m)(或其换算版)的估计包括使用波束 形成器提供滤波器权重W化,m),如MVDR波束形成器。MVDR为最小方差无失真响应的缩写, 无失真指目标方向保留不受影响,最小方差指来自不同于目标方向的任何其它方向的信号 被最大程度地抑制。
[0056] 在实施例中,MVDR波束形成器基于视向量d(k,m)和各向同性场的预定协方差矩 阵Ck。也m),MVDR滤波方法提供滤波器权重Wmwt也m)。协方差矩阵Ck。也m)在离线程序 中确定。视向量d(k,m)可在离线程序中确定,作为备选,也可在执行该方法的音频处理装 置或系统使用期间动态确定。在实施例中,该方法包括估计目标(如语音)信号是否存在 或者在特定时间点是否为主(如使用话音活动检测器)。在实施例中,目标信号的空间指纹 如视向量在估计目标信号存在或为主时进行更新。
[0057] 在实施例中,该方法包括基于多次值次)观察进行有噪声音频信号的输入单元间 协方差矩阵(!:Y(k,m)的估计。
[005引在实施例中,目标信号分量X和噪声信号分量V的谱方差AX化,m)和AV化,m)的 最大似然估计量分别从输入单元间协方差矩阵Cy化,m),Cx化,m),Cv化,m)及可选的C,化,m) 的估计量和视向量d也m)得到。在实施例中,视向量d(k,m)和噪声协方差矩阵Cv(k,m)及 可选的C"(k,m)在离线程序中确定。
[0059] 在实施例中,多输入单元波束形成器用于空间上衰减背景噪声源。许多波束形 成器变型控制文献中找到,如最小方差无失真响应(MVDR)波束形成器或广义旁瓣相消器 (GSC)波束形成器。
[0060] 在实施例中,该方法还包括对有噪声音频信号y(n)应用波束形成从而提供波束 成形信号及对波束成形信号应用单通道后滤波W抑制来自目标信号方向的噪声信号分量 及提供所得的噪声减少的信号。在实施例中,该方法包括对第i(i= 1,2,…,M)个输入单 元处的有噪声音频信号yi(n)的时频表示Yi也m)应用目标消除空间滤波W提供目标消除 的信号,其中来自目标信号分量方向的信号分量被衰减,而保留来自其它方向的信号分量 不衰减。单通道后滤波过程的目标在于抑制来自目标方向的噪声分量(其尚未被空间滤波 过程(如MVDR波束形成过程)抑制)。目标还在于在目标信号存在或为主时及在目标信号 不存在时抑制噪声分量。在实施例中,单通道后滤波过程基于每一时频砖(m,k)的目标信 噪比的估计量。在实施例中,每一时频砖(m,k)的目标信噪比的估计量从波束成形信号和 目标消除的信号确定。在实施例中,应用于有噪声音频信号y(n)的波束形成基于MVDR程 序。在实施例中,噪声减少的信号被去混响。
[006。 在实施例中,在多通道后滤波过程中应用于波束成形信号的增益值g,。也m)基于 目标信号分量X和(第一)噪声信号分量V的谱方差Ax(k,m)和Av(k,m)的估计量。作 为备选,增益值耗C也m)可通过IY也m)I2,Ax也m)和AV也m)或者两个W上该些参 数的组合确定。
[0062] 计算化可选介质
[0063] 本申请进一步提供保存包括程序代码的计算机程序的有形计算机可读介质,当计 算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、"【具体实施方式】" 中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。除了保存在 有形介质如磁盘、CD-ROM、DVD、硬盘、或任何其它机器可读的介质上,计算机程序也可经传 输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有 形介质的位置处运行。
[0064] 撒据化理系统
[0065] 本申请进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器 执行上面描述的、"【具体实施方式】"中详细描述的及权利要求中限定的方法的至少部分(如 大部分或所有)步骤。
[0066] 音频化理系统
[0067] 本申请还提供用于处理包括目标信号分量X和第一噪声信号分量V的有噪声音频 信号y的音频处理系统。该音频处理系统包括:
[0068] a)M个输入单元,适于提供或接收多个频带和多个时刻时第i个输入单元处的有 噪声音频信号yi(n)的时频表示Yi也m),i= 1,2,…,M,其中M大于或等于2,k为频带指 数,及m为时间指数;
[0069] b)目标信号分量的视向量d(k,m)和第一噪声信号分量的输入单元间协方差矩阵 Cy化,m)或其换算版;
[0070] C)用于基于有噪声音频信号(n)的时频表示Yi化,m)估计有噪声音频信号的输 入单元间协方差矩阵CY(k,m)或其换算版的协方差估计单元;及
[0071] d)谱方差估计单元,用于基于视向量d也m)、输入单元间协方差矩阵Cy也m)、 及有噪声音频信号的协方差矩阵CY(k,m)或其换算版估计目标信号分量X和噪声信号分 量V的谱方差Ax化,m)和Av化,m)或其换算版,其中Av和AX的估计量在最大似然方面 共同最佳,基于下述统计假设;a)相应信号yi(n)、及信号分量Xi(n)和Vi(n)的时频表示 Yi(k,m),Xi(k,m)和Vi(k,m)均为零均值、复值高斯分布;b)它们中的每一个跨时间m和频 率k统计上独立;及C)X;也m)和Vi也m)不相关。
[0072] 当由对应的结构特征适当代替时,上面描述的、"【具体实施方式】"中详细描述的及 权利要求中限定的方法的部分或所有过程特征可与本发明系统的实施结合,反之亦然。系 统的实施具有与对应方法一样的优点。
[0073]在实施例中,有噪声音频信号y(n)包括目标信号分量X(n)、为混响信号分量V(n) 的第一噪声信号分量、及为附加噪声信号分量w(n)的第二噪声信号分量,及其中音频处理 系统包括附加噪声的预定输入单元间协方差矩阵C"。
[0074] 优选地,第二噪声信号分量的协方差矩阵C,化,m)(或其换算版)预先定义及例如 保存在音频处理系统的可由谱方差估计单元访问的存储器中。
[00巧]在实施例中,谱方差估计单元配置成基于视向量d(k,m)、第一噪声分量的输入 单元间协方差矩阵Cy也m)、第二噪声分量的输入单元间协方差矩阵C"也m)、有噪声音频 信号的协方差矩阵CYCk,m)或其换算版估计目标信号分量X和第一噪声信号分量V的 谱方差Ax化,m)和Av化,m)或其换算版,其中Av和AX的估计量在最大似然方面共同 最佳,基于下述统计假设;a)相应信号(n)、及信号分量Xi(n)、Vi(n)、Wi(n)的时频表示 Yi(k,m),Xi(k,m),Vi(k,m)和Wi(k,m)均为零均值、复值高斯分布;b)它们中的每一个跨时 间m和频率k统计上独立;及C)X;也m),Vi也m)和Wi也m)相互不相关。
[0076] 在实施例中,音频处理系统包括MVDR波束形成器滤波单元W提供用于估计目 标信号X的谱方差Ax(k,m)(或其换算版)的滤波器权重Wmwt(k,m),其中滤波器权重 Wmwt也m)基于目标信号分量的视向量d也m)和第一噪声信号分量的输入单元间协方差 矩阵Cy也m),及非必须地基于第二噪声信号分量的输入单元间协方差矩阵C,也m),或其 换算版。优选地,目标信号的视向量d也m)(或其换算版)预先定义及例如保存在音频处 理系统的可由谱方差估计单元访问的存储器中。优选地,第一噪声信号分量的协方差矩阵 Cy化,m)(或其换算版)预先定义及例如保存在音频处理系统的可由谱方差估计单元访问的 存储器中。在实施例中,各向同性场的预先定义的协方差矩阵Ck。也m)用作输入单元间协 方差矩阵Cy化,m)的估计量及例如保存在存储器中。
[0077] 在实施例中,音频处理系统配置成确定当前声学环境中是否存在混响和/或附加 噪声。在实施例中,音频处理系统(或与音频处理系统通信的辅助装置)包括用于提供当 前混响的测度的传感器或者适于从辅助装置接收该信息。
[0078] 在实施例中,音频处理装置包括用户接口,配置成使用户能输入关于当前声学环 境的信息如是否存在混响和/或附加噪声。
[0079] 在实施例中,音频处理系统(如包括助听装置例如助听器装置)适于提供随频率 而变的增益W补偿用户的听力损失。在实施例中,音频处理系统包括用于增强输入信号并 提供处理后的输出信号的信号处理单元。数字助听器的各个方面在[Schaub;2008]中描 述。
[0080] 在实施例中,音频处理系统包括用于将电信号转换为由用户感知为声学信号的刺 激的输出变换器。在实施例中,输出变换器包括多个耳蜗植入电极或骨导听力装置的振动 器。在实施例中,输出变换器包括用于将刺激作为声学信号提供给用户的接收器(扬声 器)。
[0081] 在实施例中,音频处理系统尤其是输入单元包括用于将输入声音转换为电输入信 号的输入变换器。在实施例中,音频处理系统包括定向传声器系统,其适于增强佩戴音频处 理系统的用户的局部环境中的多个声源之中的目标声源。在实施例中,定向系统适于检测 (如自适应检测)传声器信号的特定部分源自哪一方向。该可w例如现有技术中描述的多 种不同方式实现。
[0082] 在实施例中,音频处理系统如输入单元包括用于从另一装置如通信装置或另一音 频处理系统如助听装 置无线接收直接电输入信号的天线和收发器电路。在实施例中,音频 处理系统(如包括助听装置)包括用于从另一装置如通信装置或另一音频处理系统(如包 括助听装置)接收有线直接电输入信号的(可能标准化的)电接口(例如连接器的形式)。 在实施例中,直接电输入信号表示或包括音频信号和/或控制信号和/或信息信号。在实 施例中,音频处理系统包括用于对所接收的直接电输入进行解调的解调电路,W提供表示 音频信号和/或控制信号的直接电输入信号。总的来说,音频处理系统的发射器和天线及 收发器电路建立的无线链路可W是任何类型。在实施例中,无线链路在功率约束条件下使 用,例如由于音频处理系统包括便携式(通常电池驱动的)装置。在实施例中,无线链路为 基于近场通信的链路,例如基于发射器和接收器部分的天线线圈之间的感应禪合的感应链 路。在另一实施例中,无线链路基于远场电磁福射(例如基于藍牙或者有关标准或非标准 通信方案)。
[0083] 在实施例中,音频处理系统是或包括便携装置,例如包括本机能源如电池例如可 再充电电池的装置。
[0084] 在实施例中,音频处理系统包括输入变换器(传声器系统和/或直接电输入(如 无线接收器))和输出变换器之间的正向或信号通路。在实施例中,信号处理单元位于正向 通路中。在实施例中,信号处理单元适于根据用户的特定需要提供随频率而变的增益。在 实施例中,音频处理系统包括具有用于分析输入信号(如确定电平、调制、信号类型、声反 馈估计量、混响等)的功能件的分析通路。在实施例中,分析通路和/或信号通路的部分或 所有信号处理在频域进行。在实施例中,分析通路和/或信号通路的部分或所有信号处理 在时域进行。
[0085] 在实施例中,表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频 信号,其中模拟信号W预定采样频率或速率t进行采样,f,例如在从8曲Z到40曲Z的范围 中(适应应用的特定需要)W在离散的时间点t。(或n)提供数字样本X。(或x[n]),每一 音频样本通过预定的比特数N,表示声信号在t。时的值,N,例如在从1到16比特的范围中。 数字样本X具有1/片的时间长度,对于f,= 20曲Z,如50US。在实施例中,多个音频样本 按时间帖进行安排。在实施例中,一时间帖包括64个音频数据样本。根据实际应用可使用 其它帖长度。
[0086] 在实施例中,音频处理系统包括模数(AD)转换器W按预定采样速率如20曲Z使模 拟输入数字化。在实施例中,音频处理系统包括数模值A)转换器W将数字信号转换为模拟 输出信号,例如用于经输出变换器呈现给用户。
[0087] 在实施例中,音频处理系统如传声器单元和/或收发器单元包括用于提供输入信 号的时频表示的TF转换单元。在实施例中,时频表示包括所设及信号在特定时间和频率 范围的相应复值或实值的阵列或映射。在实施例中,TF转换单元包括用于对(时变)输入 信号进行滤波并提供多个(时变)输出信号的滤波器组,每一输出信号包括截然不同的输 入信号频率范围。在实施例中,TF转换单元包括用于将时变输入信号转换为频域中的(时 变)信号的傅里叶变换单元。在实施例中,音频处理系统考虑的、从最小频率fmi。到最大频 率fm。,的频率范围包括从20化到20曲z的典型人听频范围的一部分,例如从20化到12曲z的范围的一部分。在实施例中,音频处理系统的正向和/或分析通路的信号拆分为NI个频 带,其中NI如大于5,如大于10,如大于50,如大于100,如大于500,其中至少部分个别进 行处理。在实施例中,音频处理系统适于在NP个不同频道处理正向和/或分析通路的信号 (NP《NI)。频道可W宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。
[0088] 在实施例中,音频处理系统包括用于确定输入信号(如频带电平上的和/或全 (宽带)信号的)的电平的电平检测器(LD)。
[0089] 在特定实施例中,音频处理系统包括话音活动检测器(VAD),用于确定输入信号是 否包括话音信号(在特定时间点)。在本说明书中,话音信号包括来自人类的语音信号。其 还可包括由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中,话音检测器单元 适于将用户当前的声环境分类为话音或无话音环境。该具有下述优点;包括用户环境中的 人类发声(如语音)的电传声器信号的时间段可被识别,因而与仅包括其它声源(如人工 产生的噪声)的时间段分离。在实施例中,话音检测器适于将用户自己的话音也检测为话 音。作为备选,话音检测器适于在检测话音时排除用户自己的话音。
[0090] 在实施例中,音频处理系统还包括用于所设及应用的其它适宜功能,如反馈抑制、 压缩等。
[0091] 在实施例中,音频处理系统包括音频处理装置(如由其组成),如助听装置、如助 听器,如听力仪器,如适于位于用户耳朵处或者完全或部分位于用户耳道中的听力仪器,例 如耳机、耳麦、耳朵保护装置或其组合。
[0092] 在本说明书中,"助听装置"指适于改善、增强和/或保护用户的听觉能力的装置如 听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境接收声信号、产生 对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提 供给用户的至少一只耳朵而实现。"助听装置"还指适于W电子方式接收音频信号、可能修 改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵 的装置如头戴式耳机或耳麦。听得见的信号例如可W下述形式提供;福射到用户外耳内的 声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信 号、及直接或间接传到用户耳蜗神经的电信号。
[0093] 助听装置可构造成W任何已知的方式进行佩戴,如安排在耳后的单元,具有将福 射的声信号导入耳道的管或具有安排成靠近耳道或位于耳道中的扬声器;整个或部分安排 在耳廓和/或耳道中的单元;连到植入顾骨的固定装置的单元、整个或部分植入的单元等。 助听装置可包括单一单元或几个彼此电子通信的单元。
[0094] 更一般地,助听装置包括用于从用户环境接收声信号并提供对应的输入音频信号 的输入变换器和/或W电子方式(即有线或无线)接收输入音频信号的接收器、用于处理 输入音频信号的信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户 的输出装置。在一些助听装置中,放大器可构成信号处理电路。在一些助听装置中,输出装 置可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声 信号的振动器。在一些助听装置中,输出装置可包括一个或多个用于提供电信号的输出电 极。
[0095] 在实施例中,音频处理系统包括音频处理装置(如助听装置)和辅助装置。在实 施例中,音频处理系统包括音频处理装置和两个w上辅助装置。
[0096] 在实施例中,音频处理系统适于在音频处理装置和辅助装置之间建立通信链路W 使信息(如控制和状态信号,可能音频信号)可在彼此之间交换或从一装置转发给另一装 置。
[0097] 在实施例中,至少一输入单元位于辅助装置中。
[0098] 在实施例中,至少一有噪声音频信号输入y,从辅助装置传到音频处理装置的输入 单元。
[0099] 在实施例中,辅助装置是或包括音频网关设备,其适于(如从娱乐装置例如TV或 音乐播放器,从电话装置例如移动电话,或从计算机例如PC)接收多个音频信号,及适于选 择和/或组合所接收音频信号(或信号组合)中的适当信号W传给音频处理装置。在实施 例中,辅助装置是或包括遥控器,用于控制音频处理装置(如助听装置)的功能和运行。在 实施例中,遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制音 频处理装置的功能的APP(助听装置包括到智能电话的适当无线接口,例如基于藍牙或一 些其它标准化或专有方案)。
[0100] 在实施例中,辅助装置为另一音频处理装置如助听装置。在实施例中,音频处理系 统包括两个助听装置,适于实施双耳听音系统如双耳助听器系统。
[0101] 用旅
[0102] 此外,本发明提供上面描述的、"【具体实施方式】"中详细描述的及权利要求中限定 的音频处理系统的用途。在实施例中,提供在包括音频分布的系统中的用途。在实施例中, 提供在包括一个或多个听力仪器、头戴式耳机、耳麦、有源耳朵保护系统等的系统中的用 途,例如在免提电话系统、远程会议系统、广播系统、卡拉0K系统、教室放大系统等中的用 途。在实施例中,提供音频处理系统用于输入声音信号或电输入信号的去混响的用途(如 净化有噪声的、记录或流传输的信号)。
[0103] 本申请的另外的目标由从属权利要求和本发明的详细描述中限定的实施方式实 现。
[0104] 除非明确指出,在此所用的单数形式"一"、"该"的含义均包括复数形式(即具有 "至少一"的意思)。应当进一步理解,说明书中使用的术语"具有"、"包括"和/或"包含" 表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个 其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被 称为"连接"或"禪合"到另一元件时,可W是直接连接或禪合到其他元件,也可W存在中间 插入元件。如在此所用的术语"和/或"包括一个或多个列举的相关项目的任何及所有组 合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
【附图说明】
[0105] 本发明将在下面参考附图、结合优选实施方式进行更完全地说明。
[0106] 图1A示意性地示出了包括位于具有混响的房间中的声源和声音接收器之间的多 个声学通路的第一情形;图1B为房间中的声音信号的振幅-时间的示例性图示;及图1C示 出了包括位于具有混响和附加噪声的房间中的声源和声音接收器之间的多个声学通路的 第二情形。
[0107] 图2A-2B示意性地示出了时域到时频域的信号转换,其中图2A示出了随时间而变 的声音信号(振幅-时间)及其在模数转换器中的采样,图2B示出了在采样信号(短时) 傅里叶变换之后所得的时频单元的"分布图"。
[010引图3A-3C示出了根据本发明的音频处理系统的=个示例性实施例的框图,其中示 出了所提出的估计语音和噪声谱方差的方案。图3A、3B示出了适于处理混响目标语音信号 形式的有噪声音频信号的系统,及图3C示出了适于处理含附加噪声的混响目标语音信号 形式的有噪声音频信号的系统。
[0109] 图4A-4B示出了根据本发明的方法(阴影框)用于计算去混响的单通道后处理步 骤的增益值的情形,图4A示出了适于处理混响目标语音信号形式的有噪声音频信号的系 统,及图4B示出了适于处理含附加噪声的混响目标语音信号形式的有噪声音频信号的系 统。
[0110] 图5示出了根据本发明的音频处理系统的实施例。
[0111] 图6示出了根据本发明的音频处理装置的另一实施例。
[0112] 图7示出了根据本发明的处理有噪声输入信号的方法的流程图。
[0113] 为清晰起见,该些附图均为示意性及简化的图,它们只给出了对于理解本发明所 必要的细节,而省略其他细节。在所有附图中,同样的附图标记用于同样或对应的部分。
[0114] 通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理 解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本 领域的技术人员来说,从下面的详细描述可显而易见地得出其它实施方式。
【具体实施方式】
[0115] 图1A示意性地示出了位于房间中的声源和声音接收器之间的多个声学通路,及 图1B为房间中的声音信号的振幅IMAGI与时间之间的关系的示例性图示。
[0116] 图1A示意性地示出了在示例性场所(房间)中从音频源S到听者L的、经直接传 播通路P。和反射传播通路P。P2,P3,P4的声学传播信号。由听者如经听者L佩戴的听音装 置接收的所得声学传播信号为五个(可能更多,取决于房间)不同程度延迟和衰减(及可 能失真)的贡献额的和。直接传播通路P。和早期反射传播通路(在此为一次反射Pi)在图 1A中用虚线指明,而"后期反射"(在此为二、S和四次反射P2,P3,P4)在图1A中用点线指 明。图1B示意性地示出了在听者L处接收的、来自声源S的所得时变声音信号的例子(量 值IMAGI[地]-时间)。在图1B中,指明了定义"后期混响"的预定时间Atpd。在本例子 中,后期混响为在其由声源S发出之后的时间tpd到达听者的那些信号分量。换言之,"后期 混响"为在脉冲响应的第一波峰pO已到达所设及输入单元之后的预定时间Atpd到达特定 输入单元(如第i个)的声音信号分量。在实施例中,预定时间Atpd大于或等于30ms,如大 于或等于40ms,如大于或等于50ms。在实施例中,前述"后期混响"包括已遭受从环境中的 表面(如墙壁)两次W上如S次W上反射的声音分量(图1A-1C中例示为p2,p3,p4,…)。 将目标信号分量(图1B中的虚线部分)与(不合需要的)混响(噪声)信号分量(图1B 中的点线部分)分开的适当的反射次数和/或适当的预定时间Atpd取决于位置(到反射 表面的距离和反射表面的性质)及音频源S和听者L之间的距离,音频源和听者之间的距 离越小,混响效应越小。
[0117] 图1C示出了包括位于具有混响和附加噪声AD的房间中的、构成目标信号的声源S 和声音接收器L之间的多个声学通路的第二情形。附加声源AD的特性(如输入单元间协 方差矩阵CJ假定已知。
[0118] 图2A-2B示意性地示出了时域到时频域的信号转换,其中图2A示出了随时间而变 的声音信号(振幅-时间)及其在模数转换器中的采样,图2B示出了在采样信号(短时) 傅里叶变换之后所得的时频单元的"分布图"。
[0119] 图2A示出了随时间而变的声音信号x(t)(振幅SPL[地]-时间t)、其在模数转换 器中的采样、及帖中时间样本的分组,每一组包括N,个样本。表明振幅与时间之间的关系的 曲线(图2A中的实线)例如可表示由输入变换器如传声器提供的、在由模数转换单元数字 化之前的时变模拟电信号。图2B示出了源自图2A的输入信号的傅 里叶变换(如离散傅里 叶变换DFT)的时频单元的"分布图",其中特定时频单元(m,k)对应于一个DFT窗口并包括 所设及信号X(m,k) (X(m,k)=IXI'ew,IXI=量值及(P=相位)在特定时间帖m和 频带k的复值。在下面,特定频带假定包含每一时间帖中的信号的一个值(通常为复值)。 作为备选,其可包括一个W上的值。在本说明书中,使用术语"频率范围"及"频带"。频率 范围可包括一个或多个频带。图2B的时频分布图示出了对于频带k= 1,2,…,K和时间单 位m= 1,2,…,Nm的时频单元(m,k)。每一频带Af泣图2B中示为宽度全都相同,但并不 必须如此。频带可W为不同的宽度(或作为备选,频道可定义为包含不同数量的均匀频带, 例如特定频道的频带数量随频率增加而增加,最低频道例如包括单一频带)。各个时频窗 口的时间间隔Atm(时间单位)在图2B中示为具有相等大小。尽管在本实施例中假定如 此,但并不必须如此。时间单位Atm通常等于时间帖中的样本数量N,(参见图2A)乘W样 本的时间长度(l/f\),其中t为采样频率)。在音频处理系统中,时间单位例如在 ms级。
[0120] 图3A示意性地示出了根据本发明的音频处理装置ATO的实施例。该音频处理装置 APD包括M个输入单元IU。i= 1,2,…,M,每一输入单元适于提供第i(i= 1,2,…,M)个 输入单元处的(时变)有噪声输入信号的时频表示Yi,其中M大于或等于2。有噪声输 入信号例如为包括目标语音信号分量Xi和(第一)噪声信号分量Vi的有噪声目标语音 信号,噪声信号分量为附加分量且与目标信号(语音信号)实质上不相关,换言之,yi(n)= Xi(n)+Vi(n),i= 1,2,…,M,其中n表示时间。在本说明书中,有噪声音频信号假定为包括目 标语音信号分量Xi和混响信号分量Vi的混响目标语音信号y1,如上面结合图1A-1C所述。 时频表示Yi也m)包括输入信号在特定频带k化=1,2,….K)和时刻m(m= 1,2,….,Nm) 的值(通常为复值)。在图3A的实施例中,每一输入单元lUi包括输入变换器或输入终 端ITi,用于接收有噪声音频信号Yi(如声学信号或电信号)并将其作为电输入信号INi提 供给分析滤波器组AFB从而提供对应电输入信号INi因而有噪声输入信号yi的时频表示 Yi也m)。音频处理装置ATO还包括多通道MVDR波束形成器滤波单元(MVDR)W提供包括 滤波器权重WmY&(k,m)的信号mv化。滤波器权重WmYh(k,m)由MVDR滤波单元从预定视向量 d也m)(边(或其换算版)和有噪声输入信号的(第一)噪声信号分量的预定输入单元间协 方差矩阵CvCk,m)COv)(或其换算版)确定。在实施例中,视向量d和协方差矩阵Cv在 离线程序中确定。音频处理装置ATO还包括协方差估计单元CovEU,用于基于有噪声音频 信号yi的时频表示Yi(k,m)估计有噪声输入信号的输入单元间协方差矩阵(!\,化,111)(或 其换算版)。音频处理装置ATO还包括谱方差估计单元SVar抓,用于分别估计目标信号分 量X和(第一)噪声信号分量V的谱方差Ax(k,m)和Av(k,m)或其换算版。估计的谱方 差Ax也m)和Ay(k,m)基于MVDR滤波器提供的滤波器权重Wmvdr(k,m)(信号mv化)、预定 目标视向量d和噪声协方差矩阵Cv(或其换算版)、及协方差估计单元Cov抓提供的有噪 声音频信号的协方差矩阵CY(k,m)。谱方差估计单元SVar抓配置成使得估计量Av和入X 基于下述统计假设在最大似然方面共同最佳:相应信号yi(n)、和信号分量Xi(n)及Vi(n)的 时频表示Yi也m),Xi也m)和Vi也m)均为零均值、复值高斯分布,它们中的每一个跨时间m 和频率k统计上独立,及Xi也m)和Vi也m)不相关。
[0121] 在实施例中,M个输入单元lUi中的至少一个包括输入变换器,如用于将电输入声 音转换为电输入信号的传声器(例如参见图3B)。M个输入单元lUi可全部位于同一物理装 置中。作为备选,M个输入单元lUi中的第一输入单元lUi位于音频处理装置APD(如助听 器装置)中,M个输入单元lUi中的第二输入单元IU2位于距第一输入单元大于第一输入单 元lUi位于其中的音频处理装置ATO的最大外尺寸的距离处。在实施例中,M个输入单元中 的第一输入单元位于第一音频处理装置(如第一助听器装置)中,及M个输入单元中的第 二输入单元位于另一装置中,该音频处理装置和另一装置配置成在其间建立通信链路。在 实施例中,另一装置为另一音频处理装置(如双耳助听系统的第二助听器装置)。在实施例 中,另一装置为或包括音频处理装置的遥控装置,如体现在移动电话如智能电话中。 阳12引 A、(仅)存在混响的语音信号的语音巧后期混响谱方差的双传声器最大似然估计 (图 3B、4A)
[0123] 根据本发明的音频处理装置的另一实施例如图3B中所示,其示出了更具体的实 施(但包括与结合图3A所示和所述一样的元件)。图3B示出了用于估计有噪声输入信号 的目标语音和混响信号分量的谱方差A,,Ay的音频处理装置APD,其中输入单元的数量M 为2,及其中两个输入单元Mici,Mic2中的每一个包括传声器单元Mici和分析滤波器组AFB。 如图3A中所示,可直接将该描述推及具有2个W上传声器的系统(M〉2)。同样,两个传声器 可位于同一装置中(如听音装置例如助听装置中),但作为备选,也可位于不同(物理上分 开的)装置中,如两个分开的音频处理装置,例如双耳助听系统的两个分开的助听装置,适 于彼此无线通信W使两个传声器信号能在所设及音频处理装置ATO中可用。在优选实施例 中,音频处理装置包括至少两个相对靠近地间隔开(在音频处理装置的壳体内)的输入单 元及包括一个位于别处如位于另一音频处理装置例如智能电话中的输入单元。
[0124] 下面将更详细地描述双传声器系统。假定声学场景中存在一个目标扬声器,及到 达助听器传声器的信号由上面描述的两个分量a)和b)组成。目标在于估计该两个信号分 量在特定频率和时刻的功率。到达第i个传声器的信号可写为:
[0125] Yi(n) =Xi(n) +¥; (n),
[0126] 其中Xi(n)为传声器处的目标信号分量,及Vi(n)为不合需要的混响分量,假定该 混响分量与目标信号Xi(n)不相关及yi(n)为可观察的混响信号。每一传声器处的混响信 号通过分析滤波器组AFB从而得到时频域的信号:
[0127]Yi(k,m) =X;(k,m) +¥;(k,m),
[0128] 其中k为频率指数和m为时间(帖)指数(及i= 1,2)。为方便起见,该些谱系 数可被认为是离散傅里叶变换值FT)系数。
[0129] 由于对于每一频率指数所有运算均一样,为记法方便,在下面略过频率指数。例 如,代替Yi也m),我们简单地写Yi(m)。
[0130] 对于特定频率指数k和时间指数m,每一传声器的有噪声谱系数按向量(由于M= 2,规模为2;通常为规模M)进行收集,T指向量(矩阵)转置:
[0131] Y(m) = [Yi(m)Y2(m)]T,
[013引X(m)二技1 (m)X] (m)],
[013引及
[0134]V(m) =[Vi(m)V2(m) ] \
[0135] 从而
[013引Y(m) =X(m)+V(m).
[0137] 对于特定帖指数m和频率指数k(在记法中被消除),使得d' (m) = [d'i(m)d'2(m)] 指其元素d/和(V表示从目标声源分别到每一传声器Mici,Mic2的(通常复值)声学传递 函数的向量(规模为2)。用d' (m)的归一化版运算通常更方便。更具体地,使 [013引d(m) =d' (m) /d'i(m)
[0139] 指其元素di(m)(i= 1,2,….,M,在此M= 2)表示从目标源到第i个传声器的相 对传递函数的向量。该意味着,该向量中的第i个元素等于1,其余元素描述从另一传声器 到该参考传声器的声学传递函数。
[0140] 该意味着,无噪声传声器向量X(m)(其不能直接观察)可表达为
[0141] X(m) -d{m)X{in),
[0142] 其中X(m)为参考传声器处的目标信号的谱系数。
[0143] 纯净信号的传声器间协方差矩阵则由下式给出:
[0144] Cx(m) = Ax(m)d(m)d(m)H,
[0145] 其中H指厄米转置。
[0146] 在实施例中,后期混响的传声器间协方差矩阵建模为产生于各向同性场的协方 差:
[0147] Cv(m) = Av(m)Ck。,
[014引其中Ck。为后期混响的协方差矩阵,及Av(m)为参考传声器处的混响功率,其显然 为时变W考虑混响的时变功率电平。
[0149] 传声器间协方差矩阵由下式给出:
[0巧0] Cy(m) =Cx(m)+Cy(m),
[0151] 因为目标和后期混响信号被假定为不相关。代入来自上面的表达式,得到Cy(m)的 下述表达式:
[0152]Cy(m) =Ax(m)d(m)d(m)H+Av(m)Ck。.
[0153] 在实践中,向量d(m)可在离线校准程序中进行估计(如果假定目标相较于助听器 传声器阵列将处于固定位置,即如果用户"用鼻子选择"),或者其可在线进行估计。
[0154]矩阵Ck。优选通过将安装在仿真头上的助听器暴露于混响声场(如近似为各向同 性场)并测量所得的传声器间协方差矩阵而离线进行估计。
[0155] 给出上面的表达式,我们希望找到谱方差Ax(m)和Av(m)的估计量。具体地,可 能得到该些数量的最大似然估计量的下述表达式。使
[0156]
[0157] 指有噪声传声器间协方差矩阵Cy(m)的估计量,基于多次值次)观察。Cy在用 于估计传声器间协方差的单元中确定(图3B中的CovEU)。之后,可得到谱方差Ax(m)和 入v(m)的下述最大似然(ml)估计量;
[015 引
[0159] 其中
[0160]
[0161] I为单位矩阵(向量),及M= 2为传声器数量。
[0162] 此外,
[0163]
[0164] 其中
[0165]
[0166] 为最小方差无失真响应(MVDR)的滤波器权重的向量,例如参见出aykin;2001]。 滤波器权重WmWt(m)(图3B中的w_mv化(m,k))在用于计算滤波器权重的MVDR滤波单元 (图3B中的MVDR)中确定。谱方差Ax(m)和Av(m)在用于计算谱方差的单元(图3B中 的SVarEU)中进行估计。
[0167] 上面的两个加框等式构成我们提出的用于将处于混响的目标扬声器的谱方差估 计为时间(指数m)和频率(消除的指数k)的函数的方法的实施例。
[016引谱方差Ax(m)和Av(m)具有下面A1和A2部分中例示的几个用途。 阳16引 A1、直混比估计
[0170] 比AX(m) /AV(m)可看作直混比值RR)的估计量。DRR与到声源的距离相关出ioka etal. ;2011],及还与语音可懂度有联系。使DRR估计量在助听装置中可用使装置能改变 到适宜的处理策略,或者能通知助听装置的用户该装置发现处理条件难满足等。
[0171] A2、去混响
[0172] 在时频域,常见的去混响策略是抑制目标-混响比小的时频砖及保持目标-混响 比大的时频砖(或较少抑制该些TF砖)。该样的处理的感知结果为混响已被减少的目标 信号。任何该样的系统中的关键是从可用混响信号确定哪些时频砖混响为主及哪些不是该 样。图4A示出了使用所提出的估计方法用于去混响的可能方式。
[0173] 如前所述,混响传声器信号y;使用分析滤波器组AFB分解为时频表示。所提出的 处理有噪声音频信号的方法实施在单元ML。,,中(图4A中的阴影框对应于图3A中的ML单元),如结合图3A-3C所述,并应用于滤波器组输出Yi(m,k),Y2(m,k)朗尋谱方差Ax,mi(m) 和Av,mi(m)估计为时间m和频率k的函数。假定有噪声传声器信号Yi(m,k),Y2(m,k)通过 具有向量w(m,k)中收集的权重的线性波束形成器(图4A中的波束形成器w(m,k))。应注 意,该波束形成器可W是也可W不是MVDR波束形成器。如果MVDR波束形成器符合需要,贝U 可再次使用所提出方法(图4A的阴影框MLwt内)的MVDR波束形成器权重(例如使用图 3A中的单元MVDR)。波束形成器的输出则由下式给出:
[0180] 其中,如前所述,为记法方便,频率指数k已被消除。
[0181] 我们感兴趣的是进入单通道后处理滤波器的目标分量和后期混响分量的功率的 估计量。该些可使用估计的谱方差分别得出:
[0185] 该样,进入单通道后处理滤波器的目标分量和后期混响分量的功率可从谱方差 和的最大似然估计量及另外可用的数量得到。
[0186] 之后,单通道后处理滤波器使用估计量Aimi(m)和Avmi(m)得到适当的增益 gsc(m)W应用于波束形成器输出Y(m)。也就是说,gse(m)通常可表达为Ax,mi(m)和入v,mi(m) 及潜在的其它参数的函数。例如,对于维纳增益函数,我们使(如[Loizou;2013]):
[0187]
[018引 而对于化虹aim-Mal址增益函数圧地raim-Mal址;1984],我们使
[0189]
[0190] 许多其它可能的增益函数存在,但它们通常同时为Aimi(m)和Avmi(m)及潜在的 其它参数的函数。
[0191]最后,增益函数gsc(m)应用于波束形成器输出Y(m)W导致去混响的时频砖X(m), 即
[0192]
[0193]在图4A的系统的实施例中,波束形成器w(m,k)单元(如MVDR波束形成器)和单 通道后处理单元实施为多通道维纳滤波器(MVF)。 阳194] B、存在混响巧附加 啜声的语音信号的语音巧后期混响谱方差的双传声器最大似 然估计(图3C、4B)
[0195] 下面的概述说明了根据本发明的、图3C和图4B中所示的音频处理装置的又一实 施例。该描述接着上面图3B和图4A的描述,但表示除混响语音之外还假定存在附加噪声 的情形。再次地,图3C示出了用于估计有噪声输入信号(在此包括语音、混响和附加噪声) 的目标语音和混响信号分量的谱方差A,,Ay的音频处理装置APD,其中输入单元的数量M 为2,及其中两个输入单元Mici,Mic2中的每一个包括传声器单元Mici和分析滤波器组AFB。 可直接将该描述推及具有两个W上传声器(M〉2)的系统。
[0196] 假定声学场景中存在一个目标扬声器,及到达助听器传声器的信号由上面描述的 =个分量a)、b)和C)组成。目标在于估计信号分量a)和b)在特定频率和时刻的功率。 到达第i个传声器的可观察的混响信号(n)可写为:
[0197] Yi(n) =Xi(n) +¥;(n)+W;(n)
[019引其中Xi(n)为传声器处的目标信号分量,Vi(n)为不合需要的混响分量,及Wi(n)为 附加噪声分量,假定所有分量均彼此相互不相关。每一传声器处的混响信号通过分析滤波 器组从而得到时频域的信号:
[0199] Yi(k,m) =X;(k,m) +¥;(k,m)+1;(k,m)
[0200] 其中k为频率指数和m为时间(帖)指数。为方便起见,该些谱系数可被认为是 离散傅里叶变换值FT)系数。
[0201] 由于对于每一频率指数所有运算均一样,为记法方便,在下面略过频率指数。例 如,代替Yi也m),我们简单地写Yi(m)。
[0202] 对于特定频率指数k和时间指数m,每一传声器的有噪声谱系数在向量中进行收 集,
[0203] Y(m) = [Yi(m)Y2(m)]T,
[0204]X(m) =[Xi(m)X2(m) ] \
[0205]V(m) =[Vi(m)V2(m) ] \
[0206]及
[0207] W(m) = [Wi(m)W2(m)]T [020引 从而 阳 20 引Y(m) =X(m)+V(m)+W(m)
[0210] 对于特定帖指数m和频率指数k(在记法中被消除),使
[0211] d' (m) = [d'1(m)d'2(m)]
[0212] 指从目标声源分别到每一传声器的(通常复值)声学传递函数。用d' (m)的归一 化版运算通常更方便。更具体地,使
[0引引d(m) =d' (m)/d'i(m).
[0214] 指其元素di(m)表示从目标源到第i个传声器的相对传递函数。该意味着,该向 量中的第i个元素等于1,其余元素描述从另一传声器到该参考传声器的声学传递函数。
[0215] 该意味着,无噪声传声器向量X(m)(其不能直接观察)可表达为
[021 引 =
[0217] 其中文(m)为参考传声器处的目标信号的谱系数。
[021引纯净信号的传声器间协方差矩阵则由下式给出:
[0219] Cx(m) = Ax(m)d(m)d(m)H,
[0220] 其中H指厄米转置。
[0221] 将后期混响的传声器间协方差矩阵建模为产生于各向同性场的协方差:
[0222] Cv(m) = Av(m)Ck。,
[0223]其中Ck。为后期混响的协方差矩阵,归一化为在对应于参考传声器的对角元素处 具有为1的值,及Av(m)为参考传声器处的混响功率,其显然为时变W考虑混响的时变功 率电平。
[0224] 最后,假定附加噪声的协方差矩阵已知且时不变。在实践中,该矩阵可使用话音活 动检测器从语音活动前面的只有噪声的信号区域估计。
[0225] 有噪声及混响信号的传声器间协方差矩阵由下式给出:
[022引 Cy(m) =Cx(m)+Cv(m) +Cw,
[0227] 因为目标、后期混响和噪声被假定为相互不相关。如上面提及的,假定C"已知和 恒定(因此没有时间指数)。代入来自上面的表达式,得到Cy(m)的下述表达式:
[022引 Cy(m) =Ax(m)d(m)d(m)H+Av(m)Ck0+Cw.
[0229] 在实践中,向量d(m)可在离线校准程序中进行估计(如果假定目标相较于助听器 传声器阵列将处于固定位置,即如果用户"用鼻子选择"),或者其可在线进行估计。
[0230]矩阵Ck。通过将安装在仿真头上的助听器暴露于混响声场(如近似为各向同性 场)并测量所得的传声器间协方差矩阵而离线进行估计。
[023。给出上面的表达式,我们希望找到谱方差Ax(m)和Av(m)的估计量。具体地,可 能得到该些数量的最大似然估计量的下述表达式。使
[0232]
[0233] 指有噪声传声器间协方差矩阵Cy(m)的估计量,基于多次值次)观察。 阳234] B1、特殊倍形:无附加啜声(C= 0)
[023引首先考虑没有附加噪声存在的情形(C"= 0),因为在该情形下,所得的ML估计量 特别简单。在实践中,噪声永远不会完全不存在,但下面的结果保持高信噪比,即当C"相较 于Cv(m)小时或者在非常混响的情形下即当C"相较于Cx(m)小时。
[0236] 在该情形下,可得到谱方差Ax(m)和Av(m)的下述最大似然估计量:
[0237]
[023引其中
[0239]
[0240] 及M= 2为传声器数量。此外
[0241]
[0244] 为最小方差无失真响应(MVDR)的滤波器权重的向量,例如参见出aykin;2001]。
[0245] 上面的两个加框等式构成所提出的方法在低附加噪声的特殊情形下的实施例,用 于将处于混响的目标扬声器的谱方差估计为时间(指数m)和频率(消除的指数k)的函数, 与上面的部分A中提供的结果一样。 阳24引 B2 ;-般情形:附加噪声(g声0)
[0247] 为表达该一般情形下的谱方差Ax(m)和Av(m)的最大似然估计量,需要引入一些 另外的记法。
[024引首先,引入由下式给出的MxM-1复值阻塞矩阵BG[024引 巧(1] =I-d(m) (d(m)Hd(m))-id(m)H,
[0巧0] 即矩阵B由右边矩阵的前M-1列给出。
[0251]同样,定义预白化矩阵DGCM-ixM-i,其具有性质:
[0巧2] 炬化成)-1= 0吊.
[0巧3] 矩阵D例如可从上面左边矩阵的楚列斯基分解得到。
[0254] 在许多情形下,矩阵B和D可从任何时刻m的已知数量进行计算。
[0255] 为简洁地描述最大似然估计量,需要引入来自先前阻塞和白化域中的部分的信号 量。该些量在该新域中用'指示。我们定义
[0巧引Y'(m) = 08护¥ (m),
[0巧7] 及类似地,对于X'(m)、V'(m)和r(m)。在该阻塞和预白化域中的协方差矩阵由 下式给出:
[0巧引Cy,(m)=炉8化7(m)抓,
[0259] 及类似地,对于Cx'(m)、Ck。'(m)、C"'(m)和C,.("!)。应注意,所有该些(方形)协方 差矩阵具有M' =M-1维,其中M为传声器数量。
[0260] 最后,引入一些另外的记法。使
[026UCY,(m)=UAY,巧
[026引指(阻塞和预白化)协方差矩阵Cy(m)的特征值分解,其中矩阵U的列为特征向 量和对角矩阵的对角元素
[026引Ay'=diag(入W…入帅)
[0264] 类似地,使 [026引 Ck"'=UAk。'巧
[026引指(阻塞和预白化)矩阵Ck。诚特征值分解,使得
[0267]Ak〇'=diag(入1曰。,1,. . .,AisoM')
[026引为对角特征值矩阵。
[0269] 此外,使gm指矩阵的第m个对角元素
[0270]
[027。 之后,可W看出,入V的最大似然估计量A 可W为多项式(变量AV)的根之一;
[0272]
[027引具体地,Av(m)被发现为多项式的正、实根。在大多数情形下,仅有一个该样的根。
[0274]目标语音谱方差Ax(m)的对应最大似然估计量则可从非阻塞和非预白 化域中的量得出:
[0275]
[027引其中
[027引 C詞(m)=入V,皿(m)Ciw+(;.
[0280]谱方差Ax(m)和Av(m)具有下面B3和B4部分中例示的几个用途。 阳281] B3、直混比估计
[028引比AX(m) /AV(m)可看作直混比值RR)的估计量。DRR与到声源的距离相关出ioka etal. ;2011],及还与语音可懂度有联系。使DRR估计量在助听装置中可用使装置能改变 到适宜的处理策略,或者能通知助听装置的用户该装置发现处理条件难满足等。 阳28引 B4、去混响一没有(或具有化)附加啜声的特殊倍形(C= 0)
[0284] 在该特殊情形下,目标信号被混响干扰,但没有附加噪声。
[0285] 在时频域,常见的去混响策略是抑制目标-混响比小的时频砖及保持目标-混响 比大的时频砖。该样的处理的感知结果为混响已被减少的目标信号。任何该样的系统中的 关键是从可用混响信号确定哪些时频砖混响为主及哪些不是该样。图4B示出了使用所提 出的估计方法用于去混响的可能方式。
[0286] 如前所述,混响传声器信号使用分析滤波器组分解为时频表示。所提出的方法 (阴影框)应用于滤波器组输出W将谱方差Axml(m)和A 估计为时间和频率的函 数。假定有噪声传声器信号通过具有向量w(m,k)中收集的权重的线性波束形成器。该波 束形成器可W是也可W不是MVDR波束形成器。如果MVDR波束形成器符合需要,则可再次 使用所提出方法(图4B的阴影MLwt框内)的MVDR波束形成器。波束形成器的输出则由 下式给出:

[0293] 其中,如前所述,为记法方便,略过频率指数k。
[0294] 我们感兴趣的是进入单通道后处理滤波器的目标分量和后期混响分量的功率的 估计量。该些可使用估计的谱方差分别得出:
[029引该样,进入单通道后处理滤波器的目标分量和后期混响分量的功率可从谱方差Ax(m)和Av(m)的最大似然估计量及另外可用的量得到。
[0299] 之后,单通道后处理滤波器使用估计量右.,。,/如:)和石如)得到适当的增益gsc(m) W应用于波束形成器输出戸如)。也就是说,gsc(m)通常可表达为和是',"/如}及潜 在的其它参数的函数。例如,对于维纳增益函数,我们使(如[Loizou;2013]):
[0300]
[0301]而对于化虹aim-Mal址增益函数圧地raim-Mal址;1984],我们使
[0302]
[030引许多其它可能的增益函数存在,但它们通常同时为是,",/的)和疋,,。/柳)及潜在的其 它参数的函数。
[0304] 最后,增益函数gse(m)应用于波束形成器输出P(m)W导致去混响的时频砖 1(说),即
[0305]
[0306] 与上面部分A中公开的一样。 阳307] B5、去混响一具有附加啜声的一般倍形(C声0)
[030引在该一般情形下,目标信号被混响和附加噪声干扰。与前面部分类似,我们感兴趣 的是进入单通道后滤波器的所有信号分量的谱方差。如上所述,目标和混响分量的谱方差 可从最大似然估计量得出:
[0309]
[0310]及
[0311]
[0312] 此外,进入单通道波束形成器的附加噪声分量的谱方差由下式给出:
[031引
[0314]总的来说,单通道后滤波器增益为毛石A"(m)及潜在的其它参数 、、 的函数。例如,可将全谱干扰定义为混响和噪声方差的和,
[031引
阳引引贝1J信号-全干扰比将由下式给出:
[0317]
[031引为此,新版本的维纳增益函数或化虹aim-Mal址增益函数可与上面所描述类似地 定义。然而,不是仅抑制混响分量,该些新增益函数共同抑制混响和附加噪声分量。
[0319] 图5示出了根据本发明的音频处理系统APD的实施例。该音频处理系统APD包括 与图3A中所示一样的元件;输入单元IU。i= 1,2,M,用于将有噪声音频信号y(包括目标 信号分量X和第一噪声信号分量V,非必须地,及第二附加噪声信号分量W)的时频表示Y提 供给最大似然估计单元ML。而分别估计目标信号分量X和第一噪声信号分量V的谱方 差和(或其换算版)。在图5的实施例中,输入单元Uli还包括归一化滤 波器单元Hi。归一化滤波器单元具有传递函数Hi化),其使声源提供可与其它声源比较和互 换的所设及电输入信号。该具有各个有噪声输入信号yi的信号含量可进行比较的优点。第 i个输入单元IUi(i= 1,2,…,M)包括用于将输入声音信号y,转换为电输入信号li的输 入变换器ITi或用于提供电输入信号Ii的另一输入装置。归一化滤波器Hi(如自适应滤波 器)将电输入信号li滤波为归一化信号INi(如在预定电压范围内)及将归一化时域信号 INi馈给分析滤波器组AFB,其将有噪声输入信号yi的时频表示Yi(m,k)提供给最大似然估 计单元ML。,,。该使能补偿不匹配的传声器、使用不同种类的传感器(传声器、振动传感器、 光学传感器、例如用于感测脑电波的电极等)、补偿传感器的不同定位等。最大似然估计单 元MLwt还接收预定目标视向量d和噪声协方差矩阵Cv(或其换算版)从而使能估计谱方 差入x,mi(m)和^v,mi(m)。MLwt单元中的处理在图5中指示为在各个频带k,k= 1,2,…,K中进行,通过前面MLwt框"后面的"记为1-K的实线"阴影框"指示。在有噪声输入信号yi 中存在第二附加噪声分量W i的实施例中,附加噪声的另一预定噪声协方差矩阵Cw1假定提 供给最大似然估计单元MLwt。
[0320] 图6示出了根据本发明的音频处理装置的实施例,其包括与图5的实施例一样的 元件,区别在于用于估计谱方差Aimi(m)和Avmi(m)的最大似然估计单元ML。,,形成更一般 的信号处理单元SPU的一部分,SPU例如还包括结合图4A-4B所述的波束形成器和单通道 后滤波和/或利用谱方差Aimi(m)和Avmi(m)(或其换算版)的其它信号处理。信号处理 单元SPU包括存储器,目标和噪声信号分量的特性保存于其中,例如预定目标视向量d和第 一噪声协方差矩阵Cv(如CiJ及非必须地第二协方差矩阵C,(或其换算版)。信号处理 单元SPU提供增强的如去混响的信号X(m,k)。信号处理单元SPU例如可配置成对所得的增 强信号X应用随频率而变的增益W补偿用户的听力受损。图6的实施例还包括合成滤波器 组SFB,用于将增强的时频域信号X(m,k)转换为时域(输出)信号OUT,其可被进一步处理 或者如在此一样馈给输出单元0U。输出单元可W是输出变换器,用于将电信号转换为由用 户感知为声学信号的刺激。在实施例中,输出变换器包括用于将刺激作为声学信号提供给 用户的接收器(扬声器)。作为备选或另外,输出单元0U可包括耳蜗植入听力装置的多个 电极或者骨导听力装置的振动器或者用于将所得信号传给另一装置的收发器。图6的音频 处理装置实施例可实施助听装置。
[0321] 图7示出了根据本发明的处理有噪声输入信号的方法的流程图。有噪声音频信号 y(n)包括目标信号分量x(n)和第一噪声信号分量v(n)(非必须地,及包括第二附加噪声分 量W(n)),n表示时间,该方法包括步骤:
[0322] a)提供或接收多个频带和多个时刻时第i个输入单元处的有噪声音频信号y,(n) 的时频表示Yi也m),i= 1,2,…,M,其中M大于或等于2,k为频带指数,及m为时间指数;
[0323] b)将第一噪声信号分量V和目标信号分量X的谱方差或其换算版AV,Ay分别估 计为频率指数k和时间指数m的函数,AV和AX的估计量在最大似然方面共同最佳。
[0324] 最大似然优化(排他地)基于下述统计假设:
[032引-相应信号Yi(n)、及信号分量X; (n)和Vi(n)(非必须地,及(n))的时频表不Yi化,m),Xi化,m)和Vi化,m)(非必须地,及Wi化,m))均为零均值、复值高斯分布;
[0326] -它们中的每一个跨时间m和频率k统计上独立;及
[0327] -Xi也m)和Vi也m)(非必须地,及也m))相互不相关。
[032引该方法总体上基于目标和噪声信号分量的特性(如空间特性)已知的假设。
[0329] 关于目标和噪声信号分量的特性的假设例如为:目标信号相对于输入单元的方向 已知(固定边及第一噪声信号分量的空间指纹也已知如各向同性(Cv=CiJ。在存在第 二附加噪声分量的情形下,假定其输入间协方差矩阵C,形式的特性已知。
[0330] 本发明由独立权利要求的特征限定。从属权利要求限定优选实施方式。权利要求 中的任何附图标记不限定其对应的范围。
[0331] 一些优选实施方式已经在前面进行了说明,但是应当强调的是,本发明不受该些 实施方式的限制,而是可W权利要求限定的主题内的其它方式实现。 防33引 参考义献
[0333] ? US2009248403A
[0334] . W012159217A1
[0335] ? US2013:M3571A1
[0336] ? US2010246844A1
[0337] ? Uraun&Habets ;2013] S. I3raun and E. A. P. Habets, "Dereverberation in noisy environments using reference signals and a miximum likelihood estimator",Presented at the 21別European Signal Processing Conference (EUSIPCO 2013),5 pages巧USIPCO 2013 1569744623).
[033引?[Schaub ;200引Arthur Schaub, "Digital hearing Aids",Hiieme Medical.化b.,2008.
[0339] ? [Haykin ; 200 1 ] S. Haykin, "Adaptive Filter Theory,''Four th Edition,Prentice Hall Information and System Sciences Series,2001.
[0340]?巧ioka et al? ; 2011 ] : Y. Hioka, K. Niwa, S. Sakauchi,K. Furuya, and Y. Haneda, "Estimating Direct-to-民everberant Energy Ratio Using D/民Spatial Correlation Matrix Model",IEEE Trans. Audio, Speech, and Language Processing, Vol ? 19, No. 8, Nov.,2011,pp. 2374-2384.
[0341] ? [Lo i zou ; 20 13] : P. C. Lo i zou, "Speech Enhancement: Theory and Practice,''Second Edition, February, 2013, C民C Press
[034引 ? [Ephraim-Malah ; 1984]:Y. Ephraim and D.Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No. 6, Dec. 1984, pp. 1109-1121.
[034引 ?皮jems&Jensen ;2012]U. Kjems, J. Jensen, "Maximum likeliLhood based noise covariance matrix estimation for multi-microphone speech enhancement'',20th European Signal Processing Conference烟JSIPCO 2012),pp.295-299,2012.
[0344] ? [Ye&DeGroat ;1995]H. Ye and R. D. DeGroat, "Maximum likelihood DOA estimation and asymptotic Cram'er-民ao bounds for additive unknown colored noise,,,Signal Processing,IEEE Transactions on,vol. 43, no. 4, pp. 938 - 949, 1995. [034引 ? [Shimitzu et al. ;2007]Hikaru Shimizu,Nobutaka Ono,Kyosuke Matsumoto, Shigeki Sagayama, Isotropic noise suppression in the power spectrum domain by symmetric microphone arrays,2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, October 21-24, 2007, New Paltz,NY, pp. 54-57.
【主权项】
1. 包括目标信号分量X (η)和第一噪声信号分量V (η)的有噪声音频信号y (η)的处理 方法,η表示时间,所述方法包括: a) 提供或接收多个频带和多个时刻时第i个输入单元处的有噪声音频信号yi (η)的时 频表示Yi (k, m),i = 1,2,…,Μ,其中M大于或等于2, k为频带指数,及m为时间指数; b) 提供目标信号分量和第一噪声信号分量的特性;及 c) 将第一噪声信号分量V和目标信号分量X的谱方差或其换算版λ ν,λ x分别估计为 频率指数k和时间指数m的函数,λν* λ x的估计量在最大似然方面共同最佳,基于下述 统计假设:a)相应信号Yi (η)、及信号分量Xi (η)和Vi (η)的时频表示Yi (k, m),Xi (k, m)和 Vi(I^m)均为零均值、复值高斯分布;b)它们中的每一个跨时间m和频率k统计上独立;及 cHiO^m)和 Vi(I^m)不相关。2. 根据权利要求1所述的方法,其中有噪声音频信号y i (η)包括具有目标信号分量和 混响信号分量的混响信号。3. 根据权利要求1所述的方法,其中第一噪声信号分量V的特性由输入单元间协方差 矩阵Cv或其换算版表示,及其中第一噪声信号分量Vi (η)空间上各向同性。4. 根据权利要求1-3任一所述的方法,其中第一噪声信号分量V i (η)由后期混响构成。5. 根据权利要求1所述的方法,其中有噪声音频信号y (η)包括目标信号分量X (η)、为 混响信号分量V (η)的第一噪声信号分量、和为附加噪声信号分量w(η)的第二噪声信号分 量,及其中所述方法包括提供第二噪声信号分量的特性。6. 根据权利要求5所述的方法,其中第i个输入单元处的有噪声音频信号y i (η)包括 目标信号分量Xi (η)、混响信号分量Vi (η)和附加噪声分量Wi (η)。7. 根据权利要求5所述的方法,其中第二噪声信号分量w的特性由附加噪声的预定输 入单元间协方差矩阵Cw表示。8. 根据权利要求1所述的方法,其中目标信号的特性由视向量d(k,m)表示,其元素 (i =1,2,···,Μ)定义从目标信号源到M个输入单元中的每一个的(随频率和时间而变的)绝 对声学传递函数,或者从第i个输入单元到参考输入单元的相对声学传递函数。9. 根据权利要求1所述的方法,其中基于多次(D次)观察得到有噪声音频信号的输入 单元间协方差矩阵? Y(k,m)的估计量。10. 根据权利要求9所述的方法,其中目标信号分量X和噪声信号分量V的 谱方差Ax(k,m)和Av(k,m)的最大似然估计量分别从输入单元间协方差矩阵 CY(k,m),Cx(k,m),Cv(k,m)及可选的(:¥(1^,111)的估计量和视向量d(k,m)得到。11. 根据权利要求1所述的方法,包括对有噪声音频信号y (η)应用波束形成从而提供 波束成形信号及对波束成形信号应用单通道后滤波以抑制来自目标信号方向的噪声信号 分量及提供所得的噪声减少的信号。12. 根据权利要求11所述的方法,其中在单通道后滤波过程中应用于波束成形信号的 增益值gsc;(k,m)基于目标信号分量X和第一噪声信号分量V的谱方差Ax(k,m)和A v(k,m) 的估计量。13. 用于处理包括目标信号分量X和第一噪声信号分量V的有噪声音频信号y的音频 处理系统,所述音频处理系统包括: a) M个输入单元,适于提供或接收多个频带和多个时刻时第i个输入单元处的有噪声 音频信号(η)的时频表示Yi (k, m),i = 1,2,…,M,其中M大于或等于2, k为频带指数,及 m为时间指数; b) 目标信号分量的视向量d(k,m)和第一噪声信号分量的输入单元间协方差矩阵 Cv(k,m)或其换算版; c) 用于基于有噪声音频信号yi (η)的时频表示Yi(I^m)估计有噪声音频信号的输入单 元间协方差矩阵或其换算版的协方差估计单元;及 d) 谱方差估计单元,用于基于视向量d(k,m)、输入单元间协方差矩阵Cv(k,m)、及有 噪声音频信号的协方差矩阵或其换算版估计目标信号分量X和第一噪声信号分 量V的谱方差Ax(k,m)和Av(k,m)或其换算版,其中λ#Ρ λ χ的估计量在最大似然方面 共同最佳,基于下述统计假设:a)相应信号71 (η)、及信号分量Xi (η)和Vi (η)的时频表示 Yi (k,m), Xi (k, m)和Vi(I^m)均为零均值、复值高斯分布;b)它们中的每一个跨时间m和频 率k统计上独立;及c) Xi (k, m)和Vi (k, m)不相关。14.根据权利要求13所述的音频处理系统,包括助听器、头戴式耳机、耳麦、耳朵保护 装置或其组合。
【专利摘要】本发明公开了用于估计目标和噪声谱方差的多传声器方法,该方法包括:a)提供或接收多个频带和多个时刻时第i个输入单元处的有噪声音频信号yi(n)的时频表示Yi(k,m),i=1,2,…,M,其中M大于或等于2,k为频带指数,及m为时间指数;b)提供目标信号分量和第一噪声信号分量的特性;及c)将第一噪声信号分量v和目标信号分量x的谱方差或其换算版λV,λX分别估计为频率指数k和时间指数m的函数,λV和λX的估计量在最大似然方面共同最佳,基于下述统计假设:a)相应信号yi(n)、及信号分量xi(n)和vi(n)的时频表示Yi(k,m),Xi(k,m)和Vi(k,m)均为零均值、复值高斯分布;b)它们中的每一个跨时间m和频率k统计上独立;及c)Xi(k,m)和Vi(k,m)不相关。
【IPC分类】H04R25/00
【公开号】CN104902418
【申请号】CN201510103711
【发明人】J·延森, A·库拉辛斯基
【申请人】奥迪康有限公司
【公开日】2015年9月9日
【申请日】2015年3月9日
【公告号】EP2916321A1, US20150256956

最新回复(0)