用于生成多个参数化音频流的装置和方法以及用于生成多个扬声器信号的装置和方法
【技术领域】
[0001] 本发明总体上设及参数化空间音频处理,更具体地,设及用于生成多个参数化音 频流的装置和方法W及用于生成多个扬声器信号的装置和方法。本发明的进一步的实施例 设及基于扇区(sector)的参数化空间音频处理。
【背景技术】
[0002] 在多声道收听中,收听者由多个扬声器围绕。存在有多种已知方法W捕获该样的 设置的音频。首先考虑扬声器系统和用该些扬声器系统能产生的空间感受。在没有特殊技 术的情况下,常见的双声道立体声设备只能在连接扬声器的线路上产生听觉事件。无法产 生从其它方向发出的声音。逻辑上,通过使用环绕收听者的更多个扬声器,可W涵盖更多个 方向并且可W产生更自然的空间感受。最为众所周知的多声道扬声器系统和布局为5. 1标 准("ITU-R775-1"),其包括相对于收听位置在0°、30°和110°的方位角处的五个扬声 器。也已知具有位于不同方向的不同数量的扬声器的其它系统。
[0003] 在本领域中,针对前述扬声器系统已经设计出数种不同的记录方法,W便再现如 同在记录环境中会感知的收听情况下的空间感受。针对选择的多声道扬声器系统记录空间 声音的理想方式是使用数量与所存在的扬声器相同的麦克风。在该样的情况下,麦克风的 指向性图案(directivitypattern)也应该对应于扬声器布局,W使得只用一个、两个、或 S个麦克风记录来自任何单一方向的声音。使用的扬声器越多,因而需要的指向性图案就 越窄。然而,该样的窄指向性麦克风相当昂贵,并且通常具有非平坦的频率响应,该不是期 望的。此外,使用具有太宽指向性图案的数个麦克风作为多声道再现的输入,结果导致多彩 而模糊的听觉感知,原因在于从单一方向发出的声音经常是用比所需的扬声器更多的扬声 器来再现。因此,当前的麦克风最适合双声道记录和再现,而没有环绕空间感受的目标。
[0004] 空间声音记录的另一种已知方法是记录分散在宽广空间区域的大量麦克风。例 如,当记录在舞台上的一支管弦乐团时,单一乐器可由所谓的点麦克风拾取,其位置接近声 源。前声音舞台的空间分布例如可由传统的立体声麦克风捕获。对应于后期混响的声场分 量可由位于距舞台相对远的距离的数个麦克风捕获。然后,音响师可W通过使用可用的全 部麦克风声道的组合来混合期望的多声道输出。然而,该记录技术暗示极大型记录设置W 及记录声道的手工混音,该实际上通常是不可行的。
[0005] 用于基于定向音频编码值irAC)记录和再现空间音频的传统系统(如在W下中 所述;T. Lokki、J. Merimaa、V. Pulkki ;Method for Reproducing Natural or Modified Spatial Impression in Multichannel Listening(用于在多声道收听中再现自然或修正 空间感受的方法),美国专利第7,787,638B2号,2010年8月31日,W及V.化化ki ;Spatial Sound Reproduction with Directional Audio Coding(利用定向音频编码的空间声音再 现),J. Audio E;ng. Soc. , Vol. 55, No. 6, PP. 503-516, 2007)依赖于简单通用的声场模型。因 此,它们有一些系统性缺点,该限制了实际上可达到的声音质量和体验。
[0006] 已知的解决方案的常见问题为该些解决方案相当复杂且通常与空间声音质量的 劣化相关联。
[0007] 因此,本发明的目的是提出参数化空间音频处理的改进构想,其允许使用相对简 单且紧凑的麦克风配置来达成更高质量、更逼真的声音记录和再现。
【发明内容】
[000引该目的通过根据权利要求1所述的装置、根据权利要求13所述的装置、根据权利 要求15所述的方法、根据权利要求16所述的方法、根据权利要求17所述的计算机程序、或 根据权利要求18所述的计算机程序来实现。
[0009] 根据本发明的一个实施例,一种用于根据从在记录空间中进行记录而获得的输入 空间音频信号来生成多个参数化音频流的装置包括分段器(segmentor)和生成器。该分段 器被配置用于从输入空间音频信号提供至少两个输入分段音频信号。该里,该至少两个输 入分段音频信号与记录空间的对应分段相关联。该生成器被配置用于针对至少两个输入分 段音频信号中的每一个生成参数化音频流W获得多个参数化音频流。
[0010] 为本发明的基础的基本构想为在从输入空间音频信号提供至少两个输入分段音 频信号的情况下、W及在针对至少两个输入分段音频信号中的每一个生成参数化音频流W 获得多个参数化音频流的情况下,能够实现改进的参数化空间音频处理,其中至少两个输 入分段音频信号与该记录空间的对应分段相关联。该允许使用相对简单且紧凑的麦克风配 置来实现更高质量、更逼真的空间声音记录和再现。
[0011] 根据另一实施例,该分段器被配置成针对记录空间的每个分段而使用指向性图 案。此处,该指向性图案指示至少两个输入分段音频信号的指向性。通过使用指向性图案, 可W获得所观察的声场的更佳模型匹配,特别是在复杂声音场景中。
[0012] 根据另一实施例,该生成器被配置用于获得多个参数化音频流,其中,多个参数化 音频流均包括至少两个输入分段音频信号的分量和对应的参数化空间信息。例如,每个参 数化音频流的参数化空间信息包括到达方向值0A)参数和/或扩散性参数。通过提供D0A 参数和/或扩散性参数,可W在参数化信号表示域中描述观察的声场。
[0013] 根据又一实施例,一种用于根据从记录在录空间中的输入空间音频信号得到的多 个参数化音频流来生成多个扬声器信号的装置包括呈现器和组合器。该呈现器被配置用于 从多个参数化音频流提供多个输入分段扬声器信号。此处,输入分段扬声器信号与记录空 间的对应分段相关联。该组合器被配置用于组合输入分段扬声器信号W获得多个扬声器信 号。
[0014] 本发明的另外的实施例提供了用于生成多个参数化音频流的方法W及用于生成 多个扬声器信号的方法。
【附图说明】
[0015] W下,将参照【附图说明】本发明的实施例,在附图中:
[0016] 图1示出用于用分段器和生成器从记录在记录空间中的输入空间音频信号生成 多个参数化音频流的装置的实施例的框图;
[0017] 图2示出基于混合或矩阵化运算的、根据图1的装置的该实施例的分段器的示意 图;
[001引图3示出使用指向性图案的、根据图1的装置的该实施例的分段器的示意图;
[0019] 图4示出基于参数化空间分析的、根据图1的装置的该实施例的生成器的示意 图;
[0020] 图5示出用于用呈现器和组合器从多个参数化音频流生成多个扬声器信号的装 置的实施例的框图;
[0021] 图6示出记录空间的示例分段的示意图,每个分段表示在二维(2D)平面内或在S 维(3D)空间内的方向子集;
[0022] 图7示出针对记录空间的两个分段或扇区的示例扬声器信号计算的示意图;
[0023] 图8示出使用二阶B格式输入信号的、针对记录空间的两个分段或扇区的示例扬 声器信号计算的示意图;
[0024] 图9示出包括在参数化信号表示域中的信号修正的、针对记录空间的两个分段或 扇区的示例扬声器信号计算的示意图;
[0025] 图10示出由根据图1的装置的该实施例的分段器提供的输入分段音频信号的示 例极性图案(polarpattern)的示意图;
[0026] 图11示出用于执行声场记录的示例麦克风配置的示意图拟及
[0027] 图12示出用于获得更高阶麦克风信号的全向麦克风的示例圆形阵列的示意图。
【具体实施方式】
[002引在利用附图更详细地讨论本发明之前,须指出的是,在附图中,相同元件、具有相 同功能或相同效果的元件W相同的附图标记提供,使得在不同实施例中示例说明的该些元 件及其功能的描述在不同实施例中可相互交换或可彼此适用。
[0029] 图1示出用于使用分段器110和生成器120根据从在记录空间中进行记录而获 得的输入空间音频信号105来生成多个参数化音频流125 ( 0。的装置100的实施 例的框图。例如,该输入空间音频信号105包括全向信号W和多个不同的定向信号X、Y、 Z、U、V(或X、Y、U、V)。如图1所示,该装置100包括分段器110和生成器120。例如,该分 段器110被配置用于从输入空间音频信号105的全向信号W和多个不同定向信号X、Y、Z、 U、V提供至少两个输入分段音频信号115 (W。X。Y。Zi),其中该至少两个输入分段音频信号 115(Wi,Xi,Yi,Zi)与记录空间的对应分段Segi相关联。此外,生成器120可被配置用于针对 至少两个输入分段音频信号115 (Wi,X。Yi,Zi)中的每一个生成参数化音频流W获得多个参 数化音频流125(0。Wi,Wi)。
[0030] 通过用于生成多个参数化音频流125的装置100,可W避免空间声音质量的劣化 并避免相对复杂的麦克风配置。因此,根据图1的装置100的实施例允许使用相对简单且 紧凑的麦克风配置获得更高质量、更逼真的空间声音记录。
[0031] 在实施例中,记录空间的分段Segi均表示二维(2D)平面内或S维(3D)空间内的 方向子集。
[0032] 在实施例中,记录空间的分段Segi均W关联的定向度量为特征。
[0033]根据实施例,该装置100被配置用于执行声场记录W获得输入空间音频信号105。 例如,分段器110被配置用于将关注的全角度范围划分成记录空间的分段Segi。此外,记录 空间的分段Segi均可覆盖相比于关注的全角度范围缩小的角度范围。
[0034] 图2示出基于混合(或矩阵化)运算的、根据图1的装置100的该实施例的分 段器110的示意图。如在图2中示例性地示出,分段器110被配置成使用混合或矩阵化 运算来根据全向信号W和多个不同定向信号X、Y、Z、U、V生成至少两个输入分段音频信 号115 (W。X。Y。Zi),该混合或矩阵化运算取决于记录空间的分段Segi。通过图2中示例 性示出的分段器110,可W使用预定义的混合或矩阵化运算来将构成输入空间音频信号 105的全向信号W和多个不同的定向信号X、Y、Z、U、V映射为至少两个输入分段音频信号 115 (W。X。Y。Zi)。该预定义的混合或矩阵化运算取决于记录空间的分段Segi,并且实质上 可W用于从输入空间音频信号105分出来至少两个输入分段音频信号115 (W。X。Y。Z
i)。与 用于声场的简单全局模型相反,基于混合或矩阵化运算的由分段器110分出来至少两个输 入分段音频信号115(Wi,Xi,Yi,Zi)实质上使得能够实现上述优点。
[003引图3示出使用(期望的或预定的)指向性图案305(即qi(0))的、根据图1的装 置100的实施例的分段器110的示意图。如图3中示例性示出,分段器110被配置用于针 对记录空间的每个分段Segi而使用指向性图案305(即q,(谷))。此外,指向性图案305(即 qi(W)可指示至少两个输入分段音频信号115(Wi,Xi,Yi,Zi)的指向性。
[0036] 在实施例中,指向性图案305(即化巧))由下式给出
[0037]
(1)
[003引其中,a和b表示可W修改W获得期望的指向性图案的乘数,W及其中,身表示方 位角,而01指示记录空间的第i个分段的优选方向。例如,a处于0至1的范围内W及b 在-1至1的范围内。
[0039] 乘数a、b的一个有用选项可W为a= 0. 5W及b= 0. 5,从而得到如下指向性图 案:
[0040]
(la)
[0041] 通过图3示例性示出的分段器110,可W获得分别具有预定的指向性图案 305(即qi(谷))的与记录空间的对应分段Segi相关联的至少两个输入分段音频信号 115(Wi,Xi,Yi,Zi)。此处须指出,针对记录空间的每个分段Segi,使用指向性图案305(即 qi(&))使得能够提高用设备100获得的空间声音质量。
[0042] 图4示出基于参数化空间分析的、根据图1的装置100的实施例的生成器 120的示意图。如图4中示例性示出,生成器120被配置用于获得多个参数化音频流 125 ( 0。Wi)。此外,多个参数化音频流125 ( 0。Wi)均可包括至少两个输入分段音 频信号115(W"Xi,Y"Zi)的分量Wi和对应的参数化空间信息0
[0043] 在实施例中,生成器120可被配置用于针对至少两个输入分段音频信号 115(Wi,Xi,Yi,Zi)中每一个执行参数化空间分析W获得对应的参数化空间信息0 1、Wi。 [0044] 在实施例中,每个参数化音频流125( 0。的参数化空间信息01、包括 到达方向值OA)参数0i和/或扩散性参数W1。
[0045]在实施例中,由图4中示例性地示出的生成器120提供的到达方向值0A)参数0i 和/或扩散性参数可构成用于参数化空间音频信号处理的DirAC参数。例如,生成器 120被配置用于使用至少两个输入分段音频信号115的时频表示来生成DirAC参数(例如, D0A参数0i和扩散性参数W1)。
[0046] 图5示出用于用呈现器510和组合器520根据多个参数化音频流125 ( 0。Wi) 生成多个扬声器信号525(Li,L2,"〇的装置500的实施例的框图。在图5的实施例中,多 个参数化音频流125( 0。Wi)可从记录在记录空间中的输入空间音频信号(例如,图1 的实施例中示例性示出的输入空间音频信号105)得到。如图5所示,该装置500包括呈现 器510和组合器520。例如,呈现器510被配置用于从多个参数化音频流125 ( 0。Wi) 提供多个输入分段扬声器信号515,其中输入分段扬声器信号515与记录空间的对应分段 (Segi)相关联。此外,组合器520可被配置用于组合输入分段扬声器信号515W获得多个 扬声器信号525 (L。L2,…)。
[0047] 通过提供图5的装置500,可W根据多个参数化音频流125 ( 0。生成多个 扬声器信号525江1,L2,…),其中参数化音频流125 ( 0。Wi)可从图1的装置100发送。 此外,图5的装置500允许使用从相对简单且紧凑的麦克风配置得到的参数化音频流来实 现更高质量、更逼真的空间声音再现。
[0048] 在实施例中,呈现器510被配置用于接收多个参数化音频流125 ( 0。。例 如,多个参数化音频流125 ( 0。均包括分段音频分量Wi和对应的参数化空间信息 0 1、Wi。此外,呈现器510可被配置用于使用对应的参数化空间信息505 ( 0 1、Wi)来呈现 每个分段音频分量WiW获得多个输入分段扬声器信号515。
[0049] 图6示出记录空间的示例分段Segi(i= 1、2、3、4) 610、620、630、640的示意图600。 在图6的示意图600中,记录空间的示例分段610、620、630、640均表示在二维(2D)平面内 的方向子集。此外,记录空间的分段Segi均表示S维(3D)空间内的方向子集。例如,表示 S维(3D)空间内的方向子集的分段Segi可W与图6中示例性示出的分段610、620、630、 640相似。根据图6的示意图600,示例性地示出图1的装置100的四个示例分段610、620、 630、640。然而,也可W使用不同数量的分段Segi(i= 1、2、…、n,其中i为整数索引,W及 n表示分段数量)。示例分段610、620、630、640均可^^极坐标系(例如,参见图6)表示。 对于=维(3D)空间,分段Segi可类似地W球坐标系表示。
[0化日]在实施例中,图1中示例性地示出的分段器110可被配置成使用分段Segi(例如, 图6的示例分段610、620、630、640)来提供至少两个输入分段音频信号115 (W。X。Y。Zi)。 通过使用分段(或扇区),可W实现声场的基于分段(或基于扇区)的参数模型。该使得能 够用相对紧凑的麦克风配置来实现较高质量的空间音频记录和再现。
[0051] 图7示出针对记录空间的两个分段或扇区的示例扬声器信号计算的示意图700。 在图7的示意图700中,示例性地示出了用于生成多个参数化音频流125( 0。的装 置100的实施例W及用于生成多个扬声器信号525 (Li,L2,"0的装置500的实施例。如图 7的示意图700中所示,分段器110可被配置用于接收输入空间音频信号105 (例如,麦克 风信号)。此外,分段器110可被配置用于提供至少两个输入分段音频信号115 (例如,第 一分段的分段麦克风信号715-1和第二分段的分段麦克风信号715-2)。生成器120可包 括第一参数化空间分析块720-1和第二参数化空间分析块720-2。此外,生成器120可被 配置用于针对至少两个输入分段音频信号115中的每一个生成参数化音频流。在装置100 的该实施例的输出,将获得多个参数化音频流125。例如,第一参数化空间分析块720-1将 输出第一分段的第一参数化音频流725-1,而第二参数化空间分析块720-2将输出第二分 段的第二参数化音频流725-2。此外,由第一参数化空间分析块720-1提供的第一参数化 音频流725-1可包括第一分段的参数化空间信息(例如,0 1、Wi)W及第一分段的一个或 多个分段音频信号(例如Wi),而由第二参数化空间分析块720-2提供的第二参数化音频流 725-2可包括第二分段的参数化空间信息(例如0 2、W,)W及第二分段的一个或多个分段 音频信号(例如W2)。该装置100的实施例可被配置用于发送多个参数化音频流125。也 如图7的示意图700所示,装置500的实施例可被配置用于从装置100的实施例接收多个 参数化音频流125。呈现器510可包括第一呈现单元730-1和第二呈现单元730-2。此外, 呈现器510可被配置用于从所接收的多个参数化音频流125提供多个输入分段扬声器信号 515。例如,第一呈现单元730-1可被配置用于从第一分段的第一参数化音频流725-1提供 第一分段的输入分段扬声器信号735-1,而第二呈现单元730-2可被配置用于从第二分段 的第二参数化音频流725-2提供第二分段的输入分段扬声器信号735-2。此外,组合器520 可被配置用于组合输入分段扬声器信号515W获得多个扬声器信号525 (L。L2,…)。
[0化2] 图7的实施例实质上表示使用声场的基于分段(或基于扇区)的参数模型的较高 质量的空间音频记录和再现,其允许用相对紧凑的麦克风配置记录同样复杂的空间音频场 旦
[0053] 图8示出使用二阶B格式输入信号105的、针对记录空间的两个分段或扇区的示 例扬声器信号计算的示意图800。图8中示意性地示出的示例扬声器信号计算基本上对应 于图7中示意性地示出的示例扬声器信号计算。在图8的示意图中,示例性地描绘用于生 成多个参数化音频流125的装置100的实施例和用于生成多个扬声器信号525的装置500 的实施例。如图8所示,装置100的实施例可被配置用于接收输入空间音频信号105(例如, B格式麦克风声道(诸如[W、X、Y、U、V]))。此处,应注意,图8中的信号U、V为二阶B格 式分量。示例性地由"矩阵化"标示的分段器110可被配置用于使用混合或矩阵化运算来 根据全向信号和多个不同的定向信号生成至少两个输入分段音频信号115,该混合或矩阵 化运算取决于记录空间的分段Segi。例如,至少两个输入分段音频信号115可包括第一分 段的分段麦克风信号715-1 (例如[Wi、Xi、Yi])和第二分段的分段麦克风信号715-2 (例如 [胖2、X,、Y,])。此外,生成器120可包括第一指向性和扩散性分析块720-1W及第二指向性 和扩散性分析块720-2。在图8中示例性地示出的第一指向性和扩散性分析块720-1W及 第二指向性和扩散性分析块720-2基本上对应于在图7中示例性地示出的第一参数化空间 分析块720-1W及第二参数化空间分析块720-2。生成器120可被配置用于针对至少两个 输入分段音频信号115中的每一个生成参数化音频流W获得多个参数化音频流125。例如, 生成器120可被配置用于使用第一指向性和扩散性分析块720-1对第一分段的分段麦克风 信号715-1执行空间分析,W及用于从第一分段的分段麦克风信号715-1中提取第一分量 (例如分段音频信号Wi)W获得第一分段的第一参数化音频流725-1。此外,生成器120可 被配置用于使用第二指向性和扩散性分析块720-2对第二分段的分段麦克风信号715-2执 行空间分析W及用于从第二分段的分段麦克风信号715-2中提取第二分量(例如分段音频 分量w,),w获得第二分段的第二参数化音频流725-2。例如,第一分段的第一参数化音频流 725-1可包括第一分段的参数化空间信息,其包括第一到达方向值0A)参数0 1和第一扩散 性参数WiW及第一提取分量W1,而第二分段的第二参数化音频流725-2可包括第二分段 的参数化空间信息,其包括第二到达方向值0A)参数0 2和第二扩散性参数W2W及第二提 取分量W2。装置100的实施例可被配置用于发送多个参数化音频流125。
[0化4] 也如图8的示意图800所示,用于生成多个扬声器信号525的装
置500的实施例可 被配置用于接收从装置100的实施例发送的多个参数化音频流125。在图8的示意图800 中,呈现器510包括第一呈现单元730-1和第二呈现单元730-2。例如,第一呈现单元730-1 包括第一乘法器802和第二乘法器804。第一呈现单元730-1的第一乘法器802可被配置 用于向第一分段的第一参数化音频流725-1的分段音频信号Wi应用第一加权因子803 (例 如,),W通过第一呈现单元730-1获得直接声音子流810,而第一呈现单元730-1的 第二乘法器804可被配置用于向第一分段的第一参数化音频流725-1的分段音频信号Wi应 用第二加权因子805 (例如^/否),^通过第一呈现单元730-1获得扩散子流812。此外,第 二呈现单元730-2可包括第一乘法器806和第二乘法器808。例如,第二呈现单元730-2的 第一乘法器806可被配置用于向第二分段的第二参数化音频流725-2的分段音频信号胖2应 用第一加权因子807 (例如),W通过第二呈现单元730-2获得直接声音流814,而第 二呈现单元730-2的第二乘法器808可被配置用于向第二分段的第二参数化音频流725-2 的分段式音频信号胖2应用第二加权因子809 (例如^/否),^通过第二呈现单元730-2获得 扩散子流816。在实施例中,第一呈现单元730-1和第二呈现单元730-2的第一和第二加权 因子803、805、807、809是从对应的扩散性参数^1导出。根据实施例,第一呈现单元730-1 可包括增益因子乘法器811、解相关处理块813和组合单元832,而第二呈现单元730-2可 包括增益因子乘法器815、解相关处理块817和组合单元834。例如,第一呈现单元730-1 的增益因子乘法器811可被配置用于向由第一呈现单元730-1的第一乘法器802输出的直 接声音子流810应用从块822进行的矢量基幅度平移(VBA巧运算所获得的增益因子。此 夕F,第一呈现单元730-1的解相关处理块813可被配置用于向第一呈现单元730-1的第二 乘法器804的输出的扩散子流812应用解相关/增益运算。此外,第一呈现单元730-1的 组合单元832可被配置用于组合从增益因子乘法器811获得的信号和解相关处理块813获 得的信号W获得第一分段的分段扬声器信号735-1。例如,第二呈现单元730-2的增益因子 乘法器815可被配置用于向由第二呈现单元730-2的第一乘法器806输出的直接声音子流 814应用从由块824进行的矢量基幅度平移(VBA巧运算所获得的增益因子。此外,第二呈 现单元730-2的解相关处理块817可被配置用于向第二呈现单元730-2的第二乘法器808 的输出的扩散子流816应用解相关/增益运算。此外,第二呈现单元730-2的组合单元834 可被配置用于组合从增益因子乘法器815获得的信号和解相关处理块817获得的信号W获 得第二分段的分段扬声器信号735-2。
[0化5] 在实施例中,由第一呈现单元730-1和第二呈现单元730-2的块822、824进行的 矢量基幅度平移(VBA巧运算取决于对应的到达方向值OA)参数0 1。如在图8中示例性地示 出,组合器520可被配置用于组合输入分段扬声器信号515W获得多个扬声器信号525 (例 如,心山,…)。如在图8中示例性地示出,组合器520可包括第一求和单元842和第二求 和单元844。例如,第一求和单元842被配置成对第一分段的分段扬声器信号735-1中的第 一个分段扬声器信号与第二分段的分段扬声器信号735-2中的第一个分段式扬声器信号 进行求和W获得第一扬声器信号843。此外,第二求和单元844可被配置成对第一分段的 分段扬声器信号735-1中的第二个分段扬声器信号与第二分段的分段扬声器信号735-2中 的第二个分段扬声器信号进行求和W获得第二扬声器信号845。第一扬声器信号843和第 二扬声器信号845可构成多个扬声器信号525。参考图8的实施例,应该注意,针对每个分 段,潜在地,可W生成针对回放的全部扬声器的扬声器信号。
[0056] 图9示出针对在参数化信号表示域中包括信号修正的对记录空间的两个分段或 扇区的示例扬声器信号计算的示意图900。图9的示意图900中的示例扬声器信号计算基 本上对应于图7的示意图700中的示例扬声器信号计算。然而,在图9的示意图900中的 示例扬声器信号计算包括附加信号修正。
[0化7] 在图9的示意图900中,装置100包括分段器110和生成器120W获得多个参数 化音频流125 ( 0。Wi)。此外,装置500包括呈现器510和组合器520W获得多个扬声 器信号525。
[005引例如,装置100可进一步包括用于修正在参数化信号表示域中的多个参数化音频 流125(0 的修正器910。此外,修正器910可被配置成使用对应的修正控制参数 905来修正参数化音频流125(0 中的至少一个。W此方式,可获得第一分段的第 一修正参数化音频流916和第二分段的第二修正参数化音频流918。第一修正参数化音频 流916和第二修正参数化音频流918可构成多个修正参数化音频流915。在实施例中,该装 置100可被配置用于发送多个修正参数化音频流915。此外,该装置500可被配置用于接收 从装置100发送的多个修正参数化音频流915。
[0059] 通过提供根据图9的示例扬声器信号计算,可W实现更灵活的空间音频记录和再 现方案。更具体地,当在参数域中应用修正时,可W获得更高质量的输出信号。通过在生成 多个参数化音频表示(流)之前对输入信号进行分段,获得了更高的空间选择性,其使得能 够更好地允许有差别地处理所捕获的声场的不同分量。
[0060] 图10示出根据图1的用于生成多个参数化音频流125( 0。的装置100的 实施例的分段器110提供的输入分段音频信号115 (Wi,Xi,Yi,Zi)的示例极性图案的示意图 1000。在图10的示意图1000中,在二维(2D)平面的相应极坐标系中可视化示例输入分段 音频信号115。类似地,可W在=维(3D)空间的相应球坐标系中可视化示例输入分段音频 信号115。图10的示意图1000示例性地描绘第一输入分段音频信号(例如,全向信号Wi) 的第一定向响应1010、第二输入分段音频信号(例如,第一定向信号Xi)的第二定向响应 1020和第=输入分段音频信号(例如,第二定向信号Yi)的第=定向响应1030。此外,在 图10的示意图1000中示例性地示出与第二定向响应1020相比具有相反符号的第四定向 响应1022和与第S定向响应1030相比具有相反符号的第五定向响应1032。因而,不同的 定向响应1010、1020、1030、1022、1032 (极性图案)可由分段器110用于输入分段音频信号 115。该里须指出的是,输入分段音频信号115可W取决于时间和频率,即,Wi=Wi(m,k),Xi =Xi(m,k)化及Yi=Yi(m,k),其中(m,k)为指示在空间音频信号表示中的时间-频率平铺 (tile)的索引。
[0061] 在该上下文中,应注意,图10示例性地示出单一输入信号集合的极坐标图(polar diagram),即针对单一扇区i的信号115(例如,[Wi、Xi、Yj)。此外,极坐标图曲线的正部分 和负部分一起分别表示信号的极坐标图(例如,部分1020和1022 -起示出信号Xi的极坐 标图,而部分1030和1032 -起示出信号Yi的极坐标图)。
[0062] 图11示出用于执行声场记录的示例麦克风配置1110的示意图1100。在图11的 示意图1100中,麦克风配置1110可包括定向麦克风1112、1114、1116的多个线性阵列。图 11的示意图1100示例性地示出可W如何将二维(2D)观察空间划分成记录空间的不同分 段或扇区 1101、1102、1103(例如,Segi,i= 1、2、3)。此处,图 11 的分段 1101、1102、1103 可对应于在图6中示例性地示出的分段Segi。类似地,示例麦克风配置1110也可W用在S 维(3D)观察空间中,其中该S维(3D)观察空间可W被划分成用于给定的麦克风配置的分 段或扇区。在实施例中,在图11的示意图1100中的示例麦克风配置1110可W用于为根据 图1的装置100的实施例提供输入空间音频信号105。例如,麦克风配置1110的定向麦克 风1112、1114、1116的多个线性阵列可被配置成针对输入空间音频信号105提供不同的定 向信号。通过使用图11的示例麦克风配置1110,可W使用声场的基于分段(或基于扇区) 的参数模型来优化空间音频记录质量。
[0063] 在先前的实施例中,装置100和装置500可被配置成在时频域内操作。
[0064] 总之,本发明的实施例设及高质量空间音频记录和再现领域。使用声场的基于分 段或基于扇区的参数模型允许也用相对紧凑的麦克风配置记录复杂的空间音频场景。与由 当前状态的本领域方法假设的声场的简单全局模型相反,可针对多个分段确定参数信息, 在该些分段中划分整个观察空间。因此,基于参数信息连同所记录的音频声道,可W执行针 对几乎任意的扬声器配置的呈现。
[0065] 根据实施例,针对平面二维(2D)声场记录,关注的整个方位角度范围可W被划分 成覆盖缩小的方位角度范围的多个扇区或分段。类似地,在3D的情况下,可W将完整立体 角度范围(方位角和仰角)划分成覆盖较小角度范围的扇区或分段。不同的扇区或分段也 可部分地重叠。
[0066] 根据实施例,各个扇区或分段W关联的定向度量为特征,该定向度量可用于指定 或参考对应的扇区或分段。该定向度量例如可W为指向(或来自)扇区或分段的中屯、的矢 量,或者在2D的情况下为方位角,或者在3D的情况下为方位角与仰角的集合。分段或扇区 可W被称为2D平面内的方向子集或3D空间内的方向子集该两者。为了简化呈现,先前的 实施例是针对2D情况而示例性地描述的;然而,延伸至3D配置是直接的。
[0067] 参照图6,定向度量可被定义为矢量,针对分段Seg3,该矢量从原点(即,具有坐标 (〇,〇)的中屯、)指向右(即,朝向极坐标图中的坐标(1,〇)),或者如果在图6中,从(或参 考)X轴(水平轴)对角度进行计数,则为0度的方位角。
[0068] 参考图1的实施例,装置100可被配置成接收多个麦克风信号作为输入(输入空 间音频信号105)。该些麦克风信号例如可W从实际记录得到,或者可W通过在虚拟环境中 进行仿真记录而人工地生成。从该些麦克风信号,可W确定对应的分段麦克风信号(输入 分段音频信号115),其与对应的分段(Segi)相关联。分段麦克风信号W特定特性为特征。 与关联的角扇区外部的敏感度相比,分段麦克风信号的定向拾取图案可示出在该扇区内显 著增加的敏感度。参照图6说明360
°全方位角度范围的分段和关联的分段麦克风信号的 拾取图案的示例。在图6的实施例中,与扇区相关联的麦克风的指向性展现屯、形图案,其根 据由对应扇区涵盖的角度范围而旋转。例如,指向0°的与扇区3(Seg3)相关联的麦克风的 指向性也指向0°。此处,应注意的是,在图6的极图中,最大敏感度的方向为所描绘的曲 线的半径包括最大值的方向。因而,Seg3对于来自右侧的声音分量具有最高敏感度。换言 之,分段Seg3在方位角0°具有其优选方向(假设角度从X轴算起)。
[0069] 根据实施例,针对每个扇区,可W连同基于扇区的扩散性参数忡1) 一起确定DOA 参数(9i)。在简单实现中,扩散性参数(Wi)对于全部扇区而言可W是相同的。原则上, 可W(例如,由生成器120)应用任何优选的DOA估计算法。例如,可W将DOA参数(01)解 释为反映大部分声能在所考虑的扇区内行进的相反方向。因此,基于扇区的扩散性与在所 考虑的扇区内的扩散声能与总声能之比有关。应注意,针对每个频带,可时变地且单独地执 行参数估计(诸如用生成器120执行)。
[0070] 根据实施例,针对每个扇区,可W构成定向音频流(参数化音频流),该定向音频 流包括分段麦克风信号(Wi)W及基于扇区的DOA和扩散性参数(0。Wi),其主要地描述 在由该扇区表示的角度范围内的声场的空间音频属性。例如,可W使用参数化定向信息 (0 1、Wi)W及分段麦克风信号125(例如,Wi)中的一个或多个来确定用于回放的扬声器 信号525。由此,可W针对每个分段确定分段扬声器信号515的集合,然后诸如可W由组 合器520组合(例如,求和或混合)分段扬声器信号515的集合W建立用于回放的最终 扬声器信号525。例如可W通过应用示例矢量基幅度平移而将在扇区内的直接声音分量 呈现为点状源(如在W下中所述;V.化化ki;Vi;rtualsoundsourcepositioningusing VectorBaseAmpl;UudePanning(使用矢量基幅度平移的虚拟声源定位),J.Audio化g. Soc. ,Vol. 45,pp. 456-466, 1997),而可W同时从数个扬声器回放扩散声音。
[0071] 图7的框图示出了如W上针对两个扇区的情况而描述的扬声器信号525的计算。 在图7中,粗箭头表示音频信号,而细箭头表示参数化信号或控制信号。在图7中,示意性 地示出由分段器110生成分段麦克风信号115、针对每个扇区(例如,由生成器120)应用参 数化空间信号分析(块720-U720-1)、由呈现器510生成分段扬声器信号515W及由组合 器520组合分段扬声器信号515。
[0072] 在实施例中,分段器110可被配置用于根据麦克风输入信号105的集合生成分段 麦克风信号115。此外,生成器120可被配置用于针对每个扇区而应用参数化空间信号分 析,W使得将获得针对每个扇区的参数化音频流725-1、725-2。例如,参数化音频流725-1、 725-2中每一个可包括至少一个分段音频信号(例如,分别为Wi、W2)W及关联的参数信息 (例如,分别为D0A参数0 1、0 2和扩散性参数呈现器510可被配置用于基于针 对特定扇区生成的参数化音频流725-1、725-2,针对每个扇区执行分段扬声器信号515的 生成。组合器520可被配置用于执行分段扬声器信号515的组合W获得最终扬声器信号 525。
[0073] 图8中的框图示出了针对被示为二阶B格式麦克风信号应用的示例的两个扇区的 示例情况的扬声器信号525的计算。如在图8的实施例中所示,可如前所述那样通过混合 或矩阵化运算(例如,通过块110)根据一组输入麦克风信号105生成两个(组)分段麦克 风信号715-1 (例如,[Wi、Xi、Yi])和715-2 (例如,[W2、X2、Y2])。针对两个分段麦克风信号 中的每一个,可W执行(例如由块720-U720-2进行的)定向音频分析,从而针对第一扇区 和第二扇区分别得到定向音频流725-1 (例如0 1、Wi、Wi)化及725-2 (例如,0 2、^2、胖2)。
[0074] 在图8中,可W如下分别地针对每个扇区生成分段扬声器信号515。可W通过用从 扩散性参数导出的乘数803、805、807、809进行加权来将分段音频分量Wi划分成两个互 补子流810、812、814、816。一个子流可主要载有直接声音分量,而另一子流可主要载有扩 散声音分量。可W使用由DOA参数0;确定的平移增益811、815来呈现直接声音子流810、 814,而可W使用解相关处理块813、817来不相关地呈现扩散子流812、816。
[0075] 作为示例最终步骤,可W(例如由块520)组合分段扬声器信号515W获得用于扬 声器再现的最终输出信号525。
[0076] 参考图9的实施例,应该提及的是,在确定用于回放的实际扬声器信号525之前, 也可(例如,由修正器910)修正(参数化音频流125内的)估计参数。例如,可对DOA参 数0 1进行重新映射W实现对声音场景的操纵。在其它情况下,如果包括在某些扇区中的 来自某个或全部方向的声音不是期望的,则在计算扬声器信号525之前,可使该些扇区的 音频信号(例如Wi)衰减。类似地,如果主要地或仅仅呈现直接声音,则可W使扩散声音分 量衰减。针对分段成两个分段的示例,在图9中示例性地示出包括参数化音频流125的修 正910的该处理。
[0077] W下将描述在利用先前的实施例执行的示例2D情况中的基于扇区的参数估计的 实施例。假设用于捕获的麦克风信号可W被转换成所谓的二阶B格式信号。二阶B格式信 号可W由对应麦克风的指向性图案的形状描述:
[007引
[0083] 其中,净表示方位角。对应的B格式信号(例如,图8的输入105)由W(m,k)、 X(m,k)、Y(m,k)、U(m,k)和V(m,k)表示,其中m和k分别表示时间和频率索弓I。现在假设 与第i个扇区相关联的分段麦克风信号具有指向性图案qi(&)。然后,可W(例如由块110) 确定附加麦克风信号115,Wi(m,k)、Xi(m,k)、Yi(m,k)具有可通过下式表示的指向性图案;
[0084]
[0086]
[0087]在图10中示出了在示例屯、形图案q林)=0.5 + 0.5cos(9 +域)的情况下所 描述的麦克风信号的指向性图案的若干示例。第i个扇区的优选方向取决于方位角?1。 在图10中,虚线指示与W实线描绘的定向响应1020、1030相比具有相反符号的定向响应 1022、1032 (极性图案)。
[00蝴注意,针对@1= 0的示例情况,信号Wi(m,k)、Xi(m,k)、Yi(m,k)可W根据下式通 过混合输入分量W、X、Y、U、V来从二阶B格式信号确定;
[0089] Wi(m,k)= 0.抓(m,k)+0. 5X(m,k)(10)
[0090] Xi (m,k) = 0. 2抓(m,k) +0. 5X (m,k) +0. 25U (m,k) (11)
[OOW] Yi (m,k) = 0. 5Y(m,k) +0. 25V(m,k) (。)
[0092] 例如在图2的块110中执行该混合运算。注意,qi(0)的不同选择导致不同混合法 贝1似从二阶B格式信号获得分量Wi、Xi、Yi。
[0093] 根据分段音频信号115(即,Wi(m,k)、Xi(m,k)、Yi(m,k)),接着可W通过计算基于扇 区的活性强度矢量来(例如,由块120)确定与第i个扇区相关联的DOA参数0i;
[0094]
(13)
[0095] 其中,Re{A}表示复数A的实数部分,化及*表示复共辆。此外,P。是空气密度W 及C为声速。例如W单位矢量ei(m,k)表示的期望D0A估计值0i(m,k)可W通过下式来 获得:
[0096]
(H)
[0097] 可W进一步确定基于扇区的声场能量相关量:
[009引
(15)
[0099] 然后,第i个扇区的期望扩散性参数Wi(m,k)可化围过下式来确定:
[0100]
(16)
[010U其中,g表示适当的缩放因子,EW为期望算子,W及IIII表示矢量范数。可W表 明,在纯扩散声场的情况下,如果仅存在平面波且其具有小于或等于1的正值,则扩散性参 数Wi(m,k)为零。一般而言,可W针对扩散性定义替选的映射函数,该扩散性展现相似行 为,即仅针对直接声音而赋予0,而针对完全扩散声场而趋近于1。
[0102] 参照图11的实施例,参数估计的替选实现可W用于不同麦克风配置。如图11中 示例性地示出,可W使用定向麦克风的多个性线阵列1112、1114、1116。图11也示出针 对给定的麦克风配置、可W如何将2D观察空间划分成扇区1101、1102、1103的示例。分 段麦克风信号115可W通过应用于线性麦克风阵列1112、1114、1116中的每一个的波束 形成技术(诸如过滤W及和波束形成)来确定。也可省略波束形成,即定向麦克风的指 向性图案可用作获得针对每个扇区(Segi)展示期望空间选择性的分段音频信号115。 在每个扇区内的DOA参数0i可W使用常用估计技术来估计,诸如"ESPRIT"算法(如 在W下中所述;R.Roy和T.Kailath;ESPRIT-estimationofsi即alparametersvia rotionalinvariancetechniques(通过旋转不变性技术对信号参数的ESPRI估计),IE邸 TransactionsonAcoustics,SpeechandSignalProcessing,vol.37,no. 7,pp. 984995, 1989年7月)。针对每个扇区的扩散性参数例如可W通过评估DOA估计值的时间 变化来确定(如在W下中所述;J.Ahonen、V.化;Lkki;Diffusenessestimationusing temporalvariationofintensityectors(使用强度矢量的时间变化的扩散性估计), IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics, 2009 年。WAS-PAA'09,pp. 285-288, 2009 年 10 月 18-21 日)。替选地,可W采用不同麦 克风和直接与扩散声音比之间的相干性的已知关系(如在W下中所述;〇.化iergart、 G.DelGaldo、E.A.P.Habets;Signal-t〇-reverberantratioestimationbasedonthe complexspatialco
herencebetweenomnidirectionalmicrophones(基于全向麦克 风之间的复杂空间相关性的信号与混响比估计),IE邸InternationalConferenceon Acoustics,SpeechandSi即alProcessing(ICASSFO,2012,卵.309-312,2012 年 3 月 25至 30 日)。
[0103] 图12示出了用于获得更高阶麦克风信号(例如,输入空间音频信号105)的全向 麦克风1210的示例圆形阵列的示意图1200。在图12的示意图1200中,全向麦克风1210 的圆形阵列例如包括沿着极坐标图中的圆圈(虚线)布置的5个等距麦克风。在实施例 中,全向麦克风1210的圆形阵列可W用于获得更高阶化0)麦克风信号,如W下将描述的那 样。为了根据(由全向麦克风1210提供的)全向麦克风信号来计算示例二阶麦克风信号 U和V,应该使用至少5个独立麦克风信号。该例如可W使用均匀圆形阵列扣CA)来简洁地 实现,如图12中示例性地示出的圆形阵列。在某个时间和频率从麦克风信号得到的矢量例 如可W用离散傅里叶变换值FT)来变换。然后,可W通过DFT系数的线性组合来获得麦克 风信号W、X、Y、U和V(即输入空间音频信号105)。注意,DFT系数表示根据麦克风信号的 矢量计算出的傅里叶级数的系数。
[0104] 设Tm表示由指向性图案限定的广义的m阶麦克风信号:
[0105]
m
[0106] 其中,谷隶示方位角,使得
[0107]
[010 引
[0117] 其中,j为虚数单位,k为波数,r和为限定极坐标系的半径和方位角,化(?)为 第一种m阶贝赛尔函数,W及为在极坐标(r, 9).上测量出的压力信号的傅里叶级数的系 数。
[0118] 应注意,在计算(较高阶)B格式信号的阵列设计和实现上必须审慎避免由于贝赛 尔函数的数值属性导致的过度噪声放大。
[0119] 可W发现与所述的信号变换相关的数学背景和推导,例如A.Kuntz,Wavefield analysisusingvirtualcir州larmicrophonearrays(使用虚拟圆形麦克风阵列的波场 分析),Dr.Hut, 2009,ISBN;978-3-86853-006-3。
[0120] 本发明的其他实施例设及一种用于根据从在记录空间中进行记录而获得的输入 空间音频信号105生成多个参数化音频流125 ( 0。Wi)的方法。例如,该输入空间音频 信号105包括全向信号W和多个不同的定向信号X、Y、Z、U、V。该方法包括从输入空间音 频信号105 (例如,全向信号W和多个不同定向信号X、Y、Z、U、V)提供至少两个输入分段音 频信号115 (W。X。Y。Zi),其中至少两个输入分段音频信号115 (W。X。Y。Zi)与记录空间的 对应分段Segi相关联。此外,该方法包括针对至少两个输入分段音频信号115 (W。Xi,Yi,Zi) 中的每一个生成参数化音频流W获得多个参数化音频流125 ( 0。。
[0121] 本发明的其他实施例设及一种用于根据从记录在记录空间中的输入空间音频信 号105得到的多个参数化音频流125 ( 0。Wi)生成多个扬声器信号525 (Li,L2,…)的方 法。该方法包括从多个参数化音频流125( 0。提供多个输入分段扬声器信号515, 其中输入分段扬声器信号515与记录空间的对应分段Segi相关联。此外,该方法包括组合 输入分段扬声器信号515W获得多个扬声器信号525 (L。L2,…)。
[0122] 虽然已在框图的上下文中描述本发明,但本发明也可W通过计算机实现的方法来 实现,在附图中,块表示实际或逻辑硬件部件。在后一种情况下,块表示对应的方法步骤,其 中,该些步骤代表由对应的逻辑或物理硬件块执行的功能。
[0123] 对于说明本发明的原理,所描述的实施例仅仅是说明性的。应了解,对于本领域的 技术人员而言,本文中描述的布置和细节的修改和变型将是显而易见的。因此,意图仅受所 附的申请权利要求的范围所限定而不受通过实施例的描述和说明所呈现的特定细节所限 定。
[0124] 虽然已在装置的上下文中描述了若干方面,但明显的是,该些方面也表示对应方 法的描述,其中块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文 中描述的方面也表示对应装置的对应块或项目或特征的描述。部分或全部方法步骤可通过 (或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行。在一些实施例中, 最重要的方法步骤中的某一步骤或更多步骤可由该样的装置执行。
[0125] 参数化音频流125 ( 0。可W存储在数字存储介质上或者可W在传输介质 (诸如无线传输介质或有线传输介质(诸如互联网))上传输。
[01%] 根据某些实现要求,本发明的实施例可硬件或W软件实现。该实现可W使 用其上存储有可电子读取的控制信号的数字存储介质来执行,例如软盘、DVD、藍光盘、CD、 ROM、EPROM、EEPROM或闪存,该些数字存储介质与可编程计算机系统协作(或者能够协作) W使得执行相应的方法。因此,数字存储介质可W是计算机可读取的。
[0127] 根据本发明的一些实施例包括具有可电子读取的控制信号的数据载体,其能够与 可编程计算机系统协作W使得执行本文中描述的方法之一。
[0128] 一般而言,本发明的实施例可W被实现为具有程序代码的计算机程序产品,当该 计算机程序产品在计算机上运行时,程序代码可操作用于执行该些方法之一。程序代码例 如可存储在机器可读取载体上。
[0129] 其它实施例包括存储在机器可读载体上的、用于执行本文中描述的方法之一的计 算机程序。
[0130] 换言之,本发明的实施例因而是一种具有程序代码的计算机程序,当该计算机程 序在计算机上运行时,该程序代码用于执行本文中描述的方法之一。
[0131] 因此,本发明方法的又一实施例为一种数据载体(或数字存储介质或计算机可读 介质),该数据载体包括记录在其上的用于执行本文中描述的方法之一的计算机程序。该数 据载体、数字存储介质或记录介质典型通常为有形的和/或非暂态的。
[0132] 因此,本发明方法的又一实施例为表示用W执行本文中描述的方法之一的计算机 程序的数据流或信号序列。该数据流或信号序列例如可被配置成经由数据通信连接(例如 经由互联网)传送。
[0133] 又一实施例包括被配置成或被适配成执行本文中描述的方法之一的处理装置,例 如计算机或可编程逻辑设备。
[0134] 又一实施例包括一种其上安装有用于执行本文中描述的方法之一的计算机程序 的计算机。
[01巧]本发明方法的又一实施例包括一种装置或系统,其被配置成(例如电子地或光学 地)传送用于执行本文中描述的方法之一的计算机程序。接收器可W为例如计算机、移动 装置、存储器装置等。该装置或系统例如可包括用于将计算机程序传送至接收器的文件服 务器。
[0136] 在一些实施例中,一种可编程逻辑装置(例如可现场编程口阵列)可用于执行本 文中描述的方法的功能的部分或全部。在一些实施例中,可现场编程口阵列可与微处理器 一起进行操作W便执行本文中描述的方法之一。一般,该些方法优选地由任意硬件装置执 行。
[0137] 本发明的实施例提供了使用简单且紧凑的麦克风配置的高质量、逼真的空间声音 记录和再现。
[0138] 本发明的实施例基于定向音频编码值irAC)(如在W下中所述;T.Lo化i、 J.Merimaa、V.Pulkki;MethodforReproducingNaturalorModifiedSpatial ImpressioninMultichannelListening(在多声道收听中再现自然或修正空间感受的 方法),美国专利第7,787,63882号,2010年8月31日;^及乂.化化1^记口3^315〇1111(1 IteproductionwithDirectionalAudioCoding(利用定向音频编码的空间声音再现), J.Audio化g.Soc.,Vol.55,No.6, PP. 503-516, 2007),其可W与不同麦克风系统W及与任 意扬声器设备一起使用。DirAC的益处在于,使用多声道扬声器系统来尽可能精准地再现现 有声学环境的空间感受。在所选择的环境内,可W用全向麦克风(W)W及用一组麦克风测 量响应(连续声音或脉冲响应),该组麦克风使得能够测量声音的到达方向值0A)和声音的 扩散性。可能的方法是应用与对应的笛卡尔坐标轴对齐的=个8字形麦克风狂,Y,Z)。达 成该目的的方式是使用"声场"麦克风,其直接得到所有期望响应。令人关注的是,全向麦 克风的信号表示声压,而偶极信号与粒子速度矢量的对应元素成比例。
[0139] 根据该些信号,可W在具有与人类听觉系统的分辨率相对应的分辨率的适当的时 间/频率光栅中测量DirAC参数,即声音的D0A和所观察的声场的扩散性。然后,可W基 于DirAC参数而根据全向麦克风信号确定实际扬声器信号(如在W下中所述;V.化化ki: SpatialSoundReproductionwithDirectionalAudioCoding(利用定向音频编码的空 间声音再现),J.AudioE;ng.Soc. ,Vol. 55,No. 6,pp. 503-516, 2007)。可W使用平移技术来 仅由数量少的扬声器(例如,一个或两个)回放直接声音分量,而可W同时从全部扬声器回 放扩散声音分量。
[0140] 基于DirAC的本发明的实施例表示一种利用紧凑麦克风配置的空间声音记录的 简单办法。具体地,本发明避免了现有技术中限制实际上可实现的声音质量和经验的一些 系统性缺点。
[0141] 与传统的DirAC相反,本发明的实施例提供了一种较高质量的参数化空间音频处 理。传统的DirAC依赖于声场的简单全局模型,从而针对整个观察空间只采用一个D0A和一 个扩散性参数。其基于对于每个时间/频率平铺、声场可W仅由一个单一直接声音分量(诸 如平面波)和一个全局扩散性参数表示的假设。然而,结果实际上经常与声场有关的该简 化假设并不适用。在复杂的真实世界声学尤其如此,例如在其中诸如说话者或乐器的多个 声源同时活动。另一方面,本发明的实施例不会导致所观察的声场的模型不匹配,并且使得 对应的参数估计值更准确。也能防止模型不匹配产生,尤其在收听扬声器输出时,直接声音 分量扩散地呈现并且无法感知方向的情况下。在实施例中,解相关器可W用于产生从所有 扬声器回放的不相关扩散声音(如在W下中描述;V.Pu化ki;SpatialSoundR巧ro化ction withD
irctionalAudioCoding(利用定向音频编码的空间声音再现),J.AudioElng.Soc .,Vol. 55,No. 6,pp. 503-516, 2007)。与解相关器经常引入不期望的附加室内效应的现有技 术相反,本发明可W更准确地再现具有某个空间程度的声源(与使用DirAC的简单声场模 型的情况相反,其不能精准地捕获该样的声源)。
[0142] 本发明的实施例提供了假设的信号模型中的更高自由度,从而允许复杂声音场景 中的更佳模型匹配。
[0143] 此外,在使用指向性麦克风来产生扇区(或任何其它时不变的线性(例如,物理) 装置)的情况下,能够获得提高的麦克风的固有指向性。因此,不太需要应用时变增益W避 免不明确的方向、串扰和染色。该导致音频信号路径中的较少非线性处理,从而导致较高质 量。
[0144] 一般,更多直接声音分量可W被呈现为直接声源(点源/平面波源)。结果,出现 较少解相关性假象,可感知更多可(正确地)定位的事件,并且可实现更确切的空间再现。
[0145] 本发明的实施例提供了在参数域内提高的操控性能,例如定向滤波(如在W下中 所述;M.Kallinger、H.Ochsenfeld、G.DelGaldo、F.Kuech、D.Mahne、R.Schultz-Amling和 0.Thiergart;ASpatialFilteringApproachforDirectionalAudioCoding(定向音 频编码的空间滤波方法,第126届AES会议,文件7653,德国墨巧黑2009年),原因在于总 信号能量的较大部分归因于具有与其相关联的正确D0A的直接声音事件,并且可获得较大 信息量。更多(参数)信息的提供例如允许分离多个直接声音分量或者也分离来自从不同 方向撞击的早期反射的直接声音分量。
[0146] 具体地,实施例提供了下列特征。在2D情况下,可W将全方位角范围分成覆盖缩 小的方位角范围的扇区。在3D的情况下,可W将全立体角范围分成覆盖缩小的立体角范围 的扇区。每个扇区可W与优选的角范围相关联。针对每个扇区,可W根据所接收到的麦克 风信号确定分段麦克风信号,所接收到的麦克风信息主要包括从分配给特定扇区的/特定 扇区覆盖的方向到达的声音。该些麦克风信号也可通过仿真虚拟记录来人工确定。针对每 个扇区,可W执行参数化声场分析W确定定向参数,诸如D0A和扩散性。针对每个扇区,参 数化空间信息值0A和扩散性)主要描述与该特定扇区相关联的声场的角度范围的空间性 质。在回放的情况下,针对每个扇区,扬声器信号可基于指向性参数和分段麦克风信号来确 定。然后,通过组合所有扇区的输出来获得总输出。在操纵的情况下,在计算回放的麦克风 信号之前,也可修改估计参数及/或分段音频信号W实现该声音场景的操纵。
【主权项】
1. 一种用于根据从在记录空间中进行记录而获得的输入空间音频信号(105)生成多 个参数化音频流(125) ( Θ i,WpWi)的装置(100),所述装置(100)包括: 分段器(110),用于从所述输入空间音频信号(105)提供至少两个输入分段音频信号 (115) (Wi, Xi, Yi, Zi),其中所述至少两个输入分段音频信号(115) (Wi, Xi, Yi, Zi)与所述记录 空间的对应分段(Segi)相关联;以及 生成器(120),用于针对所述至少两个输入分段音频信号(115) (WDUi^i)中的每一 个,生成参数化音频流,以获得所述多个参数化音频流(125) ( Θ i,Wi, Wi)。2. 根据权利要求1所述的装置(100), 其中,所述记录空间的所述分段(Segi)均表示在二维(2D)平面内或在三维(3D)空间 内的方向子集。3. 根据权利要求1或2所述的装置(100), 其中,所述记录空间的所述分段(Segi)均以关联的定向度量为特征。4. 根据权利要求1至3中任一项所述的装置(100), 其中,所述装置(100)被配置用于执行声场记录以获得所述输入空间音频信号(105); 其中,所述分段器(105)被配置成将关注的全角度范围划分成所述记录空间的所述分 段(Segi); 其中,所述记录空间的所述分段(Segi)均覆盖相比于所述关注的全角度范围缩小的角 度范围。5. 根据权利要求1至4中任一项所述的装置(100), 其中,所述输入空间音频信号(105)包括全向信号(W)和多个不同的定向信号 (X,Υ,Ζ,U,V)。6. 根据权利要求1至5中任一项所述的装置(100), 其中,所述分段器(110)被配置成使用混合运算来根据所述全向信号(W)和所述多个 不同的定向信号(X,Y,Z,U,V)生成所述至少两个输入分段音频信号(115) (Wi, Xi, Yi, Zi),所 述混合运算取决于所述记录空间的所述分段(Segi)。7. 根据权利要求1至6中任一项所述的装置(100), 其中,所述分段器(110)被配置成针对所述记录空间的所述分段(Segi)中的每一个而 使用指向性图案(3〇5) (qi(O)); 其中,所述指向性图案(305) (qi(S))指示所述至少两个分段音频信号(115) O^XiJpZi)的指向性。8. 根据权利要求7所述的装置(100), 其中,所述指向性图案(305) (qi(〇))通过下式来给出:其中,a和b表示经修正以获得期望的指向性图案(305) (qi(e))的乘数; 其中,θ.表示方位角,以及示所述记录空间的第i个分段的优选方向。9. 根据权利要求1至8中任一项所述的装置(100), 其中,所述生成器(120)被配置用于获得所述多个参数化音频流(125) ( Θ i,Ψ?,Wi); 其中,所述多个参数化音频流(125) ( Θ i,Ψ?,Wi)均包括所述至少两个输入分段音频信 号(115) (Wi, Xi, Yi, Zi)的分量(Wi)和对应的参数化空间信息(Θ i,Ψ)。10. 根据权利要求9所述的装置(100), 其中,所述生成器(120)被配置用于针对所述至少两个输入分段音频信号(115) (Wi, Xi, Yi, Zi)中的每一个,执行参数化空间分析,以获得所述对应的参数化空间信息 (ΘΑ)。11. 根据权利要求9或10所述的装置(100), 其中,所述参数化音频流(125) (θρ Ψ?,Wi)中的每一个的所述参数化空间信息 (Θ i,Ψ)包括到达方向(DOA)参数(Θ D和/或扩散性参数(Wi)。12. 根据权利要求1至11中任一项所述的装置(100),还包括: 修正器(910),用于修正参数化信号表示域中的所述多个参数化音频流(125) (θ〇 Ψ,); 其中,所述修正器(910)被配置成使用对应的修正控制参数(905)来修正所述参数化 音频流(125) ( Θ i,Wi, Wi)中的至少一个。13. -种用于根据从记录在记录空间中的输入空间音频信号(105)得到的多个参数化 音频流(125) ( Θ i,WpWi)来生成多个扬声器信号(525) (L1, L2,…)的装置(500),所述装 置(500)包括: 呈现器(510),用于从所述多个参数化音频流(125) ( Θ i,Wi, Wi)提供多个输入分段扬 声器信号(515),其中所述输入分段扬声器信号(515)与所述记录空间的对应分段(Segi) 相关联;以及 组合器(520),用于组合所述输入分段扬声器信号(515)以获得所述多个扬声器信号 (525) (L1, L2,…)。14. 根据权利要求13所述的装置(500), 其中,所述呈现器(510)被配置用于接收所述多个参数化音频流(125) ( Θ i,Ψ?,Wi); 其中,所述多个参数化音频流(125) ( Θ i,WpWi)均包括分段音频分量(Wi)和对应的参 数化空间信息(Si, Ψ); 其中,所述呈现器(510)被配置用于使用所述对应的参数化空间信息(505) ( Θ i,Wi) 来呈现所述分段音频分量(Wi)中的每一个,以获得所述多个输入分段扬声器信号(515)。15. -种用于根据从在记录空间中进行记录而获得的输入空间音频信号(105)生成多 个参数化音频流(125) ( Θ i,WpWi)的方法,所述方法包括: 从所述输入空间音频信号(105)提供至少两个输入分段音频信号(115) (WDUi^i), 其中所述至少两个输入分段音频信号(115) (Wi, Xi, Yi, Zi)与所述记录空间的对应分段 (Segi)相关联;以及 针对所述至少两个输入分段音频信号(Iis)(WDHJi)中的每一个,生成参数化音 频流,以获得所述多个参数化音频流(125) ( Θ i,Ψρ Wi)。16. -种用于根据从记录在记录空间中的输入空间音频信号(105)得到的多个参数化 音频流(125) ( Θ i,Wi, Wi)生成多个扬声器信号(525) (L1, L2,…)的方法,所述方法包括: 从所述多个参数化音频流(125) ( Θ i,Ψ?,Wi)提供多个输入分段扬声器信号(515),其 中所述输入分段扬声器信号(515)与所述记录空间的对应分段(Segi)相关联;以及 组合所述输入分段扬声器信号(515)以获得所述多个扬声器信号(525) (L1, L2,…)。17. -种计算机程序,具有用于当在计算机上执行所述计算机程序时执行根据权利要 求15所述的方法的程序代码。18. -种计算机程序,具有用于当在计算机上执行所述计算机程序时执行权利要求16 所述的方法的程序代码。
【专利摘要】一种用于根据从在记录空间中进行记录而获得的输入空间音频信号(105)生成多个参数化音频流(125)(θi,Ψi,Wi)的装置(100)包括分段器(110)和生成器(120)。分段器(110)被配置用于从输入空间音频信号(105)提供至少两个输入分段音频信号(115)(Wi,Xi,Yi,Zi),其中至少两个分段音频信号(115)(Wi,Xi,Yi,Zi)与记录空间的对应分段(Segi)相关联。生成器(120)被配置用于针对至少两个分段音频信号(115)(Wi,Xi,Yi,Zi)中的每一个,生成参数化音频流,以获得多个参数化音频流(125)(θi,Ψi,Wi)。
【IPC分类】H04S7/00, G10L19/008
【公开号】CN104904240
【申请号】CN201380066136
【发明人】法比安·屈希, 吉奥范尼·德加尔多, 阿希姆·孔茨, 维尔·普尔基, 阿尔雄蒂斯·波利蒂斯
【申请人】弗兰霍菲尔运输应用研究公司, 伊尔梅瑙工业大学
【公开日】2015年9月9日
【申请日】2013年11月12日
【公告号】CA2891087A1, EP2733965A1, EP2904818A1, US20150249899, WO2014076058A1