用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法
【专利说明】用于多声道缩混/上混情况的通用空间音频对象编码参数 化概念的解码器和方法
[0001] 本发明设及一种用于多声道缩混/上混情况的通用空间音频对象编码参数化概 念的设备和方法。
[0002] 在现代数字音频系统中,允许在接收方侧对所传输的内容进行与音频对象相关的 修改是主要趋势。该些修改包括在经由空间分布的扬声器进行多声道播放的情况下对专用 音频对象的空间重定位和/或音频信号的所选择部分的增益修改。该可W通过将音频内容 的不同部分分别传送到不同的扬声器来实现。
[0003] 换言之,在音频处理、音频传输W及音频存储领域中,越来越期望允许对面向对象 的音频内容播放进行用户交互,并且还需要利用多声道播放的扩展可能性W单独地擅染 (render)音频内容或者部分音频内容,W便改进听觉感受。由此,多声道音频内容的使用为 用户带来显著的改进。例如,可W获得S维听觉感受,该在娱乐应用中带来了改进的用户满 意度。然而,多声道音频内容在专业环境中,例如在电话会议应用中,同样是有用的,因为可 W通过使用多声道音频播放来改进讲话者的清晰度。为音乐作品的听众提供了另一个可能 的应用,W单独调整诸如人声部分或者不同乐器的不同部分(也称为"音频对象")或音轨 的播放电平和/或空间位置。用户可W出于个人品味的原因、出于从音乐作品中更容易地 改编一个或更多个部分的原因、出于教学目的、卡拉0K、排练等的原因而进行该种调整。
[0004] 对例如W脉冲编码调制(PCM)数据或者甚至是压缩音频格式的形式的全数字多 声道或多对象音频内容的直接的离散传输要求非常高的比特率。然而,W高比特率效率的 方式来传输和存储音频数据也是理想的。因此,为了避免由多声道/多对象应用引起的过 度资源负荷,人们乐于在音频质量与比特率要求之间接受合理的折衷。
[0005] 近来,在音频编码领域中,由例如运动图像专家组(MPEG)等提出了用于对多声道 /多对象音频信号的比特率高效的传输/存储的参数化技术。一个示例是作为面向声道的 方法[MPS、BCC]的MPEG环绕声(MP巧,或者作为面向对象的方法[JSC、SA0C、SA0C1、SA0C2] 的MPEG空间音频对象编码(SA0C)。另一种面向对象的方法称为"知情源分离"[ISS1、 ISS2、ISS3、ISS4、ISS5、ISS6]。该些技术旨在基于对声道/对象W及附加的辅助信息(side in化rmation)的缩混来重建期望的输出音频场景或者期望的音频源对象,其中辅助信息描 述所传输的/存储的音频场景和/或音频场景中的音频源对象。
[0006] W时间-频率选择方式来完成对该样的系统中的声道/对象相关的辅助信息的估 计和应用。因此,该样的系统采用时间-频率变换,诸如离散傅里叶变换值FT)、短时间傅里 叶变换(STFT)或者如正交镜像滤波器(QM巧组的滤波器组等。在图2中,使用MPEGSA0C 的示例来描绘该样的系统的基本原理。
[0007] 在STFT的情况下,时间维度由时间块的数量来表示,而频谱维度通过频谱系数 ("频率点"("bin"))的数量来捕获。在QMF的情况下,时间维度由时隙的数量来表示,而 频谱维度通过子频带的数量来捕获。如果通过随后应用的第二滤波器级来改进QMF的频谱 分辨率,则整个滤波器组称为混合QMF,并且高分辨率子频带称为混合子频带。
[0008] 如上文提及,在SA0C中,一般的处理是W时间-频率选择性的方式来执行的,并且 可W在每个频带内被描述如下,如图2中所示:
[000引-作为编码器处理的一部分,使用由元素di,I'''dw,p构成的缩混矩阵将N个输入音 频对象信号Si…Sw混缩成P个声道Xi'''Xp,另外,编码器提取描述输入音频对象的特性的辅 助信息(辅助信息估计器(SI巧模块)。针对MPEGSA0C,对象功率w.r.t的彼此关系是该 种辅助信息的最基本的形式。
[0010] -缩混信号和辅助信息被传输/存储。为此,例如使用诸如MPEG-l/2LayerII或 者111(31?1.11193)、1?66-2/4增强音频编码(44〇等的众所周知的感知音频编码器可^将缩 混音频信号压缩。
[0011] -在接收端,解码器在概念上试图使用所传输的辅助信息来从(经解码的)缩混信 号中恢复原始的对象信号("对象分离")。然后,在图2中,使用由系数…1'"描述的擅 染矩阵来将该些近似的对象信号§1 ... §N混合到由M个音频输出声道5^ ???知1表示的 目标场景中。在极端情况下,期望的目标场景可W是混合音中的仅一个源信号的擅染(源 分离方案),但是也可W是由所传输的对象组成的其他任意声学场景。例如,输出可W是单 声道、2声道立体声或者5. 1多声道目标场景。
[0012] 在音频编码领域中增加的可用存储/带宽W及正在进行的改进允许用户从稳定 增加的多声道音频制作的选择中进行选择。多声道5. 1音频格式已经是DVD和藍光制作中 的标准。具有甚至更多音频传输声道的新的音频格式如MPEG-H3D音频出现在人们面前, 该给终端用户提供了高度沉浸感的音频体验。
[0013] 目前参数化的音频对象编码方案被限制在最多两个缩混声道。他们仅可W在一定 程度上应用于多声道混合音,例如仅应用于两个所选择的缩混声道。该样,严重地限制了该 些编码方案提供给用户W将音频场景调整到他/她自己的偏好的灵活性,例如,关于改变 体育评论员和体育广播中的氛围的音频电平。
[0014] 此外,当前的音频对象编码方案在编码器侧的混合处理中仅提供了有限的可变 性。混合处理限于音频对象的时变混合,而不可能进行频变混合。
[0015] 因此如果可W提供用于音频对象编码的改进的概念则是非常有益的。
[0016] 本发明的目的在于提供用于音频对象编码的改进的概念。本发明的目的由根据权 利要求1的解码器、由根据权利要求14的方法W及由根据权利要求15的计算机程序来实 现。
[0017] 提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多 个音频输出声道的音频输出信号的解码器。缩混信号将一个或更多个音频对象信号编码。 解码器包括阔值确定器,用于根据两个或更多个音频对象信号中的至少一个的信号能量和 /或噪声能量、和/或者根据一个或更多个缩混声道中的至少一个的信号能量和/或噪声能 量来确定阔值。此外,解码器包括处理单元,用于根据阔值从一个或更多个缩混声道产生一 个或更多个音频输出声道。
[0018] 根据一个实施方式,缩混信号可W包括两个或更多个缩混声道,并且阔值确定器 可W被配置成根据两个或更多个缩混声道中的每个缩混声道的噪声能量来确定阔值。
[0019] 在一个实施方式中,阔值确定器可W被配置成根据两个或更多个缩混声道中的所 有噪声能量的总和来确定阔值。
[0020] 根据一个实施方式,缩混信号可W编码两个或更多个音频对象信号,并且阔值确 定器可w被配置成根据两个或更多个音频对象信号中的、具有两个或更多个音频对象信号 中的最大信号能量的音频对象信号的信号能量来确定阔值。
[0021] 在一个实施方式中,缩混信号可W包括两个或更多个缩混声道,并且阔值确定器 可W被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阔值。
[0022] 根据一个实施方式,缩混信号能够针对多个时间-频率片(tile)中的每个时 间-频率片编码一个或更多个音频对象信号。阔值确定器可W被配置成根据两个或更多个 音频对象信号中的至少一个的信号能量或噪声能量、或者根据一个或更多个缩混声道中的 至少一个的信号能量或噪声能量李艾确定多个时间-频率片中的每个时间-频率片的阔 值,其中多个时间-频率片中的第一时间-频率片的第一阔值可W与多个时间-频率片中 的第二时间-频率片的不同。处理单元可W被配置成针对多个时间-频率片的中每个时 间-频率片、根据针对所述时间-频率片的阔值而从一个或更多个缩混声道产生一个或更 多个音频输出声道的每个音频输出声道的声道值。
[0023] 在一个实施方式中,解码器可W被配置成根据下面的公式确定W分贝为单位的阔 值T:
[0024] T[地]=E。。^。[地]-Euf[地]-Z或者根据W下公式确定阔值T
[0025] T[地]=Enwse[地]-Eref[地]
[0026] 其中T[地]表示W分贝为单位的阔值,其中E。。^。[地]表示在两个或更多个缩混 声道中W分贝为单位的所有噪声能量的总和,其中Euf[地]表示W分贝为单位的音频对 象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中, E。。,,。[地]表示将两个或更多个缩混声道中W分贝为单位的所有噪声能量的总和除W缩混 声道的数量。
[0027] 根据一个实施方式,解码器可W被配置成根据下面的公式确定阔值T:
[002引
或者根据W下公式确定阔值T
[0029]
[0030] 其中T表示阔值,其中E。。^。表示两个或更多个缩混声道中的所有噪声能量的总 和,其中Euf表示音频对象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在 一个替代实施方式中,E。。^。[地]表示将两个或更多个缩混声道中的所有噪声能量的总和除 W缩混声道的数量。
[0031] 根据一个实施方式,处理单元可W被配置成根据一个或更多个音频对象信号的对 象协方差矩阵巧)、根据用于缩混两个或更多个音频对象信号W获得两个或更多个缩混声 道的缩混矩阵值)W及根据阔值,从一个或更多个缩混声道产生一个或更多个音频输出声 道。
[0032] 在一个实施方式中,处理单元被配置成通过在用于对缩混声道互相关矩阵Q求逆 的函数中应用阔值,来从一个或更多个缩混声道产生一个或更多个音频输出声道,其中Q 为被定义为;Q=DED*,其中D是用于缩混两个或更多个音频对象信号W获得两个或更多个 缩混声道的缩混矩阵,其中E是一个或更多个音频对象信号的对象协方差矩阵。
[0033] 例如,处理单元可W被配置成通过计算缩混声道互相关矩阵Q的特征值或者通过 计算缩混声道互相关矩阵Q的奇异值,来从一个或更多个缩混声道产生一个或更多个音频 输出声道。
[0034] 例如,处理单元可W被配置成通过将缩混声道互相关矩阵Q的特征值中的最大特 征值与阔值相乘W获得相对阔值,来从一个或更多个缩混声道产生一个
或更多个音频输出 声道。
[00巧]例如,处理单元可W被配置成通过产生经修正的矩阵来从一个或更多个缩混声道 产生一个或更多个音频输出声道。处理单元可W被配置成仅根据缩混声道互相关矩阵Q的 如下特征向量产生经修正的矩阵;该特征向量具有缩混声道互相关矩阵Q的特征值中的、 大于或等于经修正的阔值的特征值。此外,处理单元可W被配置成执行经修正的矩阵的矩 阵求逆W获得逆矩阵。此外,处理单元可W被配置成在一个或更多个缩混声道上应用逆矩 阵W产生一个或更多个音频输出声道。
[0036] 此外,提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或 更多个音频输出声道的音频输出信号的方法。缩混信号编码一个或更多个音频对象信号。 解码器包括:
[0037]-根据一个或更多个音频对象信号中的至少一个的信号能量或噪声能量或者根据 一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阔值,W及
[0038] -根据阔值从一个或更多个缩混声道产生一个或更多个音频输出声道。
[0039] 此外,提供了一种计算机程序,当该计算机程序在计算机或信号处理器上被执行 时,用于实施上述方法。
[0040] 在下文中,将参照附图更具体地描述本发明的实施方式,其中:
[0041] 图1示出了根据一个实施方式的用于产生包括一个或更多个音频输出声道的音 频输出信号的解码器;
[004引图2是示出了使用MPEGSA0C的示例的该样的系统的原理的SA0C系统概览;
[0043] 图3示出了G-SA0C参数化上混概念的概览;W及
[0044] 图4示出了一般的缩混/上混概念。
[0045] 在描述本发明的实施方式之前,提供了现有技术的SA0C系统的更多背景。
[0046] 图2示出了SA0C编码器10和SA0C解码器12的整体布置。SA0C编码器10接收 作为输入的N个对象,即音频信号Si至SW,。特别地,编码器10包括缩混器16,缩混器16 接收音频信号Si至Sw并且将其缩混成缩混信号18。可替代地,可W从外部提供缩混("艺 术缩混")并且系统对附加的辅助信息进行估计W使提供的缩混与计算的缩混匹配。在图 2中,示出的缩混信号为P声道信号。该样,可得到任何单声道(P= 1)、立体声(P= 2)或 者多声道(P〉2)缩混信号配置。
[0047] 在立体声缩混的情况下,缩混信号18的声道用L0和R0来表示,在单声道缩混的 情况下,缩混信号18的声道简单地用L0来表示。为了使SA0C解码器12能够对个体对象 Si至SW进行恢复,辅助信息估计器17为SA0C解码器12提供包括SA0C参数的辅助信息。 例如,在立体声缩混的情况下,SA0C参数包括对象电平差(OLD)、对象间相关性(I0C)(对象 间互相关参数)、缩混增益值值MG)W及缩混声道电平差值CLD)。包括SA0C参数的辅助信 息20连同缩混信号18 -起形成由SA0C解码器12接收的SA0C输出数据流。
[0048]SAOC解码器12包括接收缩混信号18W及辅助信息20的上混合器,W便将音频信 号如和《..Y恢复并且擅染到任何用户选择的声道集合扔至来M上,其中上述擅染由输入到 SA0C解码器12中的擅染信息26规定。
[0049] 可W将音频信号Si至Sw按诸如时域或频域的任何编码域输入到编码器10中。在 音频信号Si至Sw按诸如PCM编码的时域馈入到编码器10的情况下,编码器10可W使用诸 如混合QMF组的滤波器组,W便将信号转换到频域中,在频域中,W特定滤波器组分辨率将 音频信号表示在与不同频谱部分相关联的若干个子频带中。在音频信号Si至Sw已经按编 码器10所期望的表示的情况下,则音频信号Si至SW不必执行频谱分解。
[0050] 混合处理中更多的灵活性允许最优地利用信号对象特性。可W产生关于所认知的 品质而针对解码器侧的参数化分离进行优化的混缩。
[0051] 实施方式对任意数量的缩混/上混声道的SA0C方案的参数化部分进行扩展。下 图提供了通用空间音频对象编码(G-SA0C)参数化上混概念的概述:
[0052] 图3示出了G-SA0C参数化上混概念的概览。可W实现对参数化重建的音频对象 的完全灵活的后混合(post-mixing)(擅染)。
[0053] 尤其,图3示出了音频解码器310、对象分离器320和擅染器330。
[0054] 我们考虑下述通用标记:
[0055] X-输入音频对象信号(Nabj大小的)
[0056] y-缩混音频信号(N血X大小的)
[0057] Z-擅染的输出场景信号(Nupmh大小的)
[00则 D-缩混矩阵(NdwXN血X大小的)
[00则 R-擅染矩阵饥WXNupmh大小的)
[0060]G-参数化上混矩阵(N血XXNupmh大小的)
[0061]E-对象协方差矩阵(NdwXNDW大小的)
[0062] 所有引入的矩阵都(通常)是时变和频变的。
[0063] 在下文中,提供了参数化上混的本构关系。
[0064] 首先,参照图4提供了一般的缩混/上混概念。特别地,图4示出了一般的缩混/ 上混概念,其中图4示出了模型化上混系统(左)和参数化上混系统(右)。
[0065] 更特别地,图4示出了擅染单元410、缩混单元421和参数化上混单元422。
[0066] 理想(模型化的)擅染的输出场景信号Z被定义为,参见图(左):
[0067] Rx=Z. (1)
[0068] 缩混音频信号y被确定为,参见图4 (右);
[0069] Dx=y. (2)
[0070] 用于参数化输出场景信号重建的本构关系(应用于缩混音频信号)可W被表示 为,参见图4(右);
[0071] Gy=Z. (3)
[0072] 根据式(1)和(2),参数化上混矩阵可W被定义为缩混矩阵和擅染矩阵的如下函 数G=G值,时:
[0073]G=REW0EW)-i. (4)
[0074] 在下文中,考虑改进根据实施方式的参数化源估计的稳定性。
[00巧]MPEGSAOC内的参数化分离方案基于混合音中对源的最小均方(LM巧估计。LMS估计设及对参数化描述的缩混声道协方差矩阵Q=DE护的求逆。矩阵求逆的算法通常对 病态矩阵敏感。对该样的矩阵求逆能够在擅染的输出场景中引起称为人为(arti化cts)的 不自然的声音。当前在MPEGSA0C中的试探性确定的固定阔值T避免了该个问题。尽管通 过该方法避免了失真,但因而无法在解码器侧实现足够的可能的分离性能。
[0076] 图1示出了根据实施方式的一种用于从包括一个或更多个缩混声道的缩混信号 产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号对一个或更多个 音频对象信号编码。
[0077] 解码器包括用于根据两个或更多个音频对象信号中的至少一个的信号能量和/ 或噪声能量和/或者根据一个或更多个缩混声道中的至少一个的信号能量和/或噪声能量 确定阔值的阔值确定器110。
[0078] 此外,解码器包括用于根据阔值从一个或更多个缩混声道产生一个或更多个音频 输出声道的处理单元120。
[0079] 与现有技术相反,阔值确定器110根据经编码的一个或更多个音频对象信号或者 一个或更多个缩混声道的信号能量或噪声能量确定阔值。在实施方式中,当一个或更多个 缩混声道和/或一个或更多个音频对象信号值的信号能量和噪声能量变化时,阔值也变 化,例如,从时刻到时刻,从时间-频率片到时间-频率片。
[0080] 实施方式提供了用于矩阵求逆的适应性阔值方法W实现在解码器侧的音频对象 的改进的参数化分离。一般来说,分离性能会更好但不会少于当前使用在MPEGSA0C中的、 对Q矩阵求逆的算法中利用的固定阔值方案。
[0081] 阔值T动态地适应于每个被处理的时间-频率片的数据的精度。因此改进了分离 性能并且避免了由对病态矩阵求逆引起的擅染的输出场景中的失真。
[0082] 根据一个实施方式,缩混信号可W包括两个或更多个缩混声道,并且阔值确定器 110可W被配置成根据两个或更多个缩混声道的每个的噪声能量确定阔值。
[0083] 在一个实施方式中,阔值确定器110可W被配置成根据两个或更多个缩混声道中 的所有噪声能量的总和确定阔值。
[0084] 根据一个实施方式,缩混信号可W编码两个或更多个音频对象信号,并且阔值确 定器110可W被配置成根据两个或更多个音频对象信号中的、具有两个或更多个音频对象 信号中的最大信号能量的音频对象信号的信号能量来确定阔值。
[0085] 在一个实施方式中,缩混信号可W包括两个或更多个缩混声道,并且阔值确定器 110可W被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阔值。
[0086] 根据一个实施方式,缩混信号可W针对多个时间-频率片的每个时间-频率片编 码一个或更多个音频对象信号。阔值确定器110可W被配置成根据两个或更多个音频对 象信号中的至少一个的信号能量或噪声能量或者根据一个或更多个缩混声道的至少一个 的信号能量或噪声能量确定多个时间-频率片的每个时间-频率片的阔值,其中多个时 间-频率片的第一时间-频率片的第一阔值可能与多个时间-频率片的第二时间-频率片 的不同。处理单元120可W被配置成针对多个时间-频率片的每个时间-频率片根据所述 时间-频率片的阔值从一个或更多个缩混声道产生一个或更多个音频输出声道的每个的 声道值。
[0087] 根据一个实施方式,解码器可W被配置成根据W下公式确定阔值T
[0088]
或者根据W下公式确定阔值T
[0089]
[0090] 其中T表示阔值,其中E。。^。表示两个或更多个缩混声道中所有噪声能量的总和, 其中Euf表示音频对象信号中的一个的信号能量,并且其中Z作为数值而表示附加参数。在 一个替代实施方式中,E。。^。表示将两个或更多个缩混声道中的所有噪声能量的总和除W缩 混声道的数量。
[0091] 在一个实施方式中,解码器可W被配置成根据W下公式确定W分贝为单位的阔值 T:
[009引T[地]=E。。^。[地]-Euf[地]-Z或者根据W下公式确定阔值T
[0093] T[地]=Enwse[地]-Eref[
地]
[0094] 其中T[地]表示W分贝为单位的阔值,其中E。。^。[地]表示两个或更多个缩混声道 中W分贝为单位的所有噪声能量的总和,其中Euf[地]表示W分贝为单位的音频对象信号 之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,E。。,%[地] 表示将两个或更多个缩混声道中W分贝为单位的所有噪声能量的总和除W缩混声道的数 量。
[0095] 特别地,可W通过下式给出针对每个时间-频率片的阔值的粗略估计:
[009引T [地]=Ennke [地]-Eref [地]-Z 妨
[0097] E。。^。可W表示噪声本底水平,例如,缩混声道中的所有噪声能量的总和。可W通过 音频数据的分辨率定义噪声本底,例如,由声道的PCM编码引起的噪声本底。另一种可能是 在缩混被压缩的情况下考虑编码噪声。针对该样的情况,可W增加由编码算法引起的噪声 本底。在一个替代实施方式中,E。。^。[地]表示将两个或更多个缩混声道中W分贝为单位的 所有噪声能量的总和除W缩混声道的数量。
[009引 Er。巧W表示参考信号能量。在最简单的形式中,其可W是最强音频对象的能量:
[0099] Eref=max似.(6)
[0100] Z可W表示惩罚因子W应付影响分离分辨率的附加参数,例如,缩混声道的数量和 源对象数量的差异。分离性能随着音频对象的数量的增加而下降。此外,还可W包括关于 分离的参数化辅助信息的量化的影响。
[0101] 在一个实施方式中,处理单元120被配置成根据一个或更多个音频对象信号的对 象协方差矩阵E,根据用于缩混两个或更多个音频对象信号W获得两个或更多个缩混声道 的缩混矩阵D,W及根据阔值从一个或更多个缩混声道产生一个或更多个音频输出声道。
[0102] 根据一个实施方式,为了根据阔值从一个或更多个缩混声道产生一个或更多个音 频输出声道,处理单元120可W被配置成按如下进行:
[0103] 按求逆参数化估计的缩混声道互相关矩阵Q的功能在解码器侧应用阔值(其可W 被称为"分离-分辨率阔值")。
[0104] 计算Q的奇异值和Q的特征值。
[0105] 取最大特征值并与阔值T相乘。
[0106] 除了该最大特征值外的所有特征值与该个相对阔值相比较并且在它们更小的情 况下被省略。
[0107] 随后,在经修正的矩阵上执行矩阵求逆,其中,经修正的矩阵例如可W是由减少的 向量的集合定义的矩阵。应当注意,针对除了最高特征值W外的所有特征值都被省略的情 况,如果特征值较低,则应将最高特征值设定为噪声本底水平。
[0108] 例如,处理单元120可W被配置成通过产生经修正的矩阵从一个或更多个缩混 声道产生一个或更多个音频输出声道。可W仅根据缩混声道互相关矩阵Q的如下特征 向量产生经修正的矩阵;其具有缩混声道互相关矩阵Q的特征值中的大于或等于经修 正的阔值的特征值。处理单元120可W被配置成执行对经修正的矩阵的矩阵求逆W获 得逆矩阵。随后,处理单元120可W被配置成在一个或更多个缩混声道上应用上述逆 矩阵W产生一个或更多个音频输出声道。例如,W如将矩阵积DE护的逆矩阵应用在缩 混声道上的多个方式中的一个,逆矩阵可W被应用在一个或更多个缩混声道上(参见, 例如[SA0C],特别参见例如:IS0/IEC,"MPEGaudiotechnologies-Part2:Spatial AudioObjectCoding(SA0C),,,IS0/IECJTC1/SC29/WG11(MPEG)InternationalStandard 23003-2:2010,特别参见章节"SAOCProcessing",更具体地参见子章节"Transcoding modes"和子章节"Decodingmodes")。
[0109] 可W用于估计阔值T的参数可W在编码器侧被确定并被嵌入参数化辅助信息中, 或者在解码器侧被直接估计。
[0110] 可W在编码器侧使用简化版本的阔值估计器W在解码器侧表示源估计中的潜在 不稳定性。在其最简单的形式中,忽略所有噪声项,可W计算缩混矩阵的范数,其表示用于 在解码器侧对源信号进行参数化估计的可用缩混声道的全部潜能不能被利用。在混合处理 期间,可W使用该样的指标W避免混合对源信号的估计关键的矩阵。
[0111] 关于对象协方差矩阵的参数化,人们能够看到;基于本构关系(4)描述的参数化 上混方法对对象协方差矩阵E的非对角线实体的符号具有不变性。该产生对表示对象间相 关性的值更加有效(相比SA0C)的参数化(量化和编码)的可能性。
[0112] 关于表示缩混矩阵的信息的传输,通常,音频输入和缩混信号x、y与协方差矩阵E 一起在编码器侧确定。将音频缩混信号y的编码表示和描述协方差矩阵E的信息向解码器 侧传输(经由比特流的有效载荷)。设定擅染矩阵R并且在解码器侧可用。
[0113] 可W使用W下原理方法确定(在编码器处)和获得(在解码器处)表示缩混矩阵 D的信息(应用在编码器并且用作解码器)。
[0114] 缩混矩阵D可
[0115]-被设定和应用(在编码器处)并且经由比特流有效载荷明确地传输(向解码器) 其量子化和编码表示。
[0116]-被分配和应用(在编码器处)并且通过使用存储的查找表(即预定的缩混矩阵 的集合)被恢复(在解码器处)。
[0117]-被分配和应用(在编码器处)并且根据特定的算法或方法(例如,特别加权 (wei曲ted)和向可用的缩混声道有序等距布置(orderedequidistantplacement)音频对 象)被恢复(在解码器处)。
[0118] -被估计和应用(在编码器处)并且通过使用允许对输入音频对象进行"灵活混 合"的特定优化标准(即用于在解码器侧对音频对象的参数化估计进行优化的缩混矩阵的 产生)被恢复(在解码器处)。例如,编码器依据特别的信号特性重建,如协方差、信号间相 关性或者改进/确保参数化上混算法的数值稳定性,W使参数化上混更有效的方式产生缩 混矩阵。
[0119] 提供的实施方式可W被应用在任意数量的缩混/上混声道上。其可W与任何当前 和未来的音频格式相结合。
[0120] 创造性方法的灵活性允许绕过未改变的声道W减少计算复杂性,减少比特流有效 载荷/减少的数据量。
[0121] 提供了一种用于编码的音频编码器、方法或计算机程序。此外,提供了一种用于解 码的音频解码器、方法或计算机程序。此外,提供了一种编码信号。
[0122] 尽管在上下文中已经描述了设备的一些方面,显然该些方面还表示相应方法的描 述,其中模块或器件与方法步骤或方法步骤的特征相对应。类似地,在上下文中描述的方法 步骤的方面也表示相应设备的相应的模块或项目或特征的描述。
[0123] 创造性的分解信号可W被存储在数字存储介质上或可W在传输介质例如无线传 输介质或诸如英特网的有线传输介质上传输。
[0124] 根据某些实施要求,本发明的实施方式可WW硬件或软件实施。可W通过使用其 上存储有电子可读控制信号的数字存储介质例如软盘、DVD、CD、ROM、PROM、EPROM、EEPR0M 或FLASH存储器来执行上述实施,数字存储介质配合(或能够配合)可编程计算机系统,使 得各自的方法被执行。
[0125] 根据本发明的一些实施方式包括具有电子可读控制信号的非临时性数据载体,电 子可读控制信号能够配合可编程计算机系统,使得执行本文描述的方法之一。
[0126] 通常,本发明的实施方式可W实施为具有程序代码的计算机程序产品,当计算机 程序产品在计算机上运行时,程序代码可操作用于执行上述方法之一。程序代码例如可W 被存储在机器可读载体上。
[0127] 其他实施方式包括存储在机器可读载体上的、用于执行本文描述的上述方法之一 的计算机程序。
[012引因此换言之,创造性方法的一个实施方式是计算机程序,当计算机程序在计算机 上运行时,计算机程序具有用于执行本文描述的上述方法之一的程序代码。
[0129]因此,创造性方法的另一实施方式是包括记录在其上的用于执行本文描述的上述 方法之一的计算机程序的数据载体(或数字存储介质,或计算机可读介质)。
[0130]因此,创造性方法的另一实施方式是表示用于执行本文描述的上述方法之一的计 算机程序的数据流或信号序列。数据流或信号序列例如可W被配置成例如经由英特网、经 由数据通信连接被传送。
[0131] 另一实施方式包括处理装置,例如计算机,或可编程逻辑器件,被配置成或适于执 行本文描述的方法之一。
[0132] 另一实施方式包括具有安装在其上的、用于执行本文描述的方法之一的计算机程 序的计算机。
[0133] 在一些实施方式中,可编程逻辑器件(例如,现场可编程口阵列)可W被用于执行 本文描述的方法的一些或所有功能。在一些实施方式中,现场可编程口阵列可W与微处理 器配合W便执行本文描述的方法之一。通常,上述方法优选由任何硬件设备执行。
[0134]W上描述的实施方式仅仅用于说明本发明的原理。应当理解,本文描述的细节和 布置的修改和变型对于本领域其他技术人员而言将是明显的。因此,意在仅由接下来的专 利权利要求的范围所限制,而不由借助本文实施方式的解释和说明所呈现的具体细节所限 制。
[0135] 参考文献
[0136] [MPSJIS0/IEC23003-1:2007,MPEG-D(MPEGaudiotechnologies),Part1:MPEG Surround, 2007.
[0137] 巧CC]C.FallerandF.Baumgarte,"BinauralCueCoding-PartII:Schemesand applications,''IEEETrans,onSpeechandAudioProc.,vol. 11,no. 6,Nov. 2003
[0138][JSC]C.Faller,"ParametricJoint-CodingofAudioSources",120thAES Convention,Paris,2006
[0139][SAOCl]J.Herre,S.Disch,J.Hilpert, 0?Hellmu化:"RromSACToSAOC-Recent DevelopmentsinParametricCodingofSpat
ialAudio", 22ndRegionalUKAES Conference,Cambridge,UK,April2007
[0140] [SA0C2]J.Engcleg&rd.,B.Resch,C.Falch, 0?Hellmu化,J.Hilpei%A.H别zer, L.Terentiev,J.Breebaart,J.Koppens,E.SchuijersandW.Oomen:"SpatialAudio ObjectCoding(SAOC) -TheUpcomingMPEGStandardonParametricObjectBased AudioCoding",124thAESConvention,Amsterdam2008
[0141] [SAOC]ISO/IEC,"MPEGaudiotechnologies-Part2:SpatialAudioObject Coding(SAOC)/^ISO/IECJTC1/SC29/WG11(MPEG)InternationalStandard23003-2.
[0142] [ISSl]M.ParvaixandL.Girin:"InformedSourceSeparationof underdeterminedinstantaneousStereoMixturesusingSourceIndex Embedding",IE邸ICASSP,2010
[0143] [ISS2]M.Parvaix,L.Girin,J. -M.Brossier:"Awatermarking-basedmethod forinformedsourceseparationofaudiosignalswithasinglesensor,,,IEEE TransactionsonAudio,SpeechandLanguageProcessing,2010
[0144] [ISS3]A.LiutkusandJ.PinelandR.BadeauandL.Girinand G.民ichard:"Informedsourceseparationthroughspectrogramcodinganddata embedding,,,SignalProcessingJournal,2011
[0145] [ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:"Informedsource sep过r过tion:sourcecodingmeetssourcesepar过tion,,,IEEEWorkshoponApplications ofSignalProcessingtoAudioandAcoustics, 2011
[0146] [ISS5]ShuhuaZhangandLaurentGirin:"AnInformedSourceSeparation SystemforSpeechSignals",INTERSP邸CH, 2011
[0147] [ISS6]L.GirinandJ.Pinel:"InformedAudioSourceSeparationfrom CompressedLinearStereoMixtures",AES42ndInternationalConference:Semantic
【主权项】
1. 一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输 出声道的音频输出信号的解码器,其中,所述缩混信号编码两个或更多个音频对象信号,其 中,所述解码器包括: 阈值确定器(Iio),用于根据所述两个或更多个音频对象信号中的至少一个的信号能 量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量 来确定阈值,以及 处理单元(120),用于根据所述阈值从所述一个或更多个缩混声道产生所述一个或更 多个音频输出声道。2. 根据权利要求1所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个 或更多个缩混声道中的每个缩混声道的噪声能量来确定所述阈值。3. 根据权利要求2所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个 或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。4. 根据前述权利要求之一所述的解码器,其中,所述阈值确定器(110)被配置成根据 所述两个或更多个音频对象信号中的、具有所述两个或更多个音频对象信号中的最大信号 能量的音频对象信号的信号能量来确定所述阈值。5. 根据前述权利要求之一所述的解码器,其中,所述阈值确定器(110)被配置成根据 所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。6. 根据前述权利要求之一所述的解码器, 其中,所述缩混信号针对多个时间-频率片中的每个时间-频率片来编码所述一个或 更多个音频对象信号, 其中,所述阈值确定器(110)被配置成根据所述两个或更多个音频对象信号中的至少 一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道的至少一个的信号能量 或噪声能量来确定针对所述多个时间-频率片中的每个时间-频率片的阈值,其中,所述多 个时间-频率片中的第一时间-频率片的第一阈值与所述多个时间-频率片中的第二时 间-频率片的不同,以及 其中,所述处理单元(120)被配置成针对所述多个时间-频率片中的每个时间-频率 片、根据所述时间-频率片的阈值而从所述一个或更多个缩混声道产生所述一个或更多个 音频输出声道中的每个音频输出声道的声道值。7. 根据前述权利要求之一所述的解码器,其中,所述解码器被配置成根据以下公式确 定以分贝为单位的所述阈值T T [dB] = Emise[dB]-EMf [dB]-Z或者根据以下公式确定所述阈值T T[dB] = Enoise [dB]-Eref [dB], 其中,T[dB]表示以分贝为单位的所述阈值, 其中,EmisJdB]表示所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总 和,或者EmisJdB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总 和除以所述两个或更多个缩混声道的数量, 其中,EMf[dB]表示以分贝为单位的所述音频对象信号之一的信号能量,以及 其中,Z表示作为数值的附加参数。8. 根据权利要求1至6之一所述的解码器,其中,所述解码器被配置成根据以下公式确 定所述阈值T或者根据以下公式确定所述阈值T 其中,T表示所述阈值, 其中,Emis彦示所述两个或更多个缩混声道中所有噪声能量的总和,或者E n_[dB]表 示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或 更多个缩混声道的数量, 其中,EMf表示所述音频对象信号之一的信号能量,以及 其中,Z表示作为数值的附加参数。9. 根据前述权利要求之一所述的设备,其中,所述处理单元(120)被配置成根据所述 一个或更多个音频对象信号的对象协方差矩阵(E)、根据用于缩混所述两个或更多个音频 对象信号以获得所述两个或更多个缩混声道的缩混矩阵(D)以及根据所述阈值,从所述一 个或更多个缩混声道产生所述一个或更多个音频输出声道。10. 根据权利要求9所述的设备,其中,所述处理单元(120)被配置成通过在用于对缩 混声道互相关矩阵Q求逆的函数中应用所述阈值,来从所述一个或更多个缩混声道产生所 述一个或更多个音频输出声道, 其中,Q被定义为Q = DED% 其中,D是用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声 道的所述缩混矩阵,以及 其中,E是所述一个或更多个音频对象信号的对象协方差矩阵。11. 根据权利要求10所述的设备,其中,所述处理单元(120)被配置成通过计算所述缩 混声道互相关矩阵Q的特征值或者通过计算所述缩混声道互相关矩阵Q的奇异值,来从所 述一个或更多个缩混声道产生所述一个或更多个音频输出声道。12. 根据权利要求10或11所述的设备,其中,所述处理单元(120)被配置成通过将所 述缩混声道互相关矩阵Q的特征值中的最大特征值与所述阈值相乘以获得相对阈值,来从 所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。13. 根据权利要求12所述的设备, 其中,所述处理单元(120)被配置成通过产生经修正的矩阵来从所述一个或更多个缩 混声道产生所述一个或更多个音频输出声道, 其中,所述处理单元(120)被配置成仅根据所述缩混声道互相关矩阵Q的如下特征向 量来产生所述经修正的矩阵:所述特征向量具有所述缩混声道互相关矩阵Q的特征值中 的、大于或等于所述经修正的阈值的特征值, 其中,所述处理单元(120)被配置成执行所述经修正的矩阵的矩阵求逆以获得逆矩 阵,以及 其中,所述处理单元(120)被配置成在一个或更多个所述缩混声道上应用所述逆矩阵 以产生所述一个或更多个音频输出声道。14. 一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频 输出声道的音频输出信号的方法,其中,所述缩混信号编码两个或更多个音频对象信号,其 中,所述解码器包括: 根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据 所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及 根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。15. -种计算机程序,当所述计算机程序在计算机或信号处理器上被执行时,用于实现 根据权利要求14所述的方法。
【专利摘要】提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号编码一个或更多个音频对象信号。解码器包括阈值确定器(110),用于根据两个或更多个音频对象信号中的至少一个的信号能量和/或噪声能量和/或者根据一个或更多个缩混声道中的至少一个的信号能量和/或噪声能量确定阈值。此外,解码器包括处理单元(120),用于根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。
【IPC分类】G10L19/008
【公开号】CN104885150
【申请号】CN201380051915
【发明人】托尔斯滕·卡斯特纳, 于尔根·赫勒, 莱昂·特伦提夫, 奥利弗·赫尔穆特
【申请人】弗兰霍菲尔运输应用研究公司
【公开日】2015年9月2日
【申请日】2013年8月5日
【公告号】CA2880028A1, EP2880654A2, US20150142427, WO2014020182A2, WO2014020182A3