用于基于感知准则呈现基于对象的音频内容的对象群集的制作方法
【专利说明】
[0001] (相关申请的交叉引用)
[0002] 本申请要求在2012年12月21日提交的美国临时专利申请No. 61/745401和2013 年8月12日提交的美国临时申请No. 61/865072的优选权,通过引用将它们的全部内容并 入此。
技术领域
[0003] 一个或更多个实施例总体上设及音频信号处理,并且具体设及基于感知准则将音 频对象进行群集来压缩基于对象的音频数据,W便通过各种回放系统高效地编码和/或呈 现。
【背景技术】
[0004] 基于对象的音频的出现明显增加音频数据的量和在高端回放系统内呈现该数据 的复杂性。例如,电影院音轨可包含与屏幕上的图像、对话、噪声和从屏幕上的不同位置发 出并且与背景音乐和环境效果组合W产生总体听觉体验的声音效果对应的许多不同的声 音要素。准确的回放要求W关于声音源位置、强度、移动和深度尽可能接近地与屏幕所示对 应的方式再现声音。与向收听环境中的各单个扬声器发送扬声器馈送的形式的音频内容的 常规的基于通道(channel)的音频系统相比,基于对象的音频具有明显的改善,因此关于 特定音频对象的空间回放相对受限。
[0005] 数字电影院的引入和=维("3D")内容的开发创建了声音的新标准,诸如合并音 频的多个通道W允许内容创建者具有更大的创建性并允许听众具有更加包围和逼真的听 觉体验。作为用于分布空间音频的手段,进行扩展W超越常规的扬声器馈送和基于通道的 音频是十分关键的,并且,基于模型的音频描述已存在明显关注,该音频描述允许收听者选 择希望的回放配置,音频针对他们选择的配置被特别呈现。声音的空间呈现利用音频对象, 该些音频对象是具有表观源位置(例如,3D位置)、表观源宽度和其它参数的相关参数源描 述的音频信号。其它进展包括已开发的下一代空间音频(也称为"自适应音频")格式,该 格式包括音频对象和常规的基于通道的扬声器馈送(床)的混合连同音频对象的位置元数 据。
[0006] 在一些声轨中,可能存在包含音频的若干(例如,7个、9个或11个)床通道化ed channel)。另外,基于创作系统的能力,可存在几十甚至几百个单独的音频对象,该些音 频对象在呈现过程中被组合W创建空间分散和浸入式音频体验。在一些分布和传送系统 中,可存在足够大的可用带宽,W在很少或者没有音频压缩的情况下传送所有的音频床和 对象。但是,在一些情况下,诸如藍光盘、广播(电缆、卫星和陆地)、移动(3G和4G)和 over-the-top(OTT或因特网)分布,对于可用于数字传送在创作时创建的所有床和对象信 息的带宽存在明显的限制。虽然音频编码方法(有损或无损)可被应用于音频W减少需要 的带宽,但音频编码可能不足W减少传送音频所需要的带宽,特别是在诸如移动3G和4G网 络的非常受限的网络上。
[0007] 已开发了一些现有方法,W通过群集处理(clustering)来将输入对象和床的数 量减少到较小的输出对象集合。基本上,具有类似的空间或呈现性质的对象被组合成单个 或更少的新合并对象。合并处理包括组合音频信号(例如,通过加法)和参数源描述(例 如,通过平均)。在该些W前的方法中向集群(cluster)分配对象基于空间接近度。目P,具 有类似的参数位置数据的对象组合成一个集群,同时分别确保各对象有较小的空间误差。 只要内容中的所有感知相关对象的空间位置在具有合理的小误差的情况下允许该种群集, 该处理就一般是有效的。但是,在非常复杂的内容中,对于具有分散空间分布的同时活动的 许多对象,当只容忍适度的空间误差时,精确地模型化该种内容所需要的输出集群的数量 可能变得十分大。作为替代,如果输出集群的数量诸如由于带宽或者复杂度约束而受到限 审IJ,那么由于受约束的群集处理和明显的空间误差,那么复杂内容会W劣化的空间质量被 再现。因此,在该种情况下,仅使用接近度W定义集群往往得到次最佳的结果。在该种情况 下,与仅考虑对象的空间位置相对地是,应考虑对象自身的重要性,W优化群集处理的感知 质量。
[000引已开发了其它方案,W改善群集处理。一个该种方案是去除诸如由于掩蔽或者由 于对象沉默而在感知上无关的对象的炼出处理(州llingprocess)。虽然该处理有助于改 进群集处理,但是,如果在感知上相关的对象的数量比可用输出集群大,那么它不提供改进 的群集结果。
[0009] 在【背景技术】部分中讨论的主题不应仅由于在【背景技术】部分中被提到而被假定为 现有技术。类似地,在【背景技术】部分中提到的或者与【背景技术】部分的主题相关的问题不应 被假定为W前在现有技术中被认识到。【背景技术】部分中的主题仅代表不同的方案,该些方 案本身也可W是发明。
【发明内容】
[0010] 一些实施例针对通过W下处理压缩用于在回放系统中呈现的基于对象的音频数 据的方法;识别要在回放系统中呈现的第一数量的音频对象,该里,各音频对象包含音频数 据和相关的元数据;对于各音频对象限定在相关的元数据内编码的某些参数的误差阔值; 并且基于误差阔值将第一数量的音频对象中的音频对象分组为数量更少的音频对象,使得 通过回放系统发送的音频对象的数据量减少。
[0011] 一些实施例进一步针对通过W下处理呈现基于对象的音频;W限定的时间间隔识 别数个对象中的各对象的空间位置;并且基于对象对之间的最大距离和/或由基于对象相 关的某些其它特性的分组导致的崎变误差将对象中的至少一些分组成一个或更多个时间 变化集群。
[0012] 一些实施例针对通过W下处理压缩用于在回放系统中呈现的基于对象的音频数 据的方法:确定音频场景中的对象的感知重要性,其中,对象包含对象音频数据和相关的元 数据;和基于确定的对象的感知重要性将某些音频对象组合成音频对象的集群,其中,集群 的数量比音频场景中的对象的原始数量少。在该方法中,感知重要性可W是从各自对象的 响度值和内容类型中的至少一个导出的值,并且,内容类型是对话、音乐、声音效果、环境和 噪声中的至少一个。
[0013] 在该方法的实施例中,内容类型由接收音频对象的输入音频信号的音频分类过程 确定,并且,响度由基于输入音频信号的临界频带中的激励水平的计算的感知模型获得,该 方法还包括;在音频对象的第一对象周围限定集群的质屯、(centroid);和集合音频对象的 所有激励。响度值至少部分地依赖于各自对象与其它对象的空间接近度,并且,空间接近度 至少部分地由各自对象的相关元数据的位置元数据值限定。组合的操作可导致与各被群集 的对象相关的某些空间误差。在实施例中,该方法还包含将对象进行群集W使得对于相对 高感知重要性的对象最小化空间误差。在实施例中,确定的对象的感知重要性依赖于音频 场景中的对象的相对空间位置,并且,组合步骤还包括;确定数个质屯、,各质屯、包含用于分 组多个音频对象的集群的中屯、,质屯、位置依赖于一个或更多个音频对象相对于其它音频对 象的感知重要性;和通过在集群间分布对象信号来将对象分组成一个或更多个集群。群集 还包括将对象与最近的邻居分组;或者通过使用平移方法(panningmethod)在一个或更 多个集群上分布对象。
[0014] 组合音频对象的操作可包括:将体现同一集群内的构成对象的音频数据的波形组 合在一起W形成具有构成对象的合成波形的替代对象;W及将同一集群内的构成对象的元 数据组合在一起W形成构成对象的元数据的替代集。
[0015] 一些实施例进一步针对通过W下处理呈现基于对象的音频的方法:限定数个质 屯、,各质屯、包含用于分组多个音频对象的集群的中屯、;确定多个音频对象中各对象相对于 其它对象的第一空间位置;确定多个音频对象的各音频对象的相对重要性,所述相对重要 性依赖对象的相对空间位置;确定数个质屯、,各质屯、包含用于分组多个音频对象的集群的 中屯、,质屯、位置依赖于一个或更多个音频对象的相对重要性;W及通过在集群间分布对象 信号将对象分组成一个或更多个集群。方法还可包括确定多个音频对象的各音频对象的部 分响度和多个音频对象的各音频对象的内容类型和相关内容类型重要性。在实施例中,各 音频对象的部分响度和内容类型被组合W确定各自音频对象的相对重要性。对象被群集为 使得空间误差对于具有相对高的感知重要性的对象被最小化,其中,空间误差可由在对象 与其它对象被群集时将对象从第一感知源位置移动到第二感知源位置而导致。
[0016] 对于实现上述的压缩方法或呈现方法的实施例的系统或器件和计算机可读介质, 描述一些其它实施例。
[0017] 可在包含基于包含新扬声器和通道配置的自适应音频系统的增强用户体验、分布 方法和更新的内容创建工具的音频格式和系统W及可通过一套先进内容创建工具实现的 新空间描述格式中,实现该里描述的方法和系统。在该种系统中,音频系统(一般包含通道 和对象)连同描述内容创建者或混音师的意图的元数据一起被传送,该元数据包含音频流 的希望位置。位置可表达为命名的通道(来自预定的通道配置内)或者=维(3D)空间位 置信息。
[001引通过引用并入
[0019] 在本说明书中提到的各公开、专利和/或专利申请的全部内容通过引用被加入该 里,如同每个单独的公开和/或专利申请被具体和单独地指示为通过引用被并入。
【附图说明】
[0020] 在W下的附图中,使用类似的附图标记W表示类似的要素。虽然W下的附图示出 各种例子,但一个或更多个实现不限于在附图中示出的例子。
[0021] 图1示出根据实施例的用于产生自适应音频混合的基于通道和基于对象的数据 的组合。
[0022] 图2A是根据实施例的与用于呈现自适应音频内容的编解码器电路相结合的群集 处理的框图。
[0023] 图2B示出根据实施例的自适应音频处理系统中对于对象和床进行群集。
[0024] 图2C示出根据实施例的总体自适应音频呈现系统中对自适应音频数据进行群 集。
[0025] 图3A示出根据实施例的用于创建组合对象的两个对象的音频信号和元数据的组 合。
[0026] 图3B是示出根据实施例的用于群集处理的示例性元数据定义和组合方法的表 格。
[0027] 图4是根据实施例的群集处理所使用的群集方案的框图。
[002引图5A和图5B示出根据实施例的在周期性时间间隔中将对象分组成集群的过程。
[0029] 图6A、图6B和图6C示出根据实施例的关于限定的对象边界和误差阔值将对象分 组成集群的过程。
[0030] 图7是示出根据实施例的对于对象和床进行群集的方法的流程图。
[0031] 图8示出根据实施例的除了位置接近度W外还基于感知重要性将对象和床通道 群集成集群的系统。
[0032] 图9示出根据实施例的用于将音频对象群集到输出集群中的流程图的成分。
[0033] 图10是根据实施例的音频分类组件的功能图。
[0034] 图11是示出根据实施例的基于内容类型的感知因素和响度处理音频对象的总体 方法的流程图。
[0035] 图12是示出根据实施例的计算集群质屯、并且向选择的质屯、分配对象的处理的流 程图。
[0036] 图13A和图13B示出根据实施例的基于某些感知准则将对象分组成集群的过程。
[0037] 图14是示出根据实施例的对于对象和床进行群集的方法的流程图。
[003引图15示出根据实施例的基于终端设备能力呈现群集对象数据的过程。
【具体实施方式】
[0039] 对于基于对象的音频数据的基于对象群集的压缩方案来描述系统和方法。群集方 案的实施例利用用于向群集分配对象的对象的感知重要性,并且在基于位置和接近度的群 集方法上进行扩展。基于感知的群集系统用从各对象的音频信号导致的感知关联来增强 基于接近度的群集,W在约束的条件下(诸如当感知相关对象的数量大于输出集群的数量 时)导出改善的对象向群集的分配。
[0040] 在音频处理系统的实施例中,部分地通过对象的空间接近度W及还通过某些感知 准则控制对象组合或群集处理。一般地,群集对象导致一定的误差量,原因是,不是所有的 输入对象在与其它对象群集时都可保持空间保真度,在大量的对象被分散地分布的应用中 尤其如此。在使群集处理的空间/感知误差最小化方面,具有相对高的感知重要性的对象 受到偏好。对象重要性可基于诸如作为考虑了场景中的其它对象的掩蔽效果的对象的感知 响应的部分响度和内容语义或类型(例如,对话、音乐、效果等)的因素。
[0041] 该里描述的一个或更多个实施例的各个方面可在包含执行软件指令的一个或更 多个计算机或处理器件的混合、呈现和回放系统中的处理源音频信息的音频或音频-视频 (AV)系统中实现。描述的实施例中的任一个可被单独使用或者在任意组合中与另一个一起 使用。虽然可能在说明书的一个或更多个地方中讨论或间接提到的现有技术的各种缺陷促 成了各种实施例,但实施例未必针对该些缺陷中的任一个。换句话说,不同的实施例可针对 与说明书中可能讨论的缺陷不同的缺陷。一些实施例可能仅部分地针对在说明书中可能讨 论的一些缺陷或者仅针对一个缺陷,并且,一些实施例可能不针对该些缺陷中的任一个。
[0042] 对于本说明,W下的术语具有相关的含义;术语"通道"或"床"指的是音频信号加 元数据,其中,位置被编码为通道标识符,例如,左前或右上环绕;"基于通道的音频"是对于 通过具有相关标称位置(例如5. 1、7. 1等)的预定一组扬声器区域的回放被格式化的音 频;术语"对象"或"基于对象的音频"指的是具有诸如表观源位置(例如,3D坐标)、表观 源宽度等的参数源描述的一个或更多个音频通道;"自适应音频"指的是通过使用音频流加 元数据基于回放环境呈现音频信号的基于通道和/或基于对象的音频信号加元数据,在该 音频流加元数据中位置被编码为空间中的3D位置;"呈现"指的是对于用作扬声器馈送的 电信号的转换。
[0043] 在实施例中,使用对象群集的场景简化处理实现为可称为"空间音频系统"或"自 适应音频系统"的被配置为与声音格式和处理系统一起工作的音频系统的一部分。该种 系统基于音频格式和呈现技术,W允许增强的听众浸入、更大的艺术控制和系统灵活性和 可缩放性。总体自适应音频系统一般包括被配置为产生包含常规的基于通道的音频要素 和音频对象编码要素两者的一个或更多个位流的音频编码、分布和解码系统。与单独采取 的基于通道的方法或基于对象的方法相比,该种组合方法提供更大的编码效率和呈现灵活 性。在于2012年6月27日提交的发明名称为"SystemandMethodforAdaptiveAudio Si即alGeneration,CodingandRendering"的未决国际专利申请No.PCT/US2012/044388 中描述了可与本实施例结合使用的自适应音频系统的例子,该国际申请通过引用被并入该 里。自适应音频系统和相关的音频格式的示例性例子是Do化y?Atmos?平台。该种系统 合并有可实现为9. 1环绕声系统的高度(上/下)尺寸或类似的环绕声配置。
[0044] 音频对象可被视为可在接听环境中被感知为从一个或多个特定的物理位置发出 的声音要素的个体或集合。该种对象可W是静态的(即,静止)或者动态的(即,移动)。 音频对象可由除了其他功能外还在给定的时刻限定声音的位置的元数据控制。当对象被回 放时,它们通过使用存在的扬声器根据位置元数据被呈现,而未必被输出到预定义的物理 通道。对话中的轨道可W是音频对象,并且,标准平移数据与位置元数据类似。该样,放在 屏幕上的内容可有效地W与基于通道的内容相同的方式平移,但是,如果希望的话,环绕声 中的内容可被呈现给单个扬声器。虽然使用音频对象提供了对离散效果的控制,但声轨的 其它方面可在基于通道的环境中更有效地工作。例如,许多环境效果或回响实际上受益于 馈送到扬声器的阵列而不是单个驱动器。虽然该些可被视为具有足W填充阵列的宽度的对 象,但是保持一些基于通道的功能是有益的。
[0045] 除了音频对象W外,自适应音频系统被配置为还支持"床",该里,床是有效地基于 通道的子混合或主干。根据内容创建者的意图,该些可被传输w单独地或者组合成单个床 来进行最终的回放(呈现)。可在诸如5. 1、7. 1和9. 1的不同的基于通道的配置W及包含 头顶扬声器的阵列中创建该些床。图1示出根据实施例的用于产生自适应音频混合的基于 通道和基于对象的数据的组合。如处理100所示,基于通道的数据102可与音频对象数据 104组合W产生自适应音频混合108,该基于通道的数据102例如可W为W脉冲代码调制 (PCM)数据的形式被提供的5. 1或7. 1环绕声音数据。通过组合原始的基于通道的数据的 要素与规定与
音频对象的位置有关的某些参数的相关元数据,产生音频对象数据104。如 图1概念性示出的那样,创作工具提供同时创建包含扬声器通道组和对象通道的组合的音 频节目的能力。例如,音频节目可包含任选地被组织成组(或轨道,例如,立体声或5. 1轨 道)的一个或更多个扬声器通道、一个或更多个扬声器通道的描述性元数据、一个或更多 个对象通道和一个或更多个对象通道的描述性元数据。
[0046] 自适应音频系统作为用于分布空间音频的手段扩展W超越扬声器馈送,并且使用 先进的基于模型的音频描述W定制满足个体需求和系统约束的回放配置,使得音频可特别 地针对各单独配置被呈现。音频信号的空间效果对于向接听者提供浸入式体验是关键的。 要从观看屏幕或房间的特定区域发出的声音应通过位于相同的相对位置上的扬声器被播 放。因此,基于模型的描述中的声音事件的主要音频元数据是位置,但是,也可描述诸如尺 寸、取向、速度和声音分散的其它参数。
[0047] 如上所述,自适应音频内容可包含若干床通道102W及许多单独音频对象104,它 们在呈现的过程中被组合W创建空间分散和浸入式音频体验。在具有大量的处理带宽的电 影院环境中,实际上任何数量的床和对象可在电影院中被准确地创建并且呈现。但是,由 于电影或其它的复杂音频内容是对于家庭或个人收听环境中的分布和再现而被产生的,因 此,该种装置和媒体的相对有限的处理带宽阻止了该内容的最佳呈现或回放。例如,用于消 费级和专业级应用的典型的传送媒体包含藍光盘、广播(电缆、卫星和陆地)、移动(3G和 4G)和over-the-top(OTT)或因特网分布。该些媒体通道可对可用W数字传送自适应音频 内容的所有床和对象信息的带宽施加明显的限制。实施例针对如下机制,该机制压缩复杂 的自适应音频内容,使得它可通过可能具有足够大的可用的带宽的传送系统被分布W另外 呈现所有音频床和对象数据。
[0048] 对于当前的单音、立体声和多通道音频内容,上述的传输方法和网络的带宽约束 使得音频编码一般需要减小匹配分布方法的可用带宽所需要的带宽。当前的电影院系统 能够对典型的7. 1电影院格式W10Mbps量级的带宽提供未压缩的音频数据。与该容量相 比,各种其它的传输方法和回放系统的可用带宽明显较少。例如,基于盘的带宽为约几百 化ps~几十Mbps,广播带宽为约几百化ps~几十化ps;0TT因特网带宽为约几百化ps~ 几Mbps;移动(3G/4G)仅为几百化ps~几十化ps。由于自适应音频包含作为该格式的一 部分的附加的音频本质,即,除了通道床102W外,包含对象104,因此,对于传送带宽的已 经明显的约束进一步恶化超过正常的基于通道的音频格式,并且,除了音频编码工具W外, 需要另外减少带宽,W有利于在带宽减小的传送和回放系统中精确再现。
[0049] 通过对象群集的场景简化
[0050] 在实施例中,自适应音频系统提供了通过对象群集W及由通道床和对象的组合创 建的空间场景的感知透明的简化来减少基于对象的音频内容的带宽的部件。由部件执行的 对象群集处理使用关于对象的某些信息,包括空间位置、内容类型、时间属性、对象宽度和 响度,W通过将类似的对象分组成替代原始对象的对象集群来减少空间场景的复杂性。
[0051] 用于基于原始复杂床和音频轨道来分布和呈现引人注目的用户体验的标准音频 编码的附加音频处理一般被称为场景简化和/或对象群集。该处理的目的是通过群集或分 组技术来减少空间场景,该群集或分组技术减少要被传输到再现装置的单个音频要素(床 和对象)的数量,但仍保持足够的空间信息使得原始创作内容与呈现输出之间的所感知的 差异被最小化。
[0052]通过使用关于对象的信息(包含空间位置、时间属性、内容类型、宽度和其它适当 的特性)W将对象群集到更少的数量,场景简化处理有助于带宽减少的通道或编码系统中 的对象加床内容的呈现。该处理可通过执行W下的群集处理减少对象的数量;(1)将对象 群集到对象;(2)群集对象与床;和(3)将对象和床群集到对象。另外,对象可分布于两个或 更多个集群上。处理还使用关于对象的某些时间和/或感知信息,W控制对象的群集和去 群集(declustering)。对象集群用单个等同波形和元数据集替代构成对象的各个波形和元 数据要素,使得用于N个对象的数据被用于单个对象的数据替代,由此将对象数据明显从N 压缩到1。如上所述,作为替代方案,或者附加地,对象或床通道可分布于多于一个的集群上 (例如,使用振幅平移技术),从而将对象数据从N压缩到M,使得M<N。群集处理利用基于由 于被群集的对象的位置、响度或其它特性的变化导致的崎变的误差度量,W确定群集压缩 与被群集的对象的声音劣化之间的最佳折衷。群集处理可被同步执行,或者它可W被事件 驱动,诸如通过使用听觉场景分析(ASA)和事件边界检测,W控制通过群集的对象简化。在 一些实施例中,处理可利用终端呈现算法和设备的知识来控制群集。W该种方式,回放装置 的某些特性或性能可被用于通知群集处理。例如,对于扬声器对比耳机或其它的音频驱动 器可利用不同的群集方案,或者对于无损编码对比有损编码可利用不同的群集方案,等等。 [0化3]对于W下的描述,术语"群集"和"分组"或"组合"可被交换使用,W描述组合对象 和/或床(通道)W减少用于在自适应音频回放系统中进行传送和呈现的自适应音频内容 的单位的数据量;术语"压缩"或"减少"可被用于表示通过对象和床的该种群集执行自适 应音频的场景简化的操作。在本说明书中,术语"群集"、"分组"或"组合"不限于严格唯一 地仅向单个群集分配对象或床通道,而是,可通过使用确定对象或床信号对于输出群集或 输出床信号的相对贡献的权重或增益矢量将对象或床通道分布于多于一个的输出床或群 集上。
[0054]图2A是根据实施例的与用于呈现自适应音频内容的编解码器电路结合执行群集 处理的群集部件的框图。如图200所示,电路200包含处理输入音频信号W产生带宽减小的 输出音频信号的编码器204和解码器206级。例如,如图2A所示,输入信号的一部分209可 通过已知的压缩技术被处理W产生压缩音频位流205,该压缩音频流205通过解码器级206 被解码W产生输出207的至少一部分。该种已知的压缩技术包括分析输入音频内容209、量 化音频数据、然后对音频数据本身执行诸如掩蔽等的压缩技术。压缩技术可W是有损的或 者无损的,并且在可允许用户选择诸如192化ps、256化ps和512化ps等的压缩带宽的系统 中被实现。
[0化5]在自适应音频系统中,输入音频的至少一部分包括包含由音频和元数据构成的对 象的输入信号201。元数据限定了相关音频内容的某些特性,诸如对象空间位置、内容类型 和响度等。任何实际数量(例如,几百个对象)的音频对象可通过系统被处理w便回放。为 了有利于在各种各样的回放系统和传送媒体上准确地回放该些对象,系统200包括群集处 理或部件202,其通过将原始对象组合成较少数量的对象组来将对象的数量减少到数量更 少的、更可管理的群集。群集处理由此构建对象的组W从单独输入对象201的原始集产生 数量更少的输出组203。群集处理202基本上处理对象的元数据W及音频数据自身W产生 更少的对象组。元数据被分析,W确定任何时间点的哪些对象更适合与其它的对象组合,然 后将组合的对象的相应音频波形加在一起W产生替代或组合对象。组合对象组然后被输入 到编码器204,该编码器204产生包含用于传送到解码器206的音频和元数据的位流205。 [0化6] -般地,结合有对象群集处理202的自适应音频系统包含从原始空间音频格式产 生元数据的部件。编解码器电路200包含被配置为处理包含常规的基于通道的音频要素和 音频对象编码要素的一个或更多个位流的音频呈现系统的一部分。包含音频对象编码要素 的扩展层被添加到基于通道的音频编解码器位流或音频对象位流中的任一个。该方法启用 位流205,其包含通过与现有扬声器和驱动器设计或利用可单独寻址驱动器和驱动器定义 的下一代扬声器一起使用的呈现器被处理的扩展层。来自空间音频处理器的空间音频内容 包含音频对象、通道和位置元数据。当对象被呈现时,它根据位置元数据和回放扬声器的位 置被分配给一个或更多个扬声器。另外的元数据可与对象相关,W修改回放位置或者W另 外的方式限制要用于回放的扬声器。元数据可响应工程师的混合输入在音频工作站中产 生,W提供控制位置参数(例如,位置、速度、强度、音色等)并且规定接听环境中的哪些驱 动器或扬声器在表演时播放相应声音的呈现线索。元数据与工作站中的相应音频数据相关 联W便通过空间音频处理器被封装和传送。
[0057]图2B示出根据实施例的自适应音频处理系统中的对于对象和床进行群集。如图 250所示,对象处理部件256执行任意数量的输入音频文件和元数据中的某些场景简化任 务读取。输入音频文件包含输入对象252和相关的对象元数据、W及床254和相关的床元 数据。该输入文件/元数据由此与"床"或"对象"轨道对应。对象处理部件256组合媒体 智能/内容分类、空间崎变分析和对象选择/群集,W创建更少数量的输出对象和床轨道。 特别地,对象可被群集在一起W通过相关的对象/群集元数据创建新的等同的对象或对象 集群258。对象也可被选择为用于"下混合巧Ij床中。该被示为下混合对象260的输出被输 入呈现器266,W与床262组合268,W形成输出床对象和相关的元数据270。输出床配置 270 (例如,典型的家用5. 1)并不必需匹配输入床配置,该输入床配置可例如为用于Atmos? 电影院的9.1。通过组合来自输入轨道的元数据对于输出轨道产生新的元数据。还通过组 合来自输入轨道的音频对于输出轨道产生新的音频。
[0化引对象处理部件256利用某些处理配置信息272。在实施例中,该些包括输出对象的 数量、帖尺寸和某些媒体智能设定。媒体智能(mediaintelligence)可包含与对象相关的 若干参数或特性,诸如内容类型(即,对话/音乐/效果/等)、区域(段/分类)、预处理 结果、听觉场景分析结果和其它的类似的信息。
[0化9]在替代性实施例中,可通过保持参照所有原始轨道W及简化元数据(例如,哪些 对象属于哪个群集,哪些对象要呈现给床等)来推迟音频产生。该可用于在工作室与编码 室或其它类似的情形之间分布简化处理。
[0060] 图2C示出根据实施例的总体自适应音频呈现系统中对自适应音频数据进行群 集。总体处理系统220包含=个主要级;即后期制作221、传送(传输/流传输)223和回放 系统225 (家庭/剧院/工作室)。如图2C所示,可在该些级中的一个或任一个中,执行通 过将原始数量的对象组合到数量减少的对象或对象集群来简化音频内容的动态群集处理。
[0061] 在后期制作级221中,可W是基于电影院和/或家庭的自适应音频内容的输入 音频数据222可被输入到元数据产生处理224。该处理产生了用于对象的空间元数据,包 含;位置、宽度、去相关和呈现模式信息,并且还产生包含内容类型、对象边界和相对重要性 (能量/响度)的内容元数据。群集处理226然后被应用于输入数据W通过基于对象的空 间接近度、时间接近度或其它的特性将某些对象组合在一起将总体输入对象减少到数量更 少的对象。群集处理226可W是当在系统中处理输入数据时作为恒定或周期性处理来执行 群集的动态群集处理,并且,它可利用规定了诸如群集的目标数量、对象/群集的重要性权 重和过滤效果等的某些约束的用户输入228。后期制作级也可包含提供诸如混合、去相关和 限制器等的群集的某些处理的群集下混合步骤。后期制作级可包含允许音频工程师监视或 接听群集处理的结果并且如果结果不足够则修改输入数据222或用户输入228的呈现/监 视选项232。
[0062] 传送级223 -般包含执行原始数据到编解码器的接口连接的部件234W及将音 频数据封装成适当的输出格式W用于通过使用适当的编解码器(例如,Tru細D、Do化y、 Digital+等)传输或流动数字数据的部件236。在传送级223中,另一动态群集处理238 也可被应用于在后期制作级221中制作的对象。
[0063] 回放系统225接收传送的数字音频数据并且执行用于通过适当的设备(例如,放 大器加扬声器)回放的最终呈现步骤242。在该级中,可通过使用某些用户输入244和回放 系统(计算机)能力245信息施加附加的动态群集处理240,W进一步将对象分组成为集 群。
[0064] 在实施例中,在传送级或回放级中执行的群集处理240和238可W是受限制的群 集处理,因为在形成的群集的数量和/或用于执行群集的信息的量和类型方面,与后期制 作群集处理226相比,对象群集的量可受到限制。
[0065] 图3A示出根据实施例的用于创建组合对象的两个对象的音频信号和元数据的组 合。如图300所示,第一对象包含对于各限定时间段(例如,20毫秒)被示出为波形302W 及元数据312的音频信号。因此,例如,如果波形302为60毫秒音频片段,那么存在用于第 一对象的S个不同的兀数据实例,表不为MDUMD2和MD3。对于同一时间间隔,第二对象包 含音频波形304和S个不同的对应的元数据实例,表示为MDa、MDb和MDc。群集处理202包 含两个对象,W创建包含波形306和相关的元数据316的组合的对象。在实施例中,通过将 波形相加来组合原始第一和第二波形302和304,W创建组合波形306。作为替代方案,可 根据系统实现通过其它的波形组合方法来组合波形。第一和第二对象的各时间段的元数据 也可被组合W产生表示为MDla、MD化和MD3C的组合元数据316。根据限定的算法或组合 函数执行元数据的组合,并且,该组合可根据系统实现改变。可通过各种不同的方式组合不 同类型的元数据。
[0066] 图3B是表示根据实施例的用于群集处理的示例性元数据定义和组合方法的表 格。如表350的列352所示,元数据定义包含元数据类型,诸如对象位置、对象宽度、音频内 容类型、响度、呈现模式、控制信号W及其它可能的元数据类型。元数据定义包含定义与各 元数据类型相关的某些值的要素。在表350的列354中列出各元数据类型的示例性的元数 据要素。当在群集处理202中将两个或更多个对象组合在一起时,它们的各元数据要素通 过限定的组合方案被组合。在表350的列356中列出各元数据类型的示例性的组合方案。 如图3B所示,两个或更多个对象的位置和宽度可分别通过加权平均被组合,W导出组合对 象的位置和宽度。关于位置,可W使用包围被群集的(构成)对象的质屯、的几何中屯、W代 表替代对象的位置。元数据的组合可使用权重W确定构成对象的元数据的(相对)贡献。 该种权重可从一个或更多个对象和/或床通道的(部分)响度导出。
[0067] 可通过将构成对象的响度进行平均或相加来导出组合对象的响度。在实施例中, 信号的响度度量代表信号的感知能量,它是基于频率被加权的能量的度量。响度因此是与 收听者的声音感知对应的谱加权能量。在替代性实施例中,作为响度的替代,或者连同响度 一起,处理可使用信号的纯能量(MS能量)或一些其它的信号能量度量,作为确定对象的 重要性的因素。在又一替代性实施例中,从被群集的对象的部分响度数据导出组合对象的 响度,其中,根据屯、理声学原理,部分响度代表在完整的一组对象和床的情境中对象的(相 对)响度。因此,如表350所示,响度元数据类型可体现为绝对响度、部分响度或者组合的 响度元数据定义。对象的部分响度(或相对重要性)可作为重要性度量,或者在呈现系统 不具有足够的分别呈现所有对象的能力的情况下作为用于选择性地呈现对象的手段,被用 于群集。
[0068] 其它的元数据类型可需要其它的组合方法。例如,某些元数据不能通过逻辑或算 术运算被组合,因此,必须进行选择。例如,在作为任一个模式或另一模式的呈现模式的情 况下,主导对象的呈现模式被分配为组合对象的呈现模式。根据应用和元数据特性,可W选 择或组合其它类型的元数据,诸如控制信号等。
[0069] 关于内容类型,音频一般分成多个定义的内容类型中的一种,诸如对话、音乐、环 境声和特定效果等。对象可在其持续期内改变内容类型,但是在任何特定的时间点,它一般 仅是一种类型的内容。内容类型由此表达为对象在任何时间点是特定类型的内容的概率。 因此,例如,恒定对话对象会表达为百分之百概率的对话对象,而从对话变换成音乐的对象 可表达百分之五十的对话/百分之五十的音乐。群集具有不同内容类型的对象可通过如下 处理来进行;对于对象各自对于每一内容类型的概率求平均、选择最主导对象的内容类型 概率或者内容类型度量的一些其它的逻辑组合,执行。内容类型也可表达为n维矢量(该 里,n是不同内容类型的总数,例如,在对话/音乐/环境声/效果的情况下,为4)。可然后 通过执行适当的矢量运算导出群集对象的内容类型。如表350所示,内容类型元数据可体 现为组合的内容类型元数据定义,该里,内容类型
的组合反映了组合的概率分布(例如,音 乐、语音等的概率的矢量)。
[0070] 关于音频的分类,在实施例中,为了确定对象的特征在多大程度上匹配特定类的 特征,处理在时间-帖的基础上操作W分析信号、识别信号的特征和比较所识别的特征与 已知类的特征。基于特征在多大程度上匹配特定的类,分类器可识别对象属于特定类的概 率。例如,如果在时间t=T对象的特征非常好地匹配对话特征,那么对象会W高的概率被 归类为对话。如果在时间t=T+N对象的特征非常好地匹配音乐特征,那么对象会W高的 概率被归类为音乐。最后,如果在时间t=T+2N对象的特征不特别好地匹配对话或音乐, 那么对象会归类为50%音乐和50%对话。
[0071] 图3B中的元数据定义的列表是要解释某些示例性元数据定义,并且,许多其它的 元数据要素也是可能的,诸如驱动器定义(数量、特性、位置、投影角)、包含房间和扬声器 信息的校准信息和任何其它适当的元数据。
[0072] 在实施例中,并且,参照图2A,群集处理202被设置在与编解码器的编码器204和 解码器206级分开的部件或电路中。编解码器204可被配置为处理用于通过使用已知的压 缩技术压缩的原始音频数据209和包含音频加元数据定义的自适应音频数据201。一般地, 群集处理实现为在编码器级204之前将对象群集到组中W及在解码器级206之后呈现被群 集的对象的前编码器和后解码器处理。作为替代方案,群集处理202可作为集成部件被包 含作为编码器204级的一部分。
[0073] 图4是根据实施例的图2的群集处理所使用的群集方案的框图。如图400所示, 第一群集方案402关注将单独的对象与其它的对象进行群集,W形成可通过更少的信息被 传送的对象的一个或更多个集群。该种减少可为描述多个对象的更少音频或更少元数据的 形式。对象的群集的一个例子是将空间有关的对象进行分组,即,组合位于类似的空间位置 中的对象,其中,空间位置的"类似性"由基于由于构成对象偏移到由替代集群定义的位置 而导致的崎变的最大误差阔值限定。
[0074] 第二群集方案404确定什么时候适于组合可在空间上与代表固定空间位置的通 道床不同的音频对象。该种类型的群集的例子是;什么时候不存在足够的可用W传送可原 本代表为在=维空间中横穿的对象的带宽而将对象混合到其在一般代表通道床的水平面 上的投影中。该允许将一个或更多个对象动态混合到静态通道中,由此减少需要传送的对 象的数量。
[0075] 第S群集方案406使用某些已知的系统特性的先验知识。例如,可W使用回放系 统中的终端呈现算法和/或再现设备的知识W控制群集处理。例如,典型的家庭剧院配置 依赖于位于固定位置的物理扬声器。该些系统还可依赖于补偿房间中的一些扬声器的不存 在的扬声器虚拟化算法,并且使用算法W向接听者提供存在于房间内的虚拟扬声器。如果 诸如扬声器的空间差异和虚拟化算法的精度的信息是已知的,那么可能能够发送更少的对 象,原因是扬声器配置和虚拟化算法只能向接听者提供有限的感知体验。在该种情况下,发 送全床加对象表现可能浪费带宽,因此,一定程度的群集会是合适的。也可在该群集方案中 使用其它类型的已知的信息,诸如用于控制群集的对象或多个对象的内容类型或者用于控 制群集的对象或多个对象的宽度。对于本实施例,编解码器电路200可被配置为基于回放 装置适应性调整输出音频信号207。该特征允许用户或其它处理限定分组群集203的数量 W及压缩音频211的压缩比。由于一些不同的传送媒体和回放装置可具有明显不同的带宽 容量,因此,用于标准压缩算法W及对象群集两者的灵活压缩方案可能是有利的。例如,如 果输入包含例如为100个的第一数量的原始对象,那么群集处理可被配置为产生用于藍光 系统的20个组合组203或用于蜂窝电话回放的10个对象,等等。群集处理202可被递归应 用,W产生数量递减的群集组230,使得可对不同的回放应用提供不同的输出信号207组。
[0076] 第四群集方案408包含使用时间信息来控制对象的动态群集和去群集。在一个实 施例中,W规则的间隔或时间段执行群集处理(例如,每10毫秒一次)。作为替代方案,可 W使用其它的时间事件,包含诸如听觉场景分析(ASA)和听觉事件边界检测的技术,W分 析和处理音频内容W基于各个对象的持续期确定最佳群集配置。
[0077] 应当注意,图400所示的方案可作为独立操作或者与一个或更多个其它的方案组 合地被群集处理202执行。它们也可相对于其它的方案W任何次序执行,并且对于群集处 理的执行不需要特定的次序。
[007引对于群集基于空间位置402的情况,原始对象被分组成空间质屯、被动态构建的群 集。质屯、的位置变为组的新位置。组的音频信号是用于属于该组的各对象的所有原始音频 信号的下混合。各群集可被视为近似其原始内容但共享与原始输入对象相同的核屯、属性/ 数据结构的新对象。作为结果,可通过对象呈现器直接处理各对象群集。
[0079] 在实施例中,群集处理动态地将原始数量的音频对象和/或床通道分组成为目标 数量的新的等价对象和床通道。在最实际的应用中,目标数量明显比原始数量少,例如,100 个原始输入轨道被组合成20或更少的组合组。该些方案应用于床和对象通道两者都可用 作群集处理的输入和/或输出的情况。支持对象和床轨道两者的第一方案是要将输入床轨 道作为在空间中具有固定的预定位置的对象进行处理。该允许系统将包含例如对象和床的 场景简化为仅目标数量的对象轨道。但是,作为群集处理的一部分,也可能希望保留一定数 量的输出床轨道。可然后作为预处理,直接向床轨道呈现较不重要的对象,而最重要的对象 可进一步群集到更少目标数量的等价对象轨道。如果得到的群集中的一些具有高崎变,那 么它们也可作为后处理被呈现给床,原因是该可导致原始内容的更好近似。由于误差/崎 变是时间变化函数,因此可在时间变化的基础上进行该种决定。
[0080] 在实施例中,群集处理包含分析每个单独输入轨道(对象或床)201的音频内容W 及附加的元数据(例如,对象的空间位置),W导出使给出的误差度量最小的等价数量的输 出对象/床轨道。在基本的实现中,误差度量基于由于偏移被群集的对象而导致的空间崎 变,并且可进一步通过各对象随时间的重要性的度量被加权。对象的重要性可涵盖对象的 其它特性,诸如响度、内容类型和其它相关的因素。作为替代方案,该些其它的因素可形成 可与空间误差度量组合的单独的误差度量。
[0081] 误差计算
[0082] 群集处理基本上代表减少通过系统传送的数据量的一种有损压缩方案,但是,由 于原始对象组合成数量更少的被呈现对象,因此固有地引入一定量的内容劣化。如上所述, 由于对象群集导致的劣化通过误差度量被量化。一般地,原始对象至相对少的组合组的减 少越大并且/者原始对象至组合组中的空间塌缩量越大,则误差越大。在实施例中,在式 (1)中表达在群集处理中使用的误差度量:
[0083]E(s,c) [t] =Importance_s[t]-kdist(s,c) [t] (1)
[0084] 如上所述,对象可分布于多于一个的集群上而不是与其它的对象集合成单个集 群。当具有指数S的对象信号X(S) [t]分布于多于个一个的群集C上时,使用振幅增益 g(S,C) [t]的代表性的集群音频信号y(S) [t]在式2中表示:
[00化]y(C)[t] =sum_sg(s,C)[t] *x(s) [t] 似
[0086] 如式3所示,各集群c的误差度量E(s,c) [t]可W是通过作为振幅增益g(s,c) [t] 的函数的权重的在式1中表达的项的加权组合:
[0087]E(S,C)[t] =sum_s(f (g (S,C)[t]) *Importance_s[t]*distk,C)[t]) (3)
[008引在实施例中,群集处理通过宽度或广度参数支持对象。宽度用于不被呈现为点状 源而是呈现为具有表观空间广度的声音的对象。随着宽度参数增加,呈现的声音变得更加 空间扩散,因此,其特定的位置变得更不相关。因此,在群集崎变度量中包含宽度是有利的, 使得随着宽度增加它偏爱更大的位置误差。如式4所示,误差式E(s,c)可由此被修正W包 括宽度度重。
[0089] E(S,C) [t] =Importance_s[t] * (a* (1-Width_s[t]) *dist(S,C)
[t]+(1-a) *Width_s[t]) (4)
[0090] 在W上的式1和3中,重要性因子s是对象的相对重要性,c是集群的质屯、, dist(s,C)是对象与集群的质屯、之间的欧几里得S维距离。如[t]项所示,所有该S个量是 时间变化的。也可引入加权项aW控制对象的尺寸对比位置的相对权重。
[0091] 重要性函数importance_s[t]可W是基于信号的度量(诸如,具有较高的各对象 相对于混合的剩余部分有多显著的水平度量的信号的响度)的组合。例如,对各对输入对 象计算的谱类似性度量可进一步加权响度度量,使得类似的信号趋于分组在一起。对于作 为例子的电影院内容,可能也希望给予屏幕上对象更大的重要性,在该种情况下,重要性可 进一步由方向点积项(其是前中屯、对象的最大值并且随着对象离开屏幕而消失)被加权。
[0092] 当构建集群时,重要性函数在相对长的时间窗口(例如,0. 5秒)上被时间平滑化, W确保群集是时间一致的。在该种情况下,包含对象开始和停止时间的预测和先验知识可 提高群集的精度。相反,可通过使用更高的重要性函数速率估计W更高的速率(10~40毫 秒)适应性调整群集质屯、的等价空间位置。重要性度量(例如,使用瞬时检测器)的突然 改变或增加可暂时缩短相对长的时间窗口,或者关于该长的时间窗口重置任何分析状态。
[0093] 如上所述,也可在误差度量中包含诸如内容类型的其它信息作为附加的重要性加 权项。例如,在电影音轨中,对话可被视为比音乐和声音效果重要。因此,优选通过增加相 应对象的相对重要性在一个或几个仅对话的集群中分离对话。各对象的相对重要性也由用 户提供或人工调整。类似地,如果用户希望,则仅原始对象的特定子集可被群集或简化,而 其它将作为单独呈现的对象被保留。也可通过使用媒体智能技术自动产生内容类型信息, W分类音频内容。
[0094] 误差度量E(s,C)可W是基于组合的元数据要素的若干误差成分的组合。因此,距 离W外的其它信息可在群集误差中起作用。例如,基于诸如对话、音乐和效果等对象类型, 类似的对象可群集在一起而不是分开的对象。组合不兼容的不同类型的对象可导致输出声 音崎变或劣化。误差也可由于用于群集对象中的一个或更多个的呈现模式不适当或者劣于 最优呈现模式而被引入。类似地,对于被群集的对象,特定对象的某些控制信号可被忽略或 折衷。由此可限定代表当对象被群集时组合的各元数据要素的误差之和的总误差项。在式 5中表示总误差的示例性表达:
[00 巧]E〇v"alIt]=EE"n妨
[0096] 在式5中,MDn代表对于合并在集群中的各对象被组合的N个元数据要素的特定 元数据要素,EMDn代表与组合该元数据值与集群中的其它对象的对应元数据值相关联的误 差。误差值可对于被平均化的元数据值(例如,位置/响度)可表达为百分比值,或者对于 被选择为一个值或另一个的元数据值(例如,呈现模式)被表达为二进制0%或100%值, 或者表达为任何其它的适当的误差度量。对于图3B所示的元数据要素,可在式6中表达总 误差。
[0097] E〇veralIt] -Espatial+Ei〇udness+Erendering+Ec〇ntrll做
[009引可W使用空间误差W外的不同的误差成分作为用于对象的群集和去群集的准则。 例如,可W使用响度W控制群集行为。特定的响度是基于屯、理声学原理的响度的感知度量。 通过测量不同对象的特定响度,对象的感知响度可指导其是否被群集。例如,响的对象如果 其空间轨道被修改则可能对接听者更明显,而对于较安静的对象则一般是相反情况。因此, 除了空间误差W外,可W使用特定的响度作为加权因子来控制对象的群集。另一例子是对 象类型,其中,如果对象的空间组织被修改,则一些类型的对象可更易被察觉。例如,人对语 音信号非常敏感,并且,该些类型的对象可能需要W与诸如空间感知较不敏锐的类似噪声 或环境声效果的其它对象不同的方式被处理。因此,除了用于控制对象的群集的空间误差 W外,可W使用对象类型(诸如语音、效果、环境声等)作为加权因子。
[0099] 群集处理202由此基于对象的某些特性和限定的不能被超过的误差量将对象组 合成集群。如图3A所示,群集处理202动态地重新计算对象组203W恒定地W不同或周期 性的时间间隔构建对象组W在时间的基础上优化对象分组。替代性或组合的对象组包含代 表构成对象的元数据的组合的新元数据集和代表构成对象音频信号之和的音频信号。图3A 所示的例子示出通过对于特定的时间点组合原始对象302和304来导出组合对象306的情 况。在晚些的时间,根据由群集处理执行的动态处理,可通过组合一个或更多个其它或不同 的原始对象导出组合的对象。
[0100] 在一个实施例中,群集处理W规则的周期性间隔(诸如每10毫秒一次,或者任何 其它适当的时间周期)分析对象并且执行群集。图5A~5B示出根据实施例的在周期性时 间间隔中将对象分组成群集的处理。如示出特定时间点的对象的位置或定位的图500所 示。如图5A所示,各种对象可在任何一个时间点存在于不同的位置,并且,对象可具有不同 的宽度,该里,对象化被示为具有比其它的对象大的宽度。群集处理分析对象W形成相对于 限定的最大误差阔值在空间上足够接近的对象的组。在由误差阔值502限定的距离内相互 分开的对象适于群集在一起,由此,对象化~0 3可在对象集群A内群集在一起,并且,对象 〇4和05可在不同的对象集群B内群集在一起。基于某个时间(例如,T= 0毫秒)的对象 的相对位置形成该些集群。在下一时间周期中,对象可能在元数据特性中的一个或更多个 的方面被移动或改变,在该种情况下,对象集群可被重新限定。各对象集群用不同的波形和 元数据集替代构成对象。因此,对象集群A包含代替对象化~0 3中的每一个的单独波形和 元数据被呈现的波形和元数据集。
[0101] 图5B示出下一时间周期(例如,T= 10毫秒)的对象的不同的群集。在示图550 的例子中,对象化离开对象0 4并接近另一对象即对象0e。在该种情况下,对象集群B现在 包含对象〇e~0e,并且,对象〇4变得被去群集并且呈现为单独的对象。其它的因素也可导 致对象被去群集或者改变集群。例如,对象的宽度或响度(或其它参数)变得足够大或与 其邻居足够不同,使得它不应再与它们群集。因此,如图5B所示,对象化可变得足够宽,使 得它从对象集群A去群集并且也被单独呈现。应当注意,出于视觉组织和讨论的原因,图 5A~5B中的横轴不代表时间,而被用作空间分布多个对象的尺寸。示图的整个顶部代表所 有对象的时间t的时刻或快照W及它们如何被群集。
[0102] 作为如图5A~5B所示的那样在每个时间周期执行群集的替代,群集处理可基于 与对象相关的触发条件或事件来将对象进行群集。一个该种触发条件是各对象的开始和停 止时间。图6A~6C示出根据实施例的关于限定的对象边界和误差阔值将对象分组成群集 的处理。作为阔值步骤,各对象必须在特定的时间周期内被限定。可w使用各种不同的方 法W在时间上限定对象。在一个实施例中,可W使用对象开始/停止时间信息W限定群集 处理的对象。该方法利用限定音频对象的开始点和停止点的明确的基于时间的边界信息。 作为替代方案,可W使用听觉场景分析技术W识别在时间上限定对象的事件边界。在美国 专利7711123中描述了该种技术,该专利通过引用并入该里并且被附加为ExhibitB。所检 测的听觉场景事件边界是感知相关的时刻,在该时刻,音频中存在可用于提供"感知掩蔽" 的音频的感知变化,该变化可针对不被接听者听到的音频做出。
[0103] 图6A~6C示出根据实施例的使用听觉场景分析和音频事件检测或其它类似的方 法来控制使用群集处理的音频对象的群集。该些附图的例子概括了使用所检测的听觉事件 W限定群集并且基于限定的误差阔值从对象群集中去除音频对象。图6A是示出在特定时 间(t)的空间误差的图中的对象集群的创建。两个音频对象集群指示为集群A和集群B, 对象群集A由四个音频对象〇1~0 4构成且对象群集B由S个音频对象0g~0 ,构成。图 600的纵轴表示空间误差,它是空间对象与被群集的对象的其余部分的不相似程度的度量, 并且可被用于从群集去除对象。在图600中还示出各单独对象〇1~0 ,的所检测的听觉事 件边界604。由于各对象代表音频波形,因此对于对象能够在任何给定的时刻具有所检测 的听觉事件边界
604。如图600所示,在时间=t,对象〇1和〇e在它们的音频信号中的每一 个中具有所检测的听觉事件边界。应当注意,出于视觉组织和讨论的原因,6A~6C中的横 轴不代表时间,而被用作空间分布多个对象的尺寸。示图的整个顶部代表所有对象的时间 t的快照或时刻W及它们如何被群集。
[0104] 如图6A所示,空间误差阔值602。该值代表为了从群集去除对象而必须超过的误 差量。目P,如果对象与潜在群集中的其它对象分开超过该误差阔值602的量,那么对象不包 含于该群集中。因此,对于图6A的例子,各单独对象均不具有超过由阔值602表示的空间 误差阔值的空间误差,因此不应出现去群集。
[010引图6B示出在作为t之后一定时间量的时间=t+N的图6A的群集例子,该里,对象 中的每一个的空间误差对于对象化~0 3和0g~0 ,稍微改变。在本例子中,对象0 4具有超 过预定的空间误差阔值622的空间误差。应当注意,在时间=t+N,对于对象02和04检测到 听觉事件边界,该表示在时间=t+N由对象04的波形中的事件边界创建的感知掩蔽允许从 群集去除该对象。注意,对象04可能已在t<时间<t+N之间超过空间误差阔值,但是,由于 没有检测到听觉事件因此对象保持于对象群集A中。在该种情况下,群集处理将导致从群 集去除(或者去群集)对象04。如图6C所示,从对象群集A去除对象04得到时间=t+N+1 的新对象群集组织。此时,对象04可作为被呈现的单个对象驻留,或者,如果合适的群集可 用,它可集成到另一对象群集中。
[0106] 在自适应音频系统中,某些对象可被定义为固定对象,诸如与特定扬声器馈送相 关的通道床。在实施例中,群集处理应对床加动态对象交互,使得当对象在与被群集的对象 (例如,它是偏远对象)组合时创建太多的误差时,作为替代它与床混合。图7是示出根据 实施例的将对象和床进行群集的方法的流程图。在图7所示的方法700中,假定床被定义 为固定位置对象。在操作702中,如果对象高于用于与其它对象进行群集的误差阔值,偏远 对象然后与一个或更多个适当的床进行群集(混合)。在操作704中,在群集之后,床通道 然后被标注对象信息。在操作706中,处理然后向更多的通道呈现音频,并且将额外的通道 作为对象进行群集,并且在操作708中,对下混合或智能下混合执行动态范围管理W避免 伪像/去相关和相位崎变等。在操作710中,处理执行两段式炼选/群集处理。在实施例 中,该包括使N个最显著的对象保持分开,并且对剩余的对象进行群集。因此,在操作712 中,处理仅将较不显著的对象群集到组或固定床。固定床可被添加到移动对象或被群集的 对象,该可更适于特定的终端装置,诸如耳机虚拟化。对象宽度可被用作多少W及哪些群集 被群集在一起W及在群集之后它们将在哪里被空间呈现的特性。
[0107] 在实施例中,基于对象信号的显著性是混合的平均谱与各对象的谱之间的差值, 并且,显著性元数据要素可被添加到对象/群集。相对响度是由各对象对于最终的混合贡 献的能量/响度的百分比。也可向对象/群集添加相对响度元数据要素。处理可然后通过 显著性分类W炼选被掩蔽的源和/或保留最重要的源。可通过进一步衰减低重要性/低显 著性的源来简化群集。
[0108] 群集处理一般被用作音频编码之前的数据率降低的手段。在实施例中,基于终端 设备呈现能力在解码过程中使用对象群集/分组。可与使用该里描述的群集处理的呈现系 统结合使用各种不同的终端设备,诸如来自全电影院回放环境、家庭剧院系统、游戏系统和 个人便携式器件和耳机系统的任一个。因此,在进行呈现之前,可在诸如藍光播放器的设备 中解码对象和床的同时利用相同的群集技术,W便不超过呈现器的能力。一般地,对象和床 音频格式的呈现需要作为各对象的空间信息的函数向与呈现器相关的一些通道集呈现各 对象。该呈现的计算成本随对象的数量缩放,因此,任何呈现器件可具有它可呈现的对象的 最大数量,该数量是其计算能力的函数。诸如AVR的高端呈现器可包含可同时呈现大量的 对象的先进处理器。由于更有限的处理器,诸如单机家庭剧院(HTIB)或条状音箱的较便宜 设备可能能够呈现更少的对象。因此,对于呈现器来说,向解码器传送它可接收的对象和床 的最大数量是有利的。如果该数量比包含于被解码的音频中的对象和床的数量少,那么解 码可在向呈现器传送之前应用对象和床的群集,W使总数减小到传送的最大值。可在诸如 包含内部藍光播放器的HTIB的单个器件内的单独的解码和呈现软件部件之间,或者在诸 如独立的藍光播放器与AVR之间的两个单独的器件之间在诸如HDffl的通信链路上,进行该 能力的传送。通过列举重要性的次序、信令群集的(相对)重要性或者规定哪些群集应依 次组合W减少应呈现的群集的总数,与对象和群集相关的元数据可指示或提供关于通过呈 现器最佳地减少群集的数量的信息。在后面参照图15描述该一点。
[0109] 在一些实施例中,可在没有除各对象固有信息W外的附加信息的情况下在解码器 级206中执行群集处理。但是,该群集的计算成本可等于或大于尝试节省的呈现成本。计 算效率更高的实施例包括在计算资源可能更大的编码侧204上计算层级群集方案,和发送 元数据连同被编码的位流,该位流指示解码器如何将对象和床群集成逐渐小的数量。例如, 元数据可陈述;首先合并对象2与对象10。其次,合并得到的对象与对象5,等等。
[0110] 在实施例中,对象可具有与它们相关的一个或更多个时间变化标注,W表示包含 于对象轨道中的音频的某些特性。如上所述,对象可被归类为几个预估内容类型中的一个, 诸如对话、音乐、效果、背景等,并且,该些类型可被用于帮助引导群集。同时,该些类别在呈 现处理中也是有用的。例如,对话增强算法可仅应用于标注为对话的对象。但是,当对象被 群集时,群集可包含具有不同的标注的对象。为了标注群集,可W使用几种技术。可例如通 过选择具有最大能量的对象的标注,选择群集的单个标注。该选择也可W是时间变化的,该 里,在群集的持续期中的w规则时间间隔选择单个标注,并且,在各特定的间隔,从在该特 定间隔内的具有最大能量的对象选择标注。在一些情况下,单个标注可能不够,并且可产生 新的组合的标注。例如,在规则的间隔,在该间隔期间有助于群集的所有对象的标注可与群 集相关。作为替代方案,权重可与该些有贡献的标注中的每一个相关。例如,权重可被设定 为等于属于该特定类型的总能量的百分比;例如,50%对话、30音乐和20%效果。该些标注 可然后W更灵活的方式被呈现器使用。例如,可W仅向包含至少50%对话的被群集的对象 轨道施加对话增强算法。
[0111] 一旦组合不同的对象的群集被限定,就必须对各群集产生等价的音频数据。在实 施例中,如图3A所示,组合的音频数据只是群集中的各原始对象的原始音频内容的和。但 是,该简单的技术可导致数字剪切。为了减少该种可能性,可W使用几种不同的技术。例如, 如果群集器支持浮动音频数据,那么高动态范围信息可被存储且被转送到群集器W用于后 面的处理级。如果只有有限的动态范围可用,那么希望限制得到的信号或使其衰减一定量, 该量可W是固定的或者动态的。在后一种情况下,衰减系数将作为动态增益被带到对象数 据中。在一些情况下,构成信号的直接相加可导致梳过滤伪像。可在相加之前通过施加去 相关过滤或类似的处理减少该种问题。另一减轻由于下混合导致的音色变化的方法是在相 加之前使用对象信号的相位对准。另一解决梳过滤或音色变化的方法是,响应相加信号的 谱和单独对象信号的谱,通过向相加的音频信号施加频率相关权重来重新增强振幅或功率 互补相加。
[0112] 当产生下混合时,处理还可减少群集的位深W增加数据的压缩。可通过噪声整形 或类似的处理执行该一点。位深减少产生位数比构成对象少的群集。例如,一个或更多个 24位对象可组成为表示为16或20位的群集。可根据群集重要性或能量或其它因素对不同 的群集和对象使用不同的位减少方案。另外,当产生下混合时,得到的下混合信号可具有超 出可由具有固定位数的数字表现表示的可接受范围的采样值。在该种情况下,下混合信号 可通过使用峰值限制器被限制,或者(暂时)衰减一定量W防止采样值离开范围。施加的 衰减量可包含于群集元数据中,使得它可在呈现、编码或其它随后的处理中被取消(或逆 转)。
[0113] 在实施例中,群集处理可使用指针机构,由此,元数据包含存储于数据库或其它存 储器中的特定音频波形的指针。通过由组合的元数据要素指向适当的波形来执行对象的群 集。可在产生音频内容的预计算的数据库、从编码器和解码器级传送音频波形并然后通过 使用被群集的对象的特定音频波形的指针在解码器级中构建群集的存档系统中实现该种 系统。可在有利于不同终端设备的基于对象的音频的封装的系统中使用该种类型的机构。
[0114] 群集处理也可被调整,W允许在终端客户机装置上进行重新群集。一般地,替代性 群集替代原始对象,但是,对于本实施例,群集处理还发送与各对象相关的误差信息,W允 许客户机确定对象是单独呈现的对象还是被群集的对象。如果误差值为0,那么可W推导不 存在群集,但是,如果误差值等于一定量,那么可W推导,对象是一些群集的结果。客户机上 的呈现决定然后基于误差量。一般地,群集处理是作为离线处理运行的。作为替代方案,它 可在创建内容时作为实时处理运行。对于本实施例,群集组件可实现为可作为内容创建和 /或呈现系统的一部分被提供的工具或应用。
[011引基于感知的群集
[0116] 在一个实施例中,群集方法被配置为在约束条件(例如,由于大的对象数量和/或 它们的空间稀疏分布,输入对象在不违背空间误差规则的情况下不能被群集)下组合对象 和/或床通道。在该样的条件下,群集处理不仅受空间接近度(从元数据导出)控制,而且 受从对应的音频信号导出的感知规则增强。更具体而言,在最小化空间误差方面,具有高 (被感知到的)内容重要性的对象将比具有低重要性的对象更受偏好。量化重要性的示例 包括但不局限于部分响度和语义(内容)。
[0117] 图8示出了根据实施例的除了空间接近度之外还基于感知重要性将对象和床通 道群集为集群的系统。如图8所示,系统360包括预处理单元366,感知重要性组件376和 群集组件384。通道床和/或对象364连同相关的元数据362 -起被输入预处理单元366, 并且被处理W确定它们的相对感知重要性,然后与其它床/对象一起被群集W产生对象的 输出床和/或集群(可由单独的对象或单独的对象集构成)392,W及该些集群的相关的元 数据390。在示例性的实施例或实现中,输入可由11. 1床通道W及128或更多个音频对象 构成,并且输出可包含一组床和集群,其包含总共约11~15个信号W及每个集群的相关的 元数据,但是实施例并不因此受限。元数据可包含规定对象位置、大小、区域掩蔽、去相关器 柄注、快照柄注等。
[0118] 预处理单元366可包括各个功能组件,诸如元数据处理器368、对象去相关单元 370、离线处理单元372、信号分割单元374W及其它组件。诸如元数据输出更新率396的外 部数据可被提供给预处理器366。感知重要性组件376包括质屯、初始化组件378、部分响度 组件380、媒体智能单元382W及其它组件。诸如输出床和对象配置数据398的外部数据可 被提供给感知重要性组件376。群集组件384包括信号合并386和元数据合并388组件,它 们形成被群集的床/对象,W产生经组合的床/通道和对象的元数据390和集群392。
[0119] 关于部分响度,对象的感知响度通常在其它对象的情境中减小。例如,对象可(部 分地)被场景中存在的其它对象和/或床通道掩蔽。在一个实施例中,在空间误差最小化 方面,具有高的部分响度的对象与具有低的部分响度的对象相比受到偏好。因此,相对不受 掩蔽(即,感知上更响亮)的对象不太可能被群集,而相对受掩蔽的对象更可能被群集。此 处理优选地包括掩蔽的空间方面,例如如果被掩蔽的对象和掩蔽的对象具有不同的空间性 质,则解除掩蔽。换句话说,某一受关注对象的基于响度的重要性在该对象在空间上与其它 对象分开时比其它对象紧邻受关注对象时高。
[0120] 在一个实施例中,对象的部分响度包括通过空间未掩蔽现象被扩展的特定响度。 双耳道掩蔽解除被引入W表示基于两个对象之间的空间距离的掩蔽量,如下式所提供的。
[0121] N,k(b) = (A+ E Em化)r + (A+ E Em化)(1-f化,m)))。
[0122] 在上式中,第一个加法是对于所有m执行的,并且第二个加法是对于所有m声k执 行的。项Em(b)代表对象m的激励,项A反映了绝对听力阔值,并且项(l-f(k,m))代表掩 蔽解除。关于此式的其它细节在下文被提供。
[0123] 关于内容语义或音频类型,与背景音乐、环境声、音效或其它类型的内容相比,对 话常常被认为是更重要的(或者更受重视)。对象的重要性因此依赖于其(信号)内容,并 且与重要对象相比,相对不重要的对象更有可能被群集。
[0124] 对象的感知重要性可通过组合对象的感知响度和内容重要性而被导出。例如,在 一个实施例中,内容重要性可基于对话置信度分数被导出,并且可基于此导出的内容重要 性来估计增益值(w地计)。然后,可通过估计的响度来修正对象的响度或激励,其中该估 计的响度表示对象的最终感知重要性。
[0125]图9示出了根据一个实施例的使用感知重要性的对象群集处理的功能组件。如 图900中所示,输入音频对象902通过群集处理904被组合成输出集群910。群集处理904 至少部分地基于重要性度量908来将对象902群集,重要性度量908是从对象信号W及可 选的它们的参数对象描述被生成的。该些对象信号和参数对象描述被输入估计重要性函 数906,该函数生成被群集处理904使用的重要性度量908。输出集群910构成与原始输入 对象配置相比更加紧凑的表示(例如,较少数量的音频通道),从而允许存储和传送需求降 低;并且使得用于尤其在具有受限的处理能力和/或电池操作的消费者领域的器件上再现 内容的计算和存储需求降低。
[01%] 在一个实施例中,估计重要性906和群集904处理随时间执行。对于此实施例,输 入对象900的音频信号被分割成经受某些分析组件处理的各个帖。该样的分割可应用于时 域波形,但是也可使用过滤器组,或者应用于任何其它的变换域。估计重要性函数906对于 输入音频对象902的包括内容类型和部分响度的一个或更多个特性进行操作。
[0127]图11是示出根据实施例的基于内容类型和响度的感知因素来处理音频对象的总 体方法的流程图。方法1100的总体操作包括估计输入对象的内容类型(1102),然后估计 基于内容的对象的重要性(1104)。对象的部分响度如框1106中所示那样被计算。依赖于 系统配置,部分响度可与内容分类并行地被计算,甚至可在内容分类之前或之后被计算。响 度测量和内容分析可然后被组合(1108)W得出基于响度和内容的总体重要性。该可通过 用对象由于内容而被感知重要的可能性修正所计算的对象的响度来实现。一旦组合对象重 要性被确定,则根据某些群集处理,对象可与其它对象被群集或者不被群集。为了防止基于 响度进行不适当的对象的群集和不群集,可基于内容重要性使用平滑化操作来平滑化该响 度(1110)。关于响度平滑化,基于对象的相对重要性选择时间常数。对于重要对象,缓慢平 滑的大时间常数可被选择,使得重要对象可始终被选择为集群质屯、。还可基于内容重要性 使用自适应时间常数。然后,使用对象的经平滑化的响度和内容重要性W形成合适的输出 集群(1112)。在方法600中被示出的各主要处理的各方面在下文被更详细地描述。应指 出,依赖于系统约束和应用要求,例如,在感知重要性可能仅基于内容类型或部分响度之一 的或者不需要响度平滑化的基本系统中,如果必要的话,处理1100的某些操作可被省略。 [012引关于估计对象内容类型(1102),内容类型(例如,对话、音乐和声音效果)提供了 指示音频对象的重要性的关键信息。例如,对话在电影中通常是最重要的组成,因为其传达 了故事,并且正确回放典型地需要不允许对话随其它移动音频对象而四处移动。图9的估 计重要性函数906包括音频分类组件,其自动估计音频对象的内容类型W确定音频对象是 对话,还是对象的重要或不重要类型的一些其它类型。
[0129]图10是根据实施例的音频分类组件的功能图。如示图1000中所示,输入音频信 号1002在特征提取模块中被处理,该模块提取表示输入音频信号的时间、谱和/或空间性 质的特征。表示每个目标音频类型的统计性质的一组预先训练的模型1006还被提供。对 于图10的示例,模型包括对话、音乐、声音效果和噪声,但是其它模型也是可能,并且各种 机器学习技术可被用于模型训练。模型信息1006和提取的特征1004被输入模型比较模块 1008。此模块1008比较输入音频信号的
特征与每个目标音频类型的模型,计算每个目标音 频类型的置信度分数,并且估计最佳匹配的音频类型。每个目标音频类型的置信度分数被 进一步估计,其代表要被识别的音频对象和目标音频类型之间的概率或匹配水平,其值在0 到1(或者任何其它合适范围)中。置信度分数可根据不同的机器学习方法被计算,例如, 后验概率可直接被用作用于高斯混合模型(GMM)的置信度分数,并且S型拟合(sigmoid fitting)可用于近似支持向量机(SVM)和AdaBoost的置信度分数。其它类似的机器学习 方法也可被使用。模型比较模块1008的输出1010包括输入音频信号1002的音频类型W 及它们的相关置信度分数。
[0130] 关于估计基于内容的音频对象重要性,对于面向对话的应用,假定如上所述对话 是音频中的最重要的组成,基于内容的音频对象重要性仅基于对话置信度分数被计算。在 其它应用中,依赖于内容的优选类型,可使用不同的内容类型置信度分数。在一个实施例 中,如在下式中提供的,利用S型函数(sigmoid化nction)。
[0131]
[0132] 在上式中,Ik是对象k的估计的基于内容的重要性,Pk是对应的所估计的对象k由 语音/对话构成的概率,并且A和B是两个参数。
[0133] 为了对于对话概率分数小于阔值C的那些对象、进一步将基于内容的重要性设定 为始终接近0,上式可被如下地修改:
[0134]
[01巧]在实施例中,常数C可取值C= 0. 1,并且两个参数A和B可W是常数,或者基于概 率分数Pk被自适应地调节。
[0136] 关于计算对象部分响度,一种在复杂听觉场景中计算一个对象的部分响度的方法 是基于临界频带化)中的激励水平E(b)的。受关注的某一对象的激励水平E"w(b)和所有 其余(掩蔽)对象的激励EMiw(b)导致频带b中的特定响度N'化),如下式所给出的。
[0137]N'化)=C[师。bj'+GEnwse+A)。-A。]-C[ (GEnwse+A)。-A。],
[0138] 其中,G、C、A和a是模型参数。随后,通过在临界频带上对特定响度N'化)求和 获得部分响度N,如下。
[0139] N=EbN' (b)
[0140]当听觉场景由具有激励水平Ek化)的K个对象构成化=1,…,K)时,并且为了 表述简单,模型参数G和C被假定等于+1,对象k的特定响度Nk'化)由下式给出:
[01 4UN'k化)=(A+EmEm化))。-(-Ek化)+A+EmEm化))。
[0142] 上式中的第一项表示听觉场景的整体激励,加上反映绝对听觉阔值的激励A。第二 项反映了除了所关注的对象k之外的整体激励,因此第二项可被理解为应用于对象k的"掩 蔽"项。此式子没有应对双耳道掩蔽解除。如果所关注对象k不同于另一对象m,则掩蔽解 除可通过减少上文的掩蔽项而被并入,如下式给出:
[01 创N'k(b) = (A+EmEm化)r-(-Ek(b)+A+EmEm03)(l-f(k,m)))。,
[0144] 在上式中,f(k,m)是如下该样的函数;如果对象k和对象m具有相同位置则等于 0,并且随着对象k和m之间的空间距离增加,具有增加到+1的值。换句话说,函数f(k,m) 代表作为对象k和m的参数位置中的距离的函数的未掩蔽量。作为替代,(k,m)的最大值 可被限制为稍小于+1的值,诸如0. 995,W反映空间分隔开的对象的空间未掩蔽量。
[0145] 所限定的集群质屯、可应对(account化r)响度的计算。通常,质屯、是代表集群的 中屯、的在属性空间中的位置,并且属性是对应于测量的一组值(例如,响度、内容类型等)。 如果对象被群集,并且如果目标是导出提供可能最佳的音频质量的受约束的一组集群W及 相关的参数位置,则各个对象的部分响度仅具有有限的关联性。在一个实施例中,更具代表 性的度量是由特定集群位置(或者质屯、)应对的部分响度,该部分响度集合了该位置附近 的所有激励。类似于上述情况,集群质屯、C应对的部分响度可被表达如下:
[0146] N'。化)=(A+EmEm化)r-(A+EmEm(b) (1-f(m,c))r
[0147] 在此情境中,输出床通道(例如,应由回放系统中的特定扬声器再现的输出通道) 可被看做具有固定位置的质屯、,对应于目标扬声器的位置。类似的,输入床信号可被看做具 有与对应再现扬声器的位置对应的位置的对象。因此,在床通道位置固定的约束下,对象和 床通道可经受正好相同的分析。
[0148] 在一个实施例中,响度和内容分析数据被组合W导出组合的对象重要性值,如图 11的框1108中所示。此基于部分响度和内容分析的组合值可通过用对象在感知上重要的 概率修正对象的响度和/或激励来获得。例如,对象k的激励可被如下地修正:
[0149] E'k(b) =Ek(b)gdk)
[0150] 在上式中,Ik是对象k的基于内容的对象重要性,Ek' (b)是经修正的激励水平,并 且g( ?)是将内容重要性映射到激励水平修正中的函数。在一个实施例中,g( ?)是将内 容重要性解释为W化计的增益的指数函数。
[0151] g(Ik) =l〇G\
[015引其中,G是基于内容的对象重要性的另一增益,其可被调节W获得最佳性能。
[015引在另一实施例中,g( ?)是如下的线性函数:
[0154]g(lk)=l+G.Ik
[0巧5] 上述式子仅仅是可能的实施例的示例。替代的方法可被应用于响度而不是激励, 并且可包括除了简单乘积之外的信息组合方式。
[0156] 还如图11所示,实施例还包括基于内容重要性平滑化响度的方法(1110)。响度在 帖上被部分地平滑化,W避免其它位置的快速变化。平滑化处理的时间常数可基于内容重 要性被自适应地调整。该样,对于更重要的对象是,时间常数可更大(缓慢平滑),从而更重 要的对象可在帖上始终被选择为集群质屯、。该也改进了对于对话的质屯、选择的稳定性,因 为对话常常改变其中在停顿时响度可能低的所说的词和短语,从而导致其它对象被选择为 质屯、。该样导致最终选择的质屯、在对话和其它对象之间切换,造成可能的不稳定。
[0157] 在一个实施例中,时间常数与基于内容的对象重要性正相关,如下:
[0 巧引 T=T0+Ik. Ti
[0159] 在上式中,T是所顾忌的重要性相关的时间常数,并且T。和T1是参数。此外, 类似于基于内容重要性的激励/响度水平修正,自适应时间常数方案也可应用于响度或激 励。
[0160] 如上所述,音频对象的部分响度相对于所限定的集群质屯、被计算。在一个实施例 中,集群质屯、计算被执行为使得当集群的总数被约束时,集群质屯、的导致质屯、的最大部分 响度的子集被选择。图12是示出根据实施例的计算集群质屯、并将对象分配给所选择的质 屯、的处理的流程图。处理1200示出了基于对象响度值导出受限的质屯、集合的实施例。该 处理通过限定该受限集合中的质屯、的最大数量(1201)开始。该约束了音频对象的群集,使 得不违反诸如空间误差的有些准则。对于每个音频对象,该处理计算假定质屯、在该对象的 位置处的响度(1202)。然后,该处理选择导致最大响度的质屯、(1204),该响度可选地对于 内容类型被修正,并且去除所选择的质屯、导致的所有激励(1206)。此处理被重复进行,直到 获得块1201中定义的最大数量的质屯、(如在判定块1208中所确定的)。
[0161] 在可选择实施例中,响度处理可设及对空间域中所有可能的位置的采样执行响度 分析,然后在所有位置选择局部极大值。在另一可选择实施例中,化chbaum质屯、选择通过 响度被增强。化chbaum质屯、选择是基于彼此具有最大距离的一组位置的选择的。此处理可 通过将响度与距离度量相乘或相加W选择质屯、而被增强。
[0162] 如图12所示,一旦已经处理了最大数量的质屯、,则音频对象被分配给合适的所选 择的质屯、(1210)。在此方法中,当选择了集群质屯、的合适子集时,通过将对象添加到与其最 近的相邻质屯、,或者例如通过=角测量、使用向量分解或者用于最小化对象的空间误差的 任何其它手段将对象混合到质屯、的集合或子集中,可将对象分配给质屯、。
[0163] 图13A和13B示出了根据实施例的基于某些感知准则将对象分组成集群。图1300 示出了被表示为X/Y空间坐标系的二维对象空间中的不同对象的位置。对象的相对大小代 表它们的相对感知重要性,从而较大的对象(例如1306)的重要性高于较小的对象(例如 1308)。在一个实施例中,感知重要性是基于各相应对象的相对部分响度值和内容类型的。 群集处理分析对象W形成容忍更大空间误差的集群(对象分组),其中空间误差可关于最 大误差阔值1302被定义。基于合适的准则(诸如误差阔值),对象可被W任何数量的布置 被群集。
[0164] 图13B示出了对于特定的一组群集准则的图13A的对象的可能的群集。图1350 示出了将图1300中的一些对象群集成四个分离的集群,被指示为集群A~D。对于图13B 所示的示例,集群A代表容忍更大空间误差的低重要性对象的组合,集群C和D代表基于它 们应被分别呈现的具有足够高的重要性的源的集群,并且集群B代表低重要性对象可与高 重要性对象分组的情况。图13B的配置预期仅代表对于图13A的对象的可能的群集方案的 一个示例,并且可选择许多不同的群集布置。
[01化]在一个实施例中,群集处理选择用于将对象群集的X/Y平面中的n个质屯、,其中n是集群的数量。该处理选择对应于最高重要性的或者最大响度的n个质屯、。剩余的对象然 后根据(1)最接近的相邻对象或者(2)通过平移技术被呈现到集群质屯、中来被群集。因 此,通过将被群集对象的对象信号添加到最近的质屯、或者将音频信号混合到集群的子集中 来将音频对象分配给集群。所选择的集群的数量可W是动态的,并且通过使得集群中的空 间误差最小的混合增益被确定。集群元数据由驻留在集群中的对象的加权平均构成。权重 可基于感知响度W及对象位置、大小、区域、排除掩蔽和其它对象特性。通常,对象的群集主 要依赖于对象重要性,并且一个或更多个对象可分布于多个输出集群上。目P,对象可被添加 到一个集群(被唯一地群集),或者可分布于多于一个的集群上(非唯一地群集)。
[0166]如图13A和13B所示,群集处理动态地将原始数量音频对象和/或床通道分组成 目标数量的新的等同对象和床通道。在最实际的应用中,目标数量通常低于原始数量,例 如,100个原始输入轨道被组合成20个或更少的组合组。该些方案应用于床和对象通道两 者可用作群集处理的输入和/或输出的情况。支持对象和床轨道两者的第一方案是将输入 的床通道作为在空间中具有固定的预定义位置的对象来进行处理。该允许系统将包含例如 对象和床两者的场景简化为仅目标数量的对象轨道。但是,还希望地是作为群集处理的一 部分保留一定数量的输出床轨道。然后,作为预处理,较不重要的对象可被直接呈现给床轨 道,而最重要的对象可被进一步群集为较少目标数量的等同对象轨道。如果得到的集群中 的一些具有高崎变,它们还可作为后期处理被呈现到床,该样可导致原始内容的更好近似。 此判定可在时间变化的基础上做出,因为误差/崎变是时间变化函数。
[0167] 在一个实施例中,群集处理设及分析各单独的输入轨道(对象或床)的音频内容 W及附加的元数据(例如,对象的空间位置),W导出最小化给定的误差度量的等同数量的 输出对象/床轨道。在基本实现中,误差度量1302由于被群集的对象偏移而是基于空间崎 变的,并且可用各对象随时间的重要性的度量而被加权。对象的重要性可包封该对象的其 它特性,诸如响度、内容类型、和其它相关因素。作为替代,该些其它因素可形成可与空间误 差度量相组合的单独的误差度量。
[0168] 对象和通道处理
[0169] 在自适应音频系统中,某些对象可被定义为固定对象,例如与特定扬声器馈送相 关联的通道床。在一个实施例中,群集处理导致床加动态对象交互,从而当对象在与被群集 的对象(例如,其是偏远(outlying)对象)分组时产生过大的误差时,作为替代该对象混 合到床中。图14示出了根据实施例的用于对音频对象和通道床进行群集的处理流的组件。 图14中所示的方法1400假定床被定义为固定位置对象。然后,如果偏远对象高于用于与 其它对象群集的误差阔值,则偏远对象与一个或更多个合适的床被群集(混合)(1402)。然 后,床通道在群集之后被标注该对象信息(1404)。然后,该处理呈现音频至更多的通道,并 且将额外的通道群集为对象(1406),并且对下混或智能下混执行动态范围管理W避免伪像 和/或去相关、相位崎变等(1408)。处理执行两段式炼选/群集处理(1410)。在一个实施 例中,该设及分别保持N个最显著的对象,并且将剩余的对象进行群集。因此,该处理仅将 较不显著的对象群集为组或固定床(1412)。固定床可被添加到移动对象或群集对象,该可 更适合于特定终端设备,诸如耳机虚拟化。对象宽度可被用作多少W及那些对象被群集在 一起的特性W及它们在群集之后将被空间呈现的特性。
[0170] 回放系统
[0171] 如上文所述描述的,各种不同的终端设备可与采用文中所描述的群集处理的呈现 系统相结合地使用,并且该样的器件可具有可能影响群集处理的某些能力。图15示出了根 据实施例的基于终端设备的能力来呈现被群集的对象数据。如图1500中所示,藍光盘解码 器1502产生用于通过条式音箱、家庭影院系统、个人回放设备或者其他处理受限的回放系 统1504呈现的包括被群集的床和对象的简化的音频场景内容。终端设备的特性和能力作 为呈现器能力信息1508被传送回解码器级1502,从而对象的群集可优选地基于所使用的 特定终端设备而被执行。
[0172] 采用群集处理的各方面的自适应音频系统可包括回放系统,其被配置为呈现和回 放通过一个或多个捕获、预处理、创作和编码组件而生成的音频内容。自适应音频预处理器 可包括通过输入音频的分析来自动生成合适元数据的源分离和内容类型检测功能。例如, 位置元数据可从多通道记录通过通道对之间的关联输入的相对水平的分析被导出。诸如语 音或音乐的内容类型的检测可例如通过特征提取和分类被实现。某些创作工具允许通过 优化声音工程师的创作意图的输入和代码化来创作音频节目,该允许工程师创作最终的混 音,该混音被优化用于在实际上任何回放环境中回放。该可通过使用与原始音频内容相关 且通过原始音频内容被编码的音频对象和位置数据来实现。为了在观众席周围准确地放置 声音,声音工程师需要基于回放环境的实际约束和特征来控制声音将最终如何呈现。自适 应音频系统通过允许声音工程师使用音频对象和位置数据改变音频内容如何被设计和混 合来提供此控制。一旦自适应音频内容已在合适的编解码设备中被创作和编码,则其在回 放系统的各种组件中被解码和呈现。
[0173] 通常,回放系统可W是任何专业级或消费者级的音频系统,其可包括家庭影院 (例如,A/V接收器、条式音箱、和藍光)、E-媒体(诸如PC、平板电脑、包括耳机回放的移动 电话)、广播(例如,TV和机顶盒)、音乐、游戏、现场声音、用户生成的内容等。自适应音频 内容为所有的终端设备的观众提供了增强的沉浸感、为音频内容创作者提供了扩展的艺术 控制、提供了用于改进的呈现的改进的内容相关(描述性)元数据、为消费者级回放系统提 供了扩展的灵活性和缩放性、提供了音质保留和匹配、W及提供了基于用户位置和交互动 态呈现内容的机会。系统包括若干组件,包括用于内容创建者的新工具、用于分布和回放、 家庭内动态混合和呈现(适合于不同的消费者级配置)、附加的扬声器位置和设计的更新 的和新的包装和编码工具。
[0174] 文中描述的音频环境的各方面代表了通过合适扬声器和回放设备的音频或音频/ 视觉内容的回放,并且可代表在其中收听者体验了被捕获的内容的回放的任何环境,诸如 影院、演奏厅、露天影院、家庭或房间、听音室、汽车、游戏控制台、耳机或耳塞系统、公共地 址(PA)系统或者任何其它回放环境。包括基于对象的音频和基于通道的音频的空间音频 内容可与任何有关的内容(相关的音频、视频、图形等)相结合地使用,或者其可构成孤立 的音频内容。回放环境可W是从耳机或近场监视器到小的或大的房间、汽车、露天竞技场、 演奏厅等的任何合适的收听环境。
[0175] 文中描述的系统的各方面可在用于处理数字或数字化音频文件的合适的基于计 算机的声音处理网络环境中实现。自适应音频系统的各部分可包括一个或多个网络,包括 任何希望数量的单独的机器,包括用于缓冲和路由在计算机之间传送的数据的一个或多个 路由器(未示出)。该样的网络可在各种不同的网络协议上被构建,并且可W是因特网
、广 域网(WAN)、局域网(LAN)或者它们的任何组合。在网络包括因特网的实施例中,一个或多 个机器可被配置为通过网络浏览器程序来访问因特网。
[0176] 组件、块、处理或其它功能组成中的一个或多个可通过计算机程序实现,该计算机 程序控制系统的基于处理器的计算设备的执行。应指出,文中公开的各种功能可使用硬件、 固件的任何数量的组合被描述,和/或在它们的行为、寄存器传递、逻辑组件和/或其它特 性方面,被描述为各种机器可读或计算机可读媒介中体现的数据和/或指令。在其中可体 现该样的格式化的数据和/或指令的计算机可读媒介包括但不限于各种形式的物理(非暂 态)、非易失性存储介质,诸如光学、磁或半导体存储介质。
[0177] 除非上下文清楚要求,否则在描述和权利要求书的中,词语"包括"、"包含"等应被 在包含性的意义上、而不是排他性或者穷举性的意义上来解释,即包括、但不局限于"的 意义来解释。使用单数或复数的词语还可分别包括复数或单数。另外,词语"其中"、"下文"、 上"、下"和类似词语指的是本申请整体,而不是本申请的任何特定部分。当对于两个 或更多个项目的列表使用词语"或"时,该词语涵盖该词语的W下解释的全部:该列表的项 目的任一个、该列表中的项目的全部W及该列表中的项目的任何组合。
[0178] 尽管已经作为示例并且在具体实施例的情况下描述了一个或多个实现,但是应理 解,一个或多个实现不限于公开的实施例。相反,如本领域技术人员应明了,其将覆盖各种 变型和类似布置。因此,所附权利要求的范围应被给予最宽泛的解释W涵盖所有该样的变 型和类似布置。
【主权项】
1. 一种压缩基于对象的音频数据的方法,包括: 识别第一多个固定通道和要被呈现的音频对象,每个音频对象包含音频数据和相关的 元数据; 对于各音频对象限定在相关的元数据内编码的一个或更多个参数的误差阈值;和 基于误差阈值将第一多个音频对象的音频对象分组到数量减少的多个固定通道或音 频对象中。2. 根据权利要求1所述的方法,其中,所述一个或更多个参数包含位置、宽度、响度、内 容类型和呈现模式中的至少一个或更多个。3. 根据权利要求2所述的方法,其中,将音频对象分组包含将音频对象组合成包含数 量减少的多个音频对象的多个集群,各集群包含与各集群内的其它音频对象相关联的构成 音频对象,使得不会由于通过将各相应音频对象组合到相应集群中而造成的一个或更多个 参数的变化而导致各误差阈值的针对一个或更多个参数中的各参数的误差阈值被超过。4. 根据权利要求2所述的方法,其中,数量减少的多个音频对象包含构成对象的一个 或更多个集群,并且,将构成对象分组成各个集群包含将在与各相应音频对象的位置参数 相关联的误差阈值内与其它对象空间接近的音频对象分配为同一集群的一部分。5. 根据权利要求4所述的方法,其中,将音频对象分组包含: 将体现同一集群内的构成对象的音频数据的波形组合在一起以形成具有构成对象的 组合波形的替代对象;和 将同一集群内的构成对象的元数据组合在一起以形成构成对象的元数据的替代集。6. 根据权利要求3所述的方法,其中,将音频对象分组的操作还包含使至少一个对象 分布于多个集群的两个或更多个集群中。7. 根据权利要求6所述的方法,其中,构成对象的元数据被通过使用依赖于被组合的 元数据的类型的组合或选择操作之一来组合。8. 根据权利要求7所述的方法,其中,通过取得构成对象的位置中的每一个的平均值, 导出替代对象的位置的元数据的替代集,通过取得构成对象中的每一个的宽度的组合,导 出替代对象的宽度的元数据的替代集,通过取得构成对象的响度的组合,导出替代对象的 响度的元数据的替代集;通过选择主导构成对象的内容类型,导出替代对象的内容类型的 元数据的替代集,并且,通过选择主导构成对象的呈现模式,导出替代对象的呈现模式的元 数据的替代集。9. 根据权利要求8所述的方法,其中,主导构成对象包含相对于同一集群内的其它构 成对象具有更大的特定响度的构成对象,并且,特定响度包含基于心理声学理论的响度的 感知度量。10. 根据权利要求3所述的方法,其中,误差阈值包含由于音频对象与一个或更多个其 它对象的分组而导致的相应元数据值的最大偏差量,该分组在对应的音频对象被在回放系 统中呈现时导致对应的音频对象过量畸变。11. 根据权利要求10所述的方法,其中,误差阈值由表达为集群内的至少一个构成对 象与集群的中心点的距离和该构成对象相对于集群内的其它构成对象或床(bed)的重要 性的函数的误差量度表示。12. 根据权利要求11所述的方法,其中,构成对象的重要性是集群内的构成对象的相 对能量或响度中的一个的函数。13. 根据权利要求3所述的方法,其中,多个集群中的至少一个集群是通过使用数量比 音频对象的最低位深少的位被编码的位深减少的集群。14. 根据权利要求3所述的方法,其中,多个集群是基于周期时间间隔和事件驱动调度 中的一个的时间变量,并且,事件驱动调度包含集群的各构成对象的相对于各构成对象的 被限定的对象边界的开始点和停止点。15. 根据权利要求14所述的方法,其中,通过使用构成对象的响度水平或能量水平来 确定构成对象的开始点和停止点。16. -种处理基于对象的音频的方法,包括: 以限定的时间间隔识别多个对象中的各对象的空间位置;和 基于对象对之间的最大距离将多个对象中的对象分组成一个或更多个时间变化集群。17. 根据权利要求16所述的方法,其中,限定的时间间隔包含规则时间周期和由多个 对象中的各对象的对象边界限定的事件驱动调度之一。18. 根据权利要求17所述的方法,其中,各对象的对象边界包含通过使用相应对象的 响度水平或能量水平确定的开始点和停止点。19. 根据权利要求18所述的方法,其中,各对象是包含代表音频数据的波形要素和编 码对象的一个或更多个特性的元数据要素的自适应音频对象。20. 根据权利要求19所述的方法,其中,一个或更多个特性包含对象在回放系统中呈 现时的位置、宽度、响度、内容类型和呈现模式中的一个或更多个。21. 根据权利要求19所述的方法,其中,将多个对象中的对象分组包含: 组合各对象的波形以形成被群集对象的组合波形;和 组合各对象的元数据要素以形成被群集对象的组合元数据要素。22. 根据权利要求21所述的方法,还包括: 限定与各特性相关的集群畸变误差; 确定将对象与集群中的一个或更多个其它对象分组是否导致对象的特性的变化超过 相应的集群畸变误差;和 在下一时间间隔将该对象与集群中的一个或更多个其它的对象解除群集。23. 根据权利要求21所述的方法,其中,通过使用依赖于被群集对象的特性的组合或 选择操作中的一个形成组合元数据。24. 根据权利要求23所述的方法,其中,通过取得对象的位置中的每一个的平均值,导 出被群集对象的位置的组合元数据,通过取得对象中的每一个的宽度的平均值,导出被群 集对象的宽度的组合元数据,通过取得对象的响度的平均值,导出被群集对象的响度的组 合元数据;通过选择集群中的主导对象的内容类型,导出被群集对象的内容类型的组合元 数据,并且,通过选择主导对象的呈现模式,导出被群集对象的呈现模式的组合元数据。25. 根据权利要求24所述的方法,其中,主导对象包含相对于集群中的其它对象具有 更大的特定响度的对象,并且,特定的响度包含基于心理声学理论的响度的感知度量。26. 根据权利要求16所述的方法,还包括将一个或更多个对象群集在编解码器电路中 从编码器级发送到解码器级,以供回放系统呈现。27. -种用于呈现基于对象的音频的系统,包括: 第一呈现部件,其以限定的时间间隔识别多个对象中的各对象的空间位置;和 群集部件,其基于对象对之间的最大距离将多个对象中的对象分组成一个或更多个时 间变化集群。28. 根据权利要求27所述的系统,其中,限定的时间间隔包含规则时间周期和由多个 对象中的各对象的对象边界限定的事件驱动调度中的一个,其中,各对象的对象边界包含 通过使用相应对象的响度水平或能量水平确定的开始点和停止点。29. 根据权利要求28所述的系统,其中,各对象是包含代表音频数据的波形要素和编 码对象的一个或更多个特性的元数据要素的自适应音频对象,并且,一个或更多个特性包 含对象在回放系统中呈现时的位置、宽度、响度、内容类型和呈现模式中的一个或更多个。30. 根据权利要求29所述的系统,将多个对象中的对象分组包含: 将对象中的每一个的波形相加以形成被群集对象的相加波形;和 组合对象中的每一个的元数据要素以形成被群集对象的组合元数据要素。31. 根据权利要求30所述的系统,其中,通过使用依赖于被群集对象的特性的组合或 选择操作中的一个形成组合元数据,并且其中,通过取得对象的位置中的每一个的平均值, 导出被群集对象的位置的组合元数据,通过取得对象中的每一个的宽度的平均值,导出被 群集对象的宽度的组合元数据,通过取得对象的响度的平均值,导出被群集对象的响度的 组合元数据;通过选择集群中的主导对象的内容类型,导出被群集对象的内容类型的组合 元数据,并且,通过选择主导对象的呈现模式,导出被群集对象的呈现模式的组合元数据。32. 根据权利要求30所述的系统,其中,对象中的至少一些对象包含用于在扬声器馈 送上向在环绕声配置中布置的特定驱动器发送音频内容的通道床,并且,对象中的至少其 它一些对象包含具有包含表观的三维源位置和表观源宽度的相关参数源描述的基于对象 的静态或动态音频对象。33. 根据权利要求32所述的系统,还包括第二呈现部件,其检测向用户输出音频内容 的回放系统的终端设备的一个或更多个回放特性。34. 根据权利要求33所述的系统,其中,终端设备的回放特性被群集部件使用以修改 对象的分组。35. 根据权利要求34所述的系统,其中,端部器件选自由以下构成的组:数字媒体盘播 放器、家庭剧院系统、条式音箱、个人音乐设备和影院声音系统。36. -种压缩基于对象的音频数据的方法,包括: 确定对象在音频场景中的感知重要性,其中,对象包含对象音频数据和相关的元数据; 和 基于确定的对象的感知重要性,将某些音频对象组合成音频对象的集群,其中,集群的 数量比音频场景中的对象的原始数量少。37. 根据权利要求36的方法,其中,感知重要性是从对象的对象音频数据导出的。38. 根据权利要求36的方法,其中,感知重要性是从相应对象的响度值和内容类型中 的至少一个导出的值,并且,内容类型选自由对话、音乐、声音效果、环境声和噪声构成的 组。39. 根据权利要求36的方法,其中,确定的对象的感知重要性依赖于对象在音频场景 中的相对空间位置,并且,该组合步骤包含: 确定数个质心,各质心包含用于将多个音频对象分组的集群的中心,质心位置依赖于 一个或更多个音频对象相对于其它音频对象的感知重要性;和 通过在集群间分布对象信号,将对象分组成一个或更多个集群。40. 根据权利要求38的方法,其中,集群元数据由具有高感知重要性的一个或更多个 对象确定。41. 根据权利要求40的方法,其中,内容类型由音频分类过程确定,并且其中,响度值 由感知模型获得。42. 根据权利要求41的方法,其中,感知模型基于输入音频信号的临界频带中的激励 水平的计算,并且,所述方法还包括: 在音频对象的第一对象周围限定集群的质心;和 集合音频对象的所有激励。43. 根据权利要求38的方法,其中,响度值至少部分地依赖于相应对象与其它对象的 空间接近度。44. 根据权利要求43的方法,其中,空间接近度至少部分地由相应对象的相关元数据 的位置元数据值限定。45. 根据权利要求36的方法,其中,组合导致与各被群集对象相关的某些空间误差,并 且所述方法还包含将对象进行群集以使得对于具有相对高感知重要性的对象最小化空间 误差。46. 根据权利要求45的方法,还包括以下处理中的一个:选择具有最高感知重要性的 对象作为包含具有最高感知重要性的对象的集群的集群质心,或者选择具有最大响度的对 象作为包含具有最大响度的对象的集群的集群质心。47. 根据权利要求46的方法,其中,群集还包含以下处理中的一个:将对象与最近的邻 居分组,或者通过使用平移方法在一个或更多个集群上分布对象。48. 根据权利要求42的方法,还包括基于由分组对象的相对感知重要性导出的时间常 数将激励水平、响度或从中导出的性质平滑化。49. 一种处理基于对象的音频的方法,包括: 确定多个音频对象中各对象相对于其它对象的第一空间位置; 确定多个音频对象中的各音频对象的相对重要性,所述相对重要性依赖于对象的相对 空间位置; 确定数个质心,各质心包含用于将多个音频对象分组的群集的中心,质心位置依赖于 一个或更多个音频对象的相对重要性;和 通过在集群间分布对象信号将对象分组成一个或更多个集群。50. 根据权利要求49的方法,还包括确定多个音频对象的各音频对象的部分响度,其 中,对象的部分响度至少部分地依赖于一个或更多个对象的掩蔽效果。51. 根据权利要求49的方法,还包括确定多个音频对象的各音频对象的内容类型和相 关的内容类型重要性。52. 根据权利要求49的方法,还包括组合各音频对象的部分响度和内容类型,以确定 各音频对象的相对重要性。53. 根据权利要求52的方法,其中,内容类型选自由对话、音乐、声音效果、环境声和噪 声构成的组。54. 根据权利要求50的方法,其中,通过基于输入音频信号的临界频带中的激励水平 的计算的感知模型获得部分响度,并且其中,所述方法还包括: 在音频对象的第一对象周围限定集群的质心;和 集合音频对象的所有激励。55. 根据权利要求49的方法,其中,将对象分组导致与各被群集对象相关的某些空间 误差,并且其中,所述方法还包含将对象分组为使得对于具有相对高感知重要性的对象最 小化空间误差。56. 根据权利要求55的方法,还包括以下处理中的一个:选择具有最高感知重要性的 对象作为包含具有最高感知重要性的对象的集群的集群质心,或者选择具有最大响度的对 象作为包含具有最大响度的对象的集群的集群质心。57. 根据权利要求49的方法,其中,将音频对象分组包含: 将体现同一集群内的构成对象的音频数据的波形组合在一起以形成具有构成对象的 组合波形的替代对象;和 将同一集群内的构成对象的元数据组合在一起以形成构成对象的元数据的替代集。58. -种用于呈现基于对象的音频的系统,包括: 第一呈现部件,其确定对象在音频场景中的感知重要性,其中,对象包含对象音频数据 和相关的元数据;和 群集器,其基于确定的对象的感知重要性将某些音频对象组合成音频对象的集群,其 中,集群的数量比音频场景中的对象的原始数量少。59. 根据权利要求58的系统,其中,感知重要性是由对象的对象音频数据导出的。60. 根据权利要求58的系统,其中,感知重要性是由相应对象的响度值和内容类型中 的至少一个导出的值,并且,内容类型选自由对话、音乐、声音效果、环境声和噪声构成的 组。61. 根据权利要求60的系统,还包括确定内容类型的音频分类部件,音频分类部件包 含: 接口,其接收音频对象的输入音频信号; 特征提取模块,其与接口耦合并且提取代表输入音频信号的时间、谱和空间性质中的 至少一个的特征; 数据存储器,其与特征提取模块耦合并且存储代表与内容类型组对应的各目标音频类 型的统计性质的一组预先训练模型;和 比较器,其与特征提取模块耦合并且比较输入音频信号的提取特征与各目标音频类型 的模型以计算各目标音频类型的置信度分数,并且基于各目标音频类型的置信度分数估计 最佳匹配音频类型。62. 根据权利要求60的系统,其中,响度值是通过基于输入音频信号的临界频带中的 激励水平的计算的感知模型获得的,并且,系统被配置为在音频对象的第一对象周围限定 集群的质心并且集合对象的所有激励。63. 根据权利要求58的系统,还包括第二呈现部件,其被配置为将体现同一集群内的 构成对象的音频数据的波形组合在一起以形成具有构成对象的组合波形的替代对象,并且 将同一集群内的构成对象的元数据组合在一起以形成构成对象的元数据的替代集。
【专利摘要】实施例针对呈现基于对象的音频的方法,该方法包括:确定具有对象音频数据和相关的元数据的对象的初始空间位置;确定对象的感知重要性;和基于确定的对象的感知重要性将音频对象分组为数个群集,使得通过将对象从初始空间位置移动到群集中的第二空间位置导致的空间误差对于具有相对高的感知重要性的对象被最小化。感知重要性至少部分地基于对象的部分响度和对象的内容语义。
【IPC分类】H04S7/00, G10L19/20, G10L19/008
【公开号】CN104885151
【申请号】CN201380066933
【发明人】B·G·克罗克特, A·J·希菲尔德, N·R·茨恩高斯, R·威尔森, D·J·布瑞巴特, 芦烈, 陈联武
【申请人】杜比实验室特许公司
【公开日】2015年9月2日
【申请日】2013年11月25日
【公告号】EP2936485A1, US20150332680, WO2014099285A1