双耳音频处理的制作方法
【技术领域】
[0001] 本发明设及双耳擅染(binauralrendering),并且尤其但不完全设及用于音频处 理应用的头部相关的双耳传递函数数据的通信和处理。
【背景技术】
[0002] 随着数字信号表示和通信已日益取代模拟表示和通信,各种源信号的数字编码在 过去数十年已变得越来越重要。例如,诸如语音和音乐之类的音频内容越来越多地W数字 内容编码为基础。此外,随着例如环绕立体声和家庭影院设置成为流行,音频消费已日益成 为一种包络(enveloping)S维体验。
[0003] 已研制音频编码格式来提供日益有能力的、多样的和灵活的音频服务,并且尤其 已研制支持空间音频服务的音频编码格式。
[0004] 如同DTS和Do化yDigital之类的众所周知的音频编码技术产生编码的多通道音 频信号,其将空间图像表示为围绕着收听者被放置在固定位置上的许多通道。对于与对应 于多通道信号的设置不同的扬声器设置来说,空间图像将是次最优的。并且,基于通道的音 频编码系统通常不能应付不同数量的扬声器。
[0005] (IS0/IECMPEG-D)M阳GSurround(环绕)提供一种多通道音频编码工具,其允许 现有的基于单声道或基于立体声的编码器被扩展至多通道音频应用。图1举例说明MPEG Surround系统的元素的示例。使用通过原始的多通道输入的分析而获得的空间参数,MPEG Surround解码器通过单声道或立体声信号的受控上混(upmix)W获得多通道输出信号而 能够重新创建空间图像。
[0006] 由于多通道输入信号的空间图像被参数化,所WMPEGSurround允许利用不使用 多通道扬声器设置的擅染设备来解码同一个多通道比特流。示例是在耳机上的虚拟环绕立 体声再现,其被称为MPEGSurround双耳解码处理。在该种模式中,在使用普通耳机的同时 能够提供逼真的环绕立体声体验。另一示例是较高阶多通道输出例如7. 1通道至较低阶设 置例如5. 1通道的修剪(pruning)。
[0007] 实际上,随着越来越多的再现格式变得可用于主流消费者,用于擅染空间声音的 擅染配置的变化和灵活性近年来已显著增加。该要求音频的灵活表示。随着MPEGSurround 编解码器的引入,已采取重要的步骤。然而,仍然针对例如ITU5. 1扬声器设置之类的特定 扬声器设置来产生和发送音频。没有规定通过不同的设置和通过非标准(即,灵活的或用户 定义的)扬声器设置的再现。实际上,具有使得音频编码和表示日益独立于特定的预定和标 称的扬声器设置的愿望。日益优选的是;能够在解码器/擅染侧上执行针对多种多样的不 同的扬声器设置的灵活适配(adaptation)。
[0008] 为了提供更灵活的音频的表示,MPEG标准化了称为"SpatialAudio化ject Coding(空间音频对象编码)"(IS(VIECMPEG-DSAOC)的格式。与诸如DTS、Do化yDigital 和MPEGSurround之类的多通道音频编码系统形成对比,SAOC提供个别音频对象而非音频 通道的有效编码。而在MPEGSurround中,每一个扬声器通道能够被视为源自声音对象的 不同混合,SAOC使得在解码器侧上可利用的个别声音对象用于如图2所示的交互操纵。在SA0C中,多个声音对象和参数化数据一起被编码到单声道或立体声缩混(downmix)中,该 允许声音对象在擅染侧上被提取,从而允许个别音频对象可用于例如由终端用户进行的操 纵。
[0009] 实际上,与MPEGSurround相类似,SA0C也创建单声道或立体声缩混。另外,计算 和包括对象参数。在解码器侧上,用户可W操纵该些参数来控制个别对象的不同特征诸如 位置、水平、均衡乃至应用诸如混响之类的效果。图3举例说明使得用户能够控制在SA0C 比特流中包含的个别对象的交互界面。借助于擅染矩阵,个别声音对象被映射到扬声器通 道上。
[0010] 除了仅再现通道之外,SA0C还通过发送音频对象而允许更灵活的方案并且尤其允 许更多的基于擅染的适应性(adapt油ility)。假定空间被扬声器充分覆盖,则该允许解码 器侧将音频对象放置在空间中的任意位置上。该样,在所发送的音频与再现或擅染设置之 间没有关系,因此能够使用任意的扬声器设置。该对于例如其中扬声器几乎从不位于预定 位置上的典型起居室中的家庭影院设置而言是有利的。在SA0C中,在解码器侧上决定在声 音场景中该些对象被放置在什么地方,该从艺术的角度来看时常不是所希望的。SA0C标准 确实提供在比特流中发送默认擅染矩阵的方式,该消除解码器责任。然而,所提供的方法依 赖于固定的再现设置或依赖于未指明语法。因而,SA0C没有提供规范的手段来完全发送音 频场景而与扬声器设置无关。并且,SA0C不太适合于(notwellequipped)弥散性信号分 量的忠实擅染。虽然具有包括所谓的MultichannelBackground化ject(多通道背景对 象)(MB0)来捕获漫声的可能性,但是该个对象被束缚于一个特定的扬声器配置。
[0011] 由3DAudioAlliance(音频联盟)(3DAA)正在研制用于3D音频的音频格式的 另一规范,其中3DAA是工业联盟。3DAA致力于研制"将有助于从当前的扬声器馈送范例至 灵活的基于对象的方案的转变"的用于3D音频的传输的标准。在3DAA中,将定义允许将遗 留的多通道缩混连同个别声音对象一起传输的比特流格式。另外,包括对象定位数据。在 图4中举例说明生成3DAA音频流的原理。
[0012] 在3DAA方案中,单独地在扩展流中接收声音对象,并且可W从多通道缩混中提取 该些声音对象。由此产生的多声道缩混与个别可用的对象一起进行擅染。
[0013] 该些对象可W由所谓的词干(stem)组成。该些词干基本上是分组(缩混)的轨道 (track)或对象。因此,对象可W由包装在词干中的多个子对象组成。在3DAA中,利用音频 对象的选择,能够发送多通道参考混合(referencemix)。3DAA发送针对每一个对象的3D 位置数据。该些对象随后能够使用3D位置数据来提取。可供选择地,可W发送逆的混合矩 阵,其描述该些对象与参考混合之间的关系。
[0014] 根据3DAA的描述,通过给每一个对象分配角度和距离,很可能发送声音场景信 息,其指示相对于例如默认的前进方向应该将该对象放置在什么地方。因而,针对每一个对 象,发送位置信息。该对于点源来说是有用的,但是其无法描述广源(widesource)(例如, 如同合唱或欢呼)或弥漫性声场(诸如周围环境)。当从参考混合中提取所有的点源时,周围 的多声道混合保留。与SA0C相类似,3DAA中的残留物被固定于特定的扬声器设置。
[00巧]因而,SA0C和3DAA方案二者并入能够在解码器侧上个别操纵的个别音频对象的 传输。该两种方案之间的不同在于;SA0C通过相对于缩混提供表征音频对象的参数来提供 有关该些音频对象的信息(即,W致在解码器侧上从缩混中生成该些音频对象),而3DAA提 供音频对象作为完整的且独立的音频对象(即,能够在解码器侧上独立于缩混来生成该些 音频对象)。对于两种方案,可W针对该些音频对象来传送位置数据。
[0016] 其中通过使用针对收听者的耳朵的个别信号的声源的虚拟定位来创建空间体验 的双耳处理正变得越来越普遍。虚拟环绕是擅染声音的一种方法,W致音频源被感知为源 自特定的方向,从而创建收听物理环绕声音设置(例如,5. 1扬声器)或环境(音乐会)的错 觉。利用适当的双耳擅染处理,能够计算为了收听者感知来自任何方向的声音而在耳膜处 所需的信号,并且该些信号被擅染,W致它们提供所希望的效果。如图5所示,该些信号随 后在耳膜处利用或耳机或串音消除方法(适合于通过紧密间隔开的扬声器的擅染)来重新 创建。
[0017] 紧接着图5的直接擅染,能够用于擅染虚拟环绕的特定技术包括MPEGSurround 和SpatialAudioObjectCoding(空间音频对象编码及即将到来的有关MPEG中的3D 音频的工作项。该些技术提供计算有效的虚拟环绕擅染。
[0018] 双耳擅染W双耳滤波器为基础,其中该些滤波器由于头部W及诸如肩部之类的 反射表面的不同声学属性而因人而异。例如,双耳滤波器能够用于创建在不同位置上模 拟多个源的双耳记录。该能够通过将每一个声源与对应于该声源的位置的化adRelated ImpulseResponse(头部相关的脉冲响应)(皿IR)的配对(pair)进行卷积来实现。
[0019] 通过在放置于人耳中或靠近人耳放置的麦克风上在2D或3D空间中在特定的位置 上从声源中测量例如脉冲响应,能够确定适当的双耳滤波器。通常,例如使用人头的模型进 行该样的测量,或者实际上在一些情况中通过将麦克风附着靠近人的耳膜可W进行该些测 量。双耳滤波器能够用于创建在不同位置上模拟多个源的双耳记录。例如,该能够通过将 每一个声源与在该声源的希望位置上测量的位置的脉冲响应的配对进行卷积(convoIve) 来实现。为了创建声源围绕收听者移动的错觉,需要具有足够的空间分辨率例如10度的大 量的双耳滤波器。
[0020] 双耳滤波函数可W被表示为例如化adRelatedImpulseResponse(皿IR)或 者等效地被表示为化adRelatedTransfer化nction(头部相关的传递函数)(HRTF)或 BinauralRoomImpulseResponse(双耳房间脉冲响应XBRIR)或BinauralRoomTransfer 化nction(双耳房间传递函数)(BRTF)。从给定位置至收听者的耳朵(或耳膜)的(例如,估 计的或假定的)传递函数被称为头部相关的双耳传递函数。可W例如在频域中或在时域中 给出该个函数,在频域的情况下该个函数通常被称为HRTF或BRTF,而在时域的情况下该个 函数通常被称为皿IR或BRIR。在一些情形中,头部相关的双耳传递函数被确定为包括声学 环境、并且具体地在其中进行该些测量的房间的方位(aspect)或属性因素,而在其他的示 例中仅考虑用户特性。第一类型的函数的示例是BRIR和BRTF,而后一种类型的函数的示例 是皿IR和HRTF。
[0021] 相应地,底层(underlying)头部相关的双耳传递函数能够采用包括皿IR、HRTF等 等的许多不同的方式来表示。此外,对于该些主要表示之中的每一个,具有大量的不同方式 来表示特定函数
,例如利用不同水平的精度和复杂度来表示特定函数。不同的处理器可W 使用不同的方案并因而可W基于不同的表示。因而,通常在任何的音频系统中需要大量的 头部相关的双耳传递函数。实际上,多种多样的如何表示头部相关的双耳传递函数的方式 存在,并且该由于每一个头部相关的双耳传递函数的可能参数的大变化性而进一步加剧。 例如,BRIR有时可W利用具有假设9个抽头的FIR滤波器来表示,但是在其他的情形中可 W利用具有假设16个抽头的FIR滤波器来表示,等等。作为另一示例,能够在频域中使用 参数化表示来表示HRTF,其中小的参数集合用于表示整个频谱。
[0022] 在许多情形中可取的是允许传送所希望的双耳擅染的参数,诸如可W使用的特定 的头部相关的双耳传递函数。然而,由于底层头部相关的双耳传递函数的可能表示的大变 化性,所W保证在始发设备和接收设备之间的通用性(commonality)可能是困难的。
[0023] AudioElngineeringSociety(音频工程学会)(AES)SC-02技术委员会近来已宣 布开始有关文件格式的标准化的新项目,W便W头部相关的双耳传递函数的形式来交换双 耳收听参数。该格式将是可缩放的,W匹配可利用的擅染处理。该格式将被设计成包括来 自不同的HRTF数据库的原材料。挑战存在于如何能够在音频系统中最佳支持、使用和分发 如此多个头部相关的双耳传递函数。
[0024] 相应地,用于支持双耳处理W及特别用于传送双耳擅染的数据的改善方案将是所 希望的。特别地,允许双耳擅染数据的改善表示与通信、降低的数据率、减少的开销、便利的 实现和/或改善的性能的方案将是有利的。
【发明内容】
[0025] 相应地,本发明寻求优选地、单个地或W任何组合来减轻、缓解或消除上述缺点之 中的一个或多个。
[0026] 根据本发明的一方面,提供一种用于处理音频信号的设备,该设备包括:用于接收 输入数据的接收机,其中输入数据包括多个双耳擅染数据集,每一个双耳擅染数据集包括 表示用于虚拟位置双耳擅染处理的参数的数据,对于该些双耳擅染数据集之中的每一个, 输入数据进一步包括表明用于双耳擅染数据集的表示的表示指示;选择器,用于选择所选 择的双耳擅染数据集,W响应该些表示指示和该设备的能力;音频处理器,用于处理音频信 号,W响应所选择的双耳擅染数据集的数据。
[0027] 本发明可W在许多情形中允许改善的和/或更灵活的和/或不太复杂的双耳处 理。该方案可W特别地允许灵活的和/或低复杂度的方案用于传送和表示各种各样的双耳 擅染参数。该方案可W允许各种各样的双耳擅染方案和参数利用接收数据的设备有效地 被表示在同一比特流/数据文件中,其中该数据能够利用低复杂度来选择适当的数据和表 示。特别地,与该设备的能力相匹配的合适的双耳擅染能够容易地进行识别和选择而不要 求所有数据的完整解码或者实际上在许多实施例中不需要任何双耳擅染数据集的数据的 任何解码。
[0028] 虚拟位置双耳擅染处理可W是算法或过程的任何处理,其为表示声源的信号生成 用于人的两只耳朵的音频信号,W致声音被感知成源自3D空间中的希望位置并且通常源 自在用户的头部之外的希望位置。
[0029] 每一个数据集可W包括表示至少一个虚拟位置双耳擅染操作的参数的数据。每一 个数据集可W仅设及控制或影响双耳擅染的全部参数的子集。该数据可W完整地定义或描 述一个或多个参数,和/或可W例如部分地定义一个或多个参数。在一些实施例中,所定义 的参数可W是优选的参数。
[0030] 表示指示可W定义哪些参数被包括在该些数据集中和/或该些参数的特性和/或 如何利用该数据来描述该些参数。
[0031] 设备的能力可W例如是计算或存储资源限制。能力可W动态地进行确定或可W是 静态参数。
[0032] 根据本发明的可选特征,双耳擅染数据集包括头部相关的双耳传递函数数据。
[0033] 本发明可W允许改善的和/或便利的且更灵活的头部相关的双耳传递函数的分 发和/或基于头部相关的双耳传递函数的处理。特别地,该方案可W允许表示多种多样的 头部相关的双耳传递函数的数据利用个别处理设备来分发,其中该些个别处理设备能够容 易地且有效地识别和提取具体地适合于那个处理设备的数据。
[0034] 该些表示指示可W是或者可W包括头部相关的双耳传递函数的表示的指示,诸如 头部相关的双耳传递函数的性质及其个别参数。例如,用于给定的双耳擅染数据集的表示 指示可W指示是否该数据集提供头部相关的双耳传递函数的表示作为HRTF、BRTF、皿IR或 BRIR。对于脉冲响应表示,表示指示可W例如表明表示脉冲响应的FIR滤波器的抽头(系数) 的数量和/或用于每一个抽头的比特的数量。对于频域表示,表示指示可W例如表明为其 提供系数的频率间隔的数量、是否该些频带是线性的或者例如Bark频带,等等。
[0035] 音频信号的处理可W是基于从所选择的双耳擅染数据集中检索的头部相关的双 耳传递函数的参数的虚拟位置双耳擅染处理。
[0036] 根据本发明的可选特征,该些双耳擅染数据集之中的至少一个包括用于多个位置 的头部相关的双耳传递函数数据。
[0037] 在一些实施例中,每一个双耳擅染数据集可W例如定义用于二维或S维声源擅染 空间的头部相关的双耳传递函数的全集。对于所有位置而言是共同的表示指示可W允许有 效的表示和通信。
[0038] 根据本发明的可选特征,该些表示指示进一步表示双耳擅染数据集的有序序列, 该有序序列依据利用该些双耳擅染数据集所表示的双耳擅染的质量和复杂度之中的至少 一个来排序,并且选择器被安排成选择所选择的双耳擅染数据集,W响应所选择的双耳擅 染数据集在有序序列中的位置。
[0039] 该在许多实施例中可W提供特别有利的操作。特别地,该可W有助于和/或改善 选择所选择的双耳擅染数据集的处理,因为该可W在考虑该些表示指示的顺序的情况下来 完成。
[0040] 在一些实施例中,这些表示指示的顺序利用这些表示指示在比特流中的位置来表 /J、- 〇
[0041] 该可W有助于选择处理。例如,该些表示指示可W根据它们定位于输入数据比特 流中的顺序来评估,并且可W选择所选择的合适的表示指示的数据集而无需任何进一步的 表示指示的任何考虑。如果W递减偏好(根据任何合适的参数)的顺序来定位该些表示指 示,该将导致优选的表示指示并因而双耳擅染数据集被选择。
[0042] 在一些实施例中,该些表示指示的顺序利用在输入数据中包括的指示来表示。用 于每一个表示指示的指示可W被包括在该表示指示中。该指示可W例如是优先级的指示。
[0043] 该可W有助于选择处理。例如,优先级可W作为每一个表示指示的第一对比特来 提供。该设备可W首先扫描该比特流W查找最高可能的优先级,并且可W从该些表示指示 中评估是否它们与该设备的能力相匹配。如果是该样的话,则选择该些表示指示之中的一 个和相应的双耳擅染数据集。如果不是该样的话,该设备可W着手扫描该比特流W查找第 二最高可能的优先级,并随后对该些表示指示执行相同的评估。可W继续该个处理,直至识 别合适的双耳擅染数据集。
[0044] 在一些实施例中,该些数据集/表示指示可W按照利用相关联的/链接的双耳擅 染数据集的参数所表示的双耳擅染的质量的顺序来排序。
[0045] 取决于特定的实施例、偏好和应用,该顺序可W是递增或递减质量的顺序。
[0046] 该可W提供特别有效的系统。例如,该设备可W简单地按照给定的顺序来处理该 些表示指示,直至表明与该设备的能力相匹配的双耳擅染数据集的表示的表示指示。该设 备随后可W选择该个表示指示和相应的双耳擅染数据集,该是因为该将表示对于所提供的 数据和该设备的能力而言可能的最高质量擅染。
[0047] 在一些实施例中,该些数据集/表示指示可W按照利用双耳擅染数据集的参数所 表示的双耳擅染的复杂度的顺序来排序。
[0048] 取决于特定的实施例、偏好和应用,该顺序可W是递增或降低复杂度的顺序。
[0049] 该可W提供特别有效的系统。例如,该设备可W简单地按照给定的顺序来处理该 些表示指示,直至指示与该设备的能力相匹配的双耳擅染数据集的表示的表示指示。该设 备随后可W选择该个表示指示W及相应的双耳擅染数据集,该是因为该将表示对于所提供 的数据和该设备的能力而言可能的最低复杂度擅染。
[0050] 在一些实施例中,该些数据集/表示指示可W按照利用双耳擅染数据集的参数所 表示的双耳擅染的组合特性的顺序来排序。例如,成本值可W被表述为针对每一个双耳擅 染数据集的质量量度与复杂度量度的组合,并且该些表示指示可W根据该个成本值来排 序。
[0051] 根据本发明的可选特征,选择器被安排成选择所选择的双耳擅染数据集作为表明 音频处理器能够进行的擅染处理的有序序列中的第一表示指示的双耳擅染数据集。
[0052] 该可W降低复杂度和/或有助于选择。
[0053] 根据本发明的可选特征,该些表示指示包括利用双耳擅染数据集所表示的头部相 关的滤波器类型的指示。
[0054] 特别地,用于给定的双耳擅染数据集的表示指示可W包括利用该双耳擅染数据集 所表示的例如HRTF、BRTF、皿IR或BRIR的指示。
[00巧]根据本发明的可选特征,多个双耳擅染数据集之中的至少一些包括利用从W下的 组中选择的表示所描述的至少一个头部相关的双耳传递函数;时域脉冲响应表示;频域滤 波器传递函数表示;参数表示;和子带域滤波器表示。
[0056] 该在许多情形中可W提供特别有利的系统。
[0057] 在一些实施例中,表示指示的值是一组选项中的值。输入数据可W包括至少两个 表示指示,其具有该组选项中的不同值。该些选项可W例如包括W下之中的一个或多个:时 域脉冲响应表示;频域滤波器传递函数表示;参数表示;子带域滤波器表示;FIR滤波器表 /J、- 〇
[0058] 根据本发明的可选特征,用于双耳擅染数据集的至少一些表示对应于不同的双耳 音频处理算法,并且所选择的双耳擅染数据集的选择取决于音频处理器所使用的双耳处理 算法。
[0059] 该在许多实施例中可W允许特别有效的操作。例如,该设备可W被编程为基于HRTF滤波器来执行特定的擅染算法。在该种情况下,该些表示指示可W被评估,W识别包括 合适的HRTF数据的双耳擅染数据集。
[0060] 音频处理器被安排
成取决于所选择的双耳擅染数据集所使用的表示来适配音频 信号的处理。例如,用于HRTF处理的自适应FIR滤波器中系数的数量可W基于所选择的双 耳擅染数据集所提供的抽头的数量的指示来适配。
[0061] 根据本发明的可选特征,至少一些双耳擅染数据集包括混响数据,并且音频处理 器被安排成取决于所选择的双耳擅染数据集的混响数据来适配混响处理。
[0062] 该可W提供特别有利的双耳声音,并且可W提供改善的用户体验和声场感知。
[0063] 根据本发明的可选特征,音频处理器被安排成执行包括生成处理的音频信号作为 至少头部相关的双耳传递函数过滤信号与混响信号的组合的双耳擅染处理,并且其中混响 信号取决于所选择的双耳擅染数据集的数据。
[0064] 该可W提供特别有效的实现方式,并且可W提供高度灵活的且可适配的双耳擅染 处理数据的处理和供应。
[0065] 在许多实施例中,头部相关的双耳传递函数滤波信号并不取决于所选择的双耳擅 染数据集的数据。实际上,在许多实施例中,输入数据可W包括对于多个双耳擅染数据集而 言是共同的头部相关的双耳传递函数滤波器数据,但是具有对于个别双耳擅染数据集而言 是个别的混响数据。
[0066] 根据本发明的可选特征,选择器被安排成选择所选择的双耳擅染数据集,W响应 如利用该些表示指示所表明的混响数据的表示的指示。
[0067] 该可W提供特别有利的方案。在一些实施例中,选择器可W被安排成选择所选择 的双耳擅染数据集,W响应利用该些表示指示所表明的混响数据的表示的指示,而非响应 利用该些表示指示所表明的头部相关的双耳传递函数滤波器的表示的指示。
[0068] 根据本发明的一方面,提供一种用于生成比特流的设备,该设备包括:用于提供多 个双耳擅染数据集的双耳电路,每一个双耳擅染数据集包括表示用于虚拟位置双耳擅染处 理的参数的数据;用于为每一个双耳擅染数据集提供表明用于双耳擅染数据集的表示的表 示指示的表示电路;W及用于生成包括双耳擅染数据集和表示指示的比特流的输出电路。
[0069] 本发明可W允许改善的和/或更灵活的和/或不太复杂的提供有关虚拟位置擅染 的信息的比特流的生成。该方案可W特别地允许用于传送和表示各种各样的双耳擅染参数 的灵活的和/或低复杂度的方案。该方案可W允许各种各样的双耳擅染方案和参数利用接 收能够W低复杂度来选择适当的数据和表示的比特流/数据文件的设备被有效地表示在 同一个比特流/数据文件中。特别地,与设备的能力相匹配的合适的双耳擅染能够容易地 被识别并被选择而不要求所有数据的完整解码或者实际上在许多实施例中无需任何的双 耳擅染数据集的数据的任何解码。
[0070] 每一个数据集可W包括表示至少一个虚拟位置双耳擅染操作的参数的数据。每一 个数据集可W仅设及控制或影响双耳擅染的全部参数的子集。该数据可W完整地定义或描 述一个或多个参数和/或可W例如部分地定义一个或多个参数。在一些实施例中,所定义 的参数可W是优选的参数。
[0071] 该些表示指示可W定义哪些参数被包括在数据集中和/或参数的特性和/或如何 利用该数据来描述该些参数。
[0072] 根据本发明的可选特征,输出电路被安排成按照利用双耳擅染数据集的参数所表 示的虚拟位置双耳擅染的特性的量度的顺序来对该些表示指示进行排序。
[0073] 该在许多实施例中可W提供特别有利的操作。
[0074] 根据本发明的一方面,提供一种处理音频的方法,该方法包括;接收输入数据,该 输入数据包括多个双耳擅染数据集,每一个双耳擅染数据集包括表示用于虚拟位置双耳擅 染处理的参数的数据,对于该些双耳擅染数据集之中的每一个,该输入数据进一步包括表 明用于该双耳擅染数据集的表示的表示指示;选择所选择的双耳擅染数据集,W响应该些 表示指示和该设备的能力;W及处理音频信号,W响应所选择的双耳擅染数据集的数据。
[00巧]根据本发明的一方面,提供一种生成比特流的方法,该方法包括:提供多个双耳擅 染数据集,每一个双耳擅染数据集包括表示用于虚拟位置双耳擅染处理的参数的数据,对 于每一个双耳擅染数据集,提供表明用于该双耳擅染数据集的表示的表示指示;生成包括 双耳擅染数据集和表示指示的比特流。
[0076] 本发明的该些W及其他的方面、特征和优点从下文描述的(一个或多个)实施例中 将是显而易见的并将参考该(一个或多个)实施例来阐述。
【附图说明】
[0077] 将仅通过示例、参考附图来描述本发明的实施例,其中: 图1举例说明MPEGSurround系统的元素的示例; 图2例示在MPEGSA0C中可能的音频对象的操纵; 图3举例说明使得用户能够控制在SA0C比特流中包含的个别对象的交互界面; 图4举例说明3DAA的音频编码的原理的示例; 图5举例说明双耳处理的示例; 图6举例说明根据本发明的一些实施例的头部相关的双耳传递函数数据的发射机的 示例讯 图7举例说明根据本发明的一些实施例的头部相关的双耳传递函数数据的接收机的 示例; 图8举例说明头部相关的双耳传递函数的示例; 图9举例说明双耳处理器的示例;W及 图10举例说明修改的Jot混响器的示例。
【具体实施方式】
[0078] W下的描述集中于可应用于头部相关的双耳传递函数数据的通信并且尤其可应 用于HRTF的通信的本发明的实施例。然而,将意识到,本发明并不限于该个应用而可W应 用于其他的双耳擅染数据。
[0079] 描述头部相关的双耳传递函数的数据的传输正接收到越来越浓的兴趣,并且如前 所述,AESSC正在启动目的在于研制用于传送该样的数据的合适的文件格式的新项目。底 层头部相关的双耳传递函数能够采用许多不同的方式来表示。例如,HRTF滤波器开始使用 (come in)多种格式/表示,诸如参数化表示、FIR表示等等。因此,具有对于同一个底层头 部相关的双耳传递函数支持不同的表示格式的头部相关的双耳传递函数文件格式是有利 的。进一步,不同的解码器可W依赖于不同的表示,并因此发射机不知道哪些表示必须提供 给个别音频处理器。W下的描述集中于其中能够在单个文件格式内使用不同的头部相关的 双耳传递函数表示格式的系统。音频处理器可W在多个表示中选择,W便检索与音频处理 器的个别需求或偏爱最适合的表示。
[0080] 该方案具体地允许在单个头部相关的双耳传递函数文件内单个头部相关的双耳 传递函数的多个表示格式(诸如FIR、参量等等)。头部相关的双耳传递函数文件也可W包括 多个头部相关的双耳传递函数,其中每一个函数利用多个表示来表示。例如,对于多个位置 中的每一个位置,可W提供多个头部相关的双耳传递函数表示。此外,该系统基于包括识别 表示头部相关的双耳传递函数的用于不同数据集的特定表示的表示指示的文件。该允许解 码器选择头部相关的双耳传递函数表示格式而不需要访问或处理HRTF数据本身。
[0081] 图6举例说明用于生成和发送包括头部相关的双耳传递函数数据的比特流的发 射机的示例。
[0082] 发射机包括生成多个头部相关的双耳传递函数的HRTF生成器601,其中该些双 耳传递函数在具体示例中是HRTF但是在其他实施例中可W附加地或可供选择地是例如 皿IR、BRIR或BRTF。实际上,在下文,术语皿TF为了简洁起见而将指的是头部相关的双耳 传递函数的任何表示,其酌情包括皿IR、BRIR或BRTF。
[0083] 每一个HRTF随后利用数据集来表示,其中该些数据集之中的每一个提供一个 HRTF的一个表示。有关头部相关的双耳传递函数的特定表示的更多信息可W例如在W下文 献中找到: "Algazi, V.R., Duda, R.O. (2011).巧eadphone-Based Spatial Sound", IE邸Si即al Processing Magazine, Vol: 28(1), 2011, Page: 33-42",其描述皿IR、BRIR、 HRTF、BRTF的概念; "Cheng, C., Wakefield, G.H. , "Introduction to Head-Related Transfer Functions化RTFs): Representations of HRTFs in Time, Frequency, and Space", Journal Audio Elngineering Society, Vol: 49, No. 4, April 2001.",其描述不同的双 耳传递函数表示(在时间和频率中); "Breebaart, J. , Nater, F. , Kohlrausch, A. (2010). "Spectral and spatial parameter resolution requirements for parametric, fiIter-bank-based HRTF processing" J. Audio E;ng. Soc., 58 No 3, p. 126-140.",其参考巧日在MPEG Surround/SAOC中所使用的)HRTF数据的参数化表示; "Menzer, F. , Faller, C. , "Binaural reverberation using a modified Jot reverberator with frequency-dependent interaural coherence matching", 126th Audio Engineering Society Convention, Munich, Germany, May 7-10 2009",其描述 Jot混响器。组成Jot混响器的不同滤波器的滤波器系数的直接传输可w是描述Jot混响 器的参数的一种方式。
[0084] 例如,对于一个HRTF,生成多个双耳擅染数据集,其中每一个数据集包括HRTF的 一个表示。例如,一个数据集可W利用FIR滤波器的一组抽头来表示HRTF,而另一数据集 可W利用FIR滤波器的另一组抽头例如利用不同数量的系数和/或利用每一个系数的不同 数量的比特来表示HRTF。另一个数据集可W利用一组子带(例如FFT)频域系数来表示双耳 滤波器。还一个数据集可W利用不同集合的子带(FFT)域系数诸如用于不同频率间隔的系 数和/或利用每一个系数的不同数量的比特来表示HRTF。另一个数据集可W利用一组QMF 频域滤波器系数来表示HRTF。还一个数据集可W提供HRTF的参数化表示,并且再一个数据 集可W提供HRTF的不
同的参数化表示。参数化表示可W为一组固定的或非恒定的频率间 隔提供一组频域系数,例如,诸如根据Bark(己克)标度(scale)或ERB标度的一组频带。
[0085] 因而,HRTF生成器601为每一个HRTF生成多个数据集,其中每一个数据集提供 HRTF的表示。此外,HRTF生成器601为多个位置生成数据集。例如,HRTF生成器601可W 为覆盖一组=维或二维位置的多个HRTF生成数据集。所组合的位置因而可W提供能够由 音频处理器用于使用虚拟定位双耳擅染算法来处理音频信号的一组HRTF,导致音频信号在 给定位置上被感知为声源。基于所希望的位置,音频处理器能够提取适当的HRTF并将该个 应用于擅染处理中(或者可W例如提取两个HRTF并生成HRTFW便通过所提取的HRTF的插 入来使用)。
[0086]HRTF生成器601禪合到指示处理器603,而指示处理器被安排成为该些HRTF数据 集之中的每一个生成表示指示。该些表示指示之中的每一个表明由个别数据集使用HRTF 的哪一个表示。
[0087] 每一个表示指示可W在一些实施例中被生成为包括(consistin)根据例如预定 语法来定义所使用的表示的少量比特。该表示可W例如包括定义是否该数据集利用FIR滤 波器的抽头、FFT域滤波器的系数、QMF滤波器的系数、参数化表示等等来描述HRTF的少量 比特。表示指示可W例如在一些实施例中包括定义在该表示中使用多少数据值(例如,使用 多少抽头或系数来定义双耳擅染滤波器)的少量比特。在一些实施例中,该些表示指示可W 包括定义用于每一个数据值(例如,用于每一个滤波器系数或抽头)的比特的数量的少量比 特。
[0088]HRTF生成器601和指示处理器603禪合到输出处理器605,其中输出处理器被安 排成生成包括该些表示指示和该些数据集的比特流。
[0089] 在许多实施例中,输出处理器605被安排成将比特流生成为包括一系列表示指示 和一系列数据集。在其他实施例中,该些表示指示与该些数据集可W进行交织,例如每一个 数据集的数据紧跟在用于那个数据集的表示指示之前。该可W例如提供不需要数据来表明 哪一个表示指示被链接至哪一个数据集的优点。
[0090] 输出处理器605可W进一步包括其他的数据、标题、同步数据、控制数据等等,如 对于本领域技术人员将是公知的。
[0091] 所生成的数据流可W被包括在数据文件中,其中数据文件可W例如被存储在存储 器中或被存储在诸如记忆椿或DVD之类的存储介质上。在图6的示例中,输出处理器605 被禪合到发射机607,其中发射机607被安排成通过合适的通信网络将比特流发送到多个 接收机。具体地,发射机607可W使用因特网来发送比特流至接收机。
[0092] 因而,图6的发射机生成包括多个双耳擅染数据集的比特流,其中该些双耳擅染 数据集在特定的示例中是HRTF数据集。每一个双耳擅染数据集包括表示至少一个双耳虚 拟位置擅染处理的参数的数据。具体地,它可W包括指定将被用于双耳空间擅染的滤波器 的数据。对于每一个双耳擅染数据集,比特流进一步包括对于每一个双耳擅染数据集表明 该双耳擅染数据集所使用的表示的表示指示。
[0093] 在许多实施例中,比特流也可W包括将要擅染的音频数据,例如,诸如MPEG Surrouml、MPEGSA0C或3DAA音频数据。该个数据随后可W使用源自该些数据集的双耳数 据来擅染。
[0094] 图7举例说明根据本发明的一些实施例的接收设备。
[0095] 接收设备包括接收如上所述的比特流的接收机701,即,它可W具体地从图6的发 射设备接收比特流。
[0096] 接收机701被禪合到选择器703,其中选择器被馈送所接收的双耳擅染数据集W 及相关联的表示指示。选择器703在该示例中被禪合到能力处理器705,其中能力处理器被 安排成给选择器703提供描述接收设备的音频处理能力的能力的数据。选择器703被安排 成基于该些表示指示W及从能力处理器705接收的能力数据来选择该些双耳擅染数据集 之中的至少一个。因而,由选择器703确定至少一个所选择的双耳擅染数据集。
[0097] 选择器703进一步被禪合到接收所选择的双耳擅染数据的音频处理器707。音频 处理器707进一步被禪合到音频解码器709,其中音频解码器709进一步被禪合到接收机 701。
[0098] 在其中比特流包括用于将要擅染的音频的音频数据的示例中,该个音频数据被提 供给音频解码器709,而音频解码器709着手对其进行解码,W生成个别音频分量,诸如音 频对象和/或音频通道。该些音频分量与对于该音频分量而言所希望的声源位置一起被馈 送到音频处理器707。
[0099] 音频处理器707被安排成基于所提取的双耳数据并且具体地在所述的示例中基 于所提取的HRTF数据来处理一个或多个音频信号/分量。
[0100] 作为示例,选择器703可W针对比特流中提供的每一个位置提取一个HRTF数据 集。由此产生的HRTF可W被存储在本地存储器中,即,对于一组位置之中的每一个,可W存 储一个HRTF。在擅染特定的音频信号时,音频处理器707从音频检测器709接收相应的音 频数据W及所希望的位置。音频处理器707随后评估该位置,W查看它是否足够接近地匹 配于任何存储的HRTF。如果是该样的话,则它将该个HRTF应用于音频信号,W生成双耳音 频分量。如果没有一个存储的HRTF是用于足够接近的位置,则音频处理器707可W着手提 取两个最接近的HRTF并在该些HRTF之间插入,W得到合适的HRTF。该方案可W对于所有 的音频信号/分量进行重复,并且由此产生的双耳输出数据可W进行组合,W生成双耳输 出信号。该些双耳输出信号随后可W被馈送到例如耳机。
[0101] 将意识到;不同的能力可W用于选择(一个或多个)适当的数据集。例如,能力可 W是计算资源、存储器资源或擅染算法要求或限制之中的至少一个。
[0102] 例如,一些擅染器可W具有允许其执行许多高复杂度操作的重要计算资源能力。 该可W允许双耳擅染算法使用复杂的双耳滤波。具体地,具有长脉冲响应的滤波器(例如, 具有许多抽头的FIR滤波器)能够利用该样的设备来处理。相应地,该样的接收设备可W提 取利用具有许多抽头并且对于每一个抽头具有许多比特的fir滤波器所表示的HRTF。
[0103] 然而,另一擅染器可能具有低的计算资源能力,其阻止双耳擅染算法使用复杂的 滤波操作。对于该样的擅染,选择器703可W选择利用具有很少抽头且具有粗分辨率(即, 每一个抽头具有更少比特)的FIR滤波器来表示HRTF的数据集。
[0104]作为另一示例,一些擅染器可W具有足够的存储器来存储大量的HRTF数据。在该 种情况下,选择器703可W选择大的例如具有许多系数且每一个系数具有许多比特的HRTF 数据集。然而,对于具有低的存储器资源的擅染器来说,该个数据不能被存储,并且相应地, 选择器703可W选择小得多的HRTF数据集,例如具有显著更少的系数和/或每一个系数具 有更少比特的HRTF数据集。
[0105]在一些实施例中,可W考虑可用的双耳擅染算法的能力。例如,通常研制算法W便 与W给定方式表示的HRTF-起使用。例如,一些双耳擅染算法使用基于QMF数据的双耳滤 波,其他的算法使用脉冲响应数据,而另外的算法使用FFT数据等等。选择器703可W考虑 将要使用的个别算法的能力,并且可W具体地选择数据集来W与特定算法中使用的方式相 匹配的方式来表示HRTF。
[0106] 实际上,在一些实施例中,至少一些表示指示/数据集设及不同的双耳音频处理 算法,并且选择器703可W基于音频处理器707所用的双耳处理算法来选择(一个或多个) 数据集。
[0107]例如,如果双耳处理算法基于频域滤波,则选择器703可W选择在相应频域中表 示HRTF的数据集。如果双耳处理算法包括卷积利用FIR滤波器处理的音频信号,则选择器 703可W选择提供合适FIR滤波器的数据集,等等。
[010引在一些实施例中,用于选择(一个或多个)适当数据集的能力指示可W表明恒定 的、预定的或静态的能力。可供选择地或附加地,该些能力指示在一些实施例中可W表明动 态的/变化的能力。
[0109]例如,可用于擅染算法的计算资源可W动态地进行确定,并且可W选择数据集W反映当前可用的资源。因而,当具有大量的可用计算资源时,可W选择更大的、更复杂的且 更多资源需求的HRTF数据集,而当具有较少资源可用时,可W选择较小的、不太复杂的且 较低资源需求的HRTF数据集。在该样的系统中,在对于其他的(更重要的)功能需要计算资 源时,在允许质量和计算资源之间的权衡的同时,只有可能就可W增加双耳擅染的质量。
[0110] 选择器703对于所选择的双耳擅染数据集的选择基于表示指示而非基于数据本 身。该允许更简单且有效的操作。特别地,选择器703不需要访问或检索数据集中的任何 数据,而能够简单地提取该些表示指示。由于该些表示指示通常比该些数据集小得多并且 通常具有简单得多的结构和语法,所W该可W显著地简化选择处理,从而减少操作的计算 要求。
[0111] 该方案因而允许非常灵活的双耳数据的分发。具体地,能够分发能够支持各种各 样的擅染设备和算法的HRTF数据的单个文件。该处理的最优化能够由个别擅染器本地执 行,W反映那个擅染器的特定环境。因而,实现改善的用于分发双耳信息的性能和灵活性。
[0112] 下面提供用于比特流的合适的数据语法的特定示例。在该个示例中,字段 "bsR巧resentationID"提供HRTF格式的指不。
[0113] 更详细地,使用W下字段: ByteAlignO 多至7个填充比特来相对于ByteAlign〇出现在其中的语法元 素的开始实现字节对齐 bsFileSignature读取"HRTF"的4个ASCII字符的字符串 bsFileVersion 文件版本指不 bsNumCharName HRTF名称中的ASCII字符的数量 bsName HRTF name bsNumFs 表明;针对bsNumFs+1个不同的采样率,发送HRTF bsSamplingFrequency W化rz(赫兹)为单位的采样频率bsReserved 保留比特 Positions 表明在HRTF数据中发送的虚拟扬声器的位置信息 bsNumRepresentations针对HRTF发送的表示的数量 bsR巧resentationI
D 识别所发送的HRTF表示的类型。每一个HRTF只能使用每一 个ID-次。例如,可W使用W下的可用ID:
[0114] 在该个特定示例中,对于比特流,可W使用W下的文件格式/语法:
[0115] 在一些实施例中,双耳擅染数据集可W包括混响数据。选择器703可W相应地选 择混响数据集并将该个混响数据集馈送到音频处理器707,其中音频处理器707可W着手 取决于该个混响数据来适配影响(一个或多个)音频信号的混响的处理。
[0116] 许多双耳传递函数包括其后跟随着混响部分的无回声部分二者。包括房间的特性 的特殊函数诸如BRIR或BRTF包括取决于主体的人体测量属性(诸如头部尺寸、耳朵形状等 等)(即,基本的皿IR或HRTF)的无回声部分,其后跟随着表征房间的混响部分。
[0117] 混响部分包含一般重叠的两个时间区域。第一区域包含所谓的早期反射,其是声 源在到达耳膜(或测量麦克风)之前在房间内的墙或障碍物上的孤立反射。随着时滞增加, 在固定时间间隔中存在的反射的数量增加,其中该些反射进一步包含次级反射等等。混响 部分中的第二区域是其中该些反射不再是孤立的部分。该个区域被称为弥漫性或后期混响 尾部(tail)。
[0118] 混响部分包含给出有关源与接收机(即,其中测量BRIR的位置)之间的距离W及房 间的大小和声学属性的听觉系统信息的提示(cue)。与无回声部分的能量相关的混响部分 的能量大致确定所感知的声源的距离。(早期)反射的时间密度对所感知的房间的大小做贡 献。通常利用T60所表明的,混响时间是反射在能级方面下降60地所耗费的时间。混响是 由于房间维度与房间的边界的反射属性的组合而引起的。当具有声音的多吸收时(例如,具 有家具、地毯和窗帘的邱室),反射性强的墙壁(例如,浴室)在能级降低60地之前将需要更 多的反射。类似地,与具有类似的反射属性的较小房间相比,大房间具有较长的反射之间的 传播路径,并因此增加在实现60地的能级降低之前的时间。
[0119] 在图8中举例说明包括混响部分的BRIR的示例。
[0120] 头部相关的双耳传递函数可W在许多实施例中反映无回声部分和混响部分二者。 例如,可W提供反映在图8中所示的脉冲响应的HRTF。因而,在该样的实施例中,混响数据 是HRTF的部分,并且混响处理是HRTF滤波的整体处理。
[0121] 然而,在其他的实施例中,混响数据可W至少部分地与无回声部分分开来提供。实 际上,擅染例如BRIR中的计算优势能够通过将BRIR拆分成无回声部分和混响部分来获得。 与长的BRIR滤波器相比,较短的消声滤波器能够利用显著较低的计算负载来擅染,并且需 要显著较低的资源用于存储和通信。长的混响滤波器在该样的实施例中可W使用合成混响 器更有效地来实施。
[0122] 在图9中举例说明该样的音频信号的处理的示例。图9举例说明用于生成双耳信 号中的一个信号的方案。可W并行执行第二处理,W生成第二双耳信号。
[0123] 在图9的方案中,将要擅染的音频信号被馈送到HRTF滤波器901,其中滤波器901 应用通常反映BRIR的无回声和(一些)早期反射部分的短HRTF滤波器。因而,该个HRTF滤 波器901反映由于房间而引起的解剖特性W及一些早期反射。另外,音频信号被禪合到混 响器903,而该混响器从该音频信号中生成混响信号。
[0124]HRTF滤波器901和混响器903的输出随后进行组合,W生成输出信号。具体地,该 些输出被加在一起,W生成反映无回声和早期反射二者W及混响特性的组合信号。
[0125] 混响器903具体地是合成混响器,诸如Jot混响器。合成混响器通常使用反馈网 络来模拟早期反射和密集混响尾部。在反馈环路中包括的滤波器控制混响时间(Te。)和染 色。图10举例说明修改的Jot混响器(具有=个反馈环路)的示意性描述的示例,其中修改 的Jot混响器输出两个信号而非一个信号,W致其能够用于表示双耳混响。已添加滤波器 来提供对于耳间相关性(U(z)和v(z))和耳朵相关的染色(h許日He)的控制。
[0126] 在该示例中,双耳处理因而基于并行执行的两个个别的且独立的处理,并且该两 个处理的输出随后被组合成(一个或多个)双耳信号。该两个处理能够利用独立数据来引 导,即,HRTF滤波器901可W利用HRTF滤波器数据来控制,并且混响器903可W利用混响 数据来控制。
[0127] 在一些实施例中,该些数据集可W包括HRTF滤波器数据和混响数据二者。因而, 对于所选择的数据集来说,HRTF滤波器数据可W被提取并被用于设置HRTF滤波器901,且 混响数据可W被提取并被用于适配混响器903的处理,W提供所希望的混响。因而,在该示 例中,混响处理通过独立地适配生成混响信号的处理、基于所选择的数据集的混响数据来 适配。
[0128] 在一些实施例中,所接收的数据集可W包括用于仅仅HRTF滤波和混响处理之一 的数据。例如,在一些实施例中,所接收的数据集可W包括定义无回声部分W及早期反射的 初始部分的数据。然而,可W与选择哪个数据集无关地并且实际上通常与将要擅染哪个位 置无关地(混响通常与声源位置无关,该是因为它反映房间中的许多反射)使用恒定混响处 理。该可W导致较低复杂度处理与操作并且可W尤其适合于其中可W使得双耳处理适应于 例如个别收听者但是其中擅染打算反映同一房间的实施例。
[0129] 在其他的实施例中,该些数据集可W包括混响数据而没有HRTF滤波数据。例如, HRTF滤波数据对于多个数据集乃至对于所有的数据集而言可W是共同的,并且每一个数据 集可W指定与不同的房间特性相对应的混响数据。实际上,在该样的实施例中,HRTF滤波信 号可W不取决于所选择的数据集的数据。该方案可能特别适合于其中该处理针对同一(例 如,名义上的)收听者但是该数据允许不同的房间感知被提供的应用。
[0130] 在该些示例中,选择器703可W基于如利用该些表示指示所表明的混响数据的表 示的指示来选择数据集来使用。因而,该些表示指示可W提供如何利用该些数据集来表示 混响数据的指示。在一些实施例中,该些表示指示可W包括具有HRTF滤波的指示的该样的 指示,而在其他的实施例中,该些表示指示可W例如只包括混响数据的指示。
[0131] 例如,该些数据集可W包括与不同类型的合成混响器相对应的表示,并且选择器 703可W被安排成选择该数据集,针对该数据集而言,表示指示表明该数据集包括与音频处 理器707所采用的算法相匹配的混响器的数据。
[0132] 在一些实施例中,该些表示指示表示双耳擅染数据集的有序序列。例如,该些数据 集(对于给定位置而言)可W按照质量和/或复杂度的顺序对应于有序序列。因而,序列可 W反映利用该些数据集所定义的双耳处理的递增(或递减)质量。指示处理器603和/或输 出处理器605可W生成或安排该些表示指示来反映该个顺序。
[0133] 接收机可能知晓该有序序列反映哪一个参数。例如,它可能知晓该些表示指示表 明递增(或递减)质量或递减(或递增)复杂度的序列。选择器703随后能够在选择该数据 集用于双耳擅染时使用该个知识。具体地,选择器703可W选择该数据集,W响应该数据集 在有序序列中的位置。
[0134] 该样的方案在许多情形中可W提供较低复杂度的方案,并且尤其可W有助于用于 音频处理的(一个或多个)数据集的选择。具体地,如果选择器703被安排成按照给定顺序 (对应于W排序该些数据集的顺序来考虑该些数据集)来评估该些表示指示,它可W在许多 实施例和情形中不需要为了选择(一个或多个)适当的数据集而处理所有的表示指示。
[0135] 实际上,选择器703可W被安排成选择双耳擅染数据集作为该序列中针对其而言 表示指示表明音频处理器能够进行的擅染处理的第一(最早)数据集的双耳擅染数据集。
[0136] 作为特定示例,该些表示指示/数据集可W按照该些数据集的数据所表示的擅染 处理的递减质量的顺序来排序。通过W该个顺序来评估该些表示指示并选择音频处理器 707能够处理的第一数据集,只要遇到表明相应的数据集具有适合于由音频处理器707使 用的数据的表示指示,选择器703就能够停止选择处理。选择器703不需要考虑任何进一 步参数,该是因为它将知道该个数据集将导致最高质量擅染。
[0137]类似地,在其中希望复杂度最低化的系统中,该些表示指示可W按照递增复杂度 的顺序来排序。通过选择表明合适的用于音频处理器707的处理的表示的第一表示指示的 数据集,选择器703能够保证实现最低复杂度的双耳擅染。
[013引将意识到;在一些实施例中,排序可W采用递增质量/递减复杂度的顺序。在该样 的实施例中,选择器703可W例如W相反顺序来处理该些表示指示,W实现上述的相同结 果。
[0139]因而,在一些实施例中,该顺序可W采用利用该些双耳擅染数据集所表示的双耳 擅染的递减质量的顺序,而在其他的实施例中它可W采用利用该些双耳擅染数据集所表示 的双耳擅染的递增质量的顺序。类似地,在一些实施例中,该顺序可W采用利用该些双耳擅 染数据集所表示的双耳擅染的递减复杂度的顺序,而在其他的实施例中它可W采用利用该 些双耳擅染数据集所表示的双耳擅染的递增复杂度的顺序。
[0140] 在一些实施例中,比特流可W包括该顺序基于哪个参数的指示。例如,可W包括表 明该顺序是基于复杂度还是基于质量的标记。
[0141] 在一些实施例中,该顺序可W基于参数诸如表示复杂度与质量之间的权衡的值的 组合。将意识到;可W使用用于计算该样的值的任何合适的方案。
[0142] 不同的量度可W用于在不同的实施例中表示质量。例如,可W为每一个表示计算 距离量度,其表明精确测量的头部相关的双耳传递函数与利用单个数据集的参数所描述的 传递函数之间的差(例如,均方误差)。该样的差可W包括滤波器系数的量化W及脉冲响应 的截断(truncation)的效果。它也可W反映时域和/或频域中的离散化的效果(例如,它 可W反映采样率或用于描述音频带的频带的数量)。在一些实施例中,质量指示可W是简单 的参数,例如,诸如FIR滤波器的脉冲响应的长度。
[0143] 类似地,不同的量度和参数可W用于表示与给定数据集相关联的双耳处理的复杂 度。特别地,复杂度可W是计算资源指示,即,复杂度可W反映将要执行的相关联的双耳处 理可能有多复杂。
[0144] 在许多情形中,参数通常可W表明递增质量和递增复杂度二者
。例如,FIR滤波器 的长度可W表明质量增加和复杂度增加二者。因而,在许多实施例中,同一个顺序可W反映 复杂度和质量二者,并且选择器703可W在选择时使用该个。例如,只要复杂度低于给定水 平,它就可W选择最高质量数据集。假定依据递减质量和复杂度来安排该些表示指示,该可 W简单地通过处理该些表示指示并选择表示低于所希望水平的复杂度(并且能够由音频处 理器处理)的第一指示的数据集来实现。
[0145] 在一些实施例中,该些表示指示和相关联的数据集的顺序可W利用该些表示指示 在比特流中的位置来表示。例如,对于反映递减质量的顺序来说,该些表示指示(对于给定 位置)可W简单地进行安排,W致比特流中的第一表示指示是表示具有最高质量的相关联 的双耳擅染的数据集的表示指示。比特流中的下一个表示指示是表示具有下一个最高质量 的相关联的双耳擅染的数据集的表示指示,等等。在该样的实施例中,选择器703可W简 单地按顺序扫描所接收的比特流,并且可W为每一个表示指示确定是否它表明音频处理器 707能够使用的数据集。它能够着手完成该个,直至遇到适当的指示,此时没有比特流的进 一步表示指示需要进行处理或者实际上进行解码。
[0146] 在一些实施例中,该些表示指示和相关联的数据集的顺序可W利用输入数据中包 括的指示来表示,并且具体地,每一个表示指示的指示可W被包括在该表示指示本身中。
[0147] 例如,每一个表示指示可W包括表明优先级的数据字段。选择器703可W首先评 估包括最高优先级的指示的所有表示指示,并且确定是否任何表示指示表明在相关联的数 据集中包括有用的数据。如果是该样的话,则选择该个表示指示巧日果识别一个W上的表示 指示,则可W应用辅助选择标准,或者例如可W随机仅选择一个表示指示)。如果没有找到 任何表示指示的话,则选择器可W着手评估表明下一个最高优先级的所有的表示指示,等 等。作为另一示例,每一个表示指示可W表明序列位置编号,并且选择器703可W着手处理 该些表示指示,W建立序列顺序。
[0148] 该样的方案可能需要由选择器703进行更复杂的处理,但是可W提供更多灵活 性,例如,诸如允许多个表示指示在该序列中平等地被划分优先级。它也可W允许每一个表 示指示自由地被定位于比特流中,并且具体地可W允许每一个表示指示紧挨着相关联的数 据集被包括。
[0149] 该方案因而可W提供增加的灵活性,其例如有助于比特流的生成。例如,可能实质 上更容易的是给现有的比特流简单地添加额外的数据集和相关联的表示指示而不必重构 整个流。
[0150] 将意识到;为了简洁起见,上面的描述参考不同的功能电路、单元和处理器描述了 本发明的实施例。然而,可W使用在不同的功能电路、单元或处理器之间功能的任何合适的 分布而不偏离本发明,该将是显而易见的。例如,被举例说明为利用单独的处理器或控制器 执行的功能可W利用同一处理器或控制器来执行。因此,对于特定的功能单元或电路的引 用将仅被视为对于用于提供所描述的功能的合适装置的引用而非表明严格的逻辑或物理 结构或组织。
[0151] 本发明能够采用包括硬件、软件、固件或该些的任何组合的任何合适形式来实施。 本发明可W选择地至少部分地作为在一个或多个数据处理器和/或数字信号处理器上运 行的计算机软件来实施。本发明的实施例的元素和组件可W物理地、功能地和逻辑地采用 任何合适的方式实施。实际上,功能可W在单个单元中、在多个单元中或作为其他功能单元 的部分来实施。就此而论,本发明可W在单个单元中或可W物理地和功能地分布在不同的 单元、电路和处理器之间。
[0152] 虽然结合一些实施例描述了本发明,但是本发明并不打算限于在本文陈述的特定 形式。相反,本发明的范围仅利用所附权利要求书来限制。附加地,虽然某个特征可能看起 来结合特定的实施例来描述,但是本领域技术人员将认识到;所描述的实施例的各种特征 可W根据本发明来组合。在权利要求书中,术语包括并不排除其他元素或步骤的存在。
[0153] 此外,虽然个别地列出,但是多个装置、元素、电路或方法步骤可W利用例如单个 电路、单元或处理器来实施。附加地,虽然个别特征可W被包括在不同的权利要求中,但是 该些特征或许可W有利地进行组合,并且在不同权利要求中的包括并不意味着:特征的组 合不是可行的和/或有益的。特征在一种类别的权利要求中的包括并不意味着对于该种类 别的限制,而是表明该特征酌情同样可应用于其他的权利要求类别。此外,特征在该些权利 要求中的顺序并不意味着该些特征必须按其工作的任何特定顺序,并且特别地个别步骤在 方法权利要求中的顺序并不意味着必须按照该个顺序来执行该些步骤。相反,该些步骤可W按照任何合适的顺序来执行。另外,单数引用并不排除多个。因而,对于"一"、"一个"、 "第一"、"第二"等等的引用并不排除多个。该些权利要求中的参考符号仅仅作为澄清示例 来提供,而不应被解释为W任何方式来限制该些权利要求的范围。
【主权项】
1. 一种用于处理音频信号的设备,所述设备包括: 接收机(701),用于接收输入数据,所述输入数据包括多个双耳渲染数据集,每一个双 耳渲染数据集包括表示用于虚拟位置双耳渲染处理的参数的数据,对于所述双耳渲染数据 集之中的每一个,所述输入数据进一步包括表明用于所述双耳渲染数据集的表示的表示指 示; 选择器(703),用于选择所选择的双耳渲染数据集,以响应所述表示指示和所述设备的 能力; 音频处理器(707),用于处理所述音频信号,以响应所选择的双耳渲染数据集的数据。2. 根据权利要求1所述的设备,其中所述双耳渲染数据集包括头部相关的双耳传递函 数数据。3. 根据权利要求2所述的设备,其中所述双耳渲染数据集之中的至少一个包括用于多 个位置的头部相关的双耳传递函数数据。4. 根据权利要求1所述的设备,其中所述表示指示进一步表示所述双耳渲染数据集的 有序序列,所述有序序列依据利用所述双耳渲染数据集所表示的双耳渲染的质量和复杂度 之中的至少一个来排序,并且所述选择器(703 )被安排成选择所选择的双耳渲染数据集,以 响应所选择的双耳渲染数据集在所述有序序列中的位置。5. 根据权利要求4所述的设备,其中所述选择器(703)被安排成选择所选择的双耳渲 染数据集作为表明所述音频处理器(707)能够进行的渲染处理的所述有序序列中所选择的 表示指示的双耳渲染数据集。6. 根据权利要求1所述的设备,其中所述表示指示包括利用所述双耳渲染数据集所表 示的头部相关的滤波器类型的指示。7. 根据权利要求1所述的设备,其中所述多个双耳渲染数据集之中的至少一些包括利 用从以下的组中选择的表示所描述的至少一个头部相关的双耳传递函数: 时域脉冲响应表示; 频域滤波器传递函数表示; 参数表示;和 子带域滤波器表示。8. 根据权利要求1所述的设备,其中用于所述双耳渲染数据集的至少一些表示对应 于不同的双耳音频处理算法,并且所选择的双耳渲染数据集的选择取决于所述音频处理器 (707)所使用的双耳处理算法。9. 根据权利要求1所述的设备,其中至少一些双耳渲染数据集包括混响数据,并且所 述音频处理器(707)被安排成取决于所选择的双耳渲染数据集的混响数据来适配混响处 理。10. 根据权利要求9所述的设备,其中所述音频处理器(707)被安排成执行双耳渲染处 理,所述双耳渲染处理包括生成所处理的音频信号作为至少头部相关的双耳传递函数滤波 信号与混响信号的组合,以及其中所述混响信号取决于所选择的双耳渲染数据集的数据。11. 根据权利要求9所述的设备,其中所述选择器(703)被安排成选择所选择的双耳渲 染数据集,以响应如利用所述表示指示所表明的混响数据的表示的指示。12. -种用于生成比特流的设备,所述设备包括: 双耳电路(601),用于提供多个双耳渲染数据集,每一个双耳渲染数据集包括表示用于 虚拟位置双耳渲染处理的参数的数据, 表示电路(603),用于为所述双耳渲染数据集之中的每一个提供表明用于所述双耳渲 染数据集的表示的表示指示;以及 输出电路(605 ),用于生成包括所述双耳渲染数据集和所述表示指示的比特流。13. 根据权利要求12所述的设备,其中所述输出电路(605)被安排成按照利用所述双 耳渲染数据集的参数所表示的虚拟位置双耳渲染的特性的量度的顺序来排序所述表示指 不O14. 一种处理音频的方法,所述方法包括: 接收输入数据,所述输入数据包括多个双耳渲染数据集,每一个双耳渲染数据集包括 表示用于虚拟位置双耳渲染处理的参数的数据,对于所述双耳渲染数据集之中的每一个, 所述输入数据进一步包括表明用于所述双耳渲染数据集的表示的表示指示; 选择所选择的双耳渲染数据集,以响应所述表示指示和所述设备的能力;以及 处理音频信号,以响应所选择的双耳渲染数据集的数据。15. -种生成比特流的方法,所述方法包括: 提供多个双耳渲染数据集,每一个双耳渲染数据集包括表示用于虚拟位置双耳渲染处 理的参数的数据; 对于所述双耳渲染数据集之中的每一个,提供表明用于所述双耳渲染数据集的表示的 表示指示; 生成包括所述双耳渲染数据集和所述表示指示的比特流。16. -种比特流,包括: 多个双耳渲染数据集,每一个双耳渲染数据集包括表示至少一个双耳虚拟位置渲染处 理的参数的数据;以及 用于所述双耳渲染数据集之中的每一个的表示指示,用于双耳渲染数据集的所述表示 指示表明所述双耳渲染数据集所使用的表示。
【专利摘要】发射设备包括提供多个双耳渲染数据集的双耳电路(601),每一个双耳渲染数据集包括表示用于虚拟位置双耳渲染的参数的数据。具体地,头部相关的双耳传递函数数据可以被包括在这些数据集中。表示电路(603)为每一个数据集提供表示指示。数据集的表示指示表明数据集所使用的表示。输出电路(605)生成包括这些数据集和这些表示指示的比特流。利用接收设备中的接收机(701)来接收比特流。选择器(703)基于这些表示指示和设备的能力来选择所选择的双耳渲染数据集,并且音频处理器(707)处理音频信号,以响应所选择的双耳渲染数据集的数据。
【IPC分类】H04S1/00, H04S7/00
【公开号】CN104904239
【申请号】CN201380070515
【发明人】J.G.H.科彭斯, A.W.J.奥门, E.G.P.舒伊杰斯
【申请人】皇家飞利浦有限公司
【公开日】2015年9月9日
【申请日】2013年12月10日
【公告号】EP2946571A1, US20150358754, WO2014111765A1