双耳音频处理的制作方法

xiaoxiao2020-10-23 9

双耳音频处理的制作方法
【技术领域】
[0001] 本发明设及双耳擅染（binauralrendering),并且尤其但不完全设及用于音频处理应用的头部相关的双耳传递函数数据的通信和处理。
【背景技术】
[0002] 随着数字信号表示和通信已日益取代模拟表示和通信，各种源信号的数字编码在过去数十年已变得越来越重要。例如，诸如语音和音乐之类的音频内容越来越多地W数字内容编码为基础。此外，随着例如环绕立体声和家庭影院设置成为流行，音频消费已日益成为一种包络（enveloping)S维体验。
[0003] 已研制音频编码格式来提供日益有能力的、多样的和灵活的音频服务，并且尤其已研制支持空间音频服务的音频编码格式。
[0004] 如同DTS和Do化yDigital之类的众所周知的音频编码技术产生编码的多通道音频信号，其将空间图像表示为围绕着收听者被放置在固定位置上的许多通道。对于与对应于多通道信号的设置不同的扬声器设置来说，空间图像将是次最优的。并且，基于通道的音频编码系统通常不能应付不同数量的扬声器。
[0005] (IS0/IECMPEG-D)M阳GSurround(环绕）提供一种多通道音频编码工具，其允许现有的基于单声道或基于立体声的编码器被扩展至多通道音频应用。图1举例说明MPEG Surround系统的元素的示例。使用通过原始的多通道输入的分析而获得的空间参数，MPEG Surround解码器通过单声道或立体声信号的受控上混（upmix)W获得多通道输出信号而能够重新创建空间图像。
[0006] 由于多通道输入信号的空间图像被参数化，所WMPEGSurround允许利用不使用多通道扬声器设置的擅染设备来解码同一个多通道比特流。示例是在耳机上的虚拟环绕立体声再现，其被称为MPEGSurround双耳解码处理。在该种模式中，在使用普通耳机的同时能够提供逼真的环绕立体声体验。另一示例是较高阶多通道输出例如7. 1通道至较低阶设置例如5. 1通道的修剪（pruning)。
[0007] 实际上，随着越来越多的再现格式变得可用于主流消费者，用于擅染空间声音的擅染配置的变化和灵活性近年来已显著增加。该要求音频的灵活表示。随着MPEGSurround 编解码器的引入，已采取重要的步骤。然而，仍然针对例如ITU5. 1扬声器设置之类的特定扬声器设置来产生和发送音频。没有规定通过不同的设置和通过非标准（即，灵活的或用户定义的)扬声器设置的再现。实际上，具有使得音频编码和表示日益独立于特定的预定和标称的扬声器设置的愿望。日益优选的是；能够在解码器/擅染侧上执行针对多种多样的不同的扬声器设置的灵活适配（adaptation)。
[0008] 为了提供更灵活的音频的表示，MPEG标准化了称为"SpatialAudio化ject Coding(空间音频对象编码）"（IS(VIECMPEG-DSAOC)的格式。与诸如DTS、Do化yDigital 和MPEGSurround之类的多通道音频编码系统形成对比，SAOC提供个别音频对象而非音频通道的有效编码。而在MPEGSurround中，每一个扬声器通道能够被视为源自声音对象的不同混合，SAOC使得在解码器侧上可利用的个别声音对象用于如图2所示的交互操纵。在SA0C中，多个声音对象和参数化数据一起被编码到单声道或立体声缩混（downmix)中，该允许声音对象在擅染侧上被提取，从而允许个别音频对象可用于例如由终端用户进行的操纵。
[0009] 实际上，与MPEGSurround相类似，SA0C也创建单声道或立体声缩混。另外，计算和包括对象参数。在解码器侧上，用户可W操纵该些参数来控制个别对象的不同特征诸如位置、水平、均衡乃至应用诸如混响之类的效果。图3举例说明使得用户能够控制在SA0C 比特流中包含的个别对象的交互界面。借助于擅染矩阵，个别声音对象被映射到扬声器通道上。
[0010] 除了仅再现通道之外，SA0C还通过发送音频对象而允许更灵活的方案并且尤其允许更多的基于擅染的适应性（adapt油ility)。假定空间被扬声器充分覆盖，则该允许解码器侧将音频对象放置在空间中的任意位置上。该样，在所发送的音频与再现或擅染设置之间没有关系，因此能够使用任意的扬声器设置。该对于例如其中扬声器几乎从不位于预定位置上的典型起居室中的家庭影院设置而言是有利的。在SA0C中，在解码器侧上决定在声音场景中该些对象被放置在什么地方，该从艺术的角度来看时常不是所希望的。SA0C标准确实提供在比特流中发送默认擅染矩阵的方式，该消除解码器责任。然而，所提供的方法依赖于固定的再现设置或依赖于未指明语法。因而，SA0C没有提供规范的手段来完全发送音频场景而与扬声器设置无关。并且，SA0C不太适合于（notwellequipped)弥散性信号分量的忠实擅染。虽然具有包括所谓的MultichannelBackground化ject(多通道背景对象）（MB0)来捕获漫声的可能性，但是该个对象被束缚于一个特定的扬声器配置。
[0011] 由3DAudioAlliance(音频联盟）（3DAA)正在研制用于3D音频的音频格式的另一规范，其中3DAA是工业联盟。3DAA致力于研制"将有助于从当前的扬声器馈送范例至灵活的基于对象的方案的转变"的用于3D音频的传输的标准。在3DAA中，将定义允许将遗留的多通道缩混连同个别声音对象一起传输的比特流格式。另外，包括对象定位数据。在图4中举例说明生成3DAA音频流的原理。
[0012] 在3DAA方案中，单独地在扩展流中接收声音对象，并且可W从多通道缩混中提取该些声音对象。由此产生的多声道缩混与个别可用的对象一起进行擅染。
[0013] 该些对象可W由所谓的词干（stem)组成。该些词干基本上是分组(缩混）的轨道 (track)或对象。因此，对象可W由包装在词干中的多个子对象组成。在3DAA中，利用音频对象的选择，能够发送多通道参考混合（referencemix)。3DAA发送针对每一个对象的3D 位置数据。该些对象随后能够使用3D位置数据来提取。可供选择地，可W发送逆的混合矩阵，其描述该些对象与参考混合之间的关系。
[0014] 根据3DAA的描述，通过给每一个对象分配角度和距离，很可能发送声音场景信息，其指示相对于例如默认的前进方向应该将该对象放置在什么地方。因而，针对每一个对象，发送位置信息。该对于点源来说是有用的，但是其无法描述广源（widesource)(例如，如同合唱或欢呼)或弥漫性声场(诸如周围环境)。当从参考混合中提取所有的点源时，周围的多声道混合保留。与SA0C相类似，3DAA中的残留物被固定于特定的扬声器设置。
[00巧]因而，SA0C和3DAA方案二者并入能够在解码器侧上个别操纵的个别音频对象的传输。该两种方案之间的不同在于；SA0C通过相对于缩混提供表征音频对象的参数来提供有关该些音频对象的信息（即，W致在解码器侧上从缩混中生成该些音频对象)，而3DAA提供音频对象作为完整的且独立的音频对象（即，能够在解码器侧上独立于缩混来生成该些音频对象)。对于两种方案，可W针对该些音频对象来传送位置数据。
[0016] 其中通过使用针对收听者的耳朵的个别信号的声源的虚拟定位来创建空间体验的双耳处理正变得越来越普遍。虚拟环绕是擅染声音的一种方法，W致音频源被感知为源自特定的方向，从而创建收听物理环绕声音设置(例如，5. 1扬声器）或环境(音乐会）的错觉。利用适当的双耳擅染处理，能够计算为了收听者感知来自任何方向的声音而在耳膜处所需的信号，并且该些信号被擅染，W致它们提供所希望的效果。如图5所示，该些信号随后在耳膜处利用或耳机或串音消除方法(适合于通过紧密间隔开的扬声器的擅染）来重新创建。
[0017] 紧接着图5的直接擅染，能够用于擅染虚拟环绕的特定技术包括MPEGSurround 和SpatialAudioObjectCoding(空间音频对象编码及即将到来的有关MPEG中的3D 音频的工作项。该些技术提供计算有效的虚拟环绕擅染。
[0018] 双耳擅染W双耳滤波器为基础，其中该些滤波器由于头部W及诸如肩部之类的反射表面的不同声学属性而因人而异。例如，双耳滤波器能够用于创建在不同位置上模拟多个源的双耳记录。该能够通过将每一个声源与对应于该声源的位置的化adRelated ImpulseResponse(头部相关的脉冲响应）（皿IR)的配对（pair)进行卷积来实现。
[0019] 通过在放置于人耳中或靠近人耳放置的麦克风上在2D或3D空间中在特定的位置上从声源中测量例如脉冲响应，能够确定适当的双耳滤波器。通常，例如使用人头的模型进行该样的测量，或者实际上在一些情况中通过将麦克风附着靠近人的耳膜可W进行该些测量。双耳滤波器能够用于创建在不同位置上模拟多个源的双耳记录。例如，该能够通过将每一个声源与在该声源的希望位置上测量的位置的脉冲响应的配对进行卷积（convoIve) 来实现。为了创建声源围绕收听者移动的错觉，需要具有足够的空间分辨率例如10度的大量的双耳滤波器。
[0020] 双耳滤波函数可W被表示为例如化adRelatedImpulseResponse(皿IR)或者等效地被表示为化adRelatedTransfer化nction(头部相关的传递函数）（HRTF)或 BinauralRoomImpulseResponse(双耳房间脉冲响应XBRIR)或BinauralRoomTransfer 化nction(双耳房间传递函数）（BRTF)。从给定位置至收听者的耳朵(或耳膜)的(例如，估计的或假定的）传递函数被称为头部相关的双耳传递函数。可W例如在频域中或在时域中给出该个函数，在频域的情况下该个函数通常被称为HRTF或BRTF，而在时域的情况下该个函数通常被称为皿IR或BRIR。在一些情形中，头部相关的双耳传递函数被确定为包括声学环境、并且具体地在其中进行该些测量的房间的方位（aspect)或属性因素，而在其他的示例中仅考虑用户特性。第一类型的函数的示例是BRIR和BRTF，而后一种类型的函数的示例是皿IR和HRTF。
[0021] 相应地，底层（underlying)头部相关的双耳传递函数能够采用包括皿IR、HRTF等等的许多不同的方式来表示。此外，对于该些主要表示之中的每一个，具有大量的不同方式来表示特定函数，例如利用不同水平的精度和复杂度来表示特定函数。不同的处理器可W 使用不同的方案并因而可W基于不同的表示。因而，通常在任何的音频系统中需要大量的头部相关的双耳传递函数。实际上，多种多样的如何表示头部相关的双耳传递函数的方式存在，并且该由于每一个头部相关的双耳传递函数的可能参数的大变化性而进一步加剧。例如，BRIR有时可W利用具有假设9个抽头的FIR滤波器来表示，但是在其他的情形中可 W利用具有假设16个抽头的FIR滤波器来表示，等等。作为另一示例，能够在频域中使用参数化表示来表示HRTF，其中小的参数集合用于表示整个频谱。
[0022] 在许多情形中可取的是允许传送所希望的双耳擅染的参数，诸如可W使用的特定的头部相关的双耳传递函数。然而，由于底层头部相关的双耳传递函数的可能表示的大变化性，所W保证在始发设备和接收设备之间的通用性（commonality)可能是困难的。
[0023] AudioElngineeringSociety(音频工程学会）（AES)SC-02技术委员会近来已宣布开始有关文件格式的标准化的新项目，W便W头部相关的双耳传递函数的形式来交换双耳收听参数。该格式将是可缩放的，W匹配可利用的擅染处理。该格式将被设计成包括来自不同的HRTF数据库的原材料。挑战存在于如何能够在音频系统中最佳支持、使用和分发如此多个头部相关的双耳传递函数。
[0024] 相应地，用于支持双耳处理W及特别用于传送双耳擅染的数据的改善方案将是所希望的。特别地，允许双耳擅染数据的改善表示与通信、降低的数据率、减少的开销、便利的实现和/或改善的性能的方案将是有利的。

【发明内容】

[0025] 相应地，本发明寻求优选地、单个地或W任何组合来减轻、缓解或消除上述缺点之中的一个或多个。
[0026] 根据本发明的一方面，提供一种用于处理音频信号的设备，该设备包括：用于接收输入数据的接收机，其中输入数据包括多个双耳擅染数据集，每一个双耳擅染数据集包括表示用于虚拟位置双耳擅染处理的参数的数据，对于该些双耳擅染数据集之中的每一个，输入数据进一步包括表明用于双耳擅染数据集的表示的表示指示；选择器，用于选择所选择的双耳擅染数据集，W响应该些表示指示和该设备的能力；音频处理器，用于处理音频信号，W响应所选择的双耳擅染数据集的数据。
[0027] 本发明可W在许多情形中允许改善的和/或更灵活的和/或不太复杂的双耳处理。该方案可W特别地允许灵活的和/或低复杂度的方案用于传送和表示各种各样的双耳擅染参数。该方案可W允许各种各样的双耳擅染方案和参数利用接收数据的设备有效地被表示在同一比特流/数据文件中，其中该数据能够利用低复杂度来选择适当的数据和表示。特别地，与该设备的能力相匹配的合适的双耳擅染能够容易地进行识别和选择而不要求所有数据的完整解码或者实际上在许多实施例中不需要任何双耳擅染数据集的数据的任何解码。
[0028] 虚拟位置双耳擅染处理可W是算法或过程的任何处理，其为表示声源的信号生成用于人的两只耳朵的音频信号，W致声音被感知成源自3D空间中的希望位置并且通常源自在用户的头部之外的希望位置。
[0029] 每一个数据集可W包括表示至少一个虚拟位置双耳擅染操作的参数的数据。每一个数据集可W仅设及控制或影响双耳擅染的全部参数的子集。该数据可W完整地定义或描述一个或多个参数，和/或可W例如部分地定义一个或多个参数。在一些实施例中，所定义的参数可W是优选的参数。
[0030] 表示指示可W定义哪些参数被包括在该些数据集中和/或该些参数的特性和/或如何利用该数据来描述该些参数。
[0031] 设备的能力可W例如是计算或存储资源限制。能力可W动态地进行确定或可W是静态参数。
[0032] 根据本发明的可选特征，双耳擅染数据集包括头部相关的双耳传递函数数据。
[0033] 本发明可W允许改善的和/或便利的且更灵活的头部相关的双耳传递函数的分发和/或基于头部相关的双耳传递函数的处理。特别地，该方案可W允许表示多种多样的头部相关的双耳传递函数的数据利用个别处理设备来分发，其中该些个别处理设备能够容易地且有效地识别和提取具体地适合于那个处理设备的数据。
[0034] 该些表示指示可W是或者可W包括头部相关的双耳传递函数的表示的指示，诸如头部相关的双耳传递函数的性质及其个别参数。例如，用于给定的双耳擅染数据集的表示指示可W指示是否该数据集提供头部相关的双耳传递函数的表示作为HRTF、BRTF、皿IR或 BRIR。对于脉冲响应表示，表示指示可W例如表明表示脉冲响应的FIR滤波器的抽头(系数）的数量和/或用于每一个抽头的比特的数量。对于频域表示，表示指示可W例如表明为其提供系数的频率间隔的数量、是否该些频带是线性的或者例如Bark频带，等等。
[0035] 音频信号的处理可W是基于从所选择的双耳擅染数据集中检索的头部相关的双耳传递函数的参数的虚拟位置双耳擅染处理。
[0036] 根据本发明的可选特征，该些双耳擅染数据集之中的至少一个包括用于多个位置的头部相关的双耳传递函数数据。
[0037] 在一些实施例中，每一个双耳擅染数据集可W例如定义用于二维或S维声源擅染空间的头部相关的双耳传递函数的全集。对于所有位置而言是共同的表示指示可W允许有效的表示和通信。
[0038] 根据本发明的可选特征，该些表示指示进一步表示双耳擅染数据集的有序序列，该有序序列依据利用该些双耳擅染数据集所表示的双耳擅染的质量和复杂度之中的至少一个来排序，并且选择器被安排成选择所选择的双耳擅染数据集，W响应所选择的双耳擅染数据集在有序序列中的位置。
[0039] 该在许多实施例中可W提供特别有利的操作。特别地，该可W有助于和/或改善选择所选择的双耳擅染数据集的处理，因为该可W在考虑该些表示指示的顺序的情况下来完成。
[0040] 在一些实施例中，这些表示指示的顺序利用这些表示指示在比特流中的位置来表 /J、- 〇
[0041] 该可W有助于选择处理。例如，该些表示指示可W根据它们定位于输入数据比特流中的顺序来评估，并且可W选择所选择的合适的表示指示的数据集而无需任何进一步的表示指示的任何考虑。如果W递减偏好(根据任何合适的参数）的顺序来定位该些表示指示，该将导致优选的表示指示并因而双耳擅染数据集被选择。
[0042] 在一些实施例中，该些表示指示的顺序利用在输入数据中包括的指示来表示。用于每一个表示指示的指示可W被包括在该表示指示中。该指示可W例如是优先级的指示。
[0043] 该可W有助于选择处理。例如，优先级可W作为每一个表示指示的第一对比特来提供。该设备可W首先扫描该比特流W查找最高可能的优先级，并且可W从该些表示指示中评估是否它们与该设备的能力相匹配。如果是该样的话，则选择该些表示指示之中的一个和相应的双耳擅染数据集。如果不是该样的话，该设备可W着手扫描该比特流W查找第二最高可能的优先级，并随后对该些表示指示执行相同的评估。可W继续该个处理，直至识别合适的双耳擅染数据集。
[0044] 在一些实施例中，该些数据集/表示指示可W按照利用相关联的/链接的双耳擅染数据集的参数所表示的双耳擅染的质量的顺序来排序。
[0045] 取决于特定的实施例、偏好和应用，该顺序可W是递增或递减质量的顺序。
[0046] 该可W提供特别有效的系统。例如，该设备可W简单地按照给定的顺序来处理该些表示指示，直至表明与该设备的能力相匹配的双耳擅染数据集的表示的表示指示。该设备随后可W选择该个表示指示和相应的双耳擅染数据集，该是因为该将表示对于所提供的数据和该设备的能力而言可能的最高质量擅染。
[0047] 在一些实施例中，该些数据集/表示指示可W按照利用双耳擅染数据集的参数所表示的双耳擅染的复杂度的顺序来排序。
[0048] 取决于特定的实施例、偏好和应用，该顺序可W是递增或降低复杂度的顺序。
[0049] 该可W提供特别有效的系统。例如，该设备可W简单地按照给定的顺序来处理该些表示指示，直至指示与该设备的能力相匹配的双耳擅染数据集的表示的表示指示。该设备随后可W选择该个表示指示W及相应的双耳擅染数据集，该是因为该将表示对于所提供的数据和该设备的能力而言可能的最低复杂度擅染。
[0050] 在一些实施例中，该些数据集/表示指示可W按照利用双耳擅染数据集的参数所表示的双耳擅染的组合特性的顺序来排序。例如，成本值可W被表述为针对每一个双耳擅染数据集的质量量度与复杂度量度的组合，并且该些表示指示可W根据该个成本值来排序。
[0051] 根据本发明的可选特征，选择器被安排成选择所选择的双耳擅染数据集作为表明音频处理器能够进行的擅染处理的有序序列中的第一表示指示的双耳擅染数据集。
[0052] 该可W降低复杂度和/或有助于选择。
[0053] 根据本发明的可选特征，该些表示指示包括利用双耳擅染数据集所表示的头部相关的滤波器类型的指示。
[0054] 特别地，用于给定的双耳擅染数据集的表示指示可W包括利用该双耳擅染数据集所表示的例如HRTF、BRTF、皿IR或BRIR的指示。
[00巧]根据本发明的可选特征，多个双耳擅染数据集之中的至少一些包括利用从W下的组中选择的表示所描述的至少一个头部相关的双耳传递函数；时域脉冲响应表示；频域滤波器传递函数表示；参数表示；和子带域滤波器表示。
[0056] 该在许多情形中可W提供特别有利的系统。
[0057] 在一些实施例中，表示指示的值是一组选项中的值。输入数据可W包括至少两个表示指示，其具有该组选项中的不同值。该些选项可W例如包括W下之中的一个或多个：时域脉冲响应表示；频域滤波器传递函数表示；参数表示；子带域滤波器表示；FIR滤波器表 /J、- 〇
[0058] 根据本发明的可选特征，用于双耳擅染数据集的至少一些表示对应于不同的双耳音频处理算法，并且所选择的双耳擅染数据集的选择取决于音频处理器所使用的双耳处理算法。
[0059] 该在许多实施例中可W允许特别有效的操作。例如，该设备可W被编程为基于HRTF滤波器来执行特定的擅染算法。在该种情况下，该些表示指示可W被评估，W识别包括合适的HRTF数据的双耳擅染数据集。
[0060] 音频处理器被安排成取决于所选择的双耳擅染数据集所使用的表示来适配音频信号的处理。例如，用于HRTF处理的自适应FIR滤波器中系数的数量可W基于所选择的双耳擅染数据集所提供的抽头的数量的指示来适配。
[0061] 根据本发明的可选特征，至少一些双耳擅染数据集包括混响数据，并且音频处理器被安排成取决于所选择的双耳擅染数据集的混响数据来适配混响处理。
[0062] 该可W提供特别有利的双耳声音，并且可W提供改善的用户体验和声场感知。
[0063] 根据本发明的可选特征，音频处理器被安排成执行包括生成处理的音频信号作为至少头部相关的双耳传递函数过滤信号与混响信号的组合的双耳擅染处理，并且其中混响信号取决于所选择的双耳擅染数据集的数据。
[0064] 该可W提供特别有效的实现方式，并且可W提供高度灵活的且可适配的双耳擅染处理数据的处理和供应。
[0065] 在许多实施例中，头部相关的双耳传递函数滤波信号并不取决于所选择的双耳擅染数据集的数据。实际上，在许多实施例中，输入数据可W包括对于多个双耳擅染数据集而言是共同的头部相关的双耳传递函数滤波器数据，但是具有对于个别双耳擅染数据集而言是个别的混响数据。
[0066] 根据本发明的可选特征，选择器被安排成选择所选择的双耳擅染数据集，W响应如利用该些表示指示所表明的混响数据的表示的指示。
[0067] 该可W提供特别有利的方案。在一些实施例中，选择器可W被安排成选择所选择的双耳擅染数据集，W响应利用该些表示指示所表明的混响数据的表示的指示，而非响应利用该些表示指示所表明的头部相关的双耳传递函数滤波器的表示的指示。
[0068] 根据本发明的一方面，提供一种用于生成比特流的设备，该设备包括：用于提供多个双耳擅染数据集的双耳电路，每一个双耳擅染数据集包括表示用于虚拟位置双耳擅染处理的参数的数据；用于为每一个双耳擅染数据集提供表明用于双耳擅染数据集的表示的表示指示的表示电路；W及用于生成包括双耳擅染数据集和表示指示的比特流的输出电路。
[0069] 本发明可W允许改善的和/或更灵活的和/或不太复杂的提供有关虚拟位置擅染的信息的比特流的生成。该方案可W特别地允许用于传送和表示各种各样的双耳擅染参数的灵活的和/或低复杂度的方案。该方案可W允许各种各样的双耳擅染方案和参数利用接收能够W低复杂度来选择适当的数据和表示的比特流/数据文件的设备被有效地表示在同一个比特流/数据文件中。特别地，与设备的能力相匹配的合适的双耳擅染能够容易地被识别并被选择而不要求所有数据的完整解码或者实际上在许多实施例中无需任何的双耳擅染数据集的数据的任何解码。
[0070] 每一个数据集可W包括表示至少一个虚拟位置双耳擅染操作的参数的数据。每一个数据集可W仅设及控制或影响双耳擅染的全部参数的子集。该数据可W完整地定义或描述一个或多个参数和/或可W例如部分地定义一个或多个参数。在一些实施例中，所定义的参数可W是优选的参数。
[0071] 该些表示指示可W定义哪些参数被包括在数据集中和/或参数的特性和/或如何利用该数据来描述该些参数。
[0072] 根据本发明的可选特征，输出电路被安排成按照利用双耳擅染数据集的参数所表示的虚拟位置双耳擅染的特性的量度的顺序来对该些表示指示进行排序。
[0073] 该在许多实施例中可W提供特别有利的操作。
[0074] 根据本发明的一方面，提供一种处理音频的方法，该方法包括；接收输入数据，该输入数据包括多个双耳擅染数据集，每一个双耳擅染数据集包括表示用于虚拟位置双耳擅染处理的参数的数据，对于该些双耳擅染数据集之中的每一个，该输入数据进一步包括表明用于该双耳擅染数据集的表示的表示指示；选择所选择的双耳擅染数据集，W响应该些表示指示和该设备的能力；W及处理音频信号，W响应所选择的双耳擅染数据集的数据。
[00巧]根据本发明的一方面，提供一种生成比特流的方法，该方法包括：提供多个双耳擅染数据集，每一个双耳擅染数据集包括表示用于虚拟位置双耳擅染处理的参数的数据，对于每一个双耳擅染数据集，提供表明用于该双耳擅染数据集的表示的表示指示；生成包括双耳擅染数据集和表示指示的比特流。
[0076] 本发明的该些W及其他的方面、特征和优点从下文描述的（一个或多个）实施例中将是显而易见的并将参考该(一个或多个）实施例来阐述。
【附图说明】
[0077] 将仅通过示例、参考附图来描述本发明的实施例，其中：图1举例说明MPEGSurround系统的元素的示例；图2例示在MPEGSA0C中可能的音频对象的操纵；图3举例说明使得用户能够控制在SA0C比特流中包含的个别对象的交互界面；图4举例说明3DAA的音频编码的原理的示例；图5举例说明双耳处理的示例；图6举例说明根据本发明的一些实施例的头部相关的双耳传递函数数据的发射机的示例讯图7举例说明根据本发明的一些实施例的头部相关的双耳传递函数数据的接收机的示例；图8举例说明头部相关的双耳传递函数的示例；图9举例说明双耳处理器的示例；W及图10举例说明修改的Jot混响器的示例。
【具体实施方式】
[0078] W下的描述集中于可应用于头部相关的双耳传递函数数据的通信并且尤其可应用于HRTF的通信的本发明的实施例。然而，将意识到，本发明并不限于该个应用而可W应用于其他的双耳擅染数据。
[0079] 描述头部相关的双耳传递函数的数据的传输正接收到越来越浓的兴趣，并且如前所述，AESSC正在启动目的在于研制用于传送该样的数据的合适的文件格式的新项目。底层头部相关的双耳传递函数能够采用许多不同的方式来表示。例如，HRTF滤波器开始使用 (come in)多种格式/表示，诸如参数化表示、FIR表示等等。因此，具有对于同一个底层头部相关的双耳传递函数支持不同的表示格式的头部相关的双耳传递函数文件格式是有利的。进一步，不同的解码器可W依赖于不同的表示，并因此发射机不知道哪些表示必须提供给个别音频处理器。W下的描述集中于其中能够在单个文件格式内使用不同的头部相关的双耳传递函数表示格式的系统。音频处理器可W在多个表示中选择，W便检索与音频处理器的个别需求或偏爱最适合的表示。
[0080] 该方案具体地允许在单个头部相关的双耳传递函数文件内单个头部相关的双耳传递函数的多个表示格式(诸如FIR、参量等等)。头部相关的双耳传递函数文件也可W包括多个头部相关的双耳传递函数，其中每一个函数利用多个表示来表示。例如，对于多个位置中的每一个位置，可W提供多个头部相关的双耳传递函数表示。此外，该系统基于包括识别表示头部相关的双耳传递函数的用于不同数据集的特定表示的表示指示的文件。该允许解码器选择头部相关的双耳传递函数表示格式而不需要访问或处理HRTF数据本身。
[0081] 图6举例说明用于生成和发送包括头部相关的双耳传递函数数据的比特流的发射机的示例。
[0082] 发射机包括生成多个头部相关的双耳传递函数的HRTF生成器601，其中该些双耳传递函数在具体示例中是HRTF但是在其他实施例中可W附加地或可供选择地是例如皿IR、BRIR或BRTF。实际上，在下文，术语皿TF为了简洁起见而将指的是头部相关的双耳传递函数的任何表示，其酌情包括皿IR、BRIR或BRTF。
[0083] 每一个HRTF随后利用数据集来表示，其中该些数据集之中的每一个提供一个 HRTF的一个表示。有关头部相关的双耳传递函数的特定表示的更多信息可W例如在W下文献中找到： "Algazi, V.R., Duda, R.O. (2011).巧eadphone-Based Spatial Sound", IE邸Si即al Processing Magazine, Vol: 28(1), 2011, Page: 33-42"，其描述皿IR、BRIR、 HRTF、BRTF的概念； "Cheng, C., Wakefield, G.H. , "Introduction to Head-Related Transfer Functions化RTFs): Representations of HRTFs in Time, Frequency, and Space", Journal Audio Elngineering Society, Vol: 49, No. 4, April 2001."，其描述不同的双耳传递函数表示(在时间和频率中）； "Breebaart, J. , Nater, F. , Kohlrausch, A. (2010). "Spectral and spatial parameter resolution requirements for parametric, fiIter-bank-based HRTF processing" J. Audio E；ng. Soc., 58 No 3, p. 126-140."，其参考巧日在MPEG Surround/SAOC中所使用的）HRTF数据的参数化表示； "Menzer, F. , Faller, C. , "Binaural reverberation using a modified Jot reverberator with frequency-dependent interaural coherence matching", 126th Audio Engineering Society Convention, Munich, Germany, May 7-10 2009"，其描述 Jot混响器。组成Jot混响器的不同滤波器的滤波器系数的直接传输可w是描述Jot混响器的参数的一种方式。
[0084] 例如，对于一个HRTF，生成多个双耳擅染数据集，其中每一个数据集包括HRTF的一个表示。例如，一个数据集可W利用FIR滤波器的一组抽头来表示HRTF，而另一数据集可W利用FIR滤波器的另一组抽头例如利用不同数量的系数和/或利用每一个系数的不同数量的比特来表示HRTF。另一个数据集可W利用一组子带(例如FFT)频域系数来表示双耳滤波器。还一个数据集可W利用不同集合的子带（FFT)域系数诸如用于不同频率间隔的系数和/或利用每一个系数的不同数量的比特来表示HRTF。另一个数据集可W利用一组QMF 频域滤波器系数来表示HRTF。还一个数据集可W提供HRTF的参数化表示，并且再一个数据集可W提供HRTF的不同的参数化表示。参数化表示可W为一组固定的或非恒定的频率间隔提供一组频域系数，例如，诸如根据Bark(己克）标度（scale)或ERB标度的一组频带。
[0085] 因而，HRTF生成器601为每一个HRTF生成多个数据集，其中每一个数据集提供 HRTF的表示。此外，HRTF生成器601为多个位置生成数据集。例如，HRTF生成器601可W 为覆盖一组=维或二维位置的多个HRTF生成数据集。所组合的位置因而可W提供能够由音频处理器用于使用虚拟定位双耳擅染算法来处理音频信号的一组HRTF，导致音频信号在给定位置上被感知为声源。基于所希望的位置，音频处理器能够提取适当的HRTF并将该个应用于擅染处理中（或者可W例如提取两个HRTF并生成HRTFW便通过所提取的HRTF的插入来使用）。
[0086]HRTF生成器601禪合到指示处理器603,而指示处理器被安排成为该些HRTF数据集之中的每一个生成表示指示。该些表示指示之中的每一个表明由个别数据集使用HRTF 的哪一个表示。
[0087] 每一个表示指示可W在一些实施例中被生成为包括（consistin)根据例如预定语法来定义所使用的表示的少量比特。该表示可W例如包括定义是否该数据集利用FIR滤波器的抽头、FFT域滤波器的系数、QMF滤波器的系数、参数化表示等等来描述HRTF的少量比特。表示指示可W例如在一些实施例中包括定义在该表示中使用多少数据值(例如，使用多少抽头或系数来定义双耳擅染滤波器)的少量比特。在一些实施例中，该些表示指示可W 包括定义用于每一个数据值(例如，用于每一个滤波器系数或抽头）的比特的数量的少量比特。
[0088]HRTF生成器601和指示处理器603禪合到输出处理器605,其中输出处理器被安排成生成包括该些表示指示和该些数据集的比特流。
[0089] 在许多实施例中，输出处理器605被安排成将比特流生成为包括一系列表示指示和一系列数据集。在其他实施例中，该些表示指示与该些数据集可W进行交织，例如每一个数据集的数据紧跟在用于那个数据集的表示指示之前。该可W例如提供不需要数据来表明哪一个表示指示被链接至哪一个数据集的优点。
[0090] 输出处理器605可W进一步包括其他的数据、标题、同步数据、控制数据等等，如对于本领域技术人员将是公知的。
[0091] 所生成的数据流可W被包括在数据文件中，其中数据文件可W例如被存储在存储器中或被存储在诸如记忆椿或DVD之类的存储介质上。在图6的示例中，输出处理器605 被禪合到发射机607,其中发射机607被安排成通过合适的通信网络将比特流发送到多个接收机。具体地，发射机607可W使用因特网来发送比特流至接收机。
[0092] 因而，图6的发射机生成包括多个双耳擅染数据集的比特流，其中该些双耳擅染数据集在特定的示例中是HRTF数据集。每一个双耳擅染数据集包括表示至少一个双耳虚拟位置擅染处理的参数的数据。具体地，它可W包括指定将被用于双耳空间擅染的滤波器的数据。对于每一个双耳擅染数据集，比特流进一步包括对于每一个双耳擅染数据集表明该双耳擅染数据集所使用的表示的表示指示。
[0093] 在许多实施例中，比特流也可W包括将要擅染的音频数据，例如，诸如MPEG Surrouml、MPEGSA0C或3DAA音频数据。该个数据随后可W使用源自该些数据集的双耳数据来擅染。
[0094] 图7举例说明根据本发明的一些实施例的接收设备。
[0095] 接收设备包括接收如上所述的比特流的接收机701，即，它可W具体地从图6的发射设备接收比特流。
[0096] 接收机701被禪合到选择器703,其中选择器被馈送所接收的双耳擅染数据集W 及相关联的表示指示。选择器703在该示例中被禪合到能力处理器705,其中能力处理器被安排成给选择器703提供描述接收设备的音频处理能力的能力的数据。选择器703被安排成基于该些表示指示W及从能力处理器705接收的能力数据来选择该些双耳擅染数据集之中的至少一个。因而，由选择器703确定至少一个所选择的双耳擅染数据集。
[0097] 选择器703进一步被禪合到接收所选择的双耳擅染数据的音频处理器707。音频处理器707进一步被禪合到音频解码器709,其中音频解码器709进一步被禪合到接收机 701。
[0098] 在其中比特流包括用于将要擅染的音频的音频数据的示例中，该个音频数据被提供给音频解码器709,而音频解码器709着手对其进行解码，W生成个别音频分量，诸如音频对象和/或音频通道。该些音频分量与对于该音频分量而言所希望的声源位置一起被馈送到音频处理器707。
[0099] 音频处理器707被安排成基于所提取的双耳数据并且具体地在所述的示例中基于所提取的HRTF数据来处理一个或多个音频信号/分量。
[0100] 作为示例，选择器703可W针对比特流中提供的每一个位置提取一个HRTF数据集。由此产生的HRTF可W被存储在本地存储器中，即，对于一组位置之中的每一个，可W存储一个HRTF。在擅染特定的音频信号时，音频处理器707从音频检测器709接收相应的音频数据W及所希望的位置。音频处理器707随后评估该位置，W查看它是否足够接近地匹配于任何存储的HRTF。如果是该样的话，则它将该个HRTF应用于音频信号，W生成双耳音频分量。如果没有一个存储的HRTF是用于足够接近的位置，则音频处理器707可W着手提取两个最接近的HRTF并在该些HRTF之间插入，W得到合适的HRTF。该方案可W对于所有的音频信号/分量进行重复，并且由此产生的双耳输出数据可W进行组合，W生成双耳输出信号。该些双耳输出信号随后可W被馈送到例如耳机。
[0101] 将意识到；不同的能力可W用于选择(一个或多个）适当的数据集。例如，能力可 W是计算资源、存储器资源或擅染算法要求或限制之中的至少一个。
[0102] 例如，一些擅染器可W具有允许其执行许多高复杂度操作的重要计算资源能力。该可W允许双耳擅染算法使用复杂的双耳滤波。具体地，具有长脉冲响应的滤波器(例如，具有许多抽头的FIR滤波器)能够利用该样的设备来处理。相应地，该样的接收设备可W提取利用具有许多抽头并且对于每一个抽头具有许多比特的fir滤波器所表示的HRTF。
[0103] 然而，另一擅染器可能具有低的计算资源能力，其阻止双耳擅染算法使用复杂的滤波操作。对于该样的擅染，选择器703可W选择利用具有很少抽头且具有粗分辨率（即，每一个抽头具有更少比特）的FIR滤波器来表示HRTF的数据集。
[0104]作为另一示例，一些擅染器可W具有足够的存储器来存储大量的HRTF数据。在该种情况下，选择器703可W选择大的例如具有许多系数且每一个系数具有许多比特的HRTF 数据集。然而，对于具有低的存储器资源的擅染器来说，该个数据不能被存储，并且相应地，选择器703可W选择小得多的HRTF数据集，例如具有显著更少的系数和/或每一个系数具有更少比特的HRTF数据集。
[0105]在一些实施例中，可W考虑可用的双耳擅染算法的能力。例如，通常研制算法W便与W给定方式表示的HRTF-起使用。例如，一些双耳擅染算法使用基于QMF数据的双耳滤波，其他的算法使用脉冲响应数据，而另外的算法使用FFT数据等等。选择器703可W考虑将要使用的个别算法的能力，并且可W具体地选择数据集来W与特定算法中使用的方式相匹配的方式来表示HRTF。
[0106] 实际上，在一些实施例中，至少一些表示指示/数据集设及不同的双耳音频处理算法，并且选择器703可W基于音频处理器707所用的双耳处理算法来选择(一个或多个）数据集。
[0107]例如，如果双耳处理算法基于频域滤波，则选择器703可W选择在相应频域中表示HRTF的数据集。如果双耳处理算法包括卷积利用FIR滤波器处理的音频信号，则选择器 703可W选择提供合适FIR滤波器的数据集，等等。
[010引在一些实施例中，用于选择(一个或多个）适当数据集的能力指示可W表明恒定的、预定的或静态的能力。可供选择地或附加地，该些能力指示在一些实施例中可W表明动态的/变化的能力。
[0109]例如，可用于擅染算法的计算资源可W动态地进行确定，并且可W选择数据集W反映当前可用的资源。因而，当具有大量的可用计算资源时，可W选择更大的、更复杂的且更多资源需求的HRTF数据集，而当具有较少资源可用时，可W选择较小的、不太复杂的且较低资源需求的HRTF数据集。在该样的系统中，在对于其他的(更重要的)功能需要计算资源时，在允许质量和计算资源之间的权衡的同时，只有可能就可W增加双耳擅染的质量。
[0110] 选择器703对于所选择的双耳擅染数据集的选择基于表示指示而非基于数据本身。该允许更简单且有效的操作。特别地，选择器703不需要访问或检索数据集中的任何数据，而能够简单地提取该些表示指示。由于该些表示指示通常比该些数据集小得多并且通常具有简单得多的结构和语法，所W该可W显著地简化选择处理，从而减少操作的计算要求。
[0111] 该方案因而允许非常灵活的双耳数据的分发。具体地，能够分发能够支持各种各样的擅染设备和算法的HRTF数据的单个文件。该处理的最优化能够由个别擅染器本地执行，W反映那个擅染器的特定环境。因而，实现改善的用于分发双耳信息的性能和灵活性。
[0112] 下面提供用于比特流的合适的数据语法的特定示例。在该个示例中，字段 "bsR巧resentationID"提供HRTF格式的指不。
[0113] 更详细地，使用W下字段： ByteAlignO 多至7个填充比特来相对于ByteAlign〇出现在其中的语法元素的开始实现字节对齐 bsFileSignature读取"HRTF"的4个ASCII字符的字符串 bsFileVersion 文件版本指不 bsNumCharName HRTF名称中的ASCII字符的数量 bsName HRTF name bsNumFs 表明；针对bsNumFs+1个不同的采样率，发送HRTF bsSamplingFrequency W化rz(赫兹）为单位的采样频率bsReserved 保留比特 Positions 表明在HRTF数据中发送的虚拟扬声器的位置信息 bsNumRepresentations针对HRTF发送的表示的数量 bsR巧resentationI D 识别所发送的HRTF表示的类型。每一个HRTF只能使用每一个ID-次。例如，可W使用W下的可用ID:
[0114] 在该个特定示例中，对于比特流，可W使用W下的文件格式/语法：
[0115] 在一些实施例中，双耳擅染数据集可W包括混响数据。选择器703可W相应地选择混响数据集并将该个混响数据集馈送到音频处理器707,其中音频处理器707可W着手取决于该个混响数据来适配影响(一个或多个）音频信号的混响的处理。
[0116] 许多双耳传递函数包括其后跟随着混响部分的无回声部分二者。包括房间的特性的特殊函数诸如BRIR或BRTF包括取决于主体的人体测量属性(诸如头部尺寸、耳朵形状等等）（即，基本的皿IR或HRTF)的无回声部分，其后跟随着表征房间的混响部分。
[0117] 混响部分包含一般重叠的两个时间区域。第一区域包含所谓的早期反射，其是声源在到达耳膜(或测量麦克风）之前在房间内的墙或障碍物上的孤立反射。随着时滞增加，在固定时间间隔中存在的反射的数量增加，其中该些反射进一步包含次级反射等等。混响部分中的第二区域是其中该些反射不再是孤立的部分。该个区域被称为弥漫性或后期混响尾部（tail)。
[0118] 混响部分包含给出有关源与接收机（即，其中测量BRIR的位置)之间的距离W及房间的大小和声学属性的听觉系统信息的提示（cue)。与无回声部分的能量相关的混响部分的能量大致确定所感知的声源的距离。（早期)反射的时间密度对所感知的房间的大小做贡献。通常利用T60所表明的，混响时间是反射在能级方面下降60地所耗费的时间。混响是由于房间维度与房间的边界的反射属性的组合而引起的。当具有声音的多吸收时(例如，具有家具、地毯和窗帘的邱室)，反射性强的墙壁(例如，浴室）在能级降低60地之前将需要更多的反射。类似地，与具有类似的反射属性的较小房间相比，大房间具有较长的反射之间的传播路径，并因此增加在实现60地的能级降低之前的时间。
[0119] 在图8中举例说明包括混响部分的BRIR的示例。
[0120] 头部相关的双耳传递函数可W在许多实施例中反映无回声部分和混响部分二者。例如，可W提供反映在图8中所示的脉冲响应的HRTF。因而，在该样的实施例中，混响数据是HRTF的部分，并且混响处理是HRTF滤波的整体处理。
[0121] 然而，在其他的实施例中，混响数据可W至少部分地与无回声部分分开来提供。实际上，擅染例如BRIR中的计算优势能够通过将BRIR拆分成无回声部分和混响部分来获得。与长的BRIR滤波器相比，较短的消声滤波器能够利用显著较低的计算负载来擅染，并且需要显著较低的资源用于存储和通信。长的混响滤波器在该样的实施例中可W使用合成混响器更有效地来实施。
[0122] 在图9中举例说明该样的音频信号的处理的示例。图9举例说明用于生成双耳信号中的一个信号的方案。可W并行执行第二处理，W生成第二双耳信号。
[0123] 在图9的方案中，将要擅染的音频信号被馈送到HRTF滤波器901，其中滤波器901 应用通常反映BRIR的无回声和(一些)早期反射部分的短HRTF滤波器。因而，该个HRTF滤波器901反映由于房间而引起的解剖特性W及一些早期反射。另外，音频信号被禪合到混响器903,而该混响器从该音频信号中生成混响信号。
[0124]HRTF滤波器901和混响器903的输出随后进行组合，W生成输出信号。具体地，该些输出被加在一起，W生成反映无回声和早期反射二者W及混响特性的组合信号。
[0125] 混响器903具体地是合成混响器，诸如Jot混响器。合成混响器通常使用反馈网络来模拟早期反射和密集混响尾部。在反馈环路中包括的滤波器控制混响时间（Te。）和染色。图10举例说明修改的Jot混响器(具有=个反馈环路)的示意性描述的示例，其中修改的Jot混响器输出两个信号而非一个信号，W致其能够用于表示双耳混响。已添加滤波器来提供对于耳间相关性（U(z)和v(z))和耳朵相关的染色（h許日He)的控制。
[0126] 在该示例中，双耳处理因而基于并行执行的两个个别的且独立的处理，并且该两个处理的输出随后被组合成(一个或多个）双耳信号。该两个处理能够利用独立数据来引导，即，HRTF滤波器901可W利用HRTF滤波器数据来控制，并且混响器903可W利用混响数据来控制。
[0127] 在一些实施例中，该些数据集可W包括HRTF滤波器数据和混响数据二者。因而，对于所选择的数据集来说，HRTF滤波器数据可W被提取并被用于设置HRTF滤波器901，且混响数据可W被提取并被用于适配混响器903的处理，W提供所希望的混响。因而，在该示例中，混响处理通过独立地适配生成混响信号的处理、基于所选择的数据集的混响数据来适配。
[0128] 在一些实施例中，所接收的数据集可W包括用于仅仅HRTF滤波和混响处理之一的数据。例如，在一些实施例中，所接收的数据集可W包括定义无回声部分W及早期反射的初始部分的数据。然而，可W与选择哪个数据集无关地并且实际上通常与将要擅染哪个位置无关地(混响通常与声源位置无关，该是因为它反映房间中的许多反射）使用恒定混响处理。该可W导致较低复杂度处理与操作并且可W尤其适合于其中可W使得双耳处理适应于例如个别收听者但是其中擅染打算反映同一房间的实施例。
[0129] 在其他的实施例中，该些数据集可W包括混响数据而没有HRTF滤波数据。例如， HRTF滤波数据对于多个数据集乃至对于所有的数据集而言可W是共同的，并且每一个数据集可W指定与不同的房间特性相对应的混响数据。实际上，在该样的实施例中，HRTF滤波信号可W不取决于所选择的数据集的数据。该方案可能特别适合于其中该处理针对同一(例如，名义上的）收听者但是该数据允许不同的房间感知被提供的应用。
[0130] 在该些示例中，选择器703可W基于如利用该些表示指示所表明的混响数据的表示的指示来选择数据集来使用。因而，该些表示指示可W提供如何利用该些数据集来表示混响数据的指示。在一些实施例中，该些表示指示可W包括具有HRTF滤波的指示的该样的指示，而在其他的实施例中，该些表示指示可W例如只包括混响数据的指示。
[0131] 例如，该些数据集可W包括与不同类型的合成混响器相对应的表示，并且选择器 703可W被安排成选择该数据集，针对该数据集而言，表示指示表明该数据集包括与音频处理器707所采用的算法相匹配的混响器的数据。
[0132] 在一些实施例中，该些表示指示表示双耳擅染数据集的有序序列。例如，该些数据集(对于给定位置而言）可W按照质量和/或复杂度的顺序对应于有序序列。因而，序列可 W反映利用该些数据集所定义的双耳处理的递增(或递减)质量。指示处理器603和/或输出处理器605可W生成或安排该些表示指示来反映该个顺序。
[0133] 接收机可能知晓该有序序列反映哪一个参数。例如，它可能知晓该些表示指示表明递增(或递减）质量或递减(或递增）复杂度的序列。选择器703随后能够在选择该数据集用于双耳擅染时使用该个知识。具体地，选择器703可W选择该数据集，W响应该数据集在有序序列中的位置。
[0134] 该样的方案在许多情形中可W提供较低复杂度的方案，并且尤其可W有助于用于音频处理的(一个或多个）数据集的选择。具体地，如果选择器703被安排成按照给定顺序 (对应于W排序该些数据集的顺序来考虑该些数据集）来评估该些表示指示，它可W在许多实施例和情形中不需要为了选择(一个或多个）适当的数据集而处理所有的表示指示。
[0135] 实际上，选择器703可W被安排成选择双耳擅染数据集作为该序列中针对其而言表示指示表明音频处理器能够进行的擅染处理的第一(最早）数据集的双耳擅染数据集。
[0136] 作为特定示例，该些表示指示/数据集可W按照该些数据集的数据所表示的擅染处理的递减质量的顺序来排序。通过W该个顺序来评估该些表示指示并选择音频处理器 707能够处理的第一数据集，只要遇到表明相应的数据集具有适合于由音频处理器707使用的数据的表示指示，选择器703就能够停止选择处理。选择器703不需要考虑任何进一步参数，该是因为它将知道该个数据集将导致最高质量擅染。
[0137]类似地，在其中希望复杂度最低化的系统中，该些表示指示可W按照递增复杂度的顺序来排序。通过选择表明合适的用于音频处理器707的处理的表示的第一表示指示的数据集，选择器703能够保证实现最低复杂度的双耳擅染。
[013引将意识到；在一些实施例中，排序可W采用递增质量/递减复杂度的顺序。在该样的实施例中，选择器703可W例如W相反顺序来处理该些表示指示，W实现上述的相同结果。
[0139]因而，在一些实施例中，该顺序可W采用利用该些双耳擅染数据集所表示的双耳擅染的递减质量的顺序，而在其他的实施例中它可W采用利用该些双耳擅染数据集所表示的双耳擅染的递增质量的顺序。类似地，在一些实施例中，该顺序可W采用利用该些双耳擅染数据集所表示的双耳擅染的递减复杂度的顺序，而在其他的实施例中它可W采用利用该些双耳擅染数据集所表示的双耳擅染的递增复杂度的顺序。
[0140] 在一些实施例中，比特流可W包括该顺序基于哪个参数的指示。例如，可W包括表明该顺序是基于复杂度还是基于质量的标记。
[0141] 在一些实施例中，该顺序可W基于参数诸如表示复杂度与质量之间的权衡的值的组合。将意识到；可W使用用于计算该样的值的任何合适的方案。
[0142] 不同的量度可W用于在不同的实施例中表示质量。例如，可W为每一个表示计算距离量度，其表明精确测量的头部相关的双耳传递函数与利用单个数据集的参数所描述的传递函数之间的差(例如，均方误差)。该样的差可W包括滤波器系数的量化W及脉冲响应的截断（truncation)的效果。它也可W反映时域和/或频域中的离散化的效果(例如，它可W反映采样率或用于描述音频带的频带的数量)。在一些实施例中，质量指示可W是简单的参数，例如，诸如FIR滤波器的脉冲响应的长度。
[0143] 类似地，不同的量度和参数可W用于表示与给定数据集相关联的双耳处理的复杂度。特别地，复杂度可W是计算资源指示，即，复杂度可W反映将要执行的相关联的双耳处理可能有多复杂。
[0144] 在许多情形中，参数通常可W表明递增质量和递增复杂度二者。例如，FIR滤波器的长度可W表明质量增加和复杂度增加二者。因而，在许多实施例中，同一个顺序可W反映复杂度和质量二者，并且选择器703可W在选择时使用该个。例如，只要复杂度低于给定水平，它就可W选择最高质量数据集。假定依据递减质量和复杂度来安排该些表示指示，该可 W简单地通过处理该些表示指示并选择表示低于所希望水平的复杂度(并且能够由音频处理器处理）的第一指示的数据集来实现。
[0145] 在一些实施例中，该些表示指示和相关联的数据集的顺序可W利用该些表示指示在比特流中的位置来表示。例如，对于反映递减质量的顺序来说，该些表示指示(对于给定位置）可W简单地进行安排，W致比特流中的第一表示指示是表示具有最高质量的相关联的双耳擅染的数据集的表示指示。比特流中的下一个表示指示是表示具有下一个最高质量的相关联的双耳擅染的数据集的表示指示，等等。在该样的实施例中，选择器703可W简单地按顺序扫描所接收的比特流，并且可W为每一个表示指示确定是否它表明音频处理器 707能够使用的数据集。它能够着手完成该个，直至遇到适当的指示，此时没有比特流的进一步表示指示需要进行处理或者实际上进行解码。
[0146] 在一些实施例中，该些表示指示和相关联的数据集的顺序可W利用输入数据中包括的指示来表示，并且具体地，每一个表示指示的指示可W被包括在该表示指示本身中。
[0147] 例如，每一个表示指示可W包括表明优先级的数据字段。选择器703可W首先评估包括最高优先级的指示的所有表示指示，并且确定是否任何表示指示表明在相关联的数据集中包括有用的数据。如果是该样的话，则选择该个表示指示巧日果识别一个W上的表示指示，则可W应用辅助选择标准，或者例如可W随机仅选择一个表示指示)。如果没有找到任何表示指示的话，则选择器可W着手评估表明下一个最高优先级的所有的表示指示，等等。作为另一示例，每一个表示指示可W表明序列位置编号，并且选择器703可W着手处理该些表示指示，W建立序列顺序。
[0148] 该样的方案可能需要由选择器703进行更复杂的处理，但是可W提供更多灵活性，例如，诸如允许多个表示指示在该序列中平等地被划分优先级。它也可W允许每一个表示指示自由地被定位于比特流中，并且具体地可W允许每一个表示指示紧挨着相关联的数据集被包括。
[0149] 该方案因而可W提供增加的灵活性，其例如有助于比特流的生成。例如，可能实质上更容易的是给现有的比特流简单地添加额外的数据集和相关联的表示指示而不必重构整个流。
[0150] 将意识到；为了简洁起见，上面的描述参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，可W使用在不同的功能电路、单元或处理器之间功能的任何合适的分布而不偏离本发明，该将是显而易见的。例如，被举例说明为利用单独的处理器或控制器执行的功能可W利用同一处理器或控制器来执行。因此，对于特定的功能单元或电路的引用将仅被视为对于用于提供所描述的功能的合适装置的引用而非表明严格的逻辑或物理结构或组织。
[0151] 本发明能够采用包括硬件、软件、固件或该些的任何组合的任何合适形式来实施。本发明可W选择地至少部分地作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件来实施。本发明的实施例的元素和组件可W物理地、功能地和逻辑地采用任何合适的方式实施。实际上，功能可W在单个单元中、在多个单元中或作为其他功能单元的部分来实施。就此而论，本发明可W在单个单元中或可W物理地和功能地分布在不同的单元、电路和处理器之间。
[0152] 虽然结合一些实施例描述了本发明，但是本发明并不打算限于在本文陈述的特定形式。相反，本发明的范围仅利用所附权利要求书来限制。附加地，虽然某个特征可能看起来结合特定的实施例来描述，但是本领域技术人员将认识到；所描述的实施例的各种特征可W根据本发明来组合。在权利要求书中，术语包括并不排除其他元素或步骤的存在。
[0153] 此外，虽然个别地列出，但是多个装置、元素、电路或方法步骤可W利用例如单个电路、单元或处理器来实施。附加地，虽然个别特征可W被包括在不同的权利要求中，但是该些特征或许可W有利地进行组合，并且在不同权利要求中的包括并不意味着：特征的组合不是可行的和/或有益的。特征在一种类别的权利要求中的包括并不意味着对于该种类别的限制，而是表明该特征酌情同样可应用于其他的权利要求类别。此外，特征在该些权利要求中的顺序并不意味着该些特征必须按其工作的任何特定顺序，并且特别地个别步骤在方法权利要求中的顺序并不意味着必须按照该个顺序来执行该些步骤。相反，该些步骤可W按照任何合适的顺序来执行。另外，单数引用并不排除多个。因而，对于"一"、"一个"、 "第一"、"第二"等等的引用并不排除多个。该些权利要求中的参考符号仅仅作为澄清示例来提供，而不应被解释为W任何方式来限制该些权利要求的范围。
【主权项】
1. 一种用于处理音频信号的设备，所述设备包括：接收机（701)，用于接收输入数据，所述输入数据包括多个双耳渲染数据集，每一个双耳渲染数据集包括表示用于虚拟位置双耳渲染处理的参数的数据，对于所述双耳渲染数据集之中的每一个，所述输入数据进一步包括表明用于所述双耳渲染数据集的表示的表示指示；选择器（703)，用于选择所选择的双耳渲染数据集，以响应所述表示指示和所述设备的能力；音频处理器（707)，用于处理所述音频信号，以响应所选择的双耳渲染数据集的数据。2. 根据权利要求1所述的设备，其中所述双耳渲染数据集包括头部相关的双耳传递函数数据。3. 根据权利要求2所述的设备，其中所述双耳渲染数据集之中的至少一个包括用于多个位置的头部相关的双耳传递函数数据。4. 根据权利要求1所述的设备，其中所述表示指示进一步表示所述双耳渲染数据集的有序序列，所述有序序列依据利用所述双耳渲染数据集所表示的双耳渲染的质量和复杂度之中的至少一个来排序，并且所述选择器（703 )被安排成选择所选择的双耳渲染数据集，以响应所选择的双耳渲染数据集在所述有序序列中的位置。5. 根据权利要求4所述的设备，其中所述选择器（703)被安排成选择所选择的双耳渲染数据集作为表明所述音频处理器（707)能够进行的渲染处理的所述有序序列中所选择的表示指示的双耳渲染数据集。6. 根据权利要求1所述的设备，其中所述表示指示包括利用所述双耳渲染数据集所表示的头部相关的滤波器类型的指示。7. 根据权利要求1所述的设备，其中所述多个双耳渲染数据集之中的至少一些包括利用从以下的组中选择的表示所描述的至少一个头部相关的双耳传递函数：时域脉冲响应表示；频域滤波器传递函数表示；参数表示；和子带域滤波器表示。8. 根据权利要求1所述的设备，其中用于所述双耳渲染数据集的至少一些表示对应于不同的双耳音频处理算法，并且所选择的双耳渲染数据集的选择取决于所述音频处理器 (707)所使用的双耳处理算法。9. 根据权利要求1所述的设备，其中至少一些双耳渲染数据集包括混响数据，并且所述音频处理器（707)被安排成取决于所选择的双耳渲染数据集的混响数据来适配混响处理。10. 根据权利要求9所述的设备，其中所述音频处理器（707)被安排成执行双耳渲染处理，所述双耳渲染处理包括生成所处理的音频信号作为至少头部相关的双耳传递函数滤波信号与混响信号的组合，以及其中所述混响信号取决于所选择的双耳渲染数据集的数据。11. 根据权利要求9所述的设备，其中所述选择器（703)被安排成选择所选择的双耳渲染数据集，以响应如利用所述表示指示所表明的混响数据的表示的指示。12. -种用于生成比特流的设备，所述设备包括：双耳电路（601)，用于提供多个双耳渲染数据集，每一个双耳渲染数据集包括表示用于虚拟位置双耳渲染处理的参数的数据，表示电路（603)，用于为所述双耳渲染数据集之中的每一个提供表明用于所述双耳渲染数据集的表示的表示指示；以及输出电路（605 )，用于生成包括所述双耳渲染数据集和所述表示指示的比特流。13. 根据权利要求12所述的设备，其中所述输出电路（605)被安排成按照利用所述双耳渲染数据集的参数所表示的虚拟位置双耳渲染的特性的量度的顺序来排序所述表示指不O14. 一种处理音频的方法，所述方法包括：接收输入数据，所述输入数据包括多个双耳渲染数据集，每一个双耳渲染数据集包括表示用于虚拟位置双耳渲染处理的参数的数据，对于所述双耳渲染数据集之中的每一个，所述输入数据进一步包括表明用于所述双耳渲染数据集的表示的表示指示；选择所选择的双耳渲染数据集，以响应所述表示指示和所述设备的能力；以及处理音频信号，以响应所选择的双耳渲染数据集的数据。15. -种生成比特流的方法，所述方法包括：提供多个双耳渲染数据集，每一个双耳渲染数据集包括表示用于虚拟位置双耳渲染处理的参数的数据；对于所述双耳渲染数据集之中的每一个，提供表明用于所述双耳渲染数据集的表示的表示指示；生成包括所述双耳渲染数据集和所述表示指示的比特流。16. -种比特流，包括：多个双耳渲染数据集，每一个双耳渲染数据集包括表示至少一个双耳虚拟位置渲染处理的参数的数据；以及用于所述双耳渲染数据集之中的每一个的表示指示，用于双耳渲染数据集的所述表示指示表明所述双耳渲染数据集所使用的表示。
【专利摘要】发射设备包括提供多个双耳渲染数据集的双耳电路（601），每一个双耳渲染数据集包括表示用于虚拟位置双耳渲染的参数的数据。具体地，头部相关的双耳传递函数数据可以被包括在这些数据集中。表示电路（603）为每一个数据集提供表示指示。数据集的表示指示表明数据集所使用的表示。输出电路（605）生成包括这些数据集和这些表示指示的比特流。利用接收设备中的接收机（701）来接收比特流。选择器（703）基于这些表示指示和设备的能力来选择所选择的双耳渲染数据集，并且音频处理器（707）处理音频信号，以响应所选择的双耳渲染数据集的数据。
【IPC分类】H04S1/00, H04S7/00
【公开号】CN104904239
【申请号】CN201380070515
【发明人】J.G.H.科彭斯, A.W.J.奥门, E.G.P.舒伊杰斯
【申请人】皇家飞利浦有限公司
【公开日】2015年9月9日
【申请日】2013年12月10日
【公告号】EP2946571A1, US20150358754, WO2014111765A1

2012-2014专利技术

最新回复(0)