音频信号处理的制作方法
【技术领域】
[0001]本发明总体上涉及音频信号处理,更具体地,涉及用于音频信号处理的混合式推荐的方法和装置。
【背景技术】
[0002]当流式播放在线音频和/或在本地设备上回放音频时,通常需要应用某些后处理或者声效。例如,应用于音频信号的音频处理可以包括但不限于:噪声降低和补偿,均衡,音量调节、双声道虚拟化、环境提取、同步,等等。
[0003]传统的音频处理向音频信号应用一组预定义参数。将会理解,预定义的参数只能够提供有限的生效,可能无法满足个体用户的需求。而且,某些预定义参数被硬编码到设备中,因此无法适配于所处理的音频信号和/或其他动态因素。为了解决这一问题,某些已知的解决方案支持在回放设备上的实时分析和处理,例如音量调节等。然而,本地回放设备、特别是那些便携式用户终端的处理能力和/或资源(诸如存储器)通常有限,这限制了复杂处理和算法的使用。而且,为了满足实时在线处理的低延迟要求,对音频信号处理的精度和质量不得不做出折中。
[0004]已经提出了某些方案支持动态地适配音频处理算法的配置,例如,根据所处理的音频内容来适配。作为示例,可以使用分类算法将音频内容划分为不同的内容类别,诸如语音、音乐、电影,等等。继而,可以根据所处理音频的内容类别来控制音频处理,从而选择最为适当的参数值。然而,在这种已知方案中,仅仅使用了被处理的音频内容来配置音频处理算法,没有考虑关于设备、环境或者目标用户的行为等信息,而没有考虑到其他相关用户的特性。因此,所推荐的参数配置往往不是最优的。
[0005]有鉴于此,本领域中需要一种支持对音频信号处理的配置进行更加准确和自适应的配置的技术方案。
【发明内容】
[0006]为了解决上述问题,本发明提出一种用于音频信号处理的方法和装置。
[0007]在一个方面,本发明的实施例提供一种用于音频信号处理的方法。所述方法包括:获取与目标用户对音频信号的使用相关联的第一组元数据;获取与一组参考用户相关联的第二组元数据;以及至少部分地基于所述第一组元数据和所述第二组元数据,针对所述目标用户而生成至少一个参数的推荐配置,所述至少一个参数将被用于所述音频信号的所述使用。这方面的实施例还包括对应的计算机程序产品。
[0008]在另一方面,本发明的实施例提供一种用于音频信号处理的装置。所述装置包括:第一元数据获取单元,被配置为获取与目标用户对音频信号的使用相关联的第一组元数据;第二元数据获取单元,被配置为获取与一组参考用户相关联的第二组元数据;以及配置推荐单元,被配置为至少部分地基于所述第一组元数据和所述第二组元数据,针对所述目标用户而生成至少一个参数的推荐配置,所述至少一个参数将被用于所述音频信号的所述使用。
[0009]通过下文描述将会理解,根据本发明的实施例,基于内容的推荐和基于用户数据的推荐被整合在一起,以生成用于处理音频信号的一个或多个参数的推荐配置。通过将其他用户的行为纳入考虑,配置推荐可以更快地收敛至用户期望。同时,通过使用关于音频内容、设备、环境和/或用户偏好的信息,即使在缺乏足够用户数据的情况下也可以做出比较准确和可靠的推荐。
【附图说明】
[0010]通过参考附图阅读下文的详细描述,本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例而非限制性的方式示出了本发明的若干实施例,其中:
[0011]图1示出了本发明的示例实施例可实现于其中的系统的框图;
[0012]图2示出了根据本发明的示例实施例的用于音频信号处理的方法的流程图;
[0013]图3示出了根据本发明的示例实施例的用于获取与参考用户相关联的元数据的方法的流程图;
[0014]图4示出了根据本发明的示例实施例的用于生成推荐参数配置的方法的流程图;
[0015]图5示出了根据本发明的示例实施例的用于音频信号处理的装置的框图;以及
[0016]图6示出了适于实现本发明的示例实施例的计算机系统的框图。
[0017]在各个附图中,相同或对应的标号表不相同或对应的部分。
【具体实施方式】
[0018]下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解,描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
[0019]本发明的核心创造性思想在于提出一种用于音频信号处理的配置的混合式推荐。更具体地,根据本发明的示例实施例,目标用户的特性可以与一个或多个其他用户的特性自适应地整合。通过将其他用户的信息纳入考虑,配置推荐可以更加有效地收敛到用户的期望。同时,通过使用关于音频内容、设备、环境和/或用户偏好的信息,即使在缺乏用户数据的情况下也能够做出比较准确和可靠的推荐。
[0020]现在参考图1,其示出了本发明的示例实施例可以实现于其中的系统100。如图所示,系统100包括服务器101。根据本发明的示例实施例,服务器101可以由任何适当的机器实现,并且可以配备有足够的资源,例如信号处理能力和存储。在系统100基于云架构实现的那些实施例中,服务器101可以是云服务器。
[0021]系统100还可以包括媒体捕获设备102和媒体使用设备103,二者都连接至服务器101。在某些示例实施例中,媒体捕获设备102和/或媒体使用设备103可以由便携式设备实现,诸如移动电话、个人数字助理(PDA)、膝上型计算机、平板式计算机,等等。备选地,媒体捕获设备102和/或媒体使用设备103可以由固定式机器实现,诸如工作站、个人计算机(PC)或者其他任何适当的计算设备。
[0022]根据本发明的示例实施例,信息在系统100内可以借助于通信网络来传送,例如设备(RF)通信网络,局域网(LAN)、广域网(WAN)或因特网等计算机网络,近场通信网络,或者其组合。而且,服务器101与设备102和103之间的连接可以是有线的,也可以是无线的。本发明的范围在此方面不受限制。
[0023]根据本发明的示例实施例,媒体捕获设备102可配置为捕获诸如音频和视频之类的媒体内容。所捕获的媒体内容可以从媒体捕获设备102被上传到服务器101。媒体使用设备103可配置为以本地方式或者通过实时流式播放而使用来自服务器101的媒体内容。在此使用的术语“使用”是指对音频信号的任何使用,诸如回放。
[0024]根据本发明的示例实施例,除了音频信号以及可能的其他媒体内容之外,媒体捕获设备102还可以配置为获取和向服务器101上传与音频信号的捕获相关联的元数据(称为“捕获元数据”)。捕获元数据可以利用各种适当的技术来获取,诸如各种传感器。捕获元数据可以周期性地获取,连续地获取,或者响应于用户命令而被获取。备选地或附加地,某些或者全部元数据可以由媒体捕获设备102的用户输入。用户可以借助于诸如鼠标的指点设备、键盘或者小键盘、轨迹球、触笔、手指、语音、手势或者任何其他交互工具向媒体捕获设备102输入信息。作为示例,在捕获一段音频内容之后,用户可以提供一个或多个标签,指示关于所捕获音频内容的信息。
[0025]在某些示例实施例中,捕获元数据可以包括内容元数据,其描述所捕获的音频信号的内容。例如,内容元数据可以包括音频信号的长度、类别、声学特征、波形和/或任何其他频域特征或时域特征的有关信息。
[0026]备选地或附加地,捕获元数据可以包括设备元数据,其描述媒体捕获设备102的一个或多个属性。例如,这种设备元数据可以描述媒体捕获设备102的类型、资源、设置、功能配置和/或可能在媒体捕获过程中影响用户体验的任何其他方面。
[0027]备选地或附加地,捕获元数据可以包括环境元数据,其描述媒体捕获设备102所在的环境。例如,环境元数据可以包括环境的噪声或者视觉简档,媒体内容被捕获的地理位置,和/或时间信息,诸如媒体内容被捕获的时间。
[0028]备选地或附加地,捕获元数据可以包括用户元数据,其描述媒体捕获设备102的用户的特性。例如,用户元数据可以包括描述用户在捕获媒体内容时的行为的信息,诸如用户的移动、姿势,等等。用户元数据还可以包括关于用户的偏好设置、配置和/或内容类别的偏好息。
[0029]类似于媒体捕获设备102,根据本发明的示例实施例,媒体使用设备103也可配置为获取并向服务器101上传与音频信号在媒体使用设备103上的使用相关联的元数据(称为“使用元数据”)。如上文所述,使用元数据同样可以包括内容元数据、设备元数据、环境元数据和/或用户元数据。应当注意,上文关于捕获元数据描述的所有特征同样适用于使用元数据,在此不再赘述。
[0030]根据本发明的示例实施例,服务器101可以收集和分析来自媒体捕获设备102和媒体使用设备103中至少一个的元数据。在方面的示例实施例
将在下文讨论。
[0031]尽管某些实施例将参考图1中所示的系统100描述,但是应当注意,本发明的范围不限于此。例如,取代基于云的架构,本发明的示例实施例也可以在单机上实现。在这样的实施例中,媒体捕获设备102和媒体使用设备103可以彼此直接通信,并且服务器101可以省略。换言之,系统100可以在端对端的基础上实现。而且,单个物理设备可以充当媒体捕获设备102和媒体使用设备103 二者。
[0032]图2示出了根据本发明的示例实施例的生成用于处理音频信号的配置推荐的方法200的流程图。在某些示例实施例中,方法200可在上文参考图1讨论的服务器101处执行。备选地,在某些其他实施例中,方法200例如可以在媒体使用设备103处执行。
[0033]在方法200开始之后,在步骤S201,获取与音频信号的使用相关联的第一组元数据(即,使用元数据)。为讨论方便,使用音频信号的用户将称为“目标用户”。将会理解,在步骤S201处获取的第一组元数据包括例如从图1中的媒体使用设备103获得的“使用元数据”。
[0034]第一组元数据可以包括如上文所述的内容元数据、设备元数据、环境元数据和/或用户元数据。例如,第一组元数据可以包括关于以下一个或多个的信息:捕获的音频信号的长度、类别、大小和/或文件格式,音频类型(单声道,立体声或者多声道),环境类型(诸如办公室、火车、酒吧、餐厅、飞机、机场,等等),噪声谱,回放模式(耳机或者扬声器),耳机和/或扬声器的类型/响应/数目,目标用户的偏好和/或行为,目标设备的电池状态和/或网络带宽,等等。
[0035]在步骤S202,获取与一组参考用户相关联的第二组元数据。在此使用的术语“参考用户”是指已经在系统中注册并且可能与目标用户有关的用户。为了改善推荐的精度,在某些示例实施例中,该组参考用户可以基于用户之间的相似度来确定。在此方面,图3示出了根据本发明的某些示例实施例的用于获取与参考用户相关联的第二组元数据的方法300的流程图。将会理解,方法300是方法200的步骤S202的一种示例实现。
[0036]如图3所示,在步骤S301,基于目标用户与至少一个其他用户之间的相似度确定一组相似用户。在某些示例实施例中,例如,该组相似用户可以包含与目标用户最为相似的特定数目的用户。可用来测量用户间相似度的度量可以包括:用户的偏好、行为、设备、状态、环境、人口统计信息和/或其他任何方面。在某些示例实施例中,可以基于一个或多个这样的度量对用户进行聚类,使得所得的每个组中的用户彼此相似。备选地或附加地,目标用户与一个或多个其他用户之间的相似度可以使用诸如泊松相关、向量余弦等方法来计算。本领域技术人员将会理解,确定目标用户的相似用户可以被视为一个协作筛选(collaborative filtering,CF)过程,并且可以使用多种算法。本发明的范围在此方面不受限制。
[0037]特别地,在某些示例实施例中,可以导出一个可靠性测量以指示相似度的确定是否可靠以及有多可靠。例如,在用户相似度使用相关算法被确定的那些实施例中,相关系数的方差可以充当可靠性的测量。这种可靠性可与参数的候选配置相关联,参数的候选配置是根据所述第二组元数据生成的,这将在下文详述。
[0038]在步骤S302,可以从步骤S301确定的相似用户中选择一组参考用户,使得每个参考用户之前已经使用过与目标音频信号相似的至少一个音频信号。应当注意,在本发明的上下文中,类似的音频信号包括目标音频信号本身。换言之,在这样的实施例中,参考用户是与用户相似的、并且已经使用过目标音频信号或者其他类似音频信号的那些用户。
[0039]根据本发明的示例实施例,音频信号的相似度可以通过任何适当的方式来确定,不论是目前已知的还是将来开发的。例如,可以比较音频信号的时域波形来确定信号相似度。备选地或附加地,可以使用音频信号的一个或多个频域信号来确定信号相似度。而且,在某些示例实施例中,可以执行基于内容的分析,以找到音频信号之间的相似度。在此方面,很多算法是已知的并且不会在此赘述。在某些其他实施例中,在确定相似的音频信号时,可以将标签或者用户任何其他用户生成的关于音频信号的信息纳入考虑。
[0040]方法300继而进行到步骤S303,在此基于参考用户所设置的一个或多个参数的配置,生成第二组元数据。例如,假设待设置的参数是噪声抑制进取性(aggressiveness),其可以是从O到I之间的一个值。可以检索获得参考用户所采用的噪声抑制进取性的值作为元数据。这样,第二组元数据描述了参考用户在使用类似的音频信号时是如何配置其各自设备的。
[0041]应当注意,方法300仅仅是步骤S202的一个示例实现。在某些备选实施例中,参考用户可以基于其他规则选择。特别地,如果目标用户是一个新用户或者没有登录的匿名用户,则例如可以选择某些或者是全部已经注册的用户作为参考用户。此时,描述这些参考用户先前设置的参数配置的信息可以充当第二组中的元数据。
[0042]返回参考图2,方法200进行到步骤S203以生成对一个或多个参数的推荐配置。根据本发明的示例实施例,推荐配置的生成至少部分地基于分别在步骤S201和S202获得第一组元数据和第二组元数据。图4示出了根据本发明的某些示例实施例的用于生成推荐参数配置的方法400的流程图。将会理解,方法400是方法200的步骤S203的一种示例实现。
[0043]如图4所示,在步骤S401,使用与目标用户相关联的第一组元数据确定参数的第一候选配置。在某些示例实施例中,第一候选配置可以基于先验知识而生成。例如,在某些示例实施例中,用户、设备和/或环境的若干代表性简档(profile)及其对应的一个或多个参数的推荐配置可以存储在知识库中。该知识库例如可以被维护在图1中所示的服务器101处。在这样的实施例中,可以利用第一组元数据检索知识库,以找到匹配的简档。继而,对应的参数配置可以被用作第一候选配置。
[0044]备选地或附加地,在第一组元数据包括内容元数据的那些实施例中,可以执行基于内容的分析以生成第一候选配置。例如,可以分析指示一个或多个声学特征的内容元数据,以识别音频信号的类型。继而,可以检索针对所确定类型的优选参数配置(其可以事先定义和存储)以充当第一候选配置。具体的内容分析方法可以取决于任务。例如,可以使用基于AdaBoost的机器学习方法来识别内容类型,以便执行动态均衡化。作为又一示例,可以分析音频信号的质量,以确定能够应用什么样的信号处理操作来改善音频质量。例如,可以确定是否应当打开或者关闭特定的操作。
[0045]在某些示例实施例中,参数的第一候选配置可以与相应的可靠性相关联,其指示第一候选配置的可靠程度。在某些示例实施例中,例如,可靠性可以事先定义。备选地或附加地,可靠性可由内容分析过程提供。作为示例,机器学习方法通常将会生成针对特定预测的置信度得分,并且该预测的可靠性可以从其关于开发数据集的精度而导出。在另一示例实施例中,可以应用基于知识的听觉场景分析,以检测音频事件从而例如改善音量调节。该过程将会产生多个相关系数。这些相关系数的平均值和方差可以分别提供针对特定音频事件的置信度得分和可靠性测量。
[0046]在步骤S402,使用第二组元数据导出所述参数的第二候选配置。一般而言,第二候选配置基于一个或多个参考用户(例如,与目标用户相似的用户)先前设置的参数配置。在某些示例实施例中,从第二组元数据导出的第二候选配置也可以具有相关联的可靠性。如上所述,在参考用户从一组相似用户中被选择的那些实施例中,用于找到相似用户的CF过程可以产生表明CF结果是否可靠的指示。可以将该指示与第二候选配置相关联以作为可靠性。作为示例,在采用基于相关的CF过程的那些实施例中,相关系数的方差可被用以指示第二候选配置的可靠性。
[0047]方法400继而进行到步骤S403,在此基于第一候选配置和第二候选配置中的至少一个,生成至少一个参数的推荐配置。为此,第一候选配置和第二候选配置可以通过各种方式被选择和/或组合。
[0048]在某些示例实施例中,可以选择第一候选配置和第二候选配置之一作为推荐配置。例如,在第一候选配置和第二候选配置与各自的可靠性测量相关联的那些实施例中,可以选择具有较高可靠性的候选配置作为参数的推荐配置,而可靠性较低的候选配置被丢弃。
[0049]备选地或附加地,可以通过以适当的方式结合第一候选配置和第二候选配置来生成推荐配置。例如,在某些示例实施例中,可以对第一候选配置和第二候选配置中的参数值进行平均,从而基于参数的平均值来形成推荐配置。特别地,在第一候选配置和第二候选配置分别与第一可靠性和第二可靠性相关联的那些实施例中,第一候选配置和第二候选配置中的参数值可以被加权平均,可靠性值被用作加权因子。
[0050]应当注意,在某些示例实施例中,第一候选配置和第二候选配置的选
择与结合可以被整合。例如,对于给定的参数,其在第一和第二候选配置中的平均值可被用作它在最终推荐配置中的值。而对于另一参数而言,可以根据可靠性较高的候选配置来确定它的值。
[0051]基于第一组元数据和第二组元数据二者来生成参数的推荐配置将是有益的。通过利用与音频信号的使用相关联的使用元数据,配置可以适应于设备、环境、用户偏好和/或音频内容的具体情况,即使在缺乏足够用户数据(例如,当目标用户是系统中的新用户或匿名用户时)也是如此。同时,通过考虑其他用户的行为/偏好,可以在使用元数据不足的情况下做出比较准确的推荐。而且,通过使用与一个或多个其他用户相关联的元数据,可以提供偶然性推荐,使得其他参考用户所选择的音频处理或者音效可被推荐,即使这样的选项可能并不匹配目标用户的简档或者未被目标用户选择。
[0052]应当注意,上文描述的实施例仅仅是为了说明目的。可以在本发明的范围内做出各种变形。例如,在上文参考图2描述的实施例中,第一组元数据的获取被示为先于第二组元数据元数据。应当注意,第一组和第二组元数据的获取序不受限制。相反,不同的元数据可以按照任意顺序获取或者并行获取。同样,参数的第一和第二候选配置可以按照任意顺序生成或者并行生成。
[0053]而且,在上文描述的实施例中,第一和第二候选配置分别是直接基于第一组和第二组元数据而生成的。在某些备选实施例中,可以提供参数的初始配置,使得一个或多个候选配置是基于该初始配置而获得的。例如,可以利用相应的元数据来调整初始配置,以生成单数的一个或多个候选配置。
[0054]在某些实施例中,捕获元数据(例如由图1中所述的媒体捕获设备102获取)可被用来生成参数的初始配置。将会理解,捕获元数据有可能对音频信号的使用产生影响。例如,媒体捕获设备的麦克风频率响应可能与诸如均衡化之类的后续音频处理密切相关。作为另一示例,媒体捕获设备所获取的位置信息同样能够为音频处理提供有用的上下文。例如,如果音频信号是在火车站附近捕获的,则有益的是以较高的置信度在噪声抑制模块/过程中应用火车噪声模型。因此,利用捕获元数据(可称为“第三组元数据”)来建立一个或多个处理参数的初始配置将是有益的。以此方式,能够进一步改善对音频的后处理或音效的质量。可以向捕获元数据应用各种处理和分析以生成参数的初始配置,这与使用元数据相类似,在此不再赘述。
[0055]根据本发明的示例实施例,推荐的配置将被应用于相应的一个或多个参数以处理信号以用于使用。在某些示例实施例中,推荐配置可被直接应用,例如在服务器101处被应用,以便对音频信号进行处理。继而,处理后的音频信号可被流式传输或以任何其他方式被传输给媒体使用设备103。以此方式,可以显著降低用户端的处理负担。备选地,推荐配置可被传输给媒体使用设备103,从而在用户端例如响应于用户命令而应用该推荐配置。
[0056]应当注意,本发明的示例实施例适用于对音频信号的各种后处理,包括但不限于噪声抑制、噪声补偿、音量调节、动态均衡及其任意组合。仅出于说明目的,将描述噪声抑制的示例。假设第一用户使用已知的移动设备捕获了一段音频,并且将该段音频上传到云端。上传的与音频信号捕获相关联的元数据包括:
[0057]?麦克风信息,诸如麦克风的类型、频率响应和数目,麦克风距离,以及麦克风在设备上的位置。此类信息在噪声消除和抑制算法中常被使用。
[0058]?录音位置;以及
[0059]?用户提供的标签,诸如“火车”、“演讲”,等等。
[0060]可以应用内容分析以识别所捕获音频信号的内容类型。该内容分析过程的输入可以包括从音频内容导出的一个或多个声学特征。而且,输入可以包括诸如录音位置、用户提供的标签等特征。在此示例中,内容分析的结果是:语音内容置信度得分为0.5,并且可靠性测量为0.2。由于置信度得分显示该音频信号可能是以语音为主的信号,因此将应用噪声抑制。由此,可以生成如下的参数初始配置:
[0061]?抑制进取性:0.5;
[0062]?噪声类型:车辆噪声(可以是车辆噪声、嘈杂噪声、路噪,等等);
[0063]?噪声平稳性:0.5 (可为[O, I]之间的连续值);以及
[0064]?语音内容置信度:0.5(可为[0,1]之间的连续值)。
[0065]当第二用户例如试图从云端流失播放该段音频时,可以收集与该目标用户相关联的使用元数据,在此例中例如包括:
[0066]?目标用户的偏好;以及
[0067]?设备信息,包括计算能力、电池状态、网速以及回放模式(耳机或扬声器)。
[0068]基于使用元数据,可以如下调整初始配置以生成这些参数的第一候选配置:
[0069]?抑制选取性:0.95 ;
[0070]?噪声类型:车辆噪声;
[0071]?噪声平稳性:0.5 ;以及
[0072]?语音内容置信度:0.5。
[0073]假设该段音频已由与目标用户具有相似的人口统计学简档和偏好的100个其他用户使用。这些用户所选择的平均抑制进取性为0.7。或者备选地,这些用户中的多数人选择将噪声抑制进取性下降到0.7。由此,在第二候选配置中,抑制进取性的建议值将被调整为0.7。在结合第一与第二候选配置时,考虑到与第一候选配置相关联的可靠性不是很高(0.2)这一事实,第二候选配置将具有优先性。因此,得到的参数推荐配置如下:
[0074]?抑制进取性:0.7 ;
[0075]?噪声类型:车辆噪声;
[0076]籲噪声平稳性:0.5 ;以及
[0077]?语音内容置信度:0.5。
[0078]随后,当作为匿名用户的第三用户请求使用该段音频时,无法找到相似的用户。在这种情况下,参考用户将是所有先前使用过该段音频或者类似音频的已注册用户。此时,与第二候选配置相关联的可靠性将是0.5。假设针对第三用户的第二候选配置中的噪声抑制进取性的值为0.8。由于与第二候选配置相关联的值仍然高于第二候选配置(0.2),因此所得的参数推荐配置为:
[0079]?抑制进取性:0.8 ;
[0080]?噪声类型:车辆噪声;
[0081]籲噪声平稳性:0.5 ;以及
[0082]?语音内容置信度:0.5。
[0083]示例实施例同样适用于噪声补偿。假设一段捕获的音频内容已被上传至服务器。当目标用户请求该段音频时,关于以下一项或多项的使用元数据可被获取:
[0084]?环境类型(办公室、火车、酒吧、餐厅、飞机、机场,等等);
[0085]?噪声谱;
[0086]?麦克风信息;
[0087].回放模式(耳机或扬声器);
[0088]?耳机/扬声器类型/响应;以及
[0089]?音频类型(单声道、立体声或多声道)。
[0090]基于上述使用元数据,例如可以通过调整一个初始配置来生成如下第一候选配置:
[0091]?噪声补偿:开启;
[0092]?补偿水平偏移:0dB默认;
[0093]?多声道电影对话增强器:开启;
[0094]籲电影对话增强水平偏移:0dB偏移;
[0095]?语音置信度得分:0.8 ([0,I]范围内的连续值);以及
[0096]?语音与非语音比率:8dB。
[0097]与第一候选配置相关联的可靠性假设为0.8。
[0098]假设该音频内容以由其他10个与目标用户具有相似的环境噪声简档、耳机类型以及偏好的用户使用。例如可以生成如下的第二候选配置:
[0099]?噪声补偿:开启;
[0100]籲补偿水平偏移:+5dB ;
[0101]?多声道电影对话增强器:开启;
[0102]?电影对话增强水平偏移:+2dB偏移;
[0103]籲语音置信度得分:0.8 ;以及
[0104]?语音与非语音比率:5dB。
[0105]与第二候选配置相关联的可靠性为0.2,因为只有10个参考用户的数据是可用的。因此,第一候选配置可以占先并且被选择作为最终的参数推荐配置。
[0106]作为又一示例,根据本发明实施例的混合式推荐可以应用于音量调节。例如,当用户请求使用一段音频时,可以基于使用元数据而生成形式上为一组增益的第一候选配置,使用元数据提供设备信息(参考重现水平)、内容信息(置信度得分)以及算法参数(针对不同内容的目标重现水平和调节量),第一候选配置例如:
[0107]?音量调节:开启;
[0108]?便携式设备参考重现水平:75dB ;
[0109]?目标重现水平:_25dB ;
[0110]?语音置信度得分和针对语音的调节进取性:1 ;以及
[0111]
?噪声置信度和针对噪声的调节进取性:0。
[0112]与第一候选配置相关联的可靠性为0.1。假设目标用户是系统的新用户。由此,无法识别到相似的用户。如果该段音频总共被1000个用户使用过,这使得相应的可靠性为0.5,并且第二候选配置将具有优先性。在某些实施例中,第二候选配置可以基于这1000个参考用户所使用的平均增益来确定,例如如下:
[0113]?音量调节:开启;
[0114]?便携式设备参考重现水平:75dB ;
[0115]?目标重现水平:_22dB ;
[0116]?语音置信度得分和针对语音的调节进取性:0.9 ;以及
[0117]?噪声置信度和针对噪声的调节进取性:0.1。
[0118]类似地,对于动态均衡,例如也可以基于捕获元数据而生成一组有关参数增益的初始配置。继而,当目标用户请求使用音频时,可以基于使用元数据来调整初始配置,以生成第一候选配置,例如如下:
[0119]籲动态均衡(DEQ):开启;
[0120]?针对音乐的DEQ简档:简档I ;
[0121]?针对电影的DEQ简档:简档3 ;
[0122]?电影置信度得分以及针对电影的DEQ进取性:0.3 ;以及
[0123]?音乐置信度得分以及针对音乐的DEQ进取性:1.0。
[0124]与第一候选配置相关联的可靠性为0.5。假设该段音频已被100个与目标用户具有相似人口统计信息和偏好的其他用户所使用。可以基于这100个参考用户的配置来生成第二候选配置。作为示例,第二候选配置可以如下:
[0125]?动态均衡(DEQ):开启;
[0126]?针对音乐的DEQ简档:简档I ;
[0127]?针对电影的DEQ简档:简档3 ;
[0128]?电影置信度得分以及针对电影的DEQ进取性:0.1 ;以及
[0129]?音乐置信度得分以及针对音乐的DEQ进取性:0.9。
[0130]假设与第二候选配置相关联的可靠性也为0.5。在这种情况下,可以结合第一和第二候选配置。例如,可以对增益值进行平均以获得最终的推荐配置:
[0131]籲动态均衡(DEQ):开启;
[0132]?针对音乐的DEQ简档:简档I ;
[0133].针对电影的DEQ简档:简档3 ;
[0134]?电影置信度得分以及针对电影的DEQ进取性:0.2 ;以及
[0135]?音乐置信度得分以及针对音乐的DEQ进取性:0.95。
[0136]图5示出了根据本发明的示例实施例的用于音频信号处理的装置500的框图。如图所示,装置500包括:第一元数据获取单元501,被配置为获取与目标用户对音频信号的使用相关联的第一组元数据;第二元数据获取单元502,被配置为获取与一组参考用户相关联的第二组元数据;以及配置推荐单元503,被配置为至少部分地基于所述第一组元数据和所述第二组元数据,针对所述目标用户而生成至少一个参数的推荐配置,所述至少一个参数将被用于所述音频信号的所述使用。
[0137]在某些示例实施例中,所述第一组元数据包括以下至少一个:描述所述音频信号的内容元数据;描述目标用户所使用设备的设备元数据;描述所述目标用户所在环境的环境元数据;以及描述所述目标用户的偏好或者行为的用户元数据。
[0138]在某些示例实施例中,装置500还可以包括:相似用户确定单元,被配置为基于所述目标用户与至少一个其他用户之间的相似度来确定一组相似用户;以及参考用户确定单元,被配置为从所述一组相似用户中选择所述一组参考用户,使得每个所述参考用户已经使用过与所述音频信号相似的至少一个音频信号。在这些示例实施例中,所述第二元数据获取单元502可被配置为基于由所述参考用户设置的所述至少一个参数的配置来获取所述第二组元数据。
[0139]在某些示例实施例中,装置500还可以包括:第一候选配置生成单元,被配置为至少部分地基于所述第一组元数据,生成所述至少一个参数的第一候选配置;以及第二候选配置生成单元,被配置为至少部分地基于所述第二组元数据,生成所述至少一个参数的第二候选配置。在这些示例实施例中,所述配置推荐单元被配置为基于所述第一候选配置和所述第二候选配置中的至少一个来生成所述推荐配置。
[0140]在某些示例实施例中,所述至少一个参数的所述推荐配置基于以下至少一个而生成:对所述第一候选配置和所述第二候选配置的选择;以及对所述第一候选配置和所述第二候选配置的结合。在某些示例实施例中,所述第一候选配置与第一可靠性相关联,所述第二候选配置与第二可靠性相关联。在这些示例实施例中,所述结合是基于所述第一可靠性和所述第二可靠性对所述第一候选配置和所述第二候选配置的加权结合。
[0141]在某些示例实施例中,装置500还可以包括:第三元数据获取单元,被配置为获取与所述音频信号的捕获相关联的第三组元数据;以及初始配置生成单元,被配置为至少部分地基于所述第三组元数据,生成所述至少一个参数的初始配置。在这些示例实施例中,所述第一候选配置和所述第二候选配置中的至少一个基于所述至少一个参数的所述初始配置而生成。
[0142]在某些示例实施例中,装置500还可以包括:音频处理单元,被配置为通过应用所述至少一个参数的所述推荐配置来处理所述音频信号;以及音频传送单元,被配置为将经处理的所述音频信号传送给所述目标用户的设备。备选地或附加地,在某些示例实施例中,装置500可以包括推荐传送单元,被配置为将所述至少一个参数的所述推荐配置传送给所述目标用户的设备,使得所述推荐配置在所述设备处被应用。
[0143]为清晰起见,在图5中没有示出装置500的某些可选单元。然而应当理解,上文参考图1-图4所描述的特征均适用于装置500。而且,装置500中的各单元可以是硬件模块,也可以是软件模块。例如,在某些实施例中,装置500可以部分或者全部地利用软件和/或固件来实现,例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地,装置500可以部分或者全部地基于硬件来实现,例如被实现为集成电路(1C)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。
[0144]下面参考图6,其示出了适于用来实现本发明实施例的计算机系统600的示意性框图。如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM) 602中的程序或者从存储单元608加载到随机访问存储器(RAM) 603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有设备600操作所需的各种程序和数据。CPU601R0M602以及RAM603通过总线604彼此相连。输入/输出(I / O)接口 605也连接至总线604。
[0145]以下部件连接至I / O接口 605:包括键盘、鼠标等的输入单元606 ;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元607;包括硬盘等的存储单元608 ;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元609。通信单元609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I / O接口 605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储单元608。
[0146]特别地,根据本发明的实施例,上文参考图2-图4描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行方法200、300和/或400的程序代码。在这样的实施例中,该计算机程序可以通过通信单元609从网络上被下载和安装,和/或从可拆卸介质611被安装。
[0147]—般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
[0148]而且,流程图中的各框可以被看作是方法步骤,和/或计算机程序代码的操作生成的操作,和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如,本发明的实施例包括计算机程序产品,该计算机程序产品包括有形地实现在机器可读介质上的计算机程序,该计算机程序包含被配置为实现上文描述方法的程序代码。
[0149]在公开的上下文内,机器可读介质可以是
包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
[0150]用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器,使得程序代码在被计算机或其他可编程的数据处理装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
[0151]另外,尽管操作以特定顺序被描绘,但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成,或者执行所有图示的操作以获取期望结果。在某些情况下,多任务或并行处理会是有益的。同样地,尽管上述讨论包含了某些特定的实施细节,但这并不应解释为限制任何发明或权利要求的范围,而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
[0152]针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外,前述说明书和附图存在启发的益处,涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
[0153]将会理解,本法明的实施例不限于公开的特定实施例,并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语,但是它们仅在通用和描述的意义上使用,而并不用于限制目的。
【主权项】
1.一种用于音频信号处理的方法,所述方法包括: 获取与目标用户对音频信号的使用相关联的第一组元数据; 获取与一组参考用户相关联的第二组元数据;以及 至少部分地基于所述第一组元数据和所述第二组元数据,针对所述目标用户而生成至少一个参数的推荐配置,所述至少一个参数将被用于所述音频信号的所述使用。2.根据权利要求1所述的方法,其中所述第一组元数据包括以下至少一个: 描述所述音频信号的内容元数据; 描述所述目标用户的设备的设备元数据; 描述所述目标用户所在环境的环境元数据;以及 描述所述目标用户的偏好或者行为的用户元数据。3.根据权利要求1或2所述的方法,其中获取所述第二组元数据包括: 基于所述目标用户与至少一个其他用户之间的相似度来确定一组相以用户; 从所述一组相似用户中选择所述一组参考用户,使得每个所述参考用户已经使用过与所述音频信号相似的至少一个音频信号;以及 基于由所述参考用户设置的所述至少一个参数的配置来获取所述第二组元数据。4.根据权利要求1到3任一项所述的方法,其中生成所述至少一个参数的所述推荐配置包括: 至少部分地基于所述第一组元数据,生成所述至少一个参数的第一候选配置; 至少部分地基于所述第二组元数据,生成所述至少一个参数的第二候选配置;以及 基于所述第一候选配置和所述第二候选配置中的至少一个来生成所述推荐配置。5.根据权利要求4所述的方法,其中所述至少一个参数的所述推荐配置基于以下至少一个而生成: 对所述第一候选配置和所述第二候选配置的选择;以及 对所述第一候选配置和所述第二候选配置的结合。6.根据权利要求5所述的方法,其中所述第一候选配置与第一可靠性相关联并且所述第二候选配置与第二可靠性相关联,并且其中所述结合是基于所述第一可靠性和所述第二可靠性对所述第一候选配置和所述第二候选配置的加权结合。7.根据权利要求4到6任一项所述的方法,还包括: 获取与所述音频信号的捕获相关联的第三组元数据;以及 至少部分地基于所述第三组元数据,生成所述至少一个参数的初始配置, 其中所述第一候选配置和所述第二候选配置中的至少一个基于所述至少一个参数的所述初始配置而生成。8.根据权利要求1到7任一项所述的方法,还包括: 通过应用所述至少一个参数的所述推荐配置来处理所述音频信号;以及 将经处理的所述音频信号传送给所述目标用户的设备。9.根据权利要求1到7任一项所述的方法,还包括: 将所述至少一个参数的所述推荐配置传送给所述目标用户的设备,使得所述推荐配置在所述设备处被应用。10.一种用于音频信号处理的装置,所述装置包括: 第一元数据获取单元,被配置为获取与目标用户对音频信号的使用相关联的第一组元数据; 第二元数据获取单元,被配置为获取与一组参考用户相关联的第二组元数据;以及配置推荐单元,被配置为至少部分地基于所述第一组元数据和所述第二组元数据,针对所述目标用户而生成至少一个参数的推荐配置,所述至少一个参数将被用于所述音频信号的所述使用。11.根据权利要求10所述的装置,其中所述第一组元数据包括以下至少一个: 描述所述音频信号的内容元数据; 描述所述目标用户的设备的设备元数据; 描述所述目标用户所在环境的环境元数据;以及 描述所述目标用户的偏好或者行为的用户元数据。12.根据权利要求10或11所述的装置,还包括: 相似用户确定单元,被配置为基于所述目标用户与至少一个其他用户之间的相似度来确定一组相似用户;以及 参考用户确定单元,被配置为从所述一组相似用户中选择所述一组参考用户,使得每个所述参考用户已经使用过与所述音频信号相似的至少一个音频信号, 其中所述第二元数据获取单元被配置为基于由所述参考用户设置的所述至少一个参数的配置来获取所述第二组元数据。13.根据权利要求10到12任一项所述的装置,还包括: 第一候选配置生成单元,被配置为至少部分地基于所述第一组元数据,生成所述至少一个参数的第一候选配置;以及 第二候选配置生成单元,被配置为至少部分地基于所述第二组元数据,生成所述至少一个参数的第二候选配置, 其中所述配置推荐单元被配置为基于所述第一候选配置和所述第二候选配置中的至少一个来生成所述推荐配置。14.根据权利要求13所述的装置,其中所述至少一个参数的所述推荐配置基于以下至少一个而生成: 对所述第一候选配置和所述第二候选配置的选择;以及 对所述第一候选配置和所述第二候选配置的结合。15.根据权利要求14所述的装置,其中所述第一候选配置与第一可靠性相关联并且所述第二候选配置与第二可靠性相关联,并且其中所述结合是基于所述第一可靠性和所述第二可靠性对所述第一候选配置和所述第二候选配置的加权结合。16.根据权利要求13到15任一项所述的装置,还包括: 第三元数据获取单元,被配置为获取与所述音频信号的捕获相关联的第三组元数据;以及 初始配置生成单元,被配置为至少部分地基于所述第三组元数据,生成所述至少一个参数的初始配置, 其中所述第一候选配置和所述第二候选配置中的至少一个基于所述至少一个参数的所述初始配置而生成。17.根据权利要求10到16任一项所述的装置,还包括: 音频处理单元,被配置为通过应用所述至少一个参数的所述推荐配置来处理所述音频信号;以及 音频传送单元,被配置为将经处理的所述音频信号传送给所述目标用户的设备。18.根据权利要求10到17任一项所述的装置,还包括: 推荐传送单元,被配置为将所述至少一个参数的所述推荐配置传送给所述目标用户的设备,使得所述推荐配置在所述设备处被应用。19.一种用于音频信号处理的计算机程序产品,所述计算机程序产品被有形地包含在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使所述机器执行根据权利要求1到9任一项所述的方法的步骤。
【专利摘要】本发明的实施例涉及音频信号处理。提供一种用于音频信号处理的方法。该方法包括:获取与目标用户对音频信号的使用相关联的第一组元数据;获取与一组参考用户相关联的第二组元数据;以及至少部分地基于所述第一组元数据和所述第二组元数据,针对所述目标用户而生成至少一个参数的推荐配置,所述至少一个参数将被用于所述音频信号的所述使用。还公开了相应的装置和计算机程序产品。
【IPC分类】G10L21/00, G10L21/02
【公开号】CN104900236
【申请号】CN201410090572
【发明人】孙学京, 程斌, C·鲍尔, 芦烈, 马桂林
【申请人】杜比实验室特许公司
【公开日】2015年9月9日
【申请日】2014年3月4日
【公告号】US20150254054