一种基于沃尔什-哈达码变换的音频实时比对方法
【技术领域】
[0001] 本发明属于数字音频处理技术领域,涉及一种对两音频信号进行比较的方法,具 体为一种基于沃尔什-哈达码变换的音频实时比对方法,该方法可应用于广播音频的实时 比对。
【背景技术】
[0002] 当前,音频广播已成为最为普及的大众宣传和娱乐媒体。广播电台的节目播出及 媒体资源管理等都涉及到音频比对方面的需求,即对两个音频进行比较,判断二者是否相 同或相似。例如在节目监播中,需要对实际发射播出的音频信号进行在线实时接收和查询, 涉及到将接听到的音频流与欲播出的原音频进行比对,从而判断整个开环播出通路是否正 常;又如在广告统计管理中,也需要对每日播出记录与原广告音频进行比对查找,统计各广 告实际播出的时间和次数,从而判断广告播出是否存在漏播、多播或错播等情况。
[0003] 音频比对一般包括音频提取特征和特征匹配两个环节。特征提取是用代表原始信 号的结构化数据来表达音频信号。常用的音频特征主要可以分为两大类:声学级特征和语 义级特征。声学特征是音频信号本身的特征(如时频域特征),是其它类型音频特征的基 础。常用的声学特征主要包括梅尔倒谱系数(MFCC)、基音频率、短时能量、过零率、LPC等 等;语义级特征则是对音频的概念级描述,它是在声学级特征的基础上,通过模型化处理, 抽取出来的更高级的感知特征,如音乐的旋律、音色和叙事感情等等。在提取特征之后,特 征匹配环节则是通过计算提取的两音频特征之间的距离来判断两音频是否相同或相似。该 过程相对简单,常用的特征距离有标准欧几里德距离、曼哈顿距离、汉明距离等等。
[0004] 传统的音频比对方法针对普通音频的比对,一般不太适用于广播音频,其原因主 要有如下两个方面:一方面,在比对容错性上,众多音频特征皆以准确描述音频为目标,追 求高的内容辨识度,故音频的细微变化,均能反应在特征上。这样,如果音频受到噪声干扰, 或经过一些常规音效处理,如均衡(EQ)调节,再将处理后的音频与原音频进行比较,传统 比对方法往往判定两音频不相似甚至完全不同,而噪声干扰、音效处理等在广播中是很常 见的。如在广播监测中,我们需要将播出原音频与接听到的音频进行比对,而接听到的音频 并非如原音频一般纯净,常常含有噪声;又如为了达到更好的播出主观收听效果,在广播发 射前,通常使用音频均衡器来对播出音频的频谱进行调节。这些处理,使得被处理音频相对 于原音频发生了较大的变化。在这种情况下,传统的比对方法往往不能适用,因为广播音频 比对需要判定播出的音频内容本身是否相同,而非听觉效果上是否一致,即某音频即使在 受到一定噪声干扰、频谱调节等处理后,算法仍应该判定该音频与其原音频是相似的(或 互为相似音频)。虽然文献中也出现了对音频变化不敏感的比对方法,如基于Philips音频 指纹的比对方法,但这些方法中,处理前后两音频间的距离与真正完全不同的两音频间的 距离相差不大,故判别上容易混淆,尤其是在强噪声干扰或音频处理的变化幅度较大时,会 出现判别错误;另一方面,在比对的计算效率上,现有方法的计算复杂度相对较高,比对所 需的时间相对较长,不利于实时处理。
【发明内容】
[0005] 本发明的目的在于针对【背景技术】存在的问题,采用新的音频提取特征和特征匹配 方法,提供一种适合广播音频的比对方法。
[0006] 本发明采用技术方案为:一种基于沃尔什-哈达码变换的音频实时比对方法,包 括以下步骤:
[0007]S1.特征提取:对待比对的两个音频,分别进行以下操作:
[0008]S11.预处理:将音频从原采样频率下采样到fs= 4000Hz,将下采样后的数据按固 定长度划分为各音频帧,相邻帧间有重叠,其中帧长L取为2的整数次方,即L= 2m(m为整 数);将每一帧数据排列成一列矢量,并将矢量中各元素除以列矢量中元素绝对值的最大 值进行归一化,将归一化处理后的帧数据保存在数据矩阵A中;设总的音频帧数目为M,则A =[a^a2,a3, . . .,aM],其中A的每一列表示第i帧的数据;
[0009]S12.读取音频帧:取一帧音频ai;设定初始值为0的帧计数器,每取一音频帧,帧 计数器加1 ;
[0010] S13.沃尔什-哈达码(Walsh-Hadamard)变换:对音频帧数据进行加窗处理, 设Xi代表加窗后第i帧的帧数据,对xi进行沃尔什-哈达码变换,得到变换后的数据yi:
[0012] 其中,HL为相应的L阶变换矩阵;
[0013] S14.计算音频帧特征:设&代表第i帧的音频帧特征,其维数(或特征个数)设 定为Z,fik代表f i的第k个元素,对k = 1,2, 3,. . .,Z的每个k计算
[0015] 其中y/代表yi的第j个元素;b,(r= 0, 1,2,. . .,Z)为划分帧特征矢量&的第r 个分界点位置下标,其计算公式为
[0017] 其中L*」代表向下取整运算;
[0018]S15.若帧计数器的当前计数值小于M,则转至步骤S12;
[0019]S16.生成音频特征:将各音频帧的特征矢量排列成一矩阵F= [f\,f2,f3, . . .,fM],该矩阵即为当前音频信号的特征矩阵;
[0020] S2?特征匹配:
[0021] 设待比对的两个音频信号的特征矩阵分别为F和F,将两矩阵的对应列(帧)特 征矢量进行以下比较:
[0022] S21.设&和^分别表示第一个和第二个音频的第i帧特征矢量,计算参数yi
[0024]其中 < 代表f?和f二者中值较大者,#代表f?和7T二者中值较小者,M100 < 140)为设定某阈值,b〇〇l( ?)为二值函数,其定义为
[0026] S22?对i从1到M,计算第i帧的距离di:
[0028] 其中运算符< ?,? >为矢量的内积,| | ? | |2为矢量的2范数,即矢量各元素平方 和再开方;
[0029]S23.将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的 距离;
[0030]S3.相似度判定:将求得的待比对两个音频信号距离除以单位距离得到相对距离 比,若该距离比小于设定的阈值Td(0. 2 <Td< 0. 5),则判定两个音频信号相似,否则不相 似。
[0031] 本发明的有益效果:本发明提供一种音频实时比对方法,该方法具有较高的比对 容错性,在音频受到噪声干扰,或进行了音效处理的等情况下均能实现正确的比对;同时, 该方法算法简单、处理快速,能够广泛应用于广播电台的节目监播、广告监测和管理等。
【附图说明】:
[0032] 图1为EQ处理均衡器设置图。其中,(a)为流行风格均衡器设置、(b)为摇滚风格 均衡器设置、(c)为经典风格均衡器设置。
[0033] 图2为特征提取过程流程图。
[0034] 图3为音频比对流程图。
【具体实施方式】
[0035] 仿真实验共选择了 16个音频作为测试音频。其中前6个音频为未经处理的原广 播音频,均为单声道,48k采样率,包含广告、乐曲和歌曲各两个,其具体信息如表1描述;后 10个音频对歌曲1作均衡(EQ)、压缩、加噪等处理得到的音频,其音频具体信息如表2描 述,EQ处理的均衡器设置如图1所示。
[0036] 表1原测试音频信息
[0038] 表2歌曲1处理后的各音频信息
[0041] 本实施例以"歌曲1"与对其加入高斯白噪声(信噪比为_5db)处理后的"歌曲 1-SNR-5 "这对音频为例,对其进行比对,具体步骤如下:
[0042] S1.特征提取:对待比对的两个音频,分别进行如下操作:
[0043] S11.预处理:将音频从原采样频率下采样到fs= 4000Hz,将下采样后的数 据按256个采样点的长度等分为各音频帧,相邻帧间有半帧长度的重叠,总的音频帧 数目M为935 ;将每一帧数据排列成一列矢量,并将矢量中各元素除以列矢量中元素绝 对值的最大值进行归一化,将归一化处理后的帧数据保存在数据矩阵A中;设,则A= [a^a2,a3, ? ? ?,a935],其中A的每一列不第i帧的数据;
[0044] S12.读取音频帧:取一帧音频ai;设定初始值为0的帧计数器,每取一音频帧,帧 计数器加1 ;
[0045] S13.沃尔什-哈达码(Walsh-Hadamard)变换:对音频帧ai的数据进行加汉明窗 处理,设Xi代表加窗后第i帧的帧数据,对X1进行哈达码变换,得到变换后的数据yi:
[0047] 其中,H256为256阶哈达码矩阵,可由如下的递推关系得到:最低阶(2阶)的哈达 玛矩阵为
[0049]由此可得到其他阶次为2的整次幂的高阶哈达玛矩阵
[0051] 式中,N= 2n,n为正整数。
[0052] S14.计算音频帧特征:设&代表第i帧的音频帧特征,其维数(或特征个数)设 定为Z = 10, fik代表f i的第k个元素,对k = 1,2, 3,. . .,10的每个k计算
[0054]其中y〖代表yi的第j个元素;bJr= 0, 1,2, ? ?
?,10)为划分帧特征矢量&的第r个分界点位置下标,其计算公式为
[0056] 其中L*」代表向下取整运算,得到bjr= 0, 1,2,...,10)的值分别为3, 5, 7,10, 15, 22, 31,44,63,90,128,因b,的计算与音频数据无关,可在特征提取之前进行以加快处理 速度;
[0057]S15.若帧计数器的当前计数值小于935,则转至步骤S12;
[0058]S16.生成音频特征:将各音频帧的特征矢量排列成一矩阵F= [f\,f2,f3, . . .,fM],该矩阵即为当前音频信号的特征矩阵;
[0059]S2?特征匹配:
[0060] 设待比对的两个音频信号的特征矩阵分别为F和F,将两矩阵的对应列(帧)特 征矢量进行如下比较:
[0061] S21.设fi和无分别表示第一个和第二个音频的第i帧特征矢量,计算参数h
[0063] 其中 < 代表f?和^二者中值较大者,V代表f?和二者中值较小者,阈值 为设定为120,bool(?)为二值函数,其定义为
[0064]
[0065] 以第100帧为例进行说明,当i= 100时,f1QQ= (182.45, 445. 22,480. 57,555. 50,504. 40,295. 46,212. 75, 132. 95, 129. 11, 3 3 6. 7 9 ) ;
202.28,105.56, 187.96,181.53, 590.05 );计算得到y1QQ=0;
[0066]S22?对i从1到935,计算第i帧的距离di:
[0068] 其中运算符< ?,? >为矢量的内积,| | ? | |2为矢量的2范数,即矢量各元素平方 和再开方;当i= 100时,得到第100帧的距离d1(l(l= 0 ;
[0069]S23.将待比对两个音频的所有帧的距离进行平均,得到平均值0.0002136,作为 两音频信号的距离;
[0070]S3.相似度判定:将求得的两个音频信号距离除以单位距离0. 117706,得到相对 距离比0. 001815,由于该距离比小于设定的阈值Td= 0. 2,故判定两个音频信号相似。
[0071] 下面分别从比对效果和比对速度两方面来进行性能评估,将本发明方法与传统基 于MFCC音频特征、基于Philips音频指纹的两种比对方法进行比较。基于MFCC音频特征 的比对方法是提取MFCC特征,然后用欧式距离来进行特征匹配,基于Philips音频指纹的 比对方法是提取Philips音频指纹特征,然后用汉明距离来进行特征匹配。
[0072] 1?比对效果
[0073] 1)不同音频间的比对
[0074] 在原始的测试音频中,将歌曲1与其他5个音频进行比对,其得到的距离结果如表 3所示。在本发明方法、MFCC方法和Philips方法的结果中,都以歌曲1与乐曲1的比对距 离作为单位距离进行计算。
[0075] 表3歌曲1与其他不同音频之间的比对距离
[0077] 可以看到,在不同音频间进行比对时,三种方法差别不大,距离均在1左右。本发 明方法得到的距离值都大于设定的阈值Td= 0. 2,故正确判定测试音频对的音频均互不相 似。
[0078] 2)相似音频间的比对
[0079] 将歌曲1分别与其经过EQ、压缩和加噪处理后的各音频进行比对,得到的距离结 果如表4所示。
[0080] 表4歌曲1与其相似音频之间的比对距离
[0082]-可以看到,在相似音频间进行比对时,即使在音频经过一定处理后,本发明方法得 到的距离值都远小于设定的阈值Td= 0. 2,因而正确判定测试音频对的音频均互为相似音 频;另外,对比表3的结果我们看到,本发明方法得到的相似音频间的距离都远小于不同音 频间的距尚,这意味着本发明方法对相似音频具有很尚的音频识别性能。相对而目,MFCC 和Philips方法得到的距离更接近于1,即不容易区分相似音频和不同音频。特别地,在对 歌曲1与歌曲1-转32MP3音频的比对中,由于压缩失真较大,MFCC方法的距离已经超过1, Philips方法的距离也超过0. 1,而本发明方法距离几乎为0 ;同样,在被强噪声污染的情况 下,如当SNR= 0 (噪声强度等于信号强度)或SNR= -5 (噪声强度超过信号强度)时,MFCC 方法和Philips两方法都基本失效,而本发明方法仍然能比对正确。
[0083] 2?比对速度
[0084] 下面对本发明方案的运行速度进行评估。测试的程序均是由MATLAB编写,测试机 器为Intel(R)i3处理器,主频为2. 53GHz,内存为4GB。测试结果如表5所示。
[0085] 表5音频比对时间(单位:秒)
[0086]
[0087] 可以看到,本发明方法的比对速度明显快于MFCC和Philips方法,耗时约为MFCC 的5. 91 %,约为Philips的40. 63%。对30秒时长的音频数据,本发明方法用1. 28秒完成 比对,其处理的实时速度比(音频总时间/处理时间)达23. 44倍,因而程序能够对不断输 入的音频流实时地进行比对;另外本次测试仿真程序采用MATLAB编写,如将程序改用C语 言编写,其处理速度还能进一步提高。综上所述,本发明方法完全能够满足实时应用的需 求。
【主权项】
1. 一种基于沃尔什-哈达码变换的音频实时比对方法,包括以下步骤:51. 特征提取:对待比对的两个音频,分别进行以下操作: SlL预处理:将音频从原采样频率下采样到fs= 4000Hz,将下采样后的数据按固定长 度划分为各音频帧,相邻帧间有重叠,其中帧长L取为2的整数次方,即L = 2m、m为整数; 将每一帧数据排列成一列矢量,并将矢量中各元素除以列矢量中元素绝对值的最大值进 行归一化,将归一化处理后的帧数据保存在数据矩阵A中;设总的音频帧数目为M,则A = Iia1, a2, a3, · · ·,aM],其中A的每一列不第i帧的数据;512. 读取音频帧:取一帧音频ai;设定初始值为0的帧计数器,每取一音频帧,帧计数 器加1 ;513. 沃尔什-哈达码变换:对音频帧%的数据进行加窗处理,设X i代表加窗后第i帧 的帧数据,对Xi进行沃尔什-哈达码变换,得到变换后的数据y i:其中,扎为相应的L阶变换矩阵;514. 计算音频帧特征:设&代表第i帧的音频帧特征,其维数设定为Z,f产代表f ^勺 第k个元素,对k = 1,2, 3,…,Z的每个k计算其中y丨代表的第j个元素 ;b = 0, 1,2,…,Z为划分帧特征矢量&的第r个分界 点位置下标,其计算公式为其中L·」代表向下取整运算;515. 若帧计数器的当前计数值小于M,则转至步骤S12 ;516. 生成音频特征:将各音频帧的特征矢量&排列成一矩阵F = [f i,f2, f3,. . .,fM], 该矩阵即为当前音频信号的特征矩阵;52. 特征匹配: 设待比对的两个音频信号的特征矩阵分别为F和F,将两矩阵的对应列特征矢量进行 以下比较: S21.设4和1;分别表示第一个和第二个音频的第i帧特征矢量,计算参数yi:其中af代表彳和p二者中值较大者,#代表^和f二者中值较小者,Τμ*设定阈 值,bool (·)为二值函数,其定义为522. 对i从1到M,计算第i帧的距离di:其中运算符<·,*>为矢量的内积,I I · I |2为矢量的2范数,即矢量各元素平方和再 开方;523. 将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的距 离; S3.相似度判定:将求得的待比对两个音频信号距离除以单位距离得到相对距离比, 若该距离比小于设定的阈值Td,则判定两个音频信号相似,否则不相似。2. 按权利要求1所述基于沃尔什-哈达码变换的音频实时比对方法,其特征在于,所述 阈值Τμ取值范围为:100彡T 140。3. 按权利要求1所述基于沃尔什-哈达码变换的音频实时比对方法,其特征在于,所述 阈值Td取值范围为:0. 2彡T d彡0. 5。
【专利摘要】本发明属于数字音频处理技术领域,具体为一种基于沃尔什-哈达码变换的音频实时比对方法,包括步骤S1特征提取:对待比对的两个音频,分别进行预处理、读取音频帧、沃尔什-哈达码变换、计算音频帧特征、生成音频特征:将各音频帧的特征矢量fi排列成一矩阵F=[f1,f2,f3,...,fM];步骤S2特征匹配:设待比对的两个音频信号的特征矩阵F和的对应列特征矢量进行比较,将待比对两个音频的所有帧的距离进行平均,将该平均值作为两音频信号的距离;步骤S3相似度判定。本发明具有较高的比对容错性,在音频受到噪声干扰,或进行了音效处理的等情况下均能实现正确的比对;同时,该方法算法简单、处理快速,能够广泛应用于广播电台的节目监播、广告监测和管理等。
【IPC分类】G10L25/51
【公开号】CN104900239
【申请号】CN201510244437
【发明人】甘涛, 何艳敏, 黄晓革, 兰刚, 周南
【申请人】电子科技大学, 北京英夫美迪数字技术有限公司
【公开日】2015年9月9日
【申请日】2015年5月14日