一种音频数据与参考信号的时间对齐方法及装置的制造方法

xiaoxiao2020-10-23  14

一种音频数据与参考信号的时间对齐方法及装置的制造方法
【技术领域】
[0001] 本发明设及通信领域,特别设及一种音频数据与参考信号的时间对齐方法及装 置。
【背景技术】
[0002] 语音通话软件是一种能够拨打网络电话或网络音频会议的应用,目前越来越多地 被用户安装在移动终端中。同时,随着移动终端的物理尺寸往小型化方向发展,扬声器与麦 克风之间的声禪合问题变得更为突出,使得麦克风采集的声音中包含扬声器播放的声音, 让对方听到的声音中感觉有自己说话的回声,影响双方通话效果。
[0003] 为了避免影响双方的通话效果,需要消除麦克风采集的音频数据中包含的回声, 具体过程如下;移动终端接收一帖音频数据,将该帖音频数据作为参考信号缓存在参考队 列中,并通过扬声器播放该帖音频数据;移动终端获取麦克风采集的一帖音频数据,其中该 帖音频数据对应一参考信号,该帖音频数据包含的回声即为扬声器播放该一参考信号产生 的声音;然后移动终端从参考队列中获取与该帖音频数据相关性最大的参考信号,将找出 的参考信号作为该帖音频数据对应的参考信号,通过该参考信号消除该帖音频数据中的回 声,然后将消除回声的该帖音频数据发送给对方用户对应的移动终端。
[0004] 其中,需要说明的是;语音通话软件工作在操作系统之上,由应用处理器来对音频 数据中的回声进行消除;当应用处理器的负荷较大时就会丢弃一部分接收的音频数据不输 入到参考队列或丢弃一部分麦克风采集的音频数据不进行回声消除,如此就可能出现当麦 克风采集一帖音频数据后,参考队列中没有该帖音频数据对应的参考信号,即出现了差拍 现象;而移动终端从参考队列中找出的与该帖音频数据相关性最大的参考信号并非该帖音 频数据对应的参考信号,利用该参考信号将无法消除该帖音频数据中的回声。
[0005] 出现了差拍现象后,由于移动终端每接收到音频数据便将该音频数据作为参考 信号缓存在参考对列中,而参考队列中缓存时间最长的参考信号被移出参考队列,使得在 出现差拍后,参考队列中可能都没有麦克风每次采集的音频数据对应的参考信号,导致回 声会一直延续下去,降低回声消除的鲁椿性。

【发明内容】

[0006] 为了提高回声消除的鲁椿性,本发明提供了一种音频数据与参考信号的时间对齐 方法及装置。所述技术方案如下:
[0007] 一种音频数据与参考信号的时间对齐方法,所述方法包括:
[000引获取当前采集的音频数据W及从参考队列中获取所述音频数据对应的参考信 号;
[0009] 根据所述音频数据和所述参考信号之间的相关值,计算第一延时估计期望值;
[0010] 根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述 参考队列中的参考信号之间是否存在差拍现象,所述第二延时估计期望值是在当前之前最 近一次计算得到的延时估计期望值;
[0011] 如果存在,则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。
[0012] 一种音频数据与参考信号的时间对齐装置,所述装置包括:
[0013] 获取模块,用于获取当前采集的音频数据W及从参考队列中获取所述音频数据对 应的参考信号;
[0014] 计算模块,用于根据所述音频数据和所述参考信号之间的相关值,计算第一延时 估计期望值;
[0015] 检测模块,用于根据第二延时估计期望值和所述第一延时估计期望值检测所述音 频数据与所述参考队列中的参考信号之间是否存在差拍现象,所述第二延时估计期望值是 在当前之前最近一次计算得到的延时估计期望值;
[0016] 对齐模块,用于如果存在,则对齐所述音频数据与所述参考队列中的参考信号之 间的时间关系。
[0017] 在本发明实施例中,由于根据第二延时估计期望值和第一延时估计期望值能够检 测出该音频数据与参考队列中的参考信号之间是否存在差拍现象,从而在一出现差拍现象 便能被检测出,然后对齐该音频数据与参考队列中的参考信号之间的时间关系,W消除该 差拍现象,从而使得终端能够消除音频数据中的回声,提高了回声消除的鲁椿性。
【附图说明】
[0018] 图1-1是本发明实施例提供的一种网络架构示意图;
[0019] 图1-2是本发明实施例提供的一种终端结构示意图;
[0020] 图1-3是本发明实施例1提供的一种音频数据与参考信号的时间对齐方法流程 图;
[0021] 图2-1是本发明实施例2提供的一种音频数据与参考信号的时间对齐方法流程 图;
[0022] 图2-2是本发明实施例2提供的一种参考队列结构示意图;
[0023] 图3是本发明实施例3提供的一种音频数据与参考信号的时间对齐装置结构示意 图;
[0024] 图4是本发明实施例4提供的一种终端结构示意图。
【具体实施方式】
[0025] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0026] 参见图1-1,图1-1为本发明实施例应用的网络架构图,在该网络架构图中任意两 个终端接入通信网络,通过通信网络进行通话。通话过程大体如下:终端通过通信网络接收 与其通话的对端终端发送的音频数据,播放该音频数据。终端采集音频数据,通过通信网络 将采集的音频数据发送给对端终端,实现其与对端终端之间的通话。
[0027] 参见图1-2所示的终端结构,终端包括扬声器S、麦克风M和回声消除模块。其中, 终端接收对端终端发送的音频数据,对该音频数据进行解码,然后交由扬声器S对解码的 音频数据进行播放。麦克风M用于采集音频数据。麦克风M采集的音频数据中可能包括扬 声器s播放的播放声音,该播放声音即为回声。
[002引回声消除模块用于消除该音频数据中包含的回声。回声消除模块中包括参考队 列,每当终端解码出接收的音频数据时便将解码的音频数据作为参考信号,将该参考信号 从该参考队列的队头入队,缓存在该参考队列中,同时该参考队列位于队尾的参考信号出 队。回声消除模块实时获取麦克风M采集的音频数据,从参考队列中获取该音频数据对应 的参考信号,通过该参考信号消除该音频数据中的回声。然后终端对消除回声的音频数据 进行编码并发送给对端终端。
[0029] 其中,有时终端的负荷较大,终端可能丢失接收的音频数据或采集的音频数据,导 致采集的音频数据与参考队列中的参考信号之间产生差拍现象,使得回声消除模块无法消 除音频数据中的回声,降低了回声消除的鲁椿性。为了在差拍现象出现时,消除差拍现象, 提高回声消除的鲁椿性,可W通过如下任一实施例来对齐采集的音频数据与参考队列中的 参考信号之间的时间关系。
[0030] 实施例1
[0031] 参见图1-3,本发明实施例提供了一种音频数据与参考信号的时间对齐方法,包 括:
[0032] 步骤101 ;获取当前采集的音频数据W及从参考队列中获取该音频数据对应的参 考信号。
[0033] 步骤102 ;根据该音频数据和该参考信号之间的相关值,计算第一延时估计期望 值。
[0034] 步骤103 ;根据第二延时估计期望值和第一延时估计期望值检测该音频数据与参 考队列中的参考信号之间是否存在差拍现象,第二延时估计期望值是在当前之前最近一次 计算得到的延时估计期望值。
[003引步骤104 ;如果存在,则对齐该音频数据与参考队列中的参考信号之间的时间关 系。
[0036] 在本发明实施例中,由于根据第二延时估计期望值和第一延时估计期望值能够检 测出该音频数据与参考队列中的参考信号之间是否存在差拍现象,从而在一出现差拍现象 便能被检测出,然后对齐该音频数据与参考队列中的参考信号之间的时间关系,W消除该 差拍现象,从而使得终端能够消除音频数据中的回声,提高了回声消除的鲁椿性。
[0037] 实施例2
[003引参见图2-1,本发明实施例提供了一种音频数据与参考信号的时间对齐方法,包 括:
[0039] 步骤201 ;获取当前采集的音频数据d(n)W及从参考队列中获取该音频数据d(n) 对应的参考信号x(i)。
[0040] 参见图1-2,终端中包括麦克风和扬声器,该麦克风用于实时采集音频数据d(n), 扬声器用于播放终端接收的音频数据x(n)。麦克风采集的音频数据d(n)中包括用户的声 音、用户所在周围环境的声音,还可能包括扬声器播放的播放声音。
[0041] 相应的,获取当前采集的音频数据d(n),可W为:获取终端的麦克风当前采集的 音频数据d(n)。
[0042] 终端每接收到与其通话的对端终端发送的音频数据x(n)时,将该音频数据x(n) 作为参考信号,从回声消除模块中的参考队列的队头入队,即输入到参考队列中,同时参考 队列中位于队尾的参考信号出队。例如,参见 图2-2所示的参考队列,该参考队列的长度为 L终端接收到音频数据X(n),将音频数据X(n)作为参考信号并从该参考队列的队头入队, 缓存的该参考队列中。
[0043]相应的,从参考队列中获取该音频数据d(n)对应的参考信号x(i),可W为;分别 对该音频数据x(n)和参考队列中的每个参考信号x(j)进行傅立叶变化,得到各自对应的 频域信号D(n)和X(j),j的取值范围为从n-L至n;根据该音频数据d(n)对应的频域信 号D(n)和每个参考信号x(j)对应的频域信号X(j),按如下公式(1)分别计算该音频数据 d(n)与参考队列中的每个参考信号x(j)之间的相关值;从参考队列中选择与该音频数据 d(n)之间的相关值最大的参考信号x(i)作为该音频数据d(n)对应的参考信号。
[0044] F=I护(n) ?X(j)|2……(1);
[0045] 在上述公式(1)中,F为相关值,护(n)为频域信号D(n)的共辆。相关值用于表示 参考信号与音频数据中的回声之间的相似程度,相关值越大,表示参考信号与音频数据中 的回声之间的相似程度就越大。
[0046] 步骤202;根据该音频数据d(n)与该参考信号x(i)之间的相关值,计算第一延时 估计期望值T化)。
[0047] 具体地,本步骤可W通过如下(1)-(4)的步骤来实现,包括:
[0048] (1);将该音频数据d(n)与该参考信号x(i)之间的相关值确定为该音频数据 d(n)的延时估计。
[0049] (2);获取在第一时间段内麦克风采集的各音频数据的延时估计,第一时间段是在 当前之前且离当前最近的预设时间长度的时间段。
[0050] 在本发明实施例中,每当麦克风采集到音频数据时,便从上述步骤201开始执行, 所W在当前之前已得到麦克风采集的各音频数据的延时估计。
[005U(3);根据该音频数据d(n)的延时估计和第一时间段内麦克风采集的各音频数据 的延时估计,计算第一延时估计期望值T化)。
[0052]具体地,计算该音频数据d(n)的延时估计和第一时间段内麦克风采集的各音频 数据的延时估计的平均值,该平均值即为第一延时估计期望值T化)。
[0化3] 其中,参见图1-2,回声消除模块包括延时估计器1、差拍检测单元2和自适应滤波 器3。其中,延时估计器1用于执行上述步骤201和202,来计算第一延时估计期望值T化), 将检测到的第一延时估计期望值T(k)输入给差拍检测单元2。差拍检测单元2用于执行如 下步骤来检测出麦克风采集的音频数据与参考队列中的参考信号之间的是否存在差拍现 象。自适应滤波器3中包括参考队列,用于消除麦克风采集的音频数据中的回声。
[0化4]步骤203;根据第一延时估计期望值T化),确定该音频数据d(n)是否包括本端用 户声音,如果不包括,执行步骤204。
[0055] 具体地,本步骤可W通过如下(A)-做的步骤来实现,包括:
[0化6] (A);根据第一延时估计期望值T(k)和第二延时估计期望值T化-1),计算第一延 时估计一阶差分值Ti化),其中,第二延时估计期望值T化-1)是在当前之前最近一次计算得 到的延时估计期望值。
[0化7] 其中,第一延时估计一阶差分值Ti化)=T(k)-T化-1)。
[005引 做;获取在第一时间段内计算得到的第二延时估计一阶差分值,分别为Ti(k-l)、 Ti化-2)......。
[0化9] (C);根据第一延时估计一阶差分值Ti(k)和获取的第二延时估计一阶差分值 Ti化-1)、Ti化-2)......,计算延时估计稳定度指标T2化)。
[0060] 其中,延时估计稳定度指标
;N为第一延时估计一阶差 分值和获取的第二延时估计一阶差分值的数目。
[006U 值);如果该延时估计稳定度指标T2GO小于预设阔值,则确定音频数据d(n)包 括本端用户声音,否则,确定音频数据d(n)不包括本端用户声音。
[0062] 其中,音频数据d(n)中包括本端用户声音的情况,分为如下两种;第一、本端用户 在说话,对方用户未说话;第二、本端用户和对方用户相互同时在说话。本端用户为终端对 应的用户,本端用户声音为终端对应的用户发出的声音。对方用户即为对端终端对应的用 户。
[0063] 对于本端用户在说话,对方用户未说话的情况,由于对端终端对本端用户说话的 回声进行消除,使得对端终端不会发送音频数据给终端,终端的扬声器不会发出声音,即采 集的音频数据d(n)中不包括回声,根据音频数据d(n)并通过上述步骤计算得到的第一延 时估计期望值T(k)存在在很大的误差,不宜进行差拍检测。
[0064] 对于本端用户和对方用户相互同时在说话的情况,麦克风采集的音频数据d(n) 中包括本端用户声音和扬声器播放的播放声音,本端用户声音的大小在不断变化,时而超 过扬声器的播放声音,即覆盖了播放声音,时而未超过扬声器的播放声音,使得根据音频数 据d(n)并通过上述步骤计算得到的第一延时估计期望值T(k)也存在在很大的误差,不宜 进行差拍检测。
[00化]进一步地,由于回声消除模块是一直不断地对麦克风采集的音频数据进行回声消 除,所W当确定出音频数据d(n)包括本调用户声音时,仍继续从参考队列的队头入队接收 的参考信号,W及继续向回声消除模块输入麦克风采集的音频数据,并根据第二延时估计 期望值T(k-l)和该音频数据d(n)的采集时间,从参考队列中选择一参考信号,根据选择的 参考信号对该音频数据d(n)中的进行回声消除处理。
[0066]步骤204;根据第一延时估计期望值T(k)和第二延时估计期望值T化-1),检测该 音频数据d(n)与参考队列中的参考信号之间是否存在差拍现象,如果存在,执行步骤205, 如果不存在,执行步骤207。
[0067] 具体地,比较第一延时估计期望值和第二延时估计期望值,如果两者不等,则检测 出该音频数据d(n)与参考队列中的参考信号之间的存在差拍现象,如果两者相同,则检测 出该音频数据d(n)与参考队列中的参考信号之间的不存在差拍现象。
[0068] 步骤205 ;对齐音频数据d(n)与参考队列中的参考信号之间的时间关系。
[0069] 具体地,如果第一延时估计期望值T化)小于第二延时估计期望值T化-1),则停 止向参考队列输入参考信号并继续向回声消除模块输入采集的音频数据,W对齐音频数据 d(n)与参考队列中的参考信号之间的时间关系;如果第一延时估计期望值T(k)大于第二 延时估计期望值T化-1),则停止向回声消除模块输入采集的音频数据并继续向参考队列输 入参考信号,W对齐音频数据d(n)与参考队列中的参考信号之间的时间关系。
[0070] 其中,回声消除模块中包括的自适应滤波器3负责消除音频数据中的回声,且其 中包括参考队列。参见图1-2,自适应滤波器3通过开关K1连接至麦克风,通过开关K2连 接至终端的接收天线,可W通过关断开关K2W及闭合开关K1,W停止向自适应滤波器3中 的参考队列输入参考信号并继续向自适应滤波器3输入采集的音频数据;或者,可W通过 关断开关K1闭合开关K2,W停止向自适应滤波器3输入采集的音频数据并继续向参考队列 输入参考信号。
[0071] 其中,需要说明的是;如果第一延时估计期望值T(k)小于第二延时估计期望值 T化-1),则表明终端丢失了麦克风采集的音频数据,然而参考信号未丢失,且参考信号一直 从队头输入到参考队列中,所W导致参考队列中的参考信号快于麦克风采集的音频数据, 因此停止向参考队列输入参考信号,来对齐音频数据d(n)与参考队列中的参考信号之间 的时间关系。如果第一延时估计期望值T化)大于第二延时估计期望值T化-1),则表明终端 丢失了接收的参考信号,然而麦克风集的音频数据未丢失,音频数据一直输入回声消除模 块,所W导致参考队列中的参考信号慢于麦克风采集的音频数据,因此停止向回声消除模 块输入麦克风采集的音频数据,来对齐音频数据d(n)与参考队列中的参考信号之间的时 间关系。
[0072] 步骤206;根据第一延时估计期望值T化),消除音频数据d(n)中的回声。
[0073] 具体地,根据第一延时估计期望值T(k)和该音频数据d(n)的采集时间,从参考队 列中选择一参考信号,根据选择的参考信号消除该音频数据d(n)中的回声。
[0074] 步骤207 ;继续从参考队列的队头输入接收的参考信号,W及继续向回声消除模 块输入麦克风采集的音频数据,并根据第二延时估计期望值T化-1),消除音频数据d(n)中 的回声。
[0075] 具体地,参见图1-2,可W控制开关K1和K2闭合,W继续从参考队列的队头输入接 收的参考信号,W及继续向回声消除模块输入麦克风采集的音频数据,根据第二延时估计 期望值T(k-l)和该音频数据d(n) 的采集时间,从参考队列中选择一参考信号,根据选择的 参考信号消除该音频数据d(n)中的回声。
[0076] 当麦克风再次采集到音频数据时,从上述步骤201开始执行。
[0077] 其中,需要说明的是;麦克风是一帖一帖地采集音频数据,一帖音频数据的大小可 W根据需要设定,帖越大,整个参考队列所能表示的时间范围Tm"也越大但是时间精度AT 变小,反之则时间精度AT得W提高,但是最大捜索时间范围Tm。湘应地缩小,用公式表示 该个约束关系就是:
[007引Tmax=AT.L
[0079]
[0080] 其中,B表示每帖音频数据中所包含的采样点数,L表示参考队列的长度,fs表示 音频采样频率。在本发明实施例中,可W设置fs= 16曲z,B= 64,L= 200,对应的时间精 度为4ms,最大捜索时间范围Tm"为800ms。
[0081] 对于公式(2)中的数据块长度B和音频采样率fs的选取,除了上述方案中所列 出的具体数值,还可W取其他的值。具体而言,音频采样率fs可W在8000化,16000化, 22050化,24000化,44100化和48000曲Z该几个常用值中选取;数据块长度B可W在32,64, 128和256该几个常用值中选取。不同的B和fs的组合所对应的时间精度AT不同,时间 精度AT过低会使得系统的准确性降低,反之时间精度AT过高会带来计算量的增加。几 种常用的参数组合所对应的单步时间精度如表(1)所示。
[0082] 表 1
[0083]
[0084] 对于公式(2)中的参考队列长度L的选取,考虑到音频数据存在周期相关性,因此 L的取值并非越大越好,根据实践经验,L的合理取值范围为1~0. 8 ?fs/B,当L取值超过 此范围时系统的工作开始趋于不稳定。
[0085] 在本发明实施例中,由于根据第二延时估计期望值和第一延时估计期望值能够检 测出该音频数据与参考队列中的参考信号之间是否存在差拍现象,从而在一出现差拍现象 便能被检测出,然后对齐该音频数据与参考队列中的参考信号之间的时间关系,W消除该 差拍现象,从而使得终端逐渐恢复消除音频数据中的回声,提高了回声消除的鲁椿性。另 夕F,在检测差拍之前,还根据第一延时估计期望值T化),确定该音频数据d(n)是否包括本 端用户声音,在不包括本端用户声音的情况下进行差拍现象的检测,提高了检测精度。
[0086] 实施例3
[0087] 参见图3,本发明实施例提供了一种音频数据与参考信号的时间对齐装置,包括:
[008引获取模块301,用于获取当前采集的音频数据W及从参考队列中获取所述音频数 据对应的参考信号;
[0089] 计算模块302,用于根据所述音频数据和所述参考信号之间的相关值,计算第一延 时估计期望值;
[0090] 检测模块303,用于根据第二延时估计期望值和所述第一延时估计期望值检测所 述音频数据与所述参考队列中的参考信号之间是否存在差拍现象,所述第二延时估计期望 值是在当前之前最近一次计算得到的延时估计期望值;
[0091] 对齐模块304,用于如果存在,则对齐所述音频数据与所述参考队列中的参考信号 之间的时间关系。
[0092] 可选的,所述检测模块303包括:
[0093] 比较单元,用于比较第二延时估计期望值和所述第一延时估计期望值;
[0094] 检测单元,用于如果两者不等,则检测出所述音频数据与所述参考队列中的参考 信号之间存在差拍现象。
[00巧]可选的,所述对齐模块304包括:
[0096] 第一停止单元,用于如果所述第一延时估计期望值小于所述第二延时估计期望 值,则停止向所述参考队列输入参考信号并继续向回声消除模块输入采集的音频数据,W 对齐所述音频数据与所述参考队列中的参考信号之间的时间关系;
[0097] 第二停止单元,用于如果所述第一延时估计期望值大于所述第二延时估计期望 值,则停止向所述回声消除模块输入采集的音频数据并继续向所述参考队列输入参考信 号,W对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。
[0098] 进一步地,所述装置还包括:
[0099] 输入模块,用于如果不存在差拍现象,则继续向所述参考队列输入参考信号W及 继续向所述回声消除模块输入采集的音频数据。
[0100] 可选的,所述计算模块302包括:
[0101] 第一确定单元,用于将所述音频数据与所述参考信号之间的相关值确定为所述音 频数据的延时估计;
[0102] 第一获取单元,用于获取在第一时间段内采集的各音频数据的延时估计,所述第 一时间段是在当前之前且离当前最近的预设时间长度的时间段;
[0103] 第一计算单元,用于根据所述音频数据的延时估计和所述第一时间段内采集的各 音频数据的延时估计,计算第一延时估计期望值。
[0104] 进一步地,所述装置还包括:
[01化]确定模块,用于根据所述第一延时估计期望值,确定所述音频数据中是否包括本 端用户声音,如果不包括,则执行所述根据第二延时估计期望值和所述第一延时估计期望 值检测所述音频数据与所述参考队列之间是否存在差拍现象的操作。
[0106] 可选的,所述确定模块包括:
[0107] 第二计算单元,用于根据所述第一延时估计期望值和所述第二延时估计期望值, 计算第一延时估计一阶差分值;
[0108] 第二获取单元,用于获取在第一时间段内计算得到的第二延时估计一阶差分值, 所述第一时间段是在当前之前且离当前最近的预设时间长度的时间段;
[0109] 第=计算单元,用于根据所述第一延时估计一阶差分值和所述第二延时估计一阶 差分值,计算延时估计稳定度指标;
[0110] 第二确定单元,用于如果所述延时估计稳定度指标小于预设阔值,则确定所述音 频数据不包括本端用户声音。
[0111] 进一步地,所述装置还包括:
[0112] 消除模块,用于根据所述第一延时估计期望值消除所述音频数据中的回声。
[0113] 在本发明实施例中,由于根据第二延时估计期望值和第一延时估计期望值能够检 测出该音频数据与参考队列中的参考信号之间是否存在差拍现象,从而在一出现差拍现象 便能被检测出,然后对齐该音频数据与参考队列中的参考信号之间的时间关系,W消除该 差拍现象,从而使得终端逐渐恢复消除音频数据中的回声,提高了回声消除的鲁椿性。
[0114] 实施例4
[0115] 参见图4,其示出了本发明实施例所设及的终端结构示意图,用于实施上述实施例 中提供的一种音频数据与参考信号的时间对齐方法。具体来讲:
[0116] 终端900可w包括RF(Radio化equen巧,射频)电路110、包括有一个或一个W上 计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、 WiFi(wirelessfidelity,无线保真)模块170、包括有一个或者一个W上处理核屯、的处理 器180、W及电源190等部件。本领域技术人员可W理解,图4中示出的终端结构并不构成 对终端的限定,可W包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布 置。其中:
[0117]RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站 的下行信息接收后,交由一个或者一个W上处理器180处理;另外,将设及上行的数据发 送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个 振荡器、用户身份模块(SIM)卡、收发信机、禪合器、LNA(LowNoiseAmplifier,低噪声放 大器)、双工器等。此外,RF电路110还可W通过无线通信与网络和其他设备通信。所述 无线通信可W使用任一通信标准或协议,包括但不限于GSM(GlobalSystemofMobile communication,全球移动通讯系统)、GPRS(GeneralPacketRadioService,通用分组 无线服务)、CDMA(CodeDivisionMultipleAccess,码分多址)、WCDMA(WidebandCode DivisionMultipleAccess,宽带码分多址)、LTE(X〇ngTermEvolution,长期演进)、电 子邮件、SMS(化ortMessagingService,短消息服务)等。
[0118] 存储器120可用于存储软件程序W及模块,处理器180通过运行存储在存储器120 的软件程序W及模块,从而执行各种功能应用W及数据处理。存储器120可主要包括存 储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序 (比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端900的使用所创 建 的数据(比如音频数据、电话本等)等。此外,存储器120可W包括高速随机存取存储器, 还可W包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存 储器件。相应地,存储器120还可W包括存储器控制器,W提供处理器180和输入单元130 对存储器120的访问。
[0119] 输入单元130可用于接收输入的数字或字符信息,W及产生与用户设置W及功能 控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触 敏表面131W及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集 用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏 表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。 可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检 测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从 触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理 器180发来的命令并加W执行。此外,可W采用电阻式、电容式、红外线W及表面声波等多 种类型实现触敏表面131。除了触敏表面131,输入单元130还可W包括其他输入设备132。 具体地,其他输入设备132可W包括但不限于物理键盘、功能键(比如音量控制按键、开关 按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0120] 显示单元140可用于显示由用户输入的信息或提供给用户的信息W及终端900的 各种图形用户接口,该些图形用户接口可W由图形、文本、图标、视频和其任意组合来构成。 显示单元140可包括显示面板141,可选的,可W采用LCD(Liquid化ystalDisplay,液晶 显示器)、〇LEDOrganicLi曲t-EmittingDiode,有机发光二极管)等形式来配置显示面 板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附 近的触摸操作后,传送给处理器180W确定触摸事件的类型,随后处理器180根据触摸事件 的类型在显示面板141上提供相应的视觉输出。虽然在图4中,触敏表面131与显示面板 141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可W将触敏表 面131与显示面板141集成而实现输入和输出功能。
[0121] 终端900还可包括至少一种传感器150,比如光传感器、运动传感器W及其他传 感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环 境光线的明暗来调节显示面板141的亮度,接近传感器可在终端900移动到耳边时,关闭 显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上 (一般为S轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的 应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲 击)等;至于终端900还可配置的巧螺仪、气压计、湿度计、温度计、红外线传感器等其他传 感器,在此不再寶述。
[0122] 音频电路160、扬声器161,传声器162可提供用户与终端900之间的音频接口。音 频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换 为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160 接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110W发送给比 如另一终端,或者将音频数据输出至存储器120W便进一步处理。音频电路160还可能包 括耳塞插孔,W提供外设耳机与终端900的通信。
[0123]WiFi属于短距离无线传输技术,终端900通过WiFi模块170可W帮助用户收发电 子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图4示 出了WiFi模块170,但是可W理解的是,其并不属于终端900的必须构成,完全可W根据需 要在不改变发明的本质的范围内而省略。
[0124] 处理器180是终端900的控制中屯、,利用各种接口和线路连接整个手机的各个部 分,通过运行或执行存储在存储器120内的软件程序和/或模块,W及调用存储在存储器 120内的数据,执行终端900的各种功能和处理数据,从而对手机进行整体监控。可选的,处 理器180可包括一个或多个处理核屯、;优选的,处理器180可集成应用处理器和调制解调处 理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要 处理无线通信。可W理解的是,上述调制解调处理器也可W不集成到处理器180中。
[01巧]终端900还包括给各个部件供电的电源190 (比如电池),优选的,电源可W通过电 源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、W及功 耗管理等功能。电源190还可W包括一个或一个W上的直流或交流电源、再充电系统、电源 故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[01%] 尽管未示出,终端900还可W包括摄像头、藍牙模块等,在此不再寶述。具体在本 实施例中,终端900的显示单元是触摸屏显示器,终端900还包括有存储器,W及一个或者 一个W上的程序,其中一个或者一个W上程序存储于存储器中,且经配置W由一个或者一 个W上处理器执行述一个或者一个W上程序包含用于进行W下操作的指令:
[0127]获取当前采集的音频数据W及从参考队列中获取所述音频数据对应的参考信 号;
[0128] 根据所述音频数据和所述参考信号之间的相关值,计算第一延时估计期望值;
[0129] 根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述 参考队列中的参考信号之间是否存在差拍现象,所述第二延时估计期望值是在当前之前最 近一次计算得到的延时估计期望值;
[0130] 如果存在,则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。
[0131] 可选的,所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音频 数据与所述参考队列中的参考信号之间是否存在差拍现象,包括:
[0132] 比较第二延时估计期望值和所述第一延时估计期望值;
[0133] 如果两者不等,则检测出所述音频数据与所述参考队列中的参考信号之间存在差 拍现象。
[0134] 可选的,所述对齐所述音频数据与所述参考队列中的参考信号之间的时间关系, 包括:
[0135] 如果所述第一延时估计期望值小于所述第二延时估计期望值,则停止向所述参考 队列输入参考信号并继续向回声消除模块输入采集的音频数据,W对齐所述音频数据与所 述参考队列中的参考信号之间的时间关系;
[0136] 如果所述第一延时估计期望值大于所述第二延时估计期望值,则停止向所述回声 消除模块输入采集的音频数据并继续向所述参考队列输入参考信号,W对齐所述音频数据 与所述参考队列中的参考信号之间的时间关系。
[0137] 进一步地,所述方法还包括:
[0138] 如果不存在差拍现象,则继续向所述参考队列输入参考信号W及继续向所述回声 消除模块输入采集的音频数据。
[0139] 可选的,所述根据所述音频数据和所述参考信号之间的相关值,计算第一延时估 计期望值,包括:
[0140] 将所述音频数据与所述参考信号之间的相关值确定为所述音频数据的延时估 计;
[0141] 获取在第一时间段内采集的各音频数据的延时估计,所述第一时间段是在当前之 前且离当前最近的预设时间长度的时间段;
[0142] 根据所述音频数据的延时估计和所述第一时间段内采集的各音频数据的延时估 计,计算第一延时估计期望值。
[0143] 进一步地,所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音 频数据与所述参考队列之间是否存在差拍现象之前,还包括:
[0144] 根据所述第一延时估计期望值,确定所述音频数据中是否包括本端用户声音,如 果不包括,则执行所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音频 数据与所述参考队列之间是否存在差拍现象的操作。
[0145] 可选的,所述根据所述第一延时估计期望值,确定所述音频数据中是否包括本端 用户声音,包括:
[0146] 根据所述第一延时估计期望值和所述第二延时估计期望值,计算第一延时估计一 阶差分值;
[0147] 获取在第一时间段内计算得到的第二延时估计一阶差分值,所述第一时间段是在 当前之前且离当前最近的预设时间长度的时间段;
[0148] 根据所述第一延时估计一阶差分值和所述第二延时估计一阶差分值,计算延时估 计稳定度指标;
[0149] 如果所述延时估计稳定度指标小于预设阔值 ,则确定所述音频数据不包括本端用 户声音。
[0150] 进一步地,所述对齐所述音频数据与所述参考队列中的参考信号之间的时间关系 之后,还包括:
[0151] 根据所述第一延时估计期望值消除所述音频数据中的回声。
[0152] 在本发明实施例中,由于根据第二延时估计期望值和第一延时估计期望值能够 检测出该音频数据与参考队列中的参考信号之间是否存在差拍现象,从而在一出现差拍现 象便能被检测出,然后对齐该音频数据与参考队列中的参考信号之间的时间关系,W消除 该差拍现象,从而使得终端逐渐恢复消除音频数据中的回声,提高了回声消除的鲁椿性。
[0153] 本领域普通技术人员可W理解实现上述实施例的全部或部分步骤可W通过硬件 来完成,也可W通过程序来指令相关的硬件完成,所述的程序可W存储于一种计算机可读 存储介质中,上述提到的存储介质可W是只读存储器,磁盘或光盘等。
[0154] W上所述仅为本发明的较佳实施例,并不用W限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种音频数据与参考信号的时间对齐方法,其特征在于,所述方法包括: 获取当前采集的音频数据以及从参考队列中获取所述音频数据对应的参考信号; 根据所述音频数据和所述参考信号之间的相关值,计算第一延时估计期望值; 根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考 队列中的参考信号之间是否存在差拍现象,所述第二延时估计期望值是在当前之前最近一 次计算得到的延时估计期望值; 如果存在,则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。2. 如权利要求1所述的方法,其特征在于,所述根据第二延时估计期望值和所述第一 延时估计期望值检测所述音频数据与所述参考队列中的参考信号之间是否存在差拍现象, 包括: 比较第二延时估计期望值和所述第一延时估计期望值; 如果两者不等,则检测出所述音频数据与所述参考队列中的参考信号之间存在差拍现 象。3. 如权利要求1所述的方法,其特征在于,所述对齐所述音频数据与所述参考队列中 的参考信号之间的时间关系,包括: 如果所述第一延时估计期望值小于所述第二延时估计期望值,则停止向所述参考队列 输入参考信号并继续向回声消除模块输入采集的音频数据,以对齐所述音频数据与所述参 考队列中的参考信号之间的时间关系; 如果所述第一延时估计期望值大于所述第二延时估计期望值,则停止向所述回声消除 模块输入采集的音频数据并继续向所述参考队列输入参考信号,以对齐所述音频数据与所 述参考队列中的参考信号之间的时间关系。4. 如权利要求2或3所述的方法,其特征在于,所述方法还包括: 如果不存在差拍现象,则继续向所述参考队列输入参考信号以及继续向所述回声消除 模块输入采集的音频数据。5. 如权利要求1所述的方法,其特征在于,所述根据所述音频数据和所述参考信号之 间的相关值,计算第一延时估计期望值,包括: 将所述音频数据与所述参考信号之间的相关值确定为所述音频数据的延时估计; 获取在第一时间段内采集的各音频数据的延时估计,所述第一时间段是在当前之前且 离当前最近的预设时间长度的时间段; 根据所述音频数据的延时估计和所述第一时间段内采集的各音频数据的延时估计,计 算第一延时估计期望值。6. 如权利要求1至3任一项权利要求所述的方法,其特征在于,所述根据第二延时估计 期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列之间是否存在差拍 现象之前,还包括: 根据所述第一延时估计期望值,确定所述音频数据中是否包括本端用户声音,如果不 包括,则执行所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据 与所述参考队列之间是否存在差拍现象的操作。7. 如权利要求6所述的方法,其特征在于,所述根据所述第一延时估计期望值,确定所 述音频数据中是否包括本端用户声音,包括: 根据所述第一延时估计期望值和所述第二延时估计期望值,计算第一延时估计一阶差 分值; 获取在第一时间段内计算得到的第二延时估计一阶差分值,所述第一时间段是在当前 之前且离当前最近的预设时间长度的时间段; 根据所述第一延时估计一阶差分值和所述第二延时估计一阶差分值,计算延时估计稳 定度指标; 如果所述延时估计稳定度指标小于预设阈值,则确定所述音频数据不包括本端用户声 音。8. 如权利要求1至3任一项权利要求所述的方法,其特征在于,所述对齐所述音频数据 与所述参考队列中的参考信号之间的时间关系之后,还包括: 根据所述第一延时估计期望值消除所述音频数据中的回声。9. 一种音频数据与参考信号的时间对齐装置,其特征在于,所述装置包括: 获取模块,用于获取当前采集的音频数据以及从参考队列中获取所述音频数据对应的 参考信号; 计算模块,用于根据所述音频数据和所述参考信号之间的相关值,计算第一延时估计 期望值; 检测模块,用于根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数 据与所述参考队列中的参考信号之间是否存在差拍现象,所述第二延时估计期望值是在当 前之前最近一次计算得到的延时估计期望值; 对齐模块,用于如果存在,则对齐所述音频数据与所述参考队列中的参考信号之间的 时间关系。10. 如权利要求9所述的装置,其特征在于,所述检测模块包括: 比较单元,用于比较第二延时估计期望值和所述第一延时估计期望值; 检测单元,用于如果两者不等,则检测出所述音频数据与所述参考队列中的参考信号 之间存在差拍现象。11. 如权利要求9所述的装置,其特征在于,所述对齐模块包括: 第一停止单元,用于如果所述第一延时估计期望值小于所述第二延时估计期望值,则 停止向所述参考队列输入参考信号并继续向回声消除模块输入采集的音频数据,以对齐所 述音频数据与所述参考队列中的参考信号之间的时间关系; 第二停止单元,用于如果所述第一延时估计期望值大于所述第二延时估计期望值,则 停止向所述回声消除模块输入采集的音频数据并继续向所述参考队列输入参考信号,以对 齐所述音频数据与所述参考队列中的参考信号之间的时间关系。12. 如权利要求10或11所述的装置,其特征在于,所述装置还包括: 输入模块,用于如果不存在差拍现象,则继续向所述参考队列输入参考信号以及继续 向所述回声消除模块输入采集的音频数据。13. 如权利要求9所述的装置,其特征在于,所述计算模块包括: 第一确定单元,用于将所述音频数据与所述参考信号之间的相关值确定为所述音频数 据的延时估计; 第一获取单元,用于获取在第一时间段内采集的各音频数据的延时估计,所述第一时 间段是在当前之前且离当前最近的预设时间长度的时间段; 第一计算单元,用于根据所述音频数据的延时估计和所述第一时间段内采集的各音频 数据的延时估计,计算第一延时估计期望值。14. 如权利要求9至11任一项权利要求所述的装置,其特征在于,所述装置还包括: 确定模块,用于根据所述第一延时估计期望值,确定所述音频数据中是否包括本端用 户声音,如果不包括,则执行所述根据第二延时估计期望值和所述第一延时估计期望值检 测所述音频数据与所述参考队列之间是否存在差拍现象的操作。15. 如权利要求14所述的装置,其特征在于,所述确定模块包括: 第二计算单元,用于根据所述第一延时估计期望值和所述第二延时估计期望值,计算 第一延时估id阶差分值; 第二获取单元,用于获取在第一时间段内计算得到的第二延时估计一阶差分值,所述 第一时间段是在当前之前且离当前最近的预设时间长度的时间段; 第三计算单元,用于根据所述第一延时估计一阶差分值和所述第二延时估计一阶差分 值,计算延时估计稳定度指标; 第二确定单元,用于如果所述延时估计稳定度指标小于预设阈值,则确定所述音频数 据不包括本端用户声音。16. 如权利要求9至11任一项权利要求所述的装置,其特征在于,所述装置还包括: 消除模块,用于根据所述第一延时估计期望值消除所述音频数据中的回声。
【专利摘要】本发明公开了一种音频数据与参考信号的时间对齐方法及装置,属于通信领域。所述方法包括:获取当前采集的音频数据以及从参考队列中获取所述音频数据对应的参考信号;根据所述音频数据和所述参考信号之间的相关值,计算第一延时估计期望值;根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列中的参考信号之间是否存在差拍现象,所述第二延时估计期望值是在当前之前最近一次计算得到的延时估计期望值;如果存在,则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。所述装置包括:获取模块、计算模块、检测模块和对齐模块。本发明提高了回声消除的鲁棒性。
【IPC分类】H04M9/08
【公开号】CN104902116
【申请号】CN201510140458
【发明人】袁豪磊
【申请人】腾讯科技(深圳)有限公司
【公开日】2015年9月9日
【申请日】2015年3月27日

最新回复(0)