声音检索装置、声音检索方法

xiaoxiao2020-10-23 20

声音检索装置、声音检索方法
【专利说明】声音检索装置、声音检索方法
[0001]相关申请的参照
[0002]关于本申请要求以2014年3月5日提交的日本专利申请特愿2014-42541号为基础的优先权，通过本申请而援引该基础申请的内容。
技术领域
[0003]本发明涉及声音检索装置以及声音检索方法。
【背景技术】
[0004]近年，伴随声音、动画等的多媒体内容的扩大/普及，要求高精度的多媒体检索技术。关于声音检索，正在研宄一种声音检索的技术，其从声音中确定发出了与提供的检索词(查询)相对应的声音的部位。在声音检索中，由于声音识别困难这样的特有的原因，与从字符串中确定包括所希望的检索词的部位的字符串检索的技术相比，还没有确立足够的性能的检索方法。由此，正在研宄各种用于实现足够的性能的声音检索的技术。
[0005]例如，非专利文献I (岩見圭祐、坂本渚、中川聖一，“距離O ?音節n-gram索引?二dt §音声検索語検出ω距離尺度ω厳密化”，情報处理学会論文誌，Vol.54，N0.2,495-505,(2013.2))公开了在以声音识别结果为基础的声音检索中，考虑未知词/识别错误的问题，稳健地进行声音检索的方法。
[0006]发明要解决的课题
[0007]但是，为了实现高精度的声音检索，具有各种的课题。例如，根据检索对象的声音信号的区间，存在如长音或接近无声的信号的区间那样，无论对于怎样的检索词均容易被推定为发出与检索词相对应的声音的区间和不是这样的区间，从而成为误检测的原因。另夕卜，根据检索词，在检索词中的仅一部分接近检索对象的声音信号的情况下，有时仅仅根据该一部分，错误地推定为检索词整体与声音信号对应。

【发明内容】

[0008]本发明是为了解决上述那样的课题而提出的，本发明的目的在于提供可高精度地进行声音检索的声音检索装置以及声音检索方法。
[0009]用于解决课题的技术方案
[0010]为了实现上述目的，本发明的声音检索装置包括:
[0011]检索词取得单兀，其取得检索词；
[0012]变换单元，其将上述检索词取得单元取得的检索词变换为音素串；
[0013]输出概率取得单元，其针对每一帧，取得从上述音素串包含的各音素输出检索对象的声音信号的特征量的输出概率；
[0014]相对化运算单元，其对于上述输出概率取得单元针对上述各音素取得的输出概率，根据针对上述音素串中包含的另一音素而取得的输出概率执行相对化运算；
[0015]区间指定单元，其在上述检索对象的声音信号中，指定多个似然取得区间；
[0016]似然取得单元，其根据上述相对化运算单元运算后的输出概率，取得表示上述区间指定单元所指定的似然取得区间为发出与上述检索词相对应的声音的区间的可能性的似然；
[0017]确定单元，其根据上述似然取得单元针对上述区间指定单元指定的各个似然取得区间所取得的似然，确定被推定为从上述检索对象的声音信号中发出了与上述检索词对应的声音的推定区间。
[0018]发明的效果
[0019]根据本发明，可高精度地进行声音检索。
【附图说明】
[0020]图1为表示本发明的实施方式I的声音检索装置的物理结构的图。
[0021]图2为表示本发明的实施方式I的声音检索装置的功能结构的图。
[0022]图3中(a)为检索对象的声音信号的波形图，(b)为表示在检索对象的声音信号中设定的帧的图，(C)为表示在检索对象的声音信号中指定的似然计算区间的图。
[0023]图4中(a)为表示各音素的各帧的距离的图，(b)为表示各帧中的基准音素的图，(C)为表示通过基准音素的距离进行相对化后的距离的图。
[0024]图5是采用各帧中的声音信号的特征量和各音素的距离的矩阵来表示基于DP匹配的最大似然序列的检索的图。
[0025]图6为表示本发明的实施方式I的声音检索装置所进行的声音检索处理的流程的流程图。
[0026]图7为表示本发明的实施方式I的相对化运算处理的流程的流程图。
[0027]图8为表示本发明的实施方式2的声音检索装置的功能结构的图。
[0028]图9为表示基于DP匹配的最大似然序列的检索和此时生成的累积距离表以及迀移方向表的图。
[0029]图10中(a)为表示包含与检索词相对应的音素串中的仅仅一部分音素的区间中的通过最大似然序列的检索而取得的路径和标准化的累积距离的图，(b)为表示包含与检索词相对应的音素串中的全部音素的区间中的最大似然序列的检索和标准化的累积距离的图。
[0030]图11为表示本发明的实施方式2的声音检索装置所执行的声音检索处理的流程的流程图。
[0031]图12为表示本发明的实施方式2的标准化运算处理的流程的流程图。
[0032]用于实施发明的方式
[0033]下面参照附图，对本发明的实施方式进行说明。另外，在图中对于相同或相应的部分赋予相同的符号。
[0034]实施方式I
[0035]实施方式I的声音检索装置在物理上如图1所示的那样构成。声音检索装置100包括R0M(只读存储器，Read Only Memory) 1、RAM(随机存取存储器，Random AccessMemory) 2、外部存储器3、输入装置4、输出装置5、CPU (中央处理器，Central ProcessingUnit)6。
[0036]ROMl存储用于进行各种初始设定、硬件的检查、程序的下载等的初始程序。RAM2暂时存储CPU6执行的各种软件程序、执行这些软件程序所需要的数据等。
[0037]外部存储器3例如是硬盘等，存储各种软件程序、数据等。在这些软件程序中，包括应用软件程序、OS (操作系统，Operating System)这样的基本软件程序等。
[0038]输入装置4例如是键盘等，输入装置4将用户采用键盘而操作输入的文本数据等输入到CPU6。输出装置5例如具备液晶显示器等的画面、扬声器等。输出装置5将通过CPU6输出的文本数据显示在画面中，从扬声器输出声音数据。
[0039]CPU6将存储在外部存储器3中的软件程序读出到RAM2中，通过执行控制该软件程序，来实现下述的功能结构。
[0040]声音检索装置100从功能上如图2所示那样构成。声音检索装置100包括声音信号存储部101、声学模型存储部102、时间长度存储部104、检索词取得部111、变换部112、时间长度导出部113、区间指定部114、特征量计算部115、输出概率取得部116、搜索部117、似然计算部118、重复部119、确定部120、相对化运算部130。声音信号存储部101、声学模型存储部102以及时间长度存储部104由外部存储器3的存储区域构成。
[0041]声音信号存储部101存储检索对象的声音信号。检索对象的声音信号例如是与新闻广播等的声音、录音的会议的声音、图像的声音等有关的声音?目号。
[0042]声学模型存储部102存储声学模型。声学模型是对构成可作为检索词而取得的字符串的各音素的频率特性进行模型化而得到的。声学模型存储部102例如存储单音(I音素)的声学模型(单音模型)、双音(2音素)的声学模型(双音模型)、三音(3音素)的声学模型(三音模型)等。
[0043]单音模型为针对每个I音素而生成的声学模型，是不依赖于邻接的音素，亦即将与前后的音素状态的状态迀移固定化的声学模型。双音模型和三音模型分别是针对每个2音素和每个3音素而生成的声学模型，是依赖于邻接的音素的声学模型。双音模型是考虑了与前后单方的音素状态的状态迀移的声学模型。三音模型是考虑了与前后双方的音素状态的状态迀移的声学模型。下面以作为声学模型采用单音模型的情况为例子来进行说明。声音检索装置100通过普通的方法学习声学模型，将其预先存储在声学模型存储部102中。
[0044]作为声学模型，例如可以采用在普通的声音识别中使用的声学模型即HMM(HiddenMarkov Model ;隐马尔可夫模型)。HMM是用于通过统计学的方法，从声音信号中概率性地推定出成为输出该声音信号的输出源的语言的模型。HMM采用将表示时序的状态波动的迀移概率和输出从各个状态而输入的特征量的概率(输出概率)作为参数的标准图。该输出概率通过对按照预定的权重系数进行加权后的高斯(标准)分布相加后的混合高斯分布来
[0045]时间长度存储部104按照各音素的状态单位来存储在声学模型中采用的各音素的平均继续长度。各音素的平均继续长度是发出各音素时的平均的时间长度。各音素的状态是在时间方向上对各音素进行细分后的单位，相当于声学模型的最小单位。在各音素中，预先确定状态数量。
[0046]下面以在各音素中确定的状态数量为“3”的情况为例子来进行说明。例如，音素“a”被分为包括该音素的发音开始时的第I状态“al”、作为中间状态的第2状态“a2”、包括发音结束时的第3状态“a3”这的3个状态。在将声学模型中采用的全部音素的数量设为Q时，存在“3 X Q”个的状态。声音检索装置100针对“3 X Q”个的各个状态，根据大量的声音信号的数据，计算继续长度的平均值，将其预先存储在时间长度存储部104中。
[0047]另外，为了提高检索精度，优选用于学习声学模型的声音信号以及用于计算音素的平均继续长度的声音信号是通过与发出检索对象的声音信号的域(环境)相同的域而发出的声音信号。例如，在检索对象为在会议室中录音得到的声音信号时，优选采用在会议室中录音得到的声音信号来学习声学模型，并计算音素的平均继续长度。但是，用于学习声学模型的声音信号以及用于计算音素的平均继续长度的声音信号也可以是通过与发出检索对象的声音信号的域不同的域而发出的声音信号。
[0048]检索词取得部111取得检索词。检索词取得部111例如取得用户经由输入装置4输入的检索字符串来作为检索词。即，用户通过字符串(文本)，向声音检索装置100赋予用于从检索对象的声音信号中检索发出目标声音的部分的检索词(查询)。
[0049]变换部112按照检索词取得部111取得的检索词，对声学模型的音素进行排列，将检索词变换为音素串。即，变换部112按照与检索词中包含的字符相同的顺序，排列对各字符进行发声时的音素，由此将检索词变换为音素串。
[0050]例如，在作为检索词输入了日语“歹一 7 V ”时，由于“歹一 7 V ”包括“r”、“a: ”、与“N”这5个音素(单音)，因此变换部112生成音素串“r，a:，m，e，N”。或者，
在作为检索词输入了英语“cake”时，由于“cake”包括“k”、“e”、“i”、“k”这4个音素(单音)，所以变换部112生成音素串“k，e，i，k”。
[0051]特征量计算部115从声音信号存储部101取得检索对象的声音信号，针对每一帧计算检索对象的声音信号的特征量。该特征量例如通过将称为倒频谱(cepstrum)或梅尔倒频谱(me I cep strum)的频率轴系特征参数和功率系特征参数进行组合而得到，其中，频率轴系特征参数通过将声音数据在频率轴上进行变换而得到，功率系特征参数通过计算声音数据的能量平方和或其对数而得到。
[0052]例如，特征量由共计具有38个成分的38维矢量构成。所谓的该38维矢量由以下构成:频率轴系特征参数12成分(12维)、功率系特征参数I成分(I维)、△频率轴系特征参数12成分(12维)、△功率系特征参数I成分(I维)、△ △频率轴系特征参数12成分(12维)。△频率轴系特征参数12成分(12维)取得与紧前的时间窗的各成分的差分。另外，△ △频率轴系特征参数12成分(12维)取得与紧前的时间窗的各成分的差分的差分。
[0053]帧为具有声音信号的预定的时间长度的时间窗。具体来说，参照图3，对在检索对象的声音信号中设定的帧进行说明。图3的(a)为从起始到末尾的时间长度T的检索对象的声音信号的波形图。纵轴表示波形的振幅(能量)的大小，横轴表示时间t。图3的(b)表示在图3的(a)所示的声音信号中设定的帧。从第O帧到第(N-1)帧，每次移动预定的移动长度S来分别设定帧长度F的N个帧。
[0054]帧长度F和移动长度S与在生成声学模型时设定的时间长度一致(例如，帧长度F=25msec，移动长度S = 1msec等)。由于帧长度F比移动长度S长，所以各帧与邻接的帧重复时间长度(F-S)。
[0055]输出概率取得部116根据由特征量计算部115计算出的特征量，针对每一帧取得从音素串中包含的各音素输出该特征量的输出概率。另外，输出概率取得部116针对每一帧取得从静音素输出检索对象的声音信号的特征量的输出概率。
[0056]具体来说，输出概率取得部116从声学模型存储部102取得声学模型，将特征量计算部115计算出的各帧的特征量与音素串中包含的各音素和静音素的声学模型进行比较。另外，计算从各音素和静音素输出各帧的特征量的概率。该输出概率通过对多个高斯分布进行加权相加得到的标准混合连续分布来表示。
[0057]当输出概率取得部116取得了各音素和静音素的各帧的输出概率时，相对化运算部130针对输出概率取得部116针对每一帧所取得的从音素串中包含的各音素输出特征量的输出概率，基于从音素串中包含的其它的音素输出该特征量的输出概率执行相对化运算。相对化运算部130包括基准音素选择部131和相对值计算部132。
[0058]参照图4，对相对化运算部130的相对化运算处理进行说明。相对化运算部130根据输出概率取得部116取得的输出概率，计算距各音素的各帧中的声音信号的特征量的距离。在图4的(a)中以作为检索词输入了日语“歹一 7 的情况为例子，表示了变换部112变换后的音素串“r，a:，m，e，N”的各音素以及静音素“sil”的各帧的距离。
[0059]距离是表示各音素的声学模型与各帧的声音信号的特征量的不同程度的指标。通过使对输出概率取对数得到的值的符号反转，来取得距离。某个音素的某个帧的距离越小，从该音素输出该帧的声音信号的特征量的概率越大，即表示该音素的声学模型和该帧的声音信号的特征量接近。
[0060]当计算各音素的各帧的距离时，基准音素选择部131针对检索对象的声音信号中的各帧，从音素串中包含的音素中选择基准音素。具体来说，基准音素选择部131针对检索对象的声音信号中的各帧，从音素串中包含的音素和静音素中，选择该帧中的输出概率最大的音素，即，距离最小的音素来作为基准音素。
[0061]图4的(b)表示从音素串“r，a:，m，e，N”的各音素和静音素“sil”中选择的基准音素。
[0062]在第O帧中，在各音素的距离中，音素“r”的距离“0.1”最小。由此，基准音素选择部131选择音素“r”来作为第O帧中的基准音素。
[0063]在第I帧中，在各音素的距离中，音素“m”的距离“0.2”最小。由此，基准音素选择部131选择音素“m”来作为第I帧中的基准音素。
[0064]在第2帧中，在各音素的距离中，音素“r”的距离“0.15”最小。由此，基准音素选择部131选择音素“r”来作为第2帧中的基准音素。
[0065]在第3帧中，在各音素的距离中，静音素“sil”的距离“0.1”最小。由此，基准音素选择部131选择静音素“sil”来作为第3帧中的基准音素。
[0066]如此当在各帧中选择了基准音素时，相对值计算部132针对检索对象的声音信号中的帧，计算音素串中包含的各音素的距离的、以基准音素的距离为基准的相对值。
[0067]具体来说，如图4的(C)所示那样，相对值计算部132针对各帧，将该帧的各音素的全部距离值除以基准音素的距离值。结果，基准音素的距离值为1，其它的音素距离值为I以上的值。如此，相对值计算部132以基准音素的距离值在全部的帧中为I的方式，在帧内对各音素的距离进行相对化处理。
[0068]通过这样的距离的相对化处理，使无论对于怎样的音素距离均小(输出概率大)的帧和无论对于怎样的音素距离均大(输出概率小)的帧均勾化。结果，能够抑制在后述的似然计算中，在似然计算区间的帧中一部分帧的距离成为支配性的，并由此造成的误检测。
[0069]时间长度导出部113从时间长度存储部104取得变换部112变换后的音素串中包含的各音素的平均连续长度。接着，根据取得的平均连续长度，导出与检索词相对应的声音的发音时间长度。
[0070]S卩，声音检索装置100因为通过字符串取得查询，所以无法直接取得与该查询对应的声音的发音时间长度的信息。因此，声音检索装置100针对音素的每个状态，预先在时间长度存储部104中准备发音时的典型的连续长度，使用每个状态的连续长度，估计与检索词取得部111取得的检索词相对应的声音的发音时间长度。
[0071]例如，在音素串为“r，a:，m，e，N”时，时间长度导出部113取得分别针对该5个音素的3个状态在时间长度存储部104中存储的共计15个平均连续长度。接着，作为与检索词相对应的声音的发音时间长度，导出将取得的15个平均连续长度进行相加而得到的时间长度。
[0072]区间指定部114从声音信号存储部101，取得检索对象的声音信号，从检索对象的声音信号的起始开始按顺序，指定时间长度导出部113导出的时间长度的区间即似然计算区间。似然是表示与检索词相对应的声音和指定的区间的声音信号的类似程度的指标。
[0073]图3的(C)表示在检索对象的声音信号中通过区间指定部114指定的似然计算区间。区间指定部114首先指定包括从第O帧到第(M-1)帧的M个帧的时间长度L的第O似然计算区间。
[0074]搜索部117根据相对值计算部132计算出的相对值，通过动态规划法(DP (动态规划Dynamic Programming)匹配)来搜索区间指定部114指定的似然计算区间中的各帧与音素串中包含的各音素的对应。即，搜索部117在假定为从区间指定部114指定的似然计算区间发出了与检索词相对应的声音的情况下，搜索该似然计算区间内的各帧的声音信号与哪个音素相对应。
[0075]例如，在图5中采用了距离的矩阵，表示了区间指定部114指定的似然计算区间中包含的第O帧到第10帧的各帧与音素串“r，a:，m，e，N”的各音素的对应的搜索。图5通过箭头表示假定第O?2帧与音素“r”相对应，第3?5帧与音素“a: ”相对应，第6?7帧与音素“m”相对应，第8?9帧与音素“e”相对应，第10帧与音素“N”相对应时的路径。另外，框内的数字表示相对值计算部132针对各帧和各音素计算出的距离的相对值。
[0076]如此，搜索部117使音素串中包含的某个音素与从起始的帧到末尾的帧的各帧相对应。接着，搜索部117沿着通过建立对应关系而取得的路径，累积距离的相对值，并通过DP匹配来搜索所累积的值为最小的最大似然序列。
[0077]似然计算部118根据通过搜索部117的搜索而与各帧建立对应关系的各音素的由相对值计算部132计算出的相对值，计算表示区间指定部114所指定的似然计算区间为发出与检索词相对应的声音的区间的可能性的似然。具体来说，似然计算部118对沿着通过搜索部117建立对应关系而取得的最大似然序列的路径累积距离的相对值而取得的值，执行累积相对值而取得的值越小似然越大的运算，来取得该似然计算区间的似然。
[0078]重复部119改变区间指定部114指定的似然计算区间，重复进行区间指定部114、搜索部117与似然计算部118的处理。
[0079]具体来说，参照图3的(C)来进行说明，重复部119使区间指定部114指定的似然计算区间移动I帧，重新指定包括从第I帧到第M帧的M个帧的时间长度L的第I似然计算区间。另外，在新指定的第I似然计算区间中，进行与上述搜索部117和似然计算部118的处理相同的处理，计算第I似然计算区间的似然。
[0080]同样地，重复部119从第2似然计算区间到第(P-1)似然计算区间，使区间指定部114指定的似然计算区间移动I帧，针对在检索对象的声音信号中能够指定的P个似然计算区间，分别计算似然。结果，针对检索对象的声音信号的每一帧，计算假定从该区间发出了与检索词相对应的声音时的似然。另外，关于在检索对象的声音信号中能够指定的似然计算区间的数量P，采用声音信号的时间长度T和似然计算区间的时间长度L以及移动长度S，决定为 P = (T-L+S)/So
[0081]确定部120根据似然计算部118针对区间指定部114指定的各个似然计算区间计算出似然，从区间指定部114指定的似然计算区间中，确定被推定为从检索对象的声音信号中发出与检索词相对应的声音的推定区间。例如，确定部120按照似然计算部118计算出的似然从大到小的顺序，将预定数量的区间确定为推定区间。把确定部120确定的区间的位置信息作为最终的检索结果，经由输出装置5所具有的画面向外部显示。
[0082]参照图6所示的流程图，对上述那样的声音检索装置100执行的声音检索处理的流程进行说明。
[0083]当检索词取得部111取得检索词时(步骤Sll)，开始图6所示的流程图的处理。如果检索词取得部111取得检索词，则变换部112将检索词变换为音索串(步骤S12)，按照音素串的音素顺序，排列声学模型的音素(步骤S13)。具体来说，变换部112将作为字符串输入的检索词变换为基于单音的单音音素串等。
[0084]如果将检索词变换为音素串，则输出概率取得部116根据检索对象的声音信号的特征量和声学模型，取得从音素串包含的各音素中输出各帧的特征量的输出概率(步骤S14) ο另外，该特征量通过特征量计算部115预先计算出。特征量计算部115从检索对象的声音信号的起始到末尾，每次指定I个帧，依次计算指定的帧的声音信号的特征量。
[0085]如果输出概率取得部116取得了输出概率，则相对化计算部130对已取得的输出概率执行相对化运算处理(步骤S15)。关于该相对化运算处理的详细内容，参照图7所示的流程图来进行说明。
[0086]相对化计算部130指定检索对象的声音信号中的起始的帧(步骤S151)。基准音素选择部131在指定的帧内选择距离最小的音素来作为基准音素(步骤S152)。相对值计算部132计算指定的帧内的各音素的距离的、以基准音素的距离为基准的相对值(步骤S153)ο
[0087]如果如上那样指定的帧的距离的相对化结束，则相对化运算部130判定是否指定了检索对象的声音信号中的全部的帧(步骤S154)。在全部帧的指定未结束时(步骤S154 ；否)，相对化计算部130指定下一帧(步骤S155)，将处理返回到步骤S152。S卩，相对化运算部130对新指定的帧，执行距离的相对化运算处理。
[0088]如此，相对化计算部130针对全部的帧，重复进行距离的相对化运算处理，计算以基准音素为基准的距离的相对值。最终如果全部帧的指定结束(步骤S154;是)，则图7所示的相对化运算处理结束。
[0089]返回到图6所示的流程图，如果相对化运算处理结束，则时间长度导出部113导出与检索词相对应的声音的发音时间长度(步骤S16)。具体来说，时间长度导出部113取得在时间长度存储部104中针对音素的每个状态而存储的平均连续长度，对取得的平均连续长度进行加法运算，由此导出与检索词相对应的声音的发音时间长度。
[0090]如果时间长度导出部113导出发音时间长度，贝Ij声音检索处理转移到从检索对象的声音信号的起始到末尾，按顺序指定导出的发音时间长度的区间即似然计算区间，来计算似然的处理。首先，区间指定部114指定从检索对象的声音信号的起始帧开始的似然计算区间(步骤S17)。
[0091]如果区间指定部114指定了似然计算区间，则搜索部117根据相对化运算部130的相对化运算结果，通过DP匹配来搜索指定的似然计算区间的各帧与音素串中包含的各音素的对应(步骤S18)。
[0092]似然计算部118根据通过搜索部117的搜索与各帧建立了对应关系的各音素的由相对值计算部132计算出的相对值，计算表示区间指定部114所指定的似然计算区间为发出与检素词相对应的声音的区间的可能性的似然(步骤S19)。如果似然计算部118计算出似然，则重复部119判断检索对象的声音信号的全部区间的似然计算是否结束(步骤S20)。
[0093]在全部区间的似然计算没有结束时(步骤S20 ;否)，区间指定部114指定从刚指定的帧的下一帧开始的似然计算区间(步骤S21)，声音检索处理返回到步骤S18。接着，重复部119对新指定的似然计算区间，重复上述步骤S18?S20的处理，来计算似然。如此，重复部119在到达检索对象的声音信号的末尾之前，每次将区间指定部114指定的似然计算区间移动I帧，依次计算似然。
[0094]最终，如果全部区间的似然计算结束(步骤S20 ;是)，则确定部120根据计算出的似然，确定与检索词对应的区间(步骤S22)。例如，确定部120按照似然计算部118计算出的似然从大到小的顺序，将预定数量的区间确定为被推定为发出与检索词相对应的声音的区间。接着，确定部120经由输出装置5，输出确定结果(步骤S23)。根据已上所述，声音检索装置100执行的声音检索处理结束。
[0095]如以上说明的那样，实施方式I的声音检索装置100在检索对象的声音信号内的各帧，以基准音素的距离为基准对各音素的距离进行相对化处理。接着，根据相对化处理后的结果，确定被推定为从检索对象的声音信号中发出了与检索词相对应的声音的区间。结果，能够抑制由于存在像长音或接近无声的信号的区间那样，无论对于怎样的音素距离均小的区间和不是这样的区间而造成的误检测，可高精度地进行声音检索。
[0096](实施方式2)
[0097]下面对本发明的实施方式2进行说明。
[0098]实施方式2的声音检索装置与实施方式I的声音检索装置100相同，物理上如图1所示那样构成。因此，在此省略详细的说明。
[0099]实施方式2的声音检索装置在功能上如图8所示那样构成。声音检索装置200不具备实施方式I的声音检索装置100所具备的相对化运算部130，取而代之具有标准化运算部140。其它各部分的功能基本上与实施方式I的声音检索装置100具备的各部分相同。由此，以下关于与实施方式I共同的功能的说明，适当进行省略。
[0100]声音信号存储部101存储检索对象的声音信号。声学模型存储部102存储声学模型。时间长度存储部104以各音素的状态单位存储在声学模型中采用的各音素的平均连续长度。
[0101]检索词取得部111取得检索词。变换部112按照检索词取得部111取得的检索词，对声学模型的音素进行排列，将检索词变换为音素串。
[0102]特征量计算部115从声音信号存储部101取得检索对象的声音信号，针对每一帧计算检索对象的声音信号的特征量。输出概率取得部116根据特征量计算部115计算出的特征量，针对每一帧取得从音素串包含的各音素中输出该特征量的输出概率。
[0103]时间长度导出部113从时间长度存储部104取得变换部112变换后的音素串中包含的各音素的平均连续长度。接着，根据取得的平均连续长度，导出与检索词相对应的声音的发音时间长度。
[0104]区间指定部114从声音信号存储部101取得检索对象的声音信号，从检索对象的声音信号的起始开始按顺序，指定时间长度导出部113导出的时间长度的区间即似然计算区间。例如，如图3的(C)所示的那样，区间指定部114首先指定包括从第O帧到第(M-1)帧的M个帧的时间长度L的第O似然计算区间。似然是表示与检索词相对应的声音与指定的区间的声音信号的类似程度的指标。
[0105]搜索部117根据输出概率取得部116取得的输出概率，通过DP匹配来搜索区间指定部114指定的似然计算区间中的各帧与音素串中包含的各音素的对应。即，搜索部117在假定为从区间指定部114指定的似然计算区间发出了与检索词相对应的声音的情况下，搜索该似然计算区间内的各帧的声音信号与哪个音素相对应。
[0106]例如，如图9所示，搜索部117搜索区间指定部114指定的似然计算区间中包含的第O帧到第10帧的各帧与音素串“r，a:，m，e，N”的各音素的对应。在图9中，通过箭头表示了假定第O?2帧与音素“r”相对应，第3?5帧与音素“a: ”相对应，第6?7帧与音素“m”相对应，第8?9帧与音素“e”相对应，第10帧与音素“N”相对应时的路径。框内的数字表示根据输出概率取得部116针对各帧和各音素取得的输出概率而计算出的距离。为了容易理解，仅表示了由箭头表示的路径通过的框内的数字。
[0107]如此，搜索部117使音素串中包含的某个音素与从起始的帧到末尾的帧的各帧相对应。接着，搜索部117通过DP匹配来搜索沿着通过建立对应关系而取得的路径累积的累积距离为最小的最大似然序列。
[0108]另外，搜索部117生成记录了通过基于DP匹配的搜索而取得的最大似然序列的路径中的累积距离的累积距离表和记录了迀移方向的迀移方向表。在图9的“累积距离”和“迀移方向”的列中表示累积距离表和迀移方向表的例子。累积距离表具有沿着通过搜索而取得的最大似然序列的路径，累积从第O帧到各帧的距离值而得到的值的信息。迀移方向表具有沿着通过搜索而取得的最大似然序列的路径，从各帧迀移到下一帧时的方向的信息。另外，向下箭头表示在从当前的帧迀移到下一帧时，不移到下一音素的情况。向右箭头表示在从当前的帧迀移到下一帧时，移到下一音素的情况。
[0109]似然计算部118根据通过搜索部117的搜索而与各帧建立了对应关系的各音素的由输出概率取得部116取得的输出概率，计算表示区间指定部114所指定的似然计算区间为发出与检索词相对应的声音的区间的可能性的似然。具体来说，似然计算部118对通过搜索部117建立对应关系而取得的最大似然序列的路径中的累积距离，执行累积距离越小似然越大的运算，来取得该似然计算区间的似然。
[0110]重复部119改变区间指定部114指定的似然计算区间，重复进行区间指定部114、搜索部117以及似然计算部118的处理。
[0111]具体地说，当参照图3的(C)进行说明时，重复部119使区间指定部114指定的似然计算区间移动I帧，新指定包括从第I帧到第M帧的M个帧的时间长度L的第I似然计算区间。接着，在新指定的第I似然计算区间，执行与上述搜索部117和似然计算部118的处理相同的处理。
[0112]同样地，重复部119从第2似然计算区间到第(p-1)似然计算区间，使区间指定部114指定的似然计算区间移动I帧，针对在检索对象的声音信号中能够指定的P个似然计算区间中的各个似然计算区间，进行与搜索部117和似然计算部118的处理相同的处理。由此，重复部119针对检索对象的声音信号的每I帧，生成累积距离表和迀移方向表，并计算假设从该区间发出了与检索词相对应的声音时的似然。
[0113]如果搜索部117针对检索对象的声音信号内的各似然计算区间，生成了累积距离表和迀移方向表，则标准化运算部140对于输出概率取得部116针对各音素取得的输出概率，基于通过搜索部117的搜索与各音素建立了对应关系的帧的数量执行标准化运算。
[0114]参照图10，对标准化运算部140的标准化运算处理进行说明。图10的(a)表示在区间指定部114指定的似然计算区间中，通过仅包含与检索词“歹一y y”相对应的音素串“r，a:，m，e，N”中的一部分的音素“a: ”的区间中的最大似然序列的搜索而取得的路径。另一方面，图10的(b)表示通过包含与检索词“歹一 7 V”相对应的音素串“r，a:，m，e，N”中的全部音素的区间中的最大似然序列的搜索而取得的路径。
[0115]在图10的(a)中，关于在全体路径中进行标准化后的累积距离，通过将全体路径中的累积距尚除以迁移数11，计算为“3.45 = (6+2+2+2+3+3+1+2+7+4+6)/I I ”。同样地，在图10的(b)中，关于在全体路径中进行标准化后的累积距离，通过将全体路径中的累积距1? 除以迁移数 11，计算为 “ 3.54 = (4+4+3+3+3+3+4+3+3+4+5) /11”。
[0116]S卩，仅包含与检索词相对应的音素串中的一部分音素的区间中的累积距离小于包含全部音素的区间中的累积距离。这是因为音素串中的一部分音素“a: ”的路径在全体路径中为较长的部分(图10的(a))占据了第I帧到第7帧。如此，在仅与检索词所对应的音素串中的一部分音素类似的音素占据较长的路径的情况下，容易判定为在整个音素串中类似度高。因此，如果以在全体路径中进行了标准化后的累积距离作为基准来进行声音检索时，有时产生误检测。
[0117]为了避免该情况，标准化运算部140在区间指定部114指定的似然计算区间，通过与该音素相对应的帧的数量，针对每个音素将基于针对通过搜索部117的搜索而与各帧建立了对应关系的各音素所取得的输出概率的值即距离，进行标准化处理然后进行加法运算，由此计算对每个音素进行了标准化后的累积距离。
[0118]在图10的(a)中，由于音素“r”仅与第O帧关联，故标准化运算部140将该音素的距离值“6”除以帧数“I”。由于音素“a: ”与从第I帧到第7帧的7个帧关联，所以标准化运算部140将该音素的累积距离值除以帧数“7”。如此，标准化运算部140直到音素串的末尾的音素为止，将各音素的累积距离除以与各音素相对应的帧的数量，即各音素的迀移数，取得针对每个音素进行标准化后的累积距尚“25.1 = 6/1+ (2+2+2+3+3+1+2) /7+7/1+4/1+6/I”。
[0119]同样地，在图10的(b)中，标准化运算部140从音素串的起始音素到末尾的音素，将各音素的累积距离除以与各音素对应的迀移数，取得针对每个音素进行标准化后的累积距离 “18.5 = (4+4)/2+(3+3+3+3)/4+4/1+(3+3)/2+(4+5)/2”。
[0120]作为计算针对每个音素进行标准化后的累积距离的结果，由于使各音素的权重均匀，所以仅包含与检索词相对应的音素串中的一部分音素的区间的累积距离大于包含全部音素的区间的累积距尚。由此，能够抑制误检测，能够以尚的精度进彳丁声音检索。
[0121]标准化运算部140针对区间指定部114指定的各似然计算区间，计算这样的针对每个音素进行标准化后的累积距离。接着，对针对每个音素进行标准化后的累积距离，执行累积距离越小似然越大的运算，计算对该似然计算区间的似然进行标准化后的标准化似然。
[0122]确定部120根据标准化运算部140计算出的标准化似然，从区间指定部114指定的似然计算区间中，确定被推定为从检索对象的声音信号中发出了与检索词相对应的声音的推定区间。例如，确定部120按照标准化运算部140计算出的标准化似然从大到小的顺序，将预定数量的区间确定为推定区间。将确定部120确定的区间的位置信息作为最终的检索结果，经由输出装置5具有的画面向外部显示。
[0123]参照图11所示的流程图，对以上这样的声音检索装置200进行的声音检索处理进行说明。
[0124]如果检索词取得部111取得检索词(步骤S31)，则图11所示的流程图的处理开始。如果检索词取得部111取得检索词，则变换部112将检索词变换为音素串(步骤S32)，按照音素串的音素顺序排列声学模型的音素(步骤S33)。具体来说，变换部112将作为字符串输入的检索词变换为基于单音素的单音素音素串等。
[0125]如果将检索词变换为音素串，则输出概率取得部116根据检索对象的声音信号的特征量和声学模型，取得从音素串中包含的各音素输出各帧的特征量的输出概率(步骤S34)。该特征量通过特征量计算部115而预先计算出。特征量计算部115从检索对象的声音信号的起始到末尾，每次指定I帧，依次计算指定的帧的声音信号的特征量。
[0126]当输出概率取得部116取得了输出概率时，时间长度导出部113导出与检索词相对应的声音的发音时间(步骤S35)。具体来说，时间长度导出部113取得在时间长度存储部104中针对音素的每个状态存储的平均连续长度，将取得的平均连续长度相加，由此导出与检索词相对应的声音的发音时间长度。
[0127]如果时间长度导出部113导出发音时间长度，则区间指定部114从检索对象的声音信号的起始到末尾，依次指定导出的发音时间长度的区间即似然计算区间。接着，搜索部117通过DP匹配搜索所指定的似然计算区间中的各帧与音素串中包含的各音素的对应，生成累积距离表和迀移方向表(步骤S36)。
[0128]在区间指定部114指定的各似然计算区间，如果搜索部117生成了累积距离表和迀移方向表，则标准化运算部140执行标准化运算处理(步骤S37)。参照图12所示的流程图，对该标准化运算处理的详细内容进行说明。
[0129]在标准化运算处理中，首先，标准化运算部140指定从检索对象的声音信号的起始帧开始的似然计算区间(步骤S371)。为了搜索部117生成累积距离表和迀移方向表，该似然计算区间与区间指定部114指定的区间相同。标准化运算部140再次从起始开始按照顺序，指定区间指定部114指定的似然计算区间。
[0130]如果指定了似然计算区间，则标准化运算部140对指定的似然计算区间的标准化后的累积距离(在下面称为“标准化距离”。)进行重置(步骤S372)。接着，标准化运算部140指定变换部112从检索词变换后的音素串的末尾的音素(步骤S373)。将指定的音素与前I个的音素的累积距离差除以通过指定的音素迀移的帧数，将其结果与标准化距离相加(步骤S374)。
[0131]具体地参照图9的例子来进行说明。图9所示的路径在音素串“r，a:，m，e，N”的末尾的音素“N”中，迀移第9、10帧这2个帧，从第8帧到第9帧，从前I个的音素“e”进行迀移。标准化运算部140参照指定的似然计算区间的迀移方向表，取得这样的迀移信息。根据该信息，标准化运算部140得出到末尾的音素“N”迀移的帧数为“2”。
[0132]另外，标准化运算部140通过参照累积距离表，取得到末尾的帧即第10帧的累积距离“47”、到前I个音素“e”的最后的帧即第8帧的累积距离“35”的信息。根据该信息，标准化运算部140得出从前I个音素“e迀移到末尾的音素“N”时起的累积距离差“12 =47-35”。接着，标准化运算部140将末尾的音素“N”的累积距离差“12”除以迀移的帧数“ 2 ”得到的值“ 6 ”与重置后的标准化距离相加。
[0133]如果结束了指定的音素的加法运算处理，则标准化运算部140判断指定的音素是否到达音素串的起始的音素(步骤S375)。在指定的音素没有达到起始的音素的情况下(步骤S375 ;否)，标准化运算部140指定前I个音素(步骤S376)，将处理返回到步骤S374。即，标准化运算部140从音素串的末尾的音素到起始的音素依次进行指定，重复进行将累积距离差除以通过指定的音素进行迀移的帧数，然后将得到的值与标准化距离相加的处理。
[0134]在指定的音素达到起始的音素时(步骤S375 ;是)，标准化运算部140根据取得的标准化距离，计算标准化似然，将其与区间的起始的帧和末尾的帧一起，存储在RAM2等的存储区域中(步骤S377)。
[0135]标准化运算部140将计算出的标准化似然和进行标准化前的似然进行比较，如果进行标准化前的似然大于标准化似然，则可以将进行标准化前的似然作为指定的似然计算区间的似然。
[0136]当如此指定的似然计算区间的似然的标准化结束时，标准化运算部140判断是否指定了检索对象的声音信号的全部似然计算区间(步骤S378)。在全部似然计算区间的指定没有结束时(步骤S378 ;否)，标准化运算部140指定从下一帧开始的似然计算区间(步骤S379)，将处理返回到步骤S372。S卩，标准化运算部140对新指定的似然计算区间，进行似然的标准化运算处理。
[0137]如此，标准化运算部140对检索对象的声音信号的全部似然计算区间，重复进行标准化运算处理，计算标准化似然。当最终全部似然计算区间的指定结束时(步骤S378 ;是)，图12所示的标准化运算处理结束。
[0138]返回图11所示的流程图的说明，如果对全部区间的似然进行了标准化，则确定部120根据标准化似然，确定与检索词相对应的区间(步骤S38)。例如，确定部120按照标准化似然从大到小的顺序，将预定数量的区间确定为被推定为发出了与检索词对应的声音的区间。接着，确定部120经由输出装置5，输出确定结果(步骤S39)。通过以上所述，声音检索装置200执行的声音检索处理结束。
[0139]如以上说明的那样，实施方式2的声音检索装置200在采用DP匹配的声音检索中，针对每个音素对通过DP匹配而取得的路径的累积距离进行标准化来进行计算。然后，根据进行标准化后的结果，确定被推定为从检索对象的声音信号中，发出了与检索词相对应的声音的区间。结果，能够抑制比包含全部音素的区间优先地检测出仅与检索词所对应的音素串中的部分音素相类似的区间的误检索，能够高精度地进行声音检索。
[0140](变形例)
[0141]以上，对本发明的实施方式进行了说明，但是上述实施方式为一个例子，本发明的适用范围并不限于此。即，本发明的实施方式可以有各种的应用，所谓的实施方式包括在本发明的范围中。
[0142]例如，在实施方式1、2中，检索词取得部111通过字符串(文本)取得了检索词(查询 )。但是，在本发明中，检索词取得部111也可通过声音取得检索词。此时，例如，输入装置4包括麦克风。另外，检索词取得部111经由麦克风，取得用户发出的声音，对取得的数据进行声音识别处理，变换为文本数据。声音检索装置100对该文本数据，进行与上述相同的声音检索处理。
[0143]另外，在实施方式I中，基准音素选择部131选择各帧的距离最小的音素来作为基准音素。但是，在本发明中，基准音素选择部131选择距离最大，即，输出概率最小的音素来作为基准音素等，可以通过其它的基准选择基准音素。
[0144]此外，在实施方式I中，相对化运算部130对于检索词取得部111取得的检索词中包含的音素和静音素，从其中选择基准音素来进行相对化运算。但是，在本发明中，可以使相对化运算部130针对对于声学模型中包含的全体音素或全体单音素音计算出的输出概率或距离，从其中选择基准音素来进行相对化运算。
[0145]此外，在实施方式I中，相对值计算部132针对检索对象的声音信号的各帧，计算音素串中包含的各音素的距离的以基准音素的距离为基准的相对值。但是，在本发明中，相对值计算部132并不限于计算相对于基准音素的距离的相对值，还可以计算输出概率本身的相对值，也可根据输出概率，计算其它的值的相对值，由此，能够在帧之间使确定部120用于确定与检索词相对应的区间的指标的权重均匀化。
[0146]此外，在实施方式2中，标准化运算部140针对各似然计算区间，计算对每个音素进行标准化后的累积距离，并根据它计算标准化似然。但是，在本发明中，标准化的对象不限于距离。例如，标准化运算部140也可针对每个音素对输出概率本身进行标准化，通过取得进行了标准化后的输出概率在对数轴上的和来计算标准似然。
[0147]另外，本发明的声音检索装置可以将实施方式I的声音检索装置100所具有的相对化运算部130以及实施方式2的声音检索装置200所具有的标准化运算部140全部具备。此时，标准化运算部140对于在实施方式I中详细描述的相对化运算部130运算后的输出概率，执行在实施方式2中详细描述的标准化运算。具体地说，标准化运算部140在区间指定部114指定的似然计算区间，通过与该各音素对应的帧数，对每个音素将基于针对通过搜索部117的搜索而与各帧建立了对应关系的各音素取得的相对化运算部130运算后的输出概率的值进行标准化，然后进行加法运算，由此计算标准化似然。由此，本发明的声音检索装置可将相对化运算部130的效果和标准化运算部140的效果全部获得，因此能够以更尚的精度进彳丁音素检索。
[0148]此外，能够提供预先具备用于实现本发明的功能的结构的声音检索装置这一点是当然的，而且还可通过应用程序，使既有的个人计算机、信息终端装置等具有本发明的声音检索装置的功能。即，应用用于实现在上述实施方式中列举的声音检索装置100、200的各功能结构的程序，使用于控制既有的个人计算机、信息终端设备等的CPU等可运行该程序，由此能够具有本发明的声音检索装置的功能。另外，可采用声音检索装置来执行本发明的声音检索方法。
[0149]另外，这样的程序的应用方法是任意的。例如，可将程序存储在计算机可读取的记录介质(⑶-ROM(压缩盘只读存储器，Compact Disc Read-Only Memory)、DVD (数字多功能光盘，Digital Versatile Disc)、MO(磁光盘，Magneto Optical disc)等)中来应用。另夕卜，还可将程序存储在互联网等网络上的存储器，通过下载该程序来应用。
【主权项】
1.一种声音检索装置，其特征在于，具备: 检索词取得单元，其取得检索词；变换单元，其将上述检索词取得单元取得的检索词变换为音素串；输出概率取得单元，其针对每一帧，取得从上述音素串中包含的各音素输出的检索对象的声音信号的特征量的输出概率；相对化运算单元，其对于上述输出概率取得单元针对上述各音素取得的输出概率，基于针对上述音素串中包含的另一音素取得的输出概率执行相对化运算；区间指定单元，其在上述检索对象的声音信号中指定多个似然取得区间；似然取得单元，其根据上述相对化运算单元的运算后的输出概率，取得表示上述区间指定单元指定的似然取得区间为发出了与上述检索词对应的声音的区间的可能性的似M.JWS ，确定单元，其根据上述似然取得单元从上述区间指定单元所指定的似然取得区间中的各个似然取得区间取得的似然，确定被推定为从上述检索对象的声音信号中发出了与上述检索词对应的声音的推定区间。2.根据权利要求1所述的声音检索装置，其特征在于，上述相对化运算单元包含: 基准音素选择单元，其针对上述检索对象的声音信号中的各帧，从上述音素串中包含的音素中选择基准音素；相对值计算单元，其针对上述检索对象的声音信号中的各帧，根据a)基于针对上述音速串中包含的各音素而取得的该各帧的输出概率的值和b)基于针对上述基准音素而取得的该各帧的输出概率的值，计算相对值。3.根据权利要求2所述的声音检索装置，其特征在于，上述输出概率取得单元针对每一帧还取得从静音素输出上述检索对象的声音信号的特征量的输出概率，上述基准音素选择单元针对上述检索对象的声音信号的各帧，从上述音素串中包含的音素和上述静音素中，选择该各帧的输出概率最大的音素来作为上述基准音素。4.根据权利要求1所述的声音检索装置，其特征在于，还具备搜索单元，其根据上述相对化运算单元的运算后的输出概率，通过动态规划法，搜索上述区间指定单元指定的似然取得区间中的各帧与上述音素串中包含的各音素的对应，上述似然取得单元根据通过上述搜索单元的搜索而与各帧相对应的各音素的上述相对化运算单元的运算结果，取得上述区间指定单元指定的似然取得区间的上述似然。5.根据权利要求4所述的声音检索装置，其特征在于，还具备标准化运算单元，其在上述区间指定单元指定的似然取得区间，对于上述相对化运算单元的运算后的输出概率，基于与该各音素对应的帧的数量进行标准化运算，计算对该似然取得区间的上述似然进行标准化后的标准化似然，上述确定单元根据上述标准化运算单元计算出的标准化似然，从上述区间指定单元指定的似然取得区间中确定上述推定区间。6.根据权利要求5所述的声音检索装置，其特征在于，上述标准化运算单元在上述区间指定单元指定的似然取得区间，通过与该各音素对应的帧的数量，针对每个音素对基于上述相对化运算单元的运算后的输出概率的值进行标准化然后进行加法运算，由此计算上述标准化似然。7.一种声音检索方法，其特征在于，包括: 检索词取得步骤，取得检索词；变换步骤，将在上述检索词取得步骤取得的检索词变换为音素串；输出概率取得步骤，针对每一帧，取得从上述音素串中包含的各音素输出的检索对象的声音信号的特征量的输出概率；相对化运算步骤，对于在上述输出概率取得步骤针对上述各音素取得的输出概率，基于针对上述音素串中包含的另一音素取得的输出概率执行相对化运算；区间指定步骤，在上述检索对象的声音信号中指定多个似然取得区间；似然取得步骤，根据上述相对化运算步骤的运算后的输出概率，取得表示在上述区间指定步骤指定的似然取得区间为发出了与上述检索词对应的声音的区间的可能性的似M.JWS ，确定步骤，其根据在上述似然取得步骤中从在上述区间指定步骤指定的似然取得区间中的各个似然取得区间取得的似然，确定被推定为从上述检索对象的声音信号中发出了与上述检索词对应的声音的推定区间。8.根据权利要求7所述的声音检索方法，其特征在于，上述相对化运算步骤包含: 基准音素选择步骤，针对上述检索对象的声音信号中的各帧，从上述音素串中包含的音素中选择基准音素；相对值计算步骤，针对上述检索对象的声音信号中的各帧，根据a)基于针对上述音速串中包含的各音素而取得的该各帧的输出概率的值和b)基于针对上述基准音素而取得的该各帧的输出概率的值，计算相对值。9.根据权利要求8所述的声音检索方法，其特征在于，在上述输出概率取得步骤中，针对每一帧还取得从静音素输出上述检索对象的声音信号的特征量的输出概率，在上述基准音素选择步骤中，针对上述检索对象的声音信号的各帧，从上述音素串中包含的音素和上述静音素中，选择该各帧的输出概率最大的音素来作为上述基准音素。10.根据权利要求7所述的声音检索方法，其特征在于，还具备搜索步骤，根据上述相对化运算步骤的运算后的输出概率，通过动态规划法，搜索上述区间指定步骤指定的似然取得区间中的各帧与上述音素串中包含的各音素的对应，在上述似然取得步骤中，根据通过上述搜索步骤中的搜索而与各帧相对应的各音素的上述相对化运算步骤的运算结果，取得上述区间指定步骤指定的似然取得区间的上述似然。11.根据权利要求10所述的声音检索方法，其特征在于，还具备标准化运算步骤，在上述区间指定步骤指定的似然取得区间，对于上述相对化运算步骤的运算后的输出概率，基于与该各音素对应的帧的数量进行标准化运算，计算对该似然取得区间的上述似然进行标准化后的标准化似然，在上述确定步骤中，根据上述标准化运算步骤计算出的标准化似然，从上述区间指定步骤指定的似然取得区间中确定上述推定区间。12.根据权利要求11所述的声音检索方法，其特征在于，在上述标准化运算步骤中，在上述区间指定步骤指定的似然取得区间，通过与该各音素对应的帧的数量，针对每个音素对基于上述相对化运算步骤的运算后的输出概率的值进行标准化然后进行加法运算，由此计算上述标准化似然。
【专利摘要】检索词取得部(111)取得检索词。变换部(112)将检索词变换为音素串。输出概率取得部(116)针对每一帧，取得从音素串中包含的各音素输出检索对象的声音信号的特征量的输出概率。相对化运算部(130)对于输出概率，根据对于音素串中包含的另一音素取得的输出概率执行相对化运算。区间指定部(114)依次指定似然取得区间。似然取得部(118)取得表示似然取得区间为发出与检索词对应的声音的区间的可能性的似然。确定部(120)根据似然取得部(118)取得的似然，确定被推定为从检索对象的声音信号中发出了与检索词相对应的声音的推定区间。
【IPC分类】G06F17/30
【公开号】CN104899240
【申请号】CN201510096120
【发明人】富田宽基
【申请人】卡西欧计算机株式会社
【公开日】2015年9月9日
【申请日】2015年3月4日
【公告号】US20150255060

2012-2014专利技术

最新回复(0)