一种融合GMM和ResNext的说话人确认方法

xiaoxiao7月前  44


本发明涉及说话人确认,具体为一种融合gmm和resnext的说话人确认方法。


背景技术:

1、自动说话人确认(automatic speaker verification,asv)系统是一种根据说话人的声音信息进行身份认证的系统,目前正被广泛用于手机解锁、智能门禁、银行身份验证等各种生活场景。

2、随着近年来深度学习模型的应用,asv系统也取得了重大进展,获得了较高的识别性能。但是,在选取语音信号输入特征、设计网络结构、提高asv系统的准确率和速度以及提高系统鲁棒性等方面仍有较大的研究空间。因此,基于深度学习的文本无关说话人确认技术是一个重要的研究课题,有较高的实际应用价值。


技术实现思路

1、针对现有技术的不足,本发明提供了一种融合gmm和resnext的说话人确认方法,其目的在于解决背景技术中的问题。

2、为实现上述目的,本发明提供如下技术方案:一种融合gmm和resnext的说话人确认方法,包括如下步骤:

3、步骤s1:获取不同说话人的语音数据作为原始语音数据;

4、步骤s2:计算原始语音数据的梅尔频率倒谱系数特征;

5、步骤s3:在原始语音数据的梅尔频率倒谱系数特征上构建512阶高斯混合模型;

6、步骤s4:将原始语音数据的梅尔频率倒谱系数特征作为512阶高斯混合模型的输入,计算得到512阶的对数高斯概率特征;

7、步骤s5:构建多尺度resnext模型,将计算得到的512阶的对数高斯概率特征作为多尺度resnext模型的输入,对所述多尺度resnext模型进行训练,将训练好的多尺度resnext模型与512阶高斯混合模型组合成多尺度gmm-resnext模型;

8、多尺度resnext模型由6个阶段组成;第一阶段依次由卷积核为3的一维卷积层、批量归一化层、relu非线性激活层组成,卷积核为3的一维卷积层的输入通道数和输出通道数均为512;第二阶段、第三阶段、第四阶段和第五阶段分别由3、3、9、3个多尺度残差块组成;第六阶段由注意力统计池化层和全连接层组成;第二阶段、第三阶段、第四阶段和第五阶段的多尺度残差块均为依次连接;

9、步骤s6:将两条实时的语音数据导入多尺度gmm-resnext模型对说话人进行确认,判断这两条实时的语音数据是否属于同一个说话人。

10、进一步的,步骤s3中高斯混合模型由k个具有不同权重和不同参数的单高斯概率密度函数线性加权组合而成;高斯混合模型的概率密度函数表示为:

11、(1);

12、式中,是高斯分量个数;为原始语音数据的梅尔频率倒谱系数特征;为高斯混合模型的第个高斯分量的权重,且满足;是单高斯概率密度函数,表示为:

13、(2);

14、式中,为均值向量;为协方差矩阵;表示的长度。

15、进一步的,所述步骤s4的具体过程为:

16、步骤s4.1:将原始语音数据的梅尔频率倒谱系数特征作为512阶高斯混合模型的输入,计算原始语音数据的梅尔频率倒谱系数特征的对数高斯概率特征,其中,第个对数高斯概率特征计算公式为:

17、(3);

18、步骤s4.2:对进行均值方差归一化,得到512阶的对数高斯概率特征,表示为:

19、(4);

20、式中,和分别为对数高斯概率特征在原始语音数据上的均值与标准差。

21、进一步的,步骤s5中,构建多尺度resnext模型,将计算得到的512阶的对数高斯概率特征作为多尺度resnext模型的输入,多尺度resnext模型处理512阶的对数高斯概率特征的具体过程为:

22、步骤s5.1:构建多尺度resnext模型,将512阶的对数高斯概率特征作为多尺度resnext模型的输入;

23、步骤s5.2:多尺度resnext模型将512阶的对数高斯概率特征映射成一个2048*t的二维向量;其中,t表示总数;

24、步骤s5.3:将2048*t的二维向量进行注意力统计池化操作,得到固定大小为4096的一维向量;

25、步骤s5.4:将固定大小为4096的一维向量输入到全连接线性层进行降维,得到大小为256的一维向量,即每条原始语音数据的低维说话人嵌入向量;

26、将512阶的对数高斯概率特征输入到多尺度resnext模型中进行处理,512阶的对数高斯概率特征经过第一阶段、第二阶段、第三阶段、第四阶段和第五阶段后产生各个阶段的输出,将第一阶段、第二阶段、第三阶段、第四阶段和第五阶段的输出进行拼接,然后输入到第六阶段进行降维后得到多尺度resnext模型的输出,即说话人嵌入向量。

27、进一步的,所述多尺度残差块由三个部分组成;

28、第一部分包括依次连接的卷积核为1的一维标注卷积层、批量归一化层和relu非线性激活层;

29、第二部分包括三个并行的一维卷积层以及三个并行的一维卷积层后分别依次连接的批量归一化层和relu非线性激活层,三个并行的一维卷积层的卷积核分别为3、5、7,三个并行的一维卷积层的扩展率分别为1、2、3;将三个并行的一维卷积层的输出进行逐元素相加得到第二部分的输出;

30、第三部分由卷积核为1的一维标准卷积层、批量归一化层、se模块和relu非线性激活层组成。

31、进一步的,多尺度残差模块的输入通道数和输出通道数均为512;多尺度残差模块的处理流程如下:

32、(5);

33、(6);

34、(7);

35、(8);

36、(9);

37、(10);

38、式中,表示多尺度残差模块的输入;表示批量归一化操作;表示非线性激活函数relu;表示卷积核为1的一维卷积层;表示卷积核为3、扩展率为1的一维卷积层;表示卷积核为5、扩展率为2的一维卷积层;表示卷积核为7、扩展率为3的一维卷积层;表示经过第一部分后的输出;、和分别表示经过三个并行的一维卷积层以及三个并行的一维卷积层后依次连接的批量归一化层和relu非线性激活层后的输出;表示经过第三部分的输出;表示多尺度残差模块的输出。

39、进一步的,所述步骤s5.3的具体过程为:使用注意力统计池来捕获2048*t的二维向量每一帧的权重系数,具体来说,对于处于时间帧t的2048*t的二维向量的帧级特征,首先计算标量分数,表示为:

40、(11);

41、式中,、、和均为注意力统计池的可训练参数;表示tanh激活函数;

42、接着使用softmax函数计算标量分数的归一化分数,表示为:

43、(12);

44、然后,通过归一化分数计算加权均值向量和加权标准差:

45、(13);

46、(14);

47、式中,⊙表示hadamard乘积;

48、最后,将加权均值向量和加权标准差进行拼接得到注意力统计池的输出,即固定大小为4096的一维向量。

49、进一步的,所述步骤s6的具体过程为:

50、步骤s6.1:将两条实时的语音数据输入多尺度gmm-resnext模型,得到两条实时的语音数据的说话人嵌入向量,根据得到的两条实时的语音数据的说话人嵌入向量计算余弦相似度得分;

51、步骤s6.2:根据余弦相似度得分判断两条实时的语音数据是否属于同一个说话人。

52、进一步的,步骤s2的具体过程为:首先对原始语音数据的语音信号预加重,预加重系数为0.97,接着进行分帧,帧长为25ms、帧移为10ms;然后将分帧的每一帧信号使用汉明窗进行加窗,并做512点傅里叶变换之后,输入到梅尔三角滤波器组进行处理,其中,梅尔三角滤波器的个数为80,处理完后进行对数运算和离散余弦变换,得到原始语音数据的梅尔频率倒谱系数特征。

53、进一步的,将原始语音数据的梅尔频率倒谱系数特征都沿时间轴保留200帧的固定长度,当原始语音数据的梅尔频率倒谱系数特征的长度大于200帧则直接进行截取,小于200帧则重复补齐。

54、与现有的技术相比,本发明具备以下有益效果:

55、(1)本发明采用基于一维卷积的多尺度残差块,用高斯分量数为512的高斯混合模型对原始语音数据的梅尔频率倒谱系数特征进行建模,提取相应的对数高斯概率特征,结合多尺度gmm-msnext模型能够有效提高说话人确认系统的性能。

56、(2)本发明通过采用多尺度resnext模型,将由不同核大小的卷积组成的并行多分支结构的输出进行融合,进而提取多尺度特征表示,同时也将所有阶段的最后一层的输出进行拼接,以生成池化层的多层次输入特征,从而充分融合模型中不同层次的特征信息,并提高模型提取更具有区分性的说话人嵌入的能力。


技术特征:

1.一种融合gmm和resnext的说话人确认方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种融合gmm和resnext的说话人确认方法,其特征在于:步骤s3中高斯混合模型由k个具有不同权重和不同参数的单高斯概率密度函数线性加权组合而成;高斯混合模型的概率密度函数表示为:

3.根据权利要求2所述的一种融合gmm和resnext的说话人确认方法,其特征在于:所述步骤s4的具体过程为:

4.根据权利要求3所述的一种融合gmm和resnext的说话人确认方法,其特征在于:步骤s5中,构建多尺度resnext模型,将计算得到的512阶的对数高斯概率特征作为多尺度resnext模型的输入,多尺度resnext模型处理512阶的对数高斯概率特征的具体过程为:

5.根据权利要求4所述的一种融合gmm和resnext的说话人确认方法,其特征在于:所述多尺度残差块由三个部分组成;

6.根据权利要求5所述的一种融合gmm和resnext的说话人确认方法,其特征在于:多尺度残差模块的输入通道数和输出通道数均为512;多尺度残差模块的处理流程如下:

7.根据权利要求6所述的一种融合gmm和resnext的说话人确认方法,其特征在于:所述步骤s5.3的具体过程为:使用注意力统计池来捕获2048*t的二维向量每一帧的权重系数,具体来说,对于处于时间帧t的2048*t的二维向量的帧级特征,首先计算标量分数,表示为:

8.根据权利要求7所述的一种融合gmm和resnext的说话人确认方法,其特征在于:所述步骤s6的具体过程为:

9.根据权利要求1所述的一种融合gmm和resnext的说话人确认方法,其特征在于:步骤s2的具体过程为:首先对原始语音数据的语音信号预加重,预加重系数为0.97,接着进行分帧,帧长为25ms、帧移为10ms;然后将分帧的每一帧信号使用汉明窗进行加窗,并做512点傅里叶变换之后,输入到梅尔三角滤波器组进行处理,其中,梅尔三角滤波器的个数为80,处理完后进行对数运算和离散余弦变换,得到原始语音数据的梅尔频率倒谱系数特征。

10.根据权利要求9所述的一种融合gmm和resnext的说话人确认方法,其特征在于:将原始语音数据的梅尔频率倒谱系数特征都沿时间轴保留200帧的固定长度,当原始语音数据的梅尔频率倒谱系数特征的长度大于200帧则直接进行截取,小于200帧则重复补齐。


技术总结
本发明公开了一种融合GMM和ResNext的说话人确认方法,包括如下步骤:采用高斯混合模型以及多尺度ResNext模型组合成多尺度GMM‑ResNext模型,将多尺度GMM‑ResNext模型用于对实时的两条语音数据进行说话人确认;其中,多尺度ResNext模型是通过高斯混合模型提取的原始语音数据的对数高斯概率特征进行训练得到,高斯混合模型通过原始语音数据提取梅尔频率倒谱系数特征进行训练得到;本发明采用基于一维卷积的多尺度残差块,用高斯分量数为512的高斯混合模型对原始语音数据进行建模,提取相应的对数高斯概率特征,结合多尺度GMM‑MSNext模型能够有效提高说话人确认的性能。

技术研发人员:雷震春,周勇
受保护的技术使用者:江西师范大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)