本发明属于语音处理,具体涉及一种基于多触发的说话人验证技术的后门攻击方法。
背景技术:
1、说话人验证,是一种广泛应用基于说话者语音确认说话者身份的方法。最近,基于深度学习的说话者验证技术在包括银行交易、执法和远程身份验证在内的许多应用场景中被广泛使用。主要的说话者验证流程包括三个阶段:训练、注册和测试。在训练过程中,模型训练了一个用于提取说话者语音特征的特征提取器。其次,在注册阶段,模型通过特征提取器提取注册说话者的特征。最终,在测试阶段,模型计算测试语音的特征与注册说话者语音的相似度分数,并根据相似度分数判断测试语音是否属于该说话者。
2、深度神经网络(dnns)已经在说话者验证中展现出了出色的性能。然而,最近的研究发现,它们存在着脆弱性,并且基于dnns的说话者验证系统特别容易受到各种攻击的影响,例如后门攻击。具体来说,后门攻击是一种在训练阶段注入后门的技术。它包括两个操作:触发器注入和触发器激活。触发器注入发生在训练阶段,攻击者在将后门触发器嵌入目标模型中,从而产生中毒攻击模型。触发器激活是指测试样本中注入的触发器激活后门,并控制模型生成攻击者指定的预测结果。后门攻击起源于图像分类领域,目前在语音处理领域相关工作较少。在说话者验证中,注册的说话者通常不包含在训练数据集中,因此,对说话者验证的后门攻击是一种开放集攻击。然而,传统的后门攻击集中在闭集任务上,并不适用于说话者验证。为了解决这个问题,相关工作进行了一些关于说话者验证的后门攻击研究。翟等人提出使用聚类方法为每个说话者群注入不同的触发器来进行攻击。koffas等人利用超声波作为触发器来增强攻击的隐蔽性。于等人利用生成方法生成触发器进行后门攻击。
3、然而,本申请的发明人发现,这些研究只集中在单一类型的触发器攻击上,单一触发特定依赖于某一类触发,攻击性能有待提升。
技术实现思路
1、为了克服现有技术的不足,本发明提供了一种基于多触发的说话人验证技术的后门攻击方法,该方法利用多触发器构建中毒数据弥补说话人验证领域后门攻击方法的不足以及单触发攻击性能不佳的问题。包含说话人聚类及中毒数据集构建,利用k-means方法将所有训练数据的说话人依据语音特征相似度分类,完成聚类,将单热谱噪声、鸟叫声以及音乐声视为触发,在频域层面将多触发同时注入每一聚类语音的非静音片段前后180帧完成中毒数据集构建;说话人验证中毒模型构建,基于中毒数据训练模型,强化多触发器与模型之间联系;攻击系统性能验证,将多触发器同时注入测试语音构建攻击语音,计算攻击语音特征与声纹注册库语音特征相似度得分验证攻击性能。本发明采用多类触发器在保证隐蔽性的前提下,有效提升说话人验证系统的后门攻击成功率。
2、本发明解决其技术问题所采用的技术方案如下:
3、步骤1:基于多触发的说话人验证系统的后门攻击模型,将不同说话者利用k-means聚类分成不同所属类别;所述后门攻击模型的触发为单热谱噪声、鸟叫声以及音乐声三种不同类型声音;在频域层面将多触发同时注入每一聚类语音的非静音片段完成中毒数据集构建;
4、步骤2:基于中毒数据集训练说话人验证中毒模型;构建多触发器和目标攻击对象之间的联系,对说话人验证中毒模型进行迭代训练至收敛,得到训练完成的说话人验证中毒模型;
5、步骤3:对测试语音均等注入单热谱噪声、鸟叫声以及音乐声三类触发,完成攻击语音的构建,通过说话人验证中毒模型提取攻击语音和已注册语音的特征向量,通过计算攻击语音特征和已注册语音特征之间的得分相似度,根据给定阈值判定,判定是否攻击成功。
6、优选地,所述步骤1中将不同说话者利用k-means聚类分成不同所属类别,具体如下:
7、将训练集中的所有说话者进行聚类,并为每个聚类注入不同的触发器,设训练数据包含m个说话者,首先,通过语音活动检测来检测每个话语x的非静音段,通过特征提取器提取每个非静音段的特征,对于每个说话者mi,fmi表示所有非静音段特征的平均特征,给定所有fmi,使用k-means聚类方法完成说话者聚类。
8、优选地,所述步骤1中,在频域层面将多触发同时注入每一聚类语音的非静音片段完成中毒数据集构建;具体如下:
9、每个聚类包含三类触发,分别为单热谱噪声,鸟叫声,音乐声,中毒数据的数量由计算每个扬声器的非静音段数量nr、中毒率p%和总非静音段数量ntotal决定,通过以下公式表示:
10、nr=p%×ntotal
11、其中,nr根据触发器类型的数量进行均匀分配,触发器取代原始非静音段的一部分,完成触发器注入,构建中毒数据,触发注入均在频域完成。
12、优选地,所述步骤2具体为:
13、使用添加了触发的中毒数据作为训练数据,说话者的id作为标签,对参数初始化后的说话人验证中毒模型进行迭代训练至收敛,得到训练完成的说话人验证中毒模型。
14、优选地,所述步骤3中,依据余弦相似度计算攻击语音特征与已注册语音特征之间的得分相似度,阈值为基于等错误率得出。
15、优选地,所述余弦相似度通过以下公式表示:
16、
17、其中,a为注册语音特征向量,b为攻击语音特征向量,ai和bi分别表示注册语音特征向量某一特征值和攻击语音特征向量某一特征值,对应特征值相乘求和再除以各自对应范数反应a和b向量在相同维度上的相似程度。
18、优选地,所述阈值为等错误率下所对应的阈值,等错误率为错误接受率与错误拒绝率相等时的值,错误接受率是非目标语音但被认为是目标语音的概率,错误拒绝率为目标语音但被认为是非目标语音的概率。
19、本发明的有益效果如下:
20、1、本发明方法探究了多触发对于说话人验证后门攻击的实验效果,组合三类触发进行实验,据我们所知多类触发是在本方向的首次探索。
21、2、本发明方法在timit和voxceleb2数据集进行实验,所述结果相比现有单类触发攻击成功率分别提升5.5%和19.4%。
22、3、本发明方法为声纹安全领域提供了新的防御关注点,关注多类触发的攻击威胁而不局限于单类触发威胁。
1.一种基于多触发的说话人验证技术的后门攻击方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于多触发的说话人验证技术的后门攻击方法,其特征在于,所述步骤1中将不同说话者利用k-means聚类分成不同所属类别,具体如下:
3.根据权利要求2所述的一种基于多触发的说话人验证技术的后门攻击方法,其特征在于,所述步骤1中,在频域层面将多触发同时注入每一聚类语音的非静音片段完成中毒数据集构建;具体如下:
4.根据权利要求3所述的一种基于多触发的说话人验证技术的后门攻击方法,其特征在于,所述步骤2具体为:
5.根据权利要求4所述的一种基于多触发的说话人验证技术的后门攻击方法,其特征在于,所述步骤3中,依据余弦相似度计算攻击语音特征与已注册语音特征之间的得分相似度,阈值为基于等错误率得出。
6.根据权利要求5所述的一种基于多触发的说话人验证技术的后门攻击方法,其特征在于,所述余弦相似度通过以下公式表示:
7.根据权利要求6所述的一种基于多触发的说话人验证技术的后门攻击方法,其特征在于,所述阈值为等错误率下所对应的阈值,等错误率为错误接受率与错误拒绝率相等时的值,错误接受率是非目标语音但被认为是目标语音的概率,错误拒绝率为目标语音但被认为是非目标语音的概率。
