一种基于困惑度过滤的中文后门攻击防御方法

本发明涉及自然语言处理、人工智能等技术邻域，尤其涉及一种基于困惑度过滤的中文后门攻击防御方法。

背景技术：

1、近年来，深度神经网络(dnn)由于其强大的性能而被部署在各种现实世界的应用中。然而，与此同时，dnn面临着各种各样的威胁，引起了人们对其安全性的日益关注。后门攻击，或木马攻击，是dnn的一种潜在安全威胁。后门攻击的目的是在训练过程中将后门注入dnn模型，以便受害者模型(1)在正常输入上正常运行，就像没有后门的良性模型一样，(2)在嵌入有预先设计的触发器的输入上产生敌对方指定的输出，这些触发器可以激活注入的后门。

2、后门攻击是非常隐蔽的，因为后门模型几乎无法与良性模型区分开来，除非接收到嵌入式输入。因此，后门攻击可能会在真实的世界中造成严重的安全问题。例如，后门人脸识别系统因其在正常输入上的出色性能而投入使用，但它会故意将佩戴特定眼镜的任何人识别为目标人。此外，越来越多的模型训练外包，包括使用第三方数据集，大型预训练模型和api，大大增加了后门攻击的风险。总之，后门攻击的威胁日益显著。

3、现阶段，在自然语言处理领域，对于后门攻击和防御的研究还属于一个起步阶段，相较于后门防御的研究，更多研究者的重心集中在文本领域的后门攻击，后门防御的研究明显较少。

技术实现思路

1、本发明的目的在于提供一种基于困惑度过滤的中文后门攻击防御方法，旨在针对于目前的针对于中文文本后门攻击的安全性问题，对于预训练语言模型训练所需要的自然语言处理任务相关的公共数据集上进行评估过滤筛查与防御，达到减轻后门攻击的毒害预训练语言模型的效果。

2、为实现上述目的，本发明提供了一种基于困惑度过滤的中文后门攻击防御方法，包括下列步骤：

3、获取训练语言模型所需的中文数据集；

4、对收集的中文数据集进行预处理；

5、使用中文分词工具对中文文本进行分词；

6、对分词后的文本进行逐一去除；

7、使用大型预训练语言模型对文本进行流畅性评估；

8、将去除个别词的文本的困惑度进行比较，找到潜在有毒触发器的所在的地方；

9、将有毒触发器剔除降低后门训练的攻击成功率；

10、其中，在获取中文自然语言处理相关任务所需的数据集的过程中，先从各大开源平台中下载数据集，平台主要包括github，kaggle等。

11、数据预处理流程包括下列步骤：

12、对数据进行规范化处理，去除数据中错误的不规范的字符，同时对数据中的错别字进行纠正去除；

13、之后按照规定的数据集比例进行划分并训练干净预训练语言模型得到其干净性能。

14、使用性能较好的中文分词工具jieba分词对数据集中的文本进行分词。

15、对于中文自然语言处理相关任务所需的数据集使用中文gpt2对其进行编码，并逐一对缺省文本进行编码。

16、然后使用中文gpt2模型对数据集中的文本进行编码进行流畅性的评估计算其困惑度，同时对于数据集中的每个文本的分词序列进行逐一的删除，重复多次进行困惑度的评估计算找到使得文本困惑度明显增大的位置，确认为潜在后门触发器位置。

17、在进行遍历计算困惑度后，找到潜在的触发器位置，对文本数据进行潜在触发器的筛查并去除，将数据进行再次的清洗。

18、最后在将带有触发器的数据清除后，重新将预训练语言模型在数据集上进行后门训练，并评估其在相关数据上的性能，观察后门攻击的成功率是否有所下降，验证防御方法的有效性。

19、其中，我们在进行预训练语言模型最初干净的准确度测试时采用来自huggingface中的基于transformers架构的模型。之后再经过防御方法检测过滤后进行后门训练时使用同样的模型进行训练测试得到在防御方法后的后门的有效性。

20、本发明提供了一种基于困惑度过滤的中文后门攻击防御方法，从网络上一些开源公共的数据平台获取自然语言任务相关的数据集后进行数据预处理，再进行初始干净准确度之后经过防御方法的数据筛查后再进行后门训练评估后门效应，通过攻击成功率和干净准确度分别评估后门攻击的有效性以及隐蔽性。

技术特征：

1.一种基于困惑度过滤的中文后门攻击防御方法，其特征在于，包括下列步骤：

2.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

3.如权利要求2所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

4.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

5.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

6.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

7.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

8.如权利要求1所述的基于困惑度过滤的中文后门攻击防御方法，其特征在于，

技术总结
后门攻击在当下自然语言处理领域研究十分广泛，许多对于预训练语言模型的后门攻击方法都涌现出来使得人们警醒在当下语言模型应用中要注意的安全问题。该方法通过使用大型预训练语言模型对后门攻击中的有毒文本数据进行过滤。采用预训练语言模型中已有的训练知识，对带有触发器的有毒数据进行流畅性的评估。通过流畅性的评估指标困惑度的数值对有毒数据进行评估，在进行后门训练的前一环节对训练数据中潜在的有毒数据进行过滤剔除降低后门攻击对模型的攻击成功率。具体来说我们通过对中文文本进行分词并逐一遍历，逐一从文本删除进行困惑度评估，找到有毒文本中潜在的有害触发器。

技术研发人员：古天龙,何昕宇,郝峰锐,常亮
受保护的技术使用者：桂林电子科技大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)