本技术涉及域名识别,尤其涉及一种恶意域名识别方法、装置、计算机设备及可读存储介质。
背景技术:
1、域名是一种用于标识互联网上特定计算机或网络服务的地址系统。例如,www.example.com 是一个典型的域名,其指向一个具体的服务器位置。近年来,随着网络技术的不断发展,恶意域名的使用变得越来越普遍且更加隐蔽。攻击者利用恶意域名实施各种攻击,包括但不限于网络钓鱼、信息窃取以及恶意软件传播。这些攻击手法不断升级,变得更加复杂和隐蔽,导致传统的网络安全防御手段对恶意域名的识别度不高。因此,对域名进行分类检测,以提前采取措施防止攻击的发生变得尤为重要。
2、相关技术中,一般通过收集大量的良性域名数据,包括高阶统计特征和域名系统(domain name system,dns)特征,使用提取的特征训练隐马尔可夫模型(hidden markovmodel,hmm),并对每个域名计算其特征的概率密度值,计算每个特征的标准差,并与概率密度值进行比较,当存在特征的概率密度值明显偏离其标准差,则标记该域名为恶意。但是,这种方法计算每个特征的概率密度值可能存在误差,且对于非对称分布的数据或异常值较多的情况,仅用标准差来判断异常可能不够精确,也即是说,采用以上技术进行恶意域名识别,会导致对恶意域名识别的准确性下降。
技术实现思路
1、本技术实施例的主要目的在于提出一种恶意域名识别方法、装置、计算机设备及可读存储介质,能够提高对恶意域名识别的准确性。
2、为实现上述目的,本技术实施例的第一方面提出了一种恶意域名识别方法,所述方法包括:
3、获取待分类域名对应的待分类数据,并将所述待分类数据输入至目标模型;其中,所述目标模型包括第一特征处理组件、第二特征处理组件和分类组件;
4、通过所述第一特征处理组件进行特征提取,得到所述待分类域名对应的待分类特征;
5、通过所述第二特征处理组件基于注意力机制对所述待分类特征进行至少一次特征增强表示,得到第一中间特征;其中,所述第二特征处理组件由卷积层与所述注意力机制耦合得到;
6、将所述待分类特征与所述第一中间特征进行特征融合,得到第一融合特征;
7、将所述第一融合特征输入至所述分类组件中进行特征映射处理,得到所述待分类数据的恶意域名识别结果。
8、相应的,本技术实施例的第二方面提出了一种恶意域名识别装置,所述装置包括:
9、获取模块,用于获取待分类域名对应的待分类数据,并将所述待分类数据输入至目标模型;其中,所述目标模型包括第一特征处理组件、第二特征处理组件和分类组件;
10、提取模块,用于通过所述第一特征处理组件进行特征提取,得到所述待分类域名对应的待分类特征;
11、增强模块,用于通过所述第二特征处理组件基于注意力机制对所述待分类特征进行至少一次特征增强表示,得到第一中间特征;其中,所述第二特征处理组件由卷积层与所述注意力机制耦合得到;
12、融合模块,用于将所述待分类特征与所述第一中间特征进行特征融合,得到第一融合特征;
13、映射模块,用于将所述第一融合特征输入至所述分类组件中进行特征映射处理,得到所述待分类数据的恶意域名识别结果。
14、在一些实施方式中,所述目标模型还包括位于所述第二特征处理组件和所述分类组件之间的序列处理组件,所述恶意域名识别装置还包括拼接模块,用于将所述待分类特征与所述第一中间特征进行特征融合,得到第一融合特征之后,执行:
15、通过所述序列处理组件,基于所述第一融合特征中的多个第一特征元素的时间顺序信息,对所述多个第一特征元素进行特征增强表示,得到第二中间特征;
16、根据所述第一融合特征和所述第二中间特征进行拼接,得到第一拼接特征;
17、则所述将所述第一融合特征输入至所述分类组件中进行特征映射处理,得到所述待分类数据的恶意域名识别结果,包括:
18、将所述第一拼接特征输入至所述分类组件中进行特征映射处理,得到所述待分类数据的恶意域名识别结果。
19、在一些实施方式中,所述拼接模块,还用于:
20、通过所述序列处理组件,基于所述第一融合特征中各所述第一特征元素的时间顺序信息,从所述第一融合特征中确定最后一个时间步对应的查询向量和其他时间步对应的至少一个隐藏向量;
21、依次将所述查询向量与每个时间步的隐藏向量进行点积计算,得到每个所述时间步的隐藏向量对应的注意力分数;其中,所述注意力分数用于表征每个时间步的所述隐藏向量与所述查询向量之间的相似程度;
22、基于每个所述隐藏向量的注意力分数调整对应的所述隐藏向量中的各所述第一特征元素,得到第二中间特征。
23、在一些实施方式中,所述拼接模块,还用于:
24、基于每个所述隐藏向量的注意力分数调整对应的所述隐藏向量中的各所述第一特征元素,得到已调整的第一特征元素;
25、针对所述第一融合特征的每个特征维度,将所述特征维度对应的不同时间步的第一特征元素相加,得到所述特征维度对应的目标特征元素;
26、根据多个维度对应的多个所述目标特征元素,得到第二中间特征。
27、在一些实施方式中,所述增强模块,还用于:
28、将所述待分类特征输入至所述第二特征处理组件的第一卷积层进行降维处理,得到已降维的待分类特征;
29、将所述待分类特征输入至注意力机制中,得到表征所述待分类特征中各第二特征元素的重要程度的注意力权重;
30、基于所述注意力权重对所述待分类特征中的各所述第二特征元素进行注意力调整处理,得到初始中间特征;
31、根据所述第二特征处理组件的第二卷积层对所述初始中间特征的特征维度进行调整,得到第一中间特征。
32、在一些实施方式中,所述恶意域名识别装置还包括训练模块,用于:
33、获取在第一环境下完成训练的第一模型;
34、从所述第一模型中,确定与第二环境的候选预设模型中的各预设层级对应的目标层级;
35、获取每个所述目标层级的权重信息,并将所述权重信息映射至所述候选预设模型的对应的预设层级中,得到更新权重信息后的预设模型;
36、获取所述第二环境对应的训练数据集,并基于所述训练数据集对所述预设模型进行训练,得到目标模型。
37、在一些实施方式中,所述训练模块,还用于:
38、获取第二环境下的初始数据集,并从所述初始数据集的多个初始数据中确定最大值数据和最小值数据;
39、将所述最大值数据和所述最小值数据的差值确定为第一中间值;
40、针对每个所述初始数据,将所述初始数据与所述最小值数据的差值确定为第二中间值;
41、将所述第二中间值和所述第一中间值的比值作为所述初始数据对应的样本数据;
42、基于多个所述样本数据,得到训练数据集。
43、相应的,本技术实施例的第三方面提出了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本技术第一方面实施例任一项所述的恶意域名识别方法。
44、相应的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本技术第一方面实施例任一项所述的恶意域名识别方法。
45、本技术实施例通过获取待分类域名对应的待分类数据,并将待分类数据输入至目标模型;其中,目标模型包括第一特征处理组件、第二特征处理组件和分类组件;通过第一特征处理组件进行特征提取,得到待分类域名对应的待分类特征;通过第二特征处理组件基于注意力机制对待分类特征进行至少一次特征增强表示,得到第一中间特征;其中,第二特征处理组件由卷积层与注意力机制耦合得到;将待分类特征与第一中间特征进行特征融合,得到第一融合特征;将第一融合特征输入至分类组件中进行特征映射处理,得到待分类数据的恶意域名识别结果。以此,能够利用卷积层与注意力机制耦合得到的第二特征组件,在特征提取的早期阶段就利用注意力机制来指导目标模型确定重要的特征,聚焦于关键信息的处理,有助于目标模型更高效、准确地提取有利于对恶意域名进行识别的信息。并且,由于对待分类特征进行至少一次特征增强表示,使得目标模型能够提取更复杂更深层次的特征,并将待分类特征与第一中间特征进行融合,避免了梯度消失导致恶意域名识别不准确的问题,提高了对恶意域名识别的准确性。
1.一种恶意域名识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的恶意域名识别方法,其特征在于,所述目标模型还包括位于所述第二特征处理组件和所述分类组件之间的序列处理组件,所述将所述待分类特征与所述第一中间特征进行特征融合,得到第一融合特征之后,还包括:
3.根据权利要求2所述的恶意域名识别方法,其特征在于,所述通过所述序列处理组件,基于所述第一融合特征中的多个第一特征元素的时间顺序信息,对所述多个第一特征元素进行特征增强表示,得到第二中间特征,包括:
4.根据权利要求3所述的恶意域名识别方法,其特征在于,所述基于每个所述隐藏向量的注意力分数调整对应的所述隐藏向量中的各所述第一特征元素,得到第二中间特征,包括:
5.根据权利要求1所述的恶意域名识别方法,其特征在于,所述通过所述第二特征处理组件基于注意力机制对所述待分类特征进行至少一次特征增强表示,得到第一中间特征,包括:
6.根据权利要求1所述的恶意域名识别方法,其特征在于,所述目标模型通过以下方式训练得到:
7.根据权利要求6所述的恶意域名识别方法,其特征在于,所述获取所述第二环境对应的训练数据集,包括:
8.一种恶意域名识别装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的恶意域名识别方法。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的恶意域名识别方法。
