一种基于关键字匹配的网络数据检测方法及系统的制作方法
【技术领域】
[0001]本发明涉及网络安全技术领域,尤其涉及一种基于关键字匹配的网络数据检测方法及系统。
【背景技术】
[0002]网络上经常会针对热点话题和热点事件提供相应的网页链接或者下载资源。通常火热的讨论氛围或者好奇心会使得人们放松警惕。同时,有的黑客在提供下载资源的同时,会提示用户:文件包含破解文件,可能会被杀毒软件误杀,所以最好关闭杀毒软件,否则无法正常下载。所以有很多网民会抱着侥幸心理,顺从的关闭杀毒软件,从而进入挂马网站或者钓鱼网站,但是毫不知情。传统进行网络检测的方法会占用大量的系统资源,并耗费较长时间进行检测。
【发明内容】
[0003]本发明所述的技术方案通过对获取的网络数据进行拆分,从而获取数据元素,基于预设规则将所述数据元素组合成数据向量表,将所述数据向量表与预先准备的可疑样本库进行匹配,从而判断是否是可疑数据。本发明所述的方法与传统的网络数据检测方法不同,首先通过匹配判断网络数据是否是可疑数据,如果是可疑数据再利用恶意代码检测方法进行检测。从而可以有效定位可疑数据,并避免占用过多资源和检测时间长的问题。
[0004]本发明采用如下方法来实现:一种基于关键字匹配的网络数据检测方法,包括: 获取网络数据;
将所述网络数据与白名单匹配,若成功匹配,则判定所述网络数据为安全数据,否则,将所述网络数据与黑名单匹配,若成功匹配,则判定所述网络数据为恶意数据;
基于语义库和知识库对没有成功匹配的网络数据进行拆分后获取数据元素;
基于预设规则将数据元素组合形成数据向量表;
将所述数据向量表与可疑样本库匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据;
基于已知恶意代码检测策略对可疑数据进行检测,并反馈检测结果;
所述可疑样本库中包含基于预设规则形成的用于可疑数据检测的关键字。
[0005]进一步地,所述获取网络数据包括:通过敏感URL获取网络数据,或者当监测到存在流量异常时获取网络数据。
[0006]进一步地,所述基于预设规则将数据元素组合形成数据向量表,包括:
为每个数据元素设置权值,并计算每个数据元素的hash值,对所述hash值进行加权合并后形成数据向量表。
[0007]更进一步地,所述将所述数据向量表与可疑样本库进行匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据,具体为:
将所述数据向量表与可疑样本库中的关键字进行对比,判断是否存在关键字与数据向量表的相似度达到预设值以上,若存在,则判定所述网络数据为可疑数据,否则判定为安全数据。
[0008]进一步地,所述将所述数据向量表与可疑样本库进行匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据,具体为:
将所述数据向量表与可疑样本库进行对比,判断在可疑样本库中出现的数据元素个数与数据向量表中的数据元素总数的比值是否超过预设值,若是,则判定所述网络数据为可疑数据,否则判定为安全数据。
[0009]进一步地,所述白名单包括:各官方网站URL或者新闻媒体网站URL。
[0010]本发明可以采用如下系统来实现:一种基于关键字匹配的网络数据检测系统,包括:
数据获取模块,用于获取网络数据;
黑白名单过滤模块,用于将所述网络数据与白名单匹配,若成功匹配,则判定所述网络数据为安全数据,否则,将所述网络数据与黑名单匹配,若成功匹配,则判定所述网络数据为恶意数据;
数据拆分模块,用于基于语义库和知识库对没有成功匹配的网络数据进行拆分后获取数据元素;
数据处理模块,用于基于预设规则将数据元素组合形成数据向量表;
判定模块,用于将所述数据向量表与可疑样本库匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据;
检测模块,用于基于已知恶意代码检测策略对可疑数据进行检测,并反馈检测结果; 可疑样本库,用于存储基于预设规则形成的用于可疑数据检测的关键字。
[0011]进一步地,所述数据获取模块,具体用于:通过敏感URL获取网络数据,或者当监测到存在流量异常时获取网络数据。
[0012]进一步地,所述数据处理模块,具体用于:
为每个数据元素设置权值,并计算每个数据元素的hash值,对所述hash值进行加权合并后形成数据向量表。
[0013]更进一步地,所述判定模块,具体用于:
将所述数据向量表与可疑样本库中的关键字进行对比,判断是否存在关键字与数据向量表的相似度达到预设值以上,若存在,则判定所述网络数据为可疑数据,否则判定为安全数据。
[0014]进一步地,所述判定模块,具体用于:
将所述数据向量表与可疑样本库进行对比,判断在可疑样本库中出现的数据元素个数与数据向量表中的数据元素总数的比值是否超过预设值,若是,则判定所述网络数据为可疑数据,否则判定为安全数据。
[0015]进一步地,所述白名单包括:各官方网站URL或者新闻媒体网站URL。
[0016]综上,本发明给出一种基于关键字匹配的网络数据检测方法及系统,首先基于异常网络行为提取网络数据,经过黑白名单过滤后,将所述网络数据进行拆分,提取对识别恶意网络数据有帮助的数据元素,基于预设规则对所述数据元素进行处理后形成数据向量表,将数据向量表与可疑样本库进行匹配,进而判断是否是可疑数据。
[0017]有益效果为:本发明所述技术方案在无人干预的条件下,主动发现恶意网络数据,以最快的速度定位恶意数据来源,达到恶意样本预警的目的。
【附图说明】
[0018]为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本发明提供的一种基于关键字匹配的网络数据检测方法实施例流程图;
图2为本发明提供的一种基于关键字匹配的网络数据检测系统实施例结构图。
【具体实施方式】
[0020]本发明给出了一种基于关键字匹配的网络数据检测方法及系统实施例,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了一种基于关键字匹配的网络数据检测方法实施例,如图1所示,包括:
S101获取网络数据;
S102将所述网络数据与白名单进行匹配,并判断是否成功匹配,若是,则判定所述网络数据为安全数据,否则执行S103 ;
S103将所述网络数据与黑名单进行匹配,并判断是否成功匹配,若是,则判定所述网络数据为恶意数据,否则执行S104 ;
S104基于语义库和知识库对没有成功匹配的网络数据进行拆分后获取数据元素;
S105基于预设规则将数据元素组合形成数据向量表;
S106将所述数据向量表与可疑样本库进行匹配,并判断是否成功匹配,若是,则判定所述网络数据为可疑数据,继续执行S107,否则判定为安全数据,结束;
S107基于已知恶意代码检测策略对可疑数据进行检测,并反馈检测结果;
所述可疑样本库中包含基于预设规则形成的用于可疑数据检测的关键字。
[0021]优选地,所述获取网络数据,包括:通过敏感URL获取网络数据,或者当监测到存在流量异常时获取网络数据。
[0022]优选地,所述白名单包括:各官方网站URL或者新闻媒体网站URL。
[0023]优选地,所述基于预设规则将数据元素组合形成数据向量表,包括:
为每个数据元素设置权值,并计算每个数据元素的hash值,对所述hash值进行加权合并后形成数据向量表。
[0024]更为优选地,所述将所述数据向量表与可疑样本库进行匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据,具体为:
将所述数据向量表与可疑样本库中的关键字进行对比,判断是否存在关键字与数据向量表的相似度达到预设值以上,若存在,则判定所述网络数据
为可疑数据,否则判定为安全数据。所述相似度的取值可以根据需要选择。
[0025]其中,求取相似度的方法可以但不限于:simhash的方法。
[0026]优选地,所述将所述数据向量表与可疑样本库进行匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据,具体为:
将所述数据向量表与可疑样本库进行对比,判断在可疑样本库中出现的数据元素个数与数据向量表中的数据元素总数的比值是否超过预设值,若是,则判定所述网络数据为可疑数据,否则判定为安全数据。所述预设值的取值可以根据需要选择,或者经过多次样本实验后选取合适的取值。
[0027]例如:数据向量表中包括6个数据元素,通过与可疑样本库进行对比后发现,可疑样本库中出现了其中5个数据元素,则继续比较5/6是否超过预设值,若超过,则认为是可疑数据,否则认为是安全数据。
[0028]本发明还提供了一种基于关键字匹配的网络数据检测系统实施例,如图2所示,包括:
数据获取模块201,用于获取网络数据;
黑白名单过滤模块202,用于将所述网络数据与白名单匹配,若成功匹配,则判定所述网络数据为安全数据,否则,将所述网络数据与黑名单匹配,若成功匹配,则判定所述网络数据为恶意数据;
数据拆分模块203,用于基于语义库和知识库对没有成功匹配的网络数据进行拆分后获取数据元素;
数据处理模块204,用于基于预设规则将数据元素组合形成数据向量表;
判定模块205,用于将所述数据向量表与可疑样本库207进行匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据;
检测模块206,用于基于已知恶意代码检测策略对可疑数据进行检测,并反馈检测结果;
可疑样本库207,用于存储基于预设规则形成的用于可疑数据检测的关键字。
[0029]优选地,所述数据获取模块,具体用于:通过敏感URL获取网络数据,或者当监测到存在流量异常时获取网络数据。
[0030]优选地,所述白名单包括:各官方网站URL或者新闻媒体网站URL。
[0031]优选地,所述数据处理模块,具体用于:
为每个数据元素设置权值,并计算每个数据元素的hash值,对所述hash值进行加权合并后形成数据向量表。
[0032]更为优选地,所述判定模块,具体用于:
将所述数据向量表与可疑样本库中的关键字进行对比,判断是否存在关键字与数据向量表的相似度达到预设值以上,若存在,则判定所述网络数据为可疑数据,否则判定为安全数据。
[0033]优选地,所述判定模块,具体用于:
将所述数据向量表与可疑样本库进行对比,判断在可疑样本库中出现的数据元素个数与数据向量表中的数据元素总数的比值是否超过预设值,若是,则判定所述网络数据为可疑数据,否则判定为安全数据。
[0034]如上所述,所给实施例通过获取待识别的网络数据,首先经过预设黑白名单的过滤,将已知安全URL等网站过滤,或者已知恶意样本进行过滤后,将从无法匹配的网络数据中提取数据元素,根据预设规则对数据元素进行处理形成数据向量表,将数据向量表与可疑样本库进行对比,从而判定是否属于可疑数据,即需要进一步检测的网络数据。
[0035]综上,传统识别网络数据的方法依赖于训练样本的质量和大小,并且对于所有的网络数据进行检测,需要占用大量的系统资源和较长的检测时间,而本发明所公开的识别恶意网络数据的方法,通过对网络数据的处理,并进一步与可疑样本库进行匹配的方式,首先定位可能存在恶意样本的网络数据再进行进一步的检测,从而在恶意数据进一步造成不良影响之前,及时采取措施加以阻断和控制。
[0036]以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。
【主权项】
1.一种基于关键字匹配的网络数据检测方法,其特征在于: 获取网络数据; 将所述网络数据与白名单匹配,若成功匹配,则判定所述网络数据为安全数据,否则,将所述网络数据与黑名单匹配,若成功匹配,则判定所述网络数据为恶意数据; 基于语义库和知识库对没有成功匹配的网络数据进行拆分后获取数据元素; 基于预设规则将数据元素组合形成数据向量表; 将所述数据向量表与可疑样本库匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据; 基于已知恶意代码检测策略对可疑数据进行检测,并反馈检测结果; 所述可疑样本库中包含基于预设规则形成的用于可疑数据检测的关键字。2.如权利要求1所述的方法,其特征在于,所述获取网络数据包括:通过敏感URL获取网络数据,或者当监测到存在流量异常时获取网络数据。3.如权利要求1所述的方法,其特征在于,所述基于预设规则将数据元素组合形成数据向量表,包括: 为每个数据元素设置权值,并计算每个数据元素的hash值,对所述hash值进行加权合并后形成数据向量表。4.如权利要求3所述的方法,其特征在于,所述将所述数据向量表与可疑样本库进行匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据,具体为: 将所述数据向量表与可疑样本库中的关键字进行对比,判断是否存在关键字与数据向量表的相似度达到预设值以上,若存在,则判定所述网络数据为可疑数据,否则判定为安全数据。5.如权利要求1所述的方法,其特征在于,所述将所述数据向量表与可疑样本库进行匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据,具体为: 将所述数据向量表与可疑样本库进行对比,判断在可疑样本库中出现的数据元素个数与数据向量表中的数据元素总数的比值是否超过预设值,若是,则判定所述网络数据为可疑数据,否则判定为安全数据。6.一种基于关键字匹配的网络数据检测系统,其特征在于,包括: 数据获取模块,用于获取网络数据; 黑白名单过滤模块,用于将所述网络数据与白名单匹配,若成功匹配,则判定所述网络数据为安全数据,否则,将所述网络数据与黑名单匹配,若成功匹配,则判定所述网络数据为恶意数据; 数据拆分模块,用于基于语义库和知识库对没有成功匹配的网络数据进行拆分后获取数据元素; 数据处理模块,用于基于预设规则将数据元素组合形成数据向量表; 判定模块,用于将所述数据向量表与可疑样本库匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据; 检测模块,用于基于已知恶意代码检测策略对可疑数据进行检测,并反馈检测结果; 可疑样本库,用于存储基于预设规则形成的用于可疑数据检测的关键字。7.如权利要求6所述的系统,其特征在于,所述数据获取模块,具体用于:通过敏感URL获取网络数据,或者当监测到存在流量异常时获取网络数据。8.如权利要求6所述的系统,其特征在于,所述数据处理模块,具体用于: 为每个数据元素设置权值,并计算每个数据元素的hash值,对所述hash值进行加权合并后形成数据向量表。9.如权利要求8所述的系统,其特征在于,所述判定模块,具体用于: 将所述数据向量表与可疑样本库中的关键字进行对比,判断是否存在关键字与数据向量表的相似度达到预设值以上,若存在,则判定所述网络数据为可疑数据,否则判定为安全数据。10.如权利要求6所述的系统,其特征在于,所述判定模块,具体用于: 将所述数据向量表与可疑样本库进行对比,判断在可疑样本库中出现的数据元素个数与数据向量表中的数据元素总数的比值是否超过预设值,若是,则判定所述网络数据为可疑数据,否则判定为安全数据。
【专利摘要】本发明公开了一种基于关键字匹配的网络数据检测方法,包括:获取网络数据;将所述网络数据先与黑白名单进行匹配;并基于语义库和知识库对没有成功匹配的网络数据进行拆分后获取数据元素;基于预设规则将数据元素组合形成数据向量表;将所述数据向量表与可疑样本库匹配,若成功匹配,则判定所述网络数据为可疑数据,否则判定为安全数据;基于已知恶意代码检测策略对可疑数据进行检测,并反馈检测结果。本发明还公开了一种基于关键字匹配的网络数据检测系统。本发明所述技术方案能够有效检测网络数据,尤其可以有效识别利用热点话题或者热点事件传播恶意代码的行为。
【IPC分类】G06F17/30
【公开号】CN105488091
【申请号】CN201510343587
【发明人】李晓利, 李柏松
【申请人】哈尔滨安天科技股份有限公司
【公开日】2016年4月13日
【申请日】2015年6月19日