一种非涉密环境下涉密地理数据的高效检测发现系统的制作方法
【技术领域】
[0001]本发明涉及一种检测发现系统,具体是一种非涉密环境下涉密地理数据的高效检测发现系统。
【背景技术】
[0002]信息安全是当今网络化时代、信息化时代人们普遍关注的一个重要问题。涉密地理数据是国家重要的战略性信息资源,广泛应用于经济建设、社会发展、国防建设各领域,特别是测绘、地质、矿产、林业、军事等行业,一旦出现泄露将严重危及经济安全和国家安全。目前,各行业的测绘相关企事业单位在涉密测绘成果的存储、分发、使用等方面依然存在一定安全隐患,一旦泄密,会造成严重后果。因此,应需要加强对非涉密环境下的涉密地理数据的检测与发现,快速区分普通文件与涉密地理数据。
[0003]常见的基于倒排索引的搜索技术仅适用于文本型地理信息(如地名文本文件),对于以二进制格式存在的地理数据文件和地理数据库,如何快速地发现其中蕴含的地理对象并进行内容分析,是一个较大的技术难点;
[0004]同时,地理空间信息的涉密判定一方面要考虑数据文件的格式、名称等基本特征,但更重要的是要根据数据文件的内容。根据文件格式对地理空间数据进行判定本身就非常困难,而根据内容进行判定则难度更大。据不完全统计,目前地理数据专有格式已有逾百种,而且还存在大量易于与其他文件混淆的通用格式。进而言之,在两者基础上还存在众多的地理空间数据衍生格式。
[0005]随着技术的发展,地理数据的存储形式越来越多,数据量也越来越大,文件格式多种多样,涉密地理数据涵盖矢量、栅格、地名地址、数据库等多种格式,多为非结构化和半结构化,对地理数据的检查的要求也越来越高。
[0006]当前对地理信息数据的分析与检索主要是基于地理信息语义分析技术,包括常见的语义分析、词法分析、句法分析等分析技术,还包含了面向地理对象的语义分析(相似度、相关度)和多模式地理信息解析与自动分类等技术。而就地理信息语义分析方面,其研究重点主要集中在基于自然语言分析的相似性计算和基于本体论思想的语义分类,而顾及地理信息空间特征、时间特征和尺度特征的研究成果(理论、模型和软件)还非常少,无法有效满足大规模地理信息数据分析和处理的需要。一方面,单一的方法识别地理信息的准确性较低,需要结合多种方法以精准识别地理信息。另一方面,如何将进一步提高地理信息识别的效率是需要进一步解决的冋题。
[0007]常见的保密检查软件多基于涉密关键词索引的搜索技术,仅适用于tXt、d0C、pdf等文档。与之相比,本发明更侧重非涉密环境下地理涉密数据的高效检测发现,参照国家测绘行业标准,结合涉密数据使用与检查经验,针对矢量数据和栅格数据的涉密特征,同时以地理空间数据有其特定的数据本体和语义描述为基础,从语义的层面上设计建立基于专家知识的标靶库和涉密规则库,快速甄别地理涉密数据,分析涉密风险并判定风险等。
[0008]现有技术不足主要有以下几个方面:
[0009](1)缺乏针对地理信息数据的检测
[0010]现有技术较多的是实现对文本类型数据(如Office、PDF、TXT等)的涉密关键字审查,而地理信息数据多以二进制数据格式存储为主,以文本格式存储的极少,现有技术并不支持对于多种地理信息数据格式的检测。特别是地理空间数据具有空间特征、属性特征、时间特征,包括矢量数据结构、栅格数据结构、三维数据结构等,含有空间拓扑信息、专题属性信息,分类编码、数据分层、空间坐标系、元数据、空间索引等特性,而且文件格式众多。现有的技术并不支持对于多种地理信息数据格式的甄别及检测。
[0011 ] (2)缺乏有效的涉密特征库和判定规则库
[0012]现有涉密检查软件主要是采用关键词模式匹配算法,基于特征匹配,常用的模式匹配算法思想主要有基于字符比较、基于自动机、基于hash查找、基于位逻辑运算和基于Tries树型结构搜索。没有基于专家知识建立针对涉密地理数据的特征库和涉密判定规则库。
[0013](3)缺少对局域网环境下的支持
[0014]传统单机版检查工具虽能有效完成深度性检测,但缺少对多网络环境下的支持,特别是在有限的检查时间内,针对众多的单机终端的安全检查缺乏时效性,而且耗时长、人员投入大,无法完成海量数据中快速涉密扫描,更无法形成有效的数据统计分析。
【发明内容】
[0015]本发明的目的在于提供一种非涉密环境下涉密地理数据的高效检测发现系统,以解决上述【背景技术】中提出的问题。
[0016]为实现上述目的,本发明提供如下技术方案:
[0017]—种非涉密环境下涉密地理数据的高效检测发现系统,分为四个步骤:(1)先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表:然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度;(2)建立涉密特征库和判定规则库,识别涉密地理数据,需要整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特征、涉密关键词,建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库,涉密特征库具有扩展性,支持涉密特征的补充更新,并支持针对不同类型文件提供不同数据引擎,实现文件内容分析功能,涉密判断规则库是在涉密特征库的基础上,对各项具体评价指标进行打分和加权统计,建立涉密风险等级评价规则,规则库中要涵括示例排除库建立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率;(3)可疑文件风险评级模型,涉密风险扫描判定模块是涉密地理数据发现与检查的核心,在地理数据扫描过程中,运用“层次分析法”理论,基于地理数据涉密特征库进行深入分析各数据类型的涉密特征,将数据的风险级别按照不同特征自上而下地分解成若干指标层次,依据涉密风险判定规则库,建立针对各可疑文件类型的不同的风险评级流程,将半定性、半定量的问题转化为定量计算问题,最终通过逐层比较各种关联涉密特征的重要性来为软件上实现可疑数据的判断、分级提供定量的依据;(4)数码照片与扫描图件区分,栅格数据是地理数据的重要组织部分,特别是栅格数据中的影像和扫描图件数据,但局域网机器中普遍存在的数码照片对涉密检查造成极大的干扰,为提高涉密风险扫描的速度和准确度,需要分别总结数码照片和扫描图件的特征,将采用头文件分析和频率域分析两种方法区分数码照片、扫描图件,“头文件分析”方法是通过软件读取数码照片、扫描图件和影像图件的头文件信息,依据头文件属性字段的不同,可迅速将数码照片、扫描图件、影像图件区分开,对于头文件缺失的栅格数据文件,采用“频率域分析”的方法对栅格数据进行傅立叶变换,然后比对栅格数据的频率特征,与扫描图件或计算机输出的地图数据相比,数码照片包括随机噪声,用是否包括随机噪声这一特征区分二者。
[0018]作为本发明进一步的方案:所述非涉密环境下涉密地理数据的高效检测发现系统还包括局域网分布式扫描调度链路模块,局域网分布式扫描调度链路模块提供终端扫描节点间的通信链路,支持服务端与终端的扫描调度通信,实现扫描、上报等命令的发送与接收,支撑局域网内分布式扫描,进行控制终端扫描、监控扫描进度、收集扫描结果、统计输出功能。
[0019]作为本发明再进一步的方案:所述涉密特征库包括为敏感词库、地名词库、示例排除库和规则库。
[0020]与现有技术相比,本发明的有益效果
是:本发明立足非涉密环境下单机或局域网内涉密地理数据的快速扫描、判别、提取与处理的需求,整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特征、涉密关键词等,建立地理数据涉密特征库和判定特征库,采用多模式匹配算法结合先粗后细策略和多线程扫描模型,可同时深度遍历扫描多种数据,可显著降低时间成本,提高效率,同时,设计局域网分布式扫描调度链路,将单机扫描优势延展到局域网环境下,解决局域网下终端涉密检查的扫描效率与准确性。
【附图说明】
[0021]图1为非涉密环境下涉密地理数据的高效检测发现系统的分布式扫描调度链路图;
[0022]图2为非涉密环境下涉密地理数据的高效检测发现系统中扫描技术路线流程图;
[0023]图3为非涉密环境下涉密地理数据的高效检测发现系统中多线程扫描模型图;
[0024]图4为非涉密环境下涉密地理数据的高效检测发现系统中涉密特征判定模型图;
[0025]图5为非涉密环境下涉密地理数据的高效检测发现系统中可疑文件风险筛查图。
【具体实施方式】
[0026]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0027]请参阅图1?5,本发明实施例中,一种非涉密环境下涉密地理数据的高效检测发现系统,分为四个步骤:(1)先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表;然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度;(2)建立涉密特征库和判定规则库,识别涉密地理数据,需要整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特征、涉密关键词,建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库,涉密特征库具有扩展性,支持涉密特征的补充更新,并支持针对不同类型文件提供不同数据引擎,实现文件内容分析功能,涉密判断规则库是在涉密特征库的基础上,对各项具体评价指标进行打分和加权统计,建立涉密风险等级评价规则,规则库中要涵括示例排除库建立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率;(3)可疑文件风险评级模型,涉密风险扫描判定模块是涉密地理数据发现与检查的核心,在地理数据扫描过程中,运用“层次分析法”理论,基于地理数据涉密特征库进行深入分析各数据类型的涉密特征,将数据的风险级别按照不同特征自上而下地分解成若干指标层次,依据涉密风险判定规则库,建立针对各可疑文件类型的不同的风险评级流程,将半定性、半定量的问题转化为定量计算问题,最终通过逐层比较各种关联涉密特征的重要性来为软件上实现可疑数据的判断、分级提供定量的依据;(4)数码照片与扫描图件区分,栅格数据是地理数据的重要组织部分,特别是栅格数据中的影像和扫描图件数据,但局域网机器中普遍存在的数码照片对涉密检查造成极大的干扰,为提高涉密风险扫描的速度和准确度,需要分别总结数码照片和扫描图件的特征,将采用头文件分析和频率域分析两种方法区分数码照片、扫描图件,“头文件分析”方法是通过软件读取数码照片、扫描图件和影像图件的头文件信息,依据头文件属性字段的不同,可迅速将数码照片、扫描图件、影像图件区分开,对于头文件缺失的栅格数据文件,采用“频率域分析”的方法对栅格数据进行傅立叶变换,然后比对栅格数据的频率特征,与扫描图件或计算机输出的地图数据相比,数码照片包括随机噪声,用是否包括随机噪声这一特征区分二者。
[0028]所述非涉密环境下涉密地理数据的高效检测发现系统还包括局域网分布式扫描调度链路模块,局域网分布式扫描调度链路模块提供终端扫描节点间的通信链路,支持服务端与终端的扫描调度通信,实现扫描、上报等命令的发送与接收,支撑局域网内分布式扫描,进行控制终端扫描、监控扫描进度、收集扫描结果、统计输出功能。
[0029]所述涉密特征库包括为敏感词库、地名词库、示例排除库和规则库。
[0030]本发明的工作原理是:请参阅图1,单个终端节点的涉密地理数据扫描技术路线流程,分为四个步骤:地理数据快速识别、风险分析等级判定、人工鉴定、和结果导出。实现地理数据发现,需要整理和收集数据格式、研究基本比例尺地形图命名规则、实现SQLite数据库访问,在此基础上建立地理数据库组织规则并实现地理数据实现插件;然后实现可疑文件风险分析,需要建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库,其次还需要完成各种类型文件的数据引擎,即实现文件数据读写,在此基础上实现文件内容分析功能;此后实现交互鉴定辅助工具和结果导出,交互鉴定工具包括数据浏览、文件属性查看和要素属性查看。
[0031](1)先粗后细策略和多线程扫描模型
[0032]地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面。“先粗后细”的搜索策略过滤出可疑文件类型列表;然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,如:敏感词检索、头文件分析和频率域分析。同时,采用著名的“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度。
[0033](2)建立涉密特征库和判定规则库
[0034]识别涉密地理数据,需要整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特征、涉密关键词等,建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库。例如:特征库含有标准1:5万图幅命名规则、卫星影像图命名规则等,涉密特征库具有扩展性,支持涉密特征的补充更新。并支持针对不同类型文件提供不同数据引擎,实现文件内容分析功能。涉密判断规则库是在涉密特征库的基础上,对各项具体评价指标进行打分和加权统计,建立涉密风险等级评价规则。规则库中要涵括示例排除库建立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率。
[0035](3)可疑文件风险评级模型
[0036]涉密风险扫描判定模块是涉密地理数据发现与检查的核心。在地理数据扫描过程中,运用“层次分析法”理论,基于地理数据涉密特征库进行深入分析各数据类型的涉密特征,将数据的风险级别按照不同特征自上而下地分解成若干指标层次。依据涉密风险判定规则库,建立针对各可疑文件类型的不同的风险评级流程,将半定性、半定量的问题转化为定量计算问题,最终通过逐层比较各种关联涉密特征的重要性来为软件上实现可疑数据的判断、分级提供定量的依据。
[0037](4)数码照片与扫描图件区分
[0038]栅格数据是地理数据的重要组织部分,特别是栅格数据中的影像和扫描图件数据。但局域网机器中普遍存在的数码照片对涉密检查造成极大的干扰。为提高涉密风险扫描的速度和准确度,需要分别总结数码照片和扫描图件的特征,将采用头文件分析和频率域分析两种方法区分数码照片、扫描图件。“头文件分析”方法是通过软件读取数码照片、扫描图件和影像图件的头文件信息,依据头文件属性字段的不同,可迅速将数码照片、扫描图件、影像图件区分开。对于头文件缺失的栅格数据文件,采用“频率域分析”的方法对栅格数据进行傅立叶变换,然后比对栅格数据的频率特征。与扫描图件或计
算机输出的地图数据相比,数码照片包括随机噪声,可以用是否包括随机噪声这一特征区分二者。
[0039]1)局域网分布式扫描调度链路
[0040]局域网的分布式扫描调度链路模块,提供终端扫描节点间的通信链路,支持服务端与终端的扫描调度通信,实现扫描、上报等命令的发送与接收,支撑局域网内分布式扫描,进行控制终端扫描、监控扫描进度、收集扫描结果、统计输出等功能。
[0041 ] 2)地理空间数据涉密特征库与判定规则库
[0042]多类型地理数据识别与保密甄别中的数据细查和文件风险评级,将是建立在较为全面的测绘成果涉密特征库基础上。涉密特征库被设计为四部分,分别为敏感词库、地名词库、示例排除库和规则库。其中,敏感词库准备采用国家保密局内部标准的敏感词配置文件,词库组织上采用一定的分词等分析规则;地名词库是将常见省、市、县三级地名数据入库,主要用于地理数据的路径;示例排除库是建立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率;规则库内容将引入标准1:5万图幅命名规则、卫星影像图命名规则等。
[0043]3)地理数据涉密风险的定量评定模型
[0044]在地理数据发现与检查过程中,通过收集、整理与分析常用的地理数据及其衍生产品的数据特征,通过对地理空间数据文件的文件类型、文件命名规则、文件属性、元数据及文件内容进行深入分析,建立地理空间数据文件特征库,按照可疑文件发现、文件风险分析和文件风险评定的处理过程建立流程化扫描模型,研究运用“层次分析法”理论,按照风险规则模型将可疑数据的风险级别自上而下地分解成若干指标系数,并针对性地实施不同的风险评级流程,将半定性、半定量的问题转化为定量计算问题,最终逐层分析出的数据涉密特征权值和总权重,为可疑数据的风险分级提供定量的依据。
[0045]4)多线程扫描引擎
[0046]研究采用多线程技术手段,采用著名的“邮递员”多线程扫描模型,设计满足自动检查的文件并行搜索算法,将筛选、分析、评级、保存等过程并行,实现每个处理过程之间和内部的并行化作业,实现对计算机文件系统中相关地理空间数据文件的快速自动识别,提升数据文件的扫描判定速度。
[0047]5)基于图像特征的栅格数据判定技术
[0048]在栅格地理数据识别与保密甄别过程中采用头文件分析和频率域分析两种方法区分数码照片、扫描图件。“头文件分析”方法是通过软件读取数码照片、扫描图件和影像图件的头文件信息,可迅速将数码照片、扫描图件、影像图件区分开。对于头文件缺失的栅格数据文件,采用“频率域分析”的方法对栅格数据进行傅立叶变换,然后比对栅格数据的频率特征。
[0049]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0050]此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
【主权项】
1.一种非涉密环境下涉密地理数据的高效检测发现系统,其特征在于,分为四个步骤:(1)先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表;然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度;(2)建立涉密特征库和判定规则库,识别涉密地理数据,需要整理和收集地理数据格式、研究基本比例尺地形图命名规则、归纳总结地理数据涉密特征、涉密关键词,建立地理数据涉密特征库包括敏感词库、地名库和人工鉴定经验库,涉密特征库具有扩展性,支持涉密特征的补充更新,并支持针对不同类型文件提供不同数据引擎,实现文件内容分析功能,涉密判断规则库是在涉密特征库的基础上,对各项具体评价指标进行打分和加权统计,建立涉密风险等级评价规则,规则库中要涵括示例排除库建立常用GIS软件的示例数据档案,从而排除非涉密样例数据的干扰,提高检索效率;(3)可疑文件风险评级模型,涉密风险扫描判定模块是涉密地理数据发现与检查的核心,在地理数据扫描过程中,运用“层次分析法”理论,基于地理数据涉密特征库进行深入分析各数据类型的涉密特征,将数据的风险级别按照不同特征自上而下地分解成若干指标层次,依据涉密风险判定规则库,建立针对各可疑文件类型的不同的风险评级流程,将半定性、半定量的问题转化为定量计算问题,最终通过逐层比较各种关联涉密特征的重要性来为软件上实现可疑数据的判断、分级提供定量的依据;(4)数码照片与扫描图件区分,栅格数据是地理数据的重要组织部分,特别是栅格数据中的影像和扫描图件数据,但局域网机器中普遍存在的数码照片对涉密检查造成极大的干扰,为提高涉密风险扫描的速度和准确度,需要分别总结数码照片和扫描图件的特征,将采用头文件分析和频率域分析两种方法区分数码照片、扫描图件,“头文件分析”方法是通过软件读取数码照片、扫描图件和影像图件的头文件信息,依据头文件属性字段的不同,可迅速将数码照片、扫描图件、影像图件区分开,对于头文件缺失的栅格数据文件,采用“频率域分析”的方法对栅格数据进行傅立叶变换,然后比对栅格数据的频率特征,与扫描图件或计算机输出的地图数据相比,数码照片包括随机噪声,用是否包括随机噪声这一特征区分二者Ο2.根据权利要求1所述的非涉密环境下涉密地理数据的高效检测发现系统,其特征在于,所述非涉密环境下涉密地理数据的高效检测发现系统还包括局域网分布式扫描调度链路模块,局域网分布式扫描调度链路模块提供终端扫描节点间的通信链路,支持服务端与终端的扫描调度通信,实现扫描、上报等命令的发送与接收,支撑局域网内分布式扫描,进行控制终端扫描、监控扫描进度、收集扫描结果、统计输出功能。3.根据权利要求1所述的非涉密环境下涉密地理数据的高效检测发现系统,其特征在于,所述涉密特征库包括为敏感词库、地名词库、示例排除库和规则库。
【专利摘要】本发明公开了一种非涉密环境下涉密地理数据的高效检测发现系统,先粗后细策略和多线程扫描模型,地理数据识别过程中采用了“先粗后细”策略,兼顾了查全和查准两方面,“先粗后细”的搜索策略过滤出可疑文件类型列表;然后,对文件名或路径名关键字和敏感词关键字筛查;最后,按不同文件类型对数据文件进行深入分析,同时,采用“邮递员”多线程扫描模型,将筛选、分析、评级、保存等过程并行,提升数据文件的扫描速度。本发明立足非涉密环境下单机或局域网内涉密地理数据的快速扫描、判别、提取与处理的需求,建立地理数据涉密特征库和判定特征库,可同时深度遍历扫描多种数据,可显著降低时间成本,提高效率。
【IPC分类】G06F17/30
【公开号】CN105488100
【申请号】CN201510790728
【发明人】许礼林
【申请人】国信司南(北京)地理信息技术有限公司
【公开日】2016年4月13日
【申请日】2015年11月18日