一种精准信息系统数据搜索方法
【技术领域】
[0001] 本发明属于网络自动化领域,具体涉及一种用于内部精准信息系统的数据搜索方 法。
【背景技术】
[0002] 信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、 存储和检索的程序化系统,其主要目的是为人们提供信息服务。所谓的信息检索系统是指 为满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索 与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体 (包括人和检索工作单位),统称为信息检索系统。信息检索则是指为了个人或他人的需 要,去发现适当的信息资源或信息对象。
[0003] 专利申请号02111893. 0提供了一种基于信息抽取技术的搜索引擎,其利用机器 学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此 类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络 上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和 学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本 集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提 取。其有益效果是:将信息抽取技术与搜索引擎技术有机地结合在一起,是一个非常有效、 准确的信息获取工具,能够较大范围地提高人们的工作效率。
[0004] 专利申请号99104149. 6公开了一种信息检索装置和方法,其包括多个搜索引擎, 从而可迅速得到文献目录的信息检索装置。该装置包括:传送经客户单元接收的检索请求 的通信单元,多个根据要求的检索条件检索数据并分类检索的数据的搜索引擎,分类全部 搜索引擎检索的数据的总分类单元。用上述构成,通过部分取出各搜索引擎检索的数据,即 可迅速制订期望的文献目录。
[0005] 专利申请号200610127043. 1公开了一种搜索邮件的方法及系统,用以解决现有 搜索邮件的速度较慢的问题。该方法包括:将邮件客户端收到的邮件的内容拆分为关键词, 并将各关键词与邮件的对应关系录入邮件搜索引擎;以及当用户搜索邮件中的关键词时, 所述邮件搜索引擎根据该关键词与邮件的对应关系调出相关邮件,以完成邮件搜索。其搜 索系统包括邮件客户端,拆分单元,用于将邮件客户端收到的邮件的内容拆分为关键词;录 入单元,用于将拆分单元拆分出的各关键词与邮件的对应关系录入邮件搜索引擎;邮件搜 索引擎,用于当用户搜索邮件中的关键词时,根据录入单元录入的对应关系调出相关邮件, 以完成邮件搜索。其特点是搜索邮件的速度较快。
【发明内容】
[0006] 本发明旨在提供一种包括doc、pdf、xls文件中的全部文本信息,且可提高信息检 索的速度、精准度和安全性的内部精准信息系统数据搜索方法。
[0007] 为达此目的,本发明采取了如下技术解决方案:
[0008] -种精准信息系统数据搜索方法,其特征在于,由搜索专用数据库表预处理及精 准信息系统数据搜索两部分组成,其数据搜索方法和步骤为:
[0009] 1、搜索专用数据库表预处理
[0010] 将需要检索的数据信息处理后写入搜索专用数据库表,以供精准检索用;搜索专 用数据库表处理包括已有信息处理和新建信息处理两部分,已有信息采用手动运行搜索专 用数据库表预处理的存储过程进行处理;新建信息采用触发器启动搜索专用数据库表预处 理的存储过程进行处理。
[0011] (1)搜索专用数据库表预处理存储过程
[0012] a、首先提取标题、关键字、分类、上传人员、上传时间信息,再与数据字典关联取得 中文意思,并合并为文本。
[0013] b、提取文件位置信息,根据文件类型进行不同的数据转换,获得文件中的文本信 肩、。
[0014] c、提取来源表名称、来源表信息ID的基本信息。
[0015] d、处理来源表的权限信息
[0016] 将a、b中的文本合并写入专用检索数据库表的"检索文本"字段;c、d提取的信息 写入专用检索数据库表的"来源表"、"来源ID"、"权限"字段。
[0017] (2)文件数据的转换
[0018] 采用 doc2txt、pdf2txt、xls2txt 三个子过程分别提取 *· doc、*· pdf、*· xls 文件 中的文本信息,子过程通过调用相应公司提供的接口程序进行,其他文件类型作为文本类 型对待。
[0019] 2、精准信息系统数据搜索
[0020] 用户登录系统,通过主页的检索入口输入检索关键字,关键字之间用空格隔开;精 准信息系统数据搜索系统先将关键字分离,采用关键字间为"与"的关系产生检索条件;然 后在专用检索数据库表中的"检索文本"字段中检索,符合条件的信息集中显示;点击某一 检索到的信息,精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限,如果 有权限,直接打开检索文件;若没有权限,则提醒没有权限;检索人可以申请查看权限,如 果管理部门批准,此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中;如果管 理部门拒绝,则将拒绝理由发送到检索人邮箱中。
[0021] 本发明的有益效果为:
[0022] 本发明提出了一种由搜索专用数据库表预处理及精准信息系统数据搜索两部分 组成的精准信息系统数据搜索方法,在信息系统录入各种信息的同时,通过搜索专用数据 库表预处理手段将事后检索所需的各种信息录入搜索专用数据库表,检索数据字段包括了 全部能够得到文本信息,包括doc、pdf、xls等文件中的文本信息,方便用户事后得到精准 的授权检索结果。本发明可极大提高信息检索的速度、精准度和安全性,是内部管理信息系 统必备的检索手段,用于内部信息化系统,取得非常满意的效果。
【附图说明】
[0023] 图1是检索专用数据库表处理流程图;
[0024] 图2是检索数据预处理的存储过程流程图;
[0025] 图3是信息数据检索流程图。
【具体实施方式】
[0026] 本发明精准信息系统数据搜索系统系由搜索专用数据库表预处理及精准信息系 统数据搜索两部分组成。以研发单位为例,对本发明的数据搜索方法和步骤具体说明如 下:
[0027] 首先,建立搜索专用数据库表(采用SQL Server数据库)
[0028]
[0029] 1.搜索专用数据库表预处理
[0030] 将需要检索的数据信息事先经过处理,写入搜索专用数据库表,以供精准检索。搜 索专用数据库表处理包括已有信息和新建信息处理两部分。已有信息包括历史数据及通过 集中操作处理的数据。新建信息包括由各种管理系统录入的数据。图1是检索专用数据库 表处理流程图。
[0031] 本系统涉及到研发单位的管理信息,包括科研项目管理、科研资料、专利、专有技 术、论文、软件著作权、专著、成果鉴定、报奖等涉及绩效及知识产权方面的管理文件、政发、 委发、纪发、工发及团发的文件。公文流转系统的各种审批文件。基层及管理部门发布的文 件、动态、通知、公告及会议、出差报告、临时任务、各种档案、化检验报告、实验试验分析报 告及信息调研材料。
[0032] 已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理;新建信息 采用触发器启动搜索专用数据库表预处理的存储过程进行处理。上述涉及到的各种数据库 表都建立相应的触发器。
[0033] 1. 1搜索专用数据库表预处理存储过程
[0034] 专用数据库表预处理存储过程分四部分完成处理过程:
[0035] (1)首先提取标题、关键字、分类、上传人员、上传时间等信息并和数据字典关联取 得中文意思并合并为文本;
[0036] (2)提取文件位置信息,根据文件类型进行不同的数据转换,获得文件中的文本信 息;
[0037] (3)提取来源表名称(例如专利表、专有技术表、论文表等)、来源表信息ID (以专 利表为例,就是专利表中的ID)等原始表的基本信息。
[0038] (4)处理来源表的权限信息。
[0039] 将(1)、⑵中的文本合并写入专用检索数据库表的"检索文本"字段;(3)、(4)提 取的信息写入专用检索数据库表的"来源表"、"来源ID"、"权限"字段。
[0040] 1. 2文件数据的转换
[0041] 采用 doc2txt、pdf2txt、xls2txt 三个子过程分别提取 *· doc、*· pdf、*· xls 文件 中的文本信息。子过程都是通过调用相应公司提供的接口程序进行的。此三个过程分别 将*. doc、*, pdf、*, xls文件中的文本提出,其中涉及到的图片只能提取图片说明的文字信 息。将除此三类文件外其他文件类型作为文本类型对待。例如html文件本身就是文本格 式的。其他文件格式在管理系统中已禁止使用的。实际上检索文本包括文件中的文本、分 类、标题、关键字、上传人员、上传时间等内容。包括了全部的可检索信息。图2是检索数据 预处理的存储过程流程图。
[0042] 2.精准信息系统数据搜索
[0043] 用户登录系统,通过主页的检索入口输入检索关键字,关键字之间用空格隔开。精 准信息系统数据搜索系统先将关键字分离。采用关键字间为与的关系产生检索条件。然后 在专用检索数据库表中的检索文本中检索。符合条件的信息集中显示。点击某一检索到的 信息,精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限。如果有权限,直 接打开检索文件。如果没有权限,提醒没有权限。检索人还可以申请查看权限,如果管理部 门批准,此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中。如果管理部门拒 绝将拒绝理由发送到检索人邮箱中。图3是信息检索流程图。
【主权项】
1. 一种精准信息系统数据搜索方法,其特征在于,由搜索专用数据库表预处理及精准 信息系统数据搜索两部分组成,其数据搜索方法和步骤为: (1) 搜索专用数据库表预处理 将需要检索的数据信息处理后写入搜索专用数据库表,以供精准检索用;搜索专用数 据库表处理包括已有信息处理和新建信息处理两部分,已有信息采用手动运行搜索专用数 据库表预处理的存储过程进行处理;新建信息采用触发器启动搜索专用数据库表预处理的 存储过程进行处理; 1) 搜索专用数据库表预处理存储过程 a、 首先提取标题、关键字、分类、上传人员、上传时间信息,再与数据字典关联取得中文 意思,并合并为文本; b、 提取文件位置信息,根据文件类型进行不同的数据转换,获得文件中的文本信息; c、 提取来源表名称、来源表信息ID的基本信息; d、 处理来源表的权限信息: 将a、b中的文本合并写入专用检索数据库表的"检索文本"字段;c、d提取的信息写入 专用检索数据库表的"来源表"、"来源ID"、"权限"字段; 2) 文件数据的转换 采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的 文本信息,其他文件类型作为文本类型对待; (2) 精准信息系统数据搜索 用户登录系统,通过主页的检索入口输入检索关键字,关键字之间用空格隔开;精准信 息系统数据搜索系统先将关键字分离,采用关键字间为"与"的关系产生检索条件;然后在 专用检索数据库表中的"检索文本"字段中检索,符合条件的信息集中显示;点击某一检索 到的信息,精准信息系统数据搜索系统判断检索人是否具有该信息的查看权限,如果有权 限,直接打开检索文件;若没有权限,则提醒没有权限;检索人可以申请查看权限,如果管 理部门批准,此文件和附带的基本信息通过邮件系统发送到检索人的邮箱中;如果管理部 门拒绝,则将拒绝理由发送到检索人邮箱中。
【专利摘要】一种精准信息系统数据搜索方法,由搜索专用数据库表预处理及精准管理信息系统数据搜索两部分组成,搜索专用数据库表处理包括已有信息处理和新建信息处理,已有信息采用手动运行搜索专用数据库表预处理的存储过程进行处理,新建信息采用触发器启动搜索专用数据库表预处理的存储过程进行处理。搜索专用数据库表预处理存储过程,根据文本不同分别写入专用检索数据库表的“检索文本”字段及专用检索数据库表的“来源表”、“来源ID”、“权限”字段,采用doc2txt、pdf2txt、xls2txt三个子过程分别提取*.doc、*.pdf、*.xls文件中的文本信息,进行精准管理信息系统数据搜索。本发明可极大提高信息检索的速度、精准度和安全性,是内部信息系统必备的检索手段。
【IPC分类】G06F17/30
【公开号】CN105488062
【申请号】CN201410480157
【发明人】李连成, 王军, 李向荣, 孙艺娜, 柴明亮, 宋宝宇
【申请人】鞍钢股份有限公司
【公开日】2016年4月13日
【申请日】2014年9月19日