一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法
【技术领域】
[0001] 本发明属于交互式电子手册(IETM)技术和XML信息检索技术领域,具体涉及一种 从交互式电子手册中快速获取有效技术信息,适用于遵循我国军用GJB6600技术标准的交 互式电子手册,根据数据模块的模式约束(Schema)抽取数据模块的主干技术信息结构,基 于最紧致片段算法编码、检索,并利用相似度计算对检索结果进行过滤的基于最紧致片段 的IETM技术信息片段检索装置及其检索方法。
【背景技术】
[0002] 1.交互式电子技术手册
[0003] 20世纪80年代,美国军方率先提出交互式电子技术手册(Interactive ElectronicTechnicalManual,以下简称IETM)的概念。该技术是美国和欧洲许多发达国 家推行的全寿命周期保障(CALS)战略中的重要组成部分,是CALS的关键应用技术之一。 IETM利用文字、图表、音视频、三维动画等载体形式在电子设备上进行技术信息的交互式阅 读,主要用于指导装备或其他大型复杂产品的培训、使用、维修、保养等后勤保障工作。通过 应用IETM技术,可以有效降低装备的保障费用、提升工作效率、提高装备的可靠性和维修 性。
[0004] 2.交互式电子技术手册的GJB6600标准
[0005] 为了实现IETM的信息共享和数据互操作,相关标准和规范应运而生。目前国际 上有关IETM的标准很多,其中以美国军用标准和欧洲商业标准S1000D的研宄和应用最广 泛。但这些国际标准对我国装备制造业的实际情况缺乏适应性,因此我国研宄机构经过深 入研宄分析,以S1000D标准的思想为基础,提出了一套适合在我国推广应用的IETM技术标 准--GJB6600。
[0006]GJB6600对我国装备的分类、技术信息的构成进行了分析和研宄,从类型上将 技术信息划分为描述类、程序类、故障类等8个类型,并对各类数据模块进行了模式约束 (Schema)的描述。通过制定GJB6600标准,从功能构成、数据模型等方面规范了我国装备 IETM的编制要求,为IETM技术在我国的广泛应用提供了技术基础。
[0007] 3.交互式电子技术手册中的技术信息检索
[0008] IETM的核心作用是通过人机界面方式为用户提供技术信息的交互访问能力。功能 完备的检索功能可以使用户快速、准确的定位到相关技术信息,进而提高用户使用IETM进 行装备操作学习、故障维修的效率。在基于GJB6600标准研制的IETM中,技术信息被划分 为单元,以XML数据模块形式存在,大型复杂设备中往往含有数千个数据模块。
[0009]目前GJB6600中提供两种检索模式,一种是根据关键词对某一数据模块进行内部 信息检索;另一种是按照技术信息的类别进行检索,如按图片名称检索图片。根据以上两种 模式,IETM无法实现检索与某一关键字直接相关的各类不同信息片段,如含有某一关键字 的图片、表格和段落的集合。通过对用户进行需求调研,用户最关注的是如何在海量数据中 快速定位到有用的技术信息,因此提供基于关键字获取数据模块中有效信息片段的功能十 分必要。
[0010] 4、XML信息检索技术
[0011] XML是一种具有可扩展性的数据结构,具有自我描述能力和丰富的数据表示能力, 目前该技术广泛的应用在数据表示、交换、集成等过程中。XML的信息检索目前主要采用以 下三种查询模型:
[0012] A.基于简单关键词的查询方式,又称CO(ContentOnly,纯内容)查询。
[0013] 查询内容仅为用户想要查找的关键词,其查询过程类似传统的信息检索。基于关 键词的查询模型优点是便于使用,缺点是没有充分利用XML文档的半结构化信息,没有充 分利用XML数据本身的特点和优势。
[0014] B.严格结构匹配与关键词相结合的查询模型,简称SCAS(StrictContentand Structure)查询。
[0015] 查询内容包括用户想要查找的关键词和结构匹配条件。对于严格结构匹配与关键 词相结合的查询模型,要求查询结果必须严格满足结构路径和关键词的约束。其优点是用 户可以准确地定位信息,同时清晰地理解查询结果所具有的含义。该模式查询的缺点是用 户在查询XML数据之前,必须知道XML的准确模式信息(Schema结构)。
[0016] C.非严格结构匹配与关键词相结合的查询模型,简称VCAS(VagueContentand Structure)查询。
[0017] VCAS的查询方法与SCAS相似,但该模式在确定查询结果时不要求结果树与查询 树在结构上完全相同,而是允许存在一定偏差。VCAS是介于SCAS和C0之间的一种方式,其 优点是充分利用了XML数据的本质特点,同时考虑了结构信息和关键词信息,但又不要求 用户对结构做出精准描述。因此,较适合用户事前不清楚XML模式信息的情况。
[0018] 5?最紧致片段技术
[0019] 最近公共祖先LCA(LowestCommonAncestor)早期的定义是指在XML文档中包含 所有查询关键字节点的最近公共祖先节点,该节点的任意子节点都不再包含所有的关键字 节点。后期研宄者在LCA的基础上,提出了最紧致片段SmallestLCA(SLCA)概念来提高 XML关键字查询的性能和准确率,目前以SLCA为基础的各衍生技术在字符串处理和生物学 计算中应用十分广泛。
【发明内容】
[0020] 本发明的目的在于提供一种能够从符合GJB6600标准的交互式电子手册中快速 获取有效技术信息片段的基于最紧致片段的IETM技术信息片段检索装置。本发明的目的 还在于提供一种基于最紧致片段的IETM技术信息片段检索方法。
[0021] 本发明的目的是这样实现的:
[0022] 一种基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储 器三个部分:所述发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提 取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所述检索器通过关 键词激励模块进行关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度 过滤器对提取的各信息片段进行过滤,对技术信息片段进行检索;存储器的主干信息集存 贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以及各数据 存放的结构描述。
[0023] 所述片段发布器包括特征提取模块、编码模块和主干信息存储接口:
[0024] 所述的特征提取模块通过对GJB6600标准的分析,对段落、图形、表格、多媒体和 警示信息的Schema进行简化,将无实际显示意义的子元素和属性以及有显示意义但不参 与检索的元素和属性裁减掉,形成数据模块的特征规则,根据特征规则过滤选定装备IETM 的各数据模块,只将特征规则中的各类Schema元素及其内容作为主干信息结构抽取出来, 表示为XML结构树抽取数据模块的主干信息结构;
[0025] 所述的编码模块通过Dewey编码方式遵循宽度优先遍历的原则为主干信息结构 中的各节点编码;将每1个主干信息结构形成1个Dewey码;编码中存储各节点所属层级、 路径信息。
[0026] 所述片段检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤 模块和包装模块:
[0027] 所述的关键词激励模块按照先分句再分词的方式,采用双向最大匹配算法对用户 输入的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都 切分一次,将关键词形成多个小粒度词串,供片段检索时使用;
[0028] 所述的片段嗅探模块在检索开始前将关键词词串与数据库中存储与数据模块类 型相关的词串对比,根据词串相似度将用户可能感兴趣的数据模块类型排序;
[0029] 片段提取模块根据片段类型,提取XML片段块的主干结构;
[0030] 相似度过滤模块采用按逐层匹配计算XML片段各节点路径段数的方式计算相似 度,将交互式电子技术手册中在不同的数据模块中重复出现的相同的图片、段落或表格过 滤掉;
[0031] 包装模块:基于CSS和XSLT对检索结果的各XML片段内容进行封装。
[0032] 所述存储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则 存贮模块:
[0033] 所述的主干信息存模块对符合GJB6600的交互式电子技术手册中所有数据模 块的XML主干信息结构存贮;
[0034] 所述的主干特征提取规则存贮模块根据GJB6600技术标准,定义文字段落、图、表 格、音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,对以上规则进行动 态存贮;
[0035] 所述的片段
提取规则存贮模块用于描述根据信息片段的主干结构从数据模块中 提取整体的数据块的过程。
[0036] 一种基于最紧致片段的IETM技术信息片段检索方法,包括如下步骤:
[0037] 建立基于GJB6600的主干特征提取规则及其存贮结构:通过对GJB6600标准的分 析,定义段落、图形、表格、多媒体和警示信息共5类技术信息基础表现形式的主干特征提 取结构,并基于数据库中的XML管理技术实现Schema结构的存储;
[0038] 基于主干特征提取规则,完成交互式电子手册主干信息结构提取:对IETM进行 初始化加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标 准,则给出错误提示信息;数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结 合其模块类型提取主干信息结构:加载并解析XML数据模块,按序解析子元素的名称,并用 该名称到主干特征提取规则存贮结构中进行匹配,如匹配成功,将对该元素按主干特征提 取规则存贮结构中RULES所描述的主干特征提取规则的结构进行简化,去除XML中与技术 信息检索无关的内容,进而获得数据模块的主干信息结构,之后对主干信息结构进行Dewey 编码并存储;
[0039] 对关键词划分成词串:采用双向最大匹配算法对关键词逐步进行分句、中文分词 处理;
[0040] 基于最紧致片段技术完成对主干信息结构的词串检索,并对检索结果进行相似度 计算,过滤重复结果。
[0041] 本发明的有益效果是:
[0042] 本发明装置及方法适用于所有符合GJB6600技术标准的交互式电子手册,是一种 具有通用性的装置及方法。本发明装置利用片段发布器提取交互式电子手册的信息片段, 并存贮起来供用户检索,能够有效缩短信息片段的检索时间,提升检索效率。通过本发明的 应用,能够为IETM这类与业务知识紧密关联的技术产品提供一种能够准确定位信息片段 内容的检索装置。
【附图说明】
[0043] 图1是本发明的系统结构图;
[0044] 图2是本发明的方法原理图;
[0045] 图3是本发明的段落主干特征提取结构;
[0046] 图4是本发明的图形主干特征提取结构;
[0047] 图5是本发明的表格主干特征提取结构;
[0048] 图6是本发明的多媒体主干特征提取结构;
[0049]图7是本发明的警示信息主干特征提取结构;
[0050]图8是本发明的IETM主干信息提取工作流程图。
【具体实施方式】
[0051] 下面结合附图对本发明作更详细的描述。
[0052] 本发明提供的是一种基于最紧致片段的IETM技术信息片段检索方法,是一种从 交互式电子手册中快速获取有效技术信息片段的装置。该装置包括片段发布器、片段检索 器和存贮器三个部分:片段发布器接收符合GJB6600的交互式电子技术手册,通过特征提 取模块提取各数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;片段检 索器基于关键词激励模块实现关键词的语义分析,根据关键词进行信息片段的嗅探、提取, 应用相似度过滤器对提取的各信息片段进行过滤,实现对技术信息片段的快速检索;存贮 结构用于存储符合GJB6600的模式约束特征、片段提取规则和主干信息的相关数据,以及 各数据存放的结构描述。本发明适用于遵循我国军用GJB6600技术标准的交互式电子手 册,提供了一种可有效、快速的对大量数据模块内部技术信息片段进行检索的方法。
[0053] 基于最紧致片段的IETM技术信息片段检索装置及方法,包括发布器、检索器和主 干信息集存1C结构三个部分;所述发布器接收符合GJB6600的交互式电子技术手册,通过 特征提取模块提取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所 述检索器基于关键词激励模块实现关键词的语义分析,根据关键词进行信息片段的嗅探、 提取,应用相似度过滤器对提取的各信息片段进行过滤,实现对技术信息片段的快速检索; 主干信息集存贮结构用于存储符合GJB6600的模式约束特征、片段提取规则和主干信息的 相关数据,以及各数据存放的结构描述。
[0054] 基于最紧致片段的IETM技术信息片段检索装置及方法,实现本发明的具体方法 为:
[0055] a)建立基于GJB6600的主干特征提取规则及其存贮结构。通过对GJB6600标准的 分析,定义段落、图形、表格、多媒体和警示信息共5类技术信息基础表现形式的主干特征 提取结构,并基于数据库中的XML管理技术实现Schema结构的存储。
[0056] b)基于主干特征提取规则,完成交互式电子手册主干信息结构提取。对IETM进行 初始化加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标 准,则给出错误提示信息。数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结 合其模块类型提取主干信息结构(MIS,MainInformationStructure),具体工作过程为: 加载并解析XML数据模块,按序解析子元素的名称,并用该名称到"主干特征提取规则存贮 结构"中进行匹配,如匹配成功,将对该元素按"主干特征提取规则存贮结构"中"RULES"所 描述的主干特征提取规则的结构进行简化,去除XML中与技术信息检索无关的内容,进而 获得数据模块的MIS,之后对MIS结构进行Dewey编码并存储。
[0057] c)对关键词划分成词串。对关键词逐步进行分句、中文分词处理,采用双向最大匹 配算法。
[0058] d)基于最紧致片段技术完成对主干信息结构的词串检索,并对检索结果进行相似 度计算,过滤重复结果。然后对检索结果进行组装后提交给IETM阅读器展现给用户。
[0059] 该装置包括片段发布器、片段检索器和存贮器三个部分。片段发布器接收符合 GJB6600的交互式电子技术手册,通过特征提取模块提取数据模块的主干内容结构并编码, 然后存储在主干信息存贮模块中;片段检索器基于关键词激励模块实现关键词的语义分 析,根据关键词进行信息片段的嗅探、提取,应用相似度过滤器对提取的各信息片段进行过 滤,实现对技术信息片段的快速检索;存贮结构用于存储符合GJB6600的模式约束特征、片 段提取规则和主干信息的相关数据,以及各数据存放的结构描述。
[0060] 本发明还可以包括这样一些特征:
[0061] 所述片段发布器包括特征提取模块、编码模块和主干信息存储接口:
[0062] a)特征提取模块:该模块主要完成两个工作,一是形成数据模块Schema的特征规 贝1J,二是根据特征规则抽取数据模块的主干信息结构。形成数据模块Schema的特征规则时 需通过对GJB6600标准的分析,对段落、图形、表格、多媒体和警示信息共5类信息的Schema 进行简化,将其中无实际显示意义的子元素/属性(例如"适用性信息")和有显示意义但 不参与检索的元素/属性裁减掉,形成Schema的信息简化特征规则。根据特征规则抽取数 据模块的主干信息结构时,需利用特征规则过滤选定装备IETM的各数据模块,只将特征规 则中的各类Schema元素及其内容作为主干信息结构抽取出来,表示为XML结构树。
[0063] b)编码模块:该模块的作用是基于Dewey编码方式为主干信息结构中的各节点编 码。该模块特征为:编码过程遵循宽度优先遍历的原则;每1个主干信息结构将形成1个 Dewey码;编码中存储各节点所属层级、路径等彳目息;编码是后续对XML结构树中彳目息兀素 进行快速匹配的基础。
[0064] 所述片段检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤 模块和包装模块:
[0065]a)关键词激励模块:按照先分句再分词的方式,采用双向最大匹配算法对用户输 入的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都切 分一次,然后根据小粒度词串越多越好、非词典词和单字词越少越好的原则将关键词形成 多个小粒度词串,供片段检索时使用。
[0066]b)片段嗅探模块:数据模块类型共8类,包含描述类、程序类、故障类等,每个类型 可表示特定内容含义的技术信息内容,如程序类一般着重表现设备的"使用"、"操作"、"流 程"等信息。因此,为了提升检索效率,数据库中存储与数据模块类型相关的词串,在检索开 始前将关键词词串与之对比,根据词串相似度将用户可能感兴趣的数据模块类型排序。
[0067]c)片段提取模块:根据片段类型,按照规则提取XML片段块的主干结构。
[0068]d)相似度过滤模块:交互式电子技术手册中,相同的图片、段落或表格可能在不 同的数据模块中重复出现,为了提高检索的用户体验感和信息检索效率,有必要将重复结 果过滤掉。为此,本系统采用按逐层匹配计算XML片段各节点路径段数的方式计算相似度, 如相似度超过事先
设定的阈值(通常设为〇. 9,可根据用户需要自行微调),则视为相同结 果,反之视为不同检索结果。
[0069]e)包装模块:信息检索的结果为XML片段,但其半结构化表示方式可阅读性很差, 因此需要基于CSS和XSLT对检索结果的各XML片段内容进行封装,使图、段落、表格等技术 信息以适于计算机界面显示的形式提供给用户。
[0070] 所述存储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则 存贮模块:
[0071]a)主干信息存贮模块:基于XML数据结构存储技术,实现对符合GJB6600的交互 式电子技术手册中所有数据模块的XML主干信息结构存贮。该存贮模块与数据模块列表之 间具有索引并建立同步更新机制,能够实现数据模块和主干信息之间的双向快速关联,以 及数据模块更新后的主干信息自动更新。主干信息存贮模块可基于XPath实现对主干信息 结构的快速检索。
[0072]b)主干特征提取规则存贮模块:结合GJB6600技术标准,定义文字段落、图、表格、 音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,并对以上规则进行动 态存贮。
[0073] c)片段提取规则存贮模块:用于描述如何根据信息片段的主干结构从数据模块 中提取整体的数据块。
[0074] 图1是本发明的系统结构图,本方法在总体上包括发布器、检索器和主干信息集 存贮结构三个部分,各部分之间相互协同配合完成基于GJB6600的交互式电子手册的最紧 致片段信息检索。
[0075] 图2是本发明的方法原理图,下面结合图2所示的原理方法流程进一步说明本发 明的具体实现过程。
[0076] 1.建立基于GJB6600的主干特征提取规则及其存贮结构的具体实施过程
[0077]GJB6600技术标准为了规范交互式电子手册的结构、将对技术信息的管理贯穿设 备的整个生命周期,在数据模块的模式约束中除技术信息外,还设置了许多辅助管理和统 计的元素/属性。这些元素/属性中描述的内容并不承载技术信息的内容,因此对用户的 信息检索活动来说,此类信息属于冗余信息,增加了信息检索量,使效率降低。为此,本发明 基于GJB6600技术标准对各类主要信息内容的主干特征提取规则进行定义,并为其设计存 贮结构方便存储和检索。
[0078] 通过对GJB6600标准的分析,技术信息的基础表现形式主要包括段落、图形、表 格、多媒体和警示信息共5类。GJB6600对信息的模式约束通过Schema方式描述,为了保持 其结构的完整性和兼容性,本发明对主干特征提取结构的定义也采用Schema方式,其主干 特征提取结构定义如下。
[0079] a)段落的主干特征提取结构
[0080] 图3是对GJB6600中段落的模式约束进行简化后,定义的段落主干特征提取结构。 该结构中对段落及其子元素的内容和元素进行简化,主要裁剪两类信息:无实际显示意义 的子元素/属性,例如"适用性信息";有显示意义但不参与检索的元素/属性。
[0081] b)图形的主干特征提取结构
[0082] 图4是对GJB6600中图形的模式约束进行简化后,定义的图形主干特征提取结构。 该结构中对图形及其子元素的内容和元素进行简化,仅保留参与信息检索的结构,具体包 括"图形标题"、"热点"的名称及描述属性。
[0083]c)表格的主干特征提取结构
[0084] 图5是对GJB6600中表格的模式约束进行简化后,定义的表格主干特征提取结构。 该结构中对表格及其子元素的内容和元素进行简化,仅保留参与信息检索的结构,具体包 括"表题"和"表格内容"。其中"表格内容"中需按"行"、"单元格"的递进顺序逐层检索。
[0085] d)多媒体的主干特征提取结构
[0086] 图6是对GJB6600中多媒体的模式约束进行简化后,定义的多媒体主干特征提取 结构。该结构中对多媒体及其子元素的内容和元素进行简化,仅保留"标题"信息参与检索。
[0087] e)警示信息的主干特征提取结构
[0088] 图7是对GJB6600中警示信息的模式约束进行简化后,定义的警示信息主干特征 提取结构。该结构中对警示信息及其子元素的内容和元素进行简化,仅保留参与信息检索 的结构,具体包括"警告"、"注意"和"注释"。
[0089] 将以上5类信息作为基础结构定义主干特征提取规则,即能够完成GJB6600中各 类不同数据模块的主干内容信息表达。
[0090] 主干特征提取规则存贮结构结合数据库中的XML管理技术,简化为二维关系表格 的形式,如表1所示:
[0091] 表1主干特征提取规则存贮结构示意图
[0093] 其中
[0094] ID:为主干特征提取规则的序号
[0095] NAME:为本规则所描述信息的元素名称
[0096] TYPE:为本规则所描述信息的元素类型(留作扩展,目前均为基本型)
[0097] RULES:为本规则所描述信息元素的主干特征提取结构,以Schema形式存储
[0098] DES:为本规则所描述信息的元素描述
[0099] 2.基于主干特征提取规则,完成交互式电子手册主干信息结构提取的具体实施过 程
[0100] 图8是以交互式电子手册为输入,提取其主干信息的工作流程图。
[0101] 首先由用户选定目标IETM系统,被选定目标应具备两个条件:①符合 GJB6600②IETM系统具备发布条件。然后系统对IETM进行初始化加载,同时对选定IETM 及其数据模块的完整性和规范性进行校验,如发现不符合标准,则给出错误提示信息。数据 模块全部通过校验后,系统按顺序逐一读取数据模块,并结合其模块类型提取主干信息结 构(MIS,MainInformationStructure),具体工作过程为:加载并解析XML数据模块,按序 解析子元素的名称,并用该名称到"主干特征提取规则存贮结构"中进行匹配,如匹配成功, 将对该元素按"主干特征提取规则存贮结构"中"RULES"所描述的主干特征提取规则的结 构进行简化,去除XML中与技术信息检索无关的内容,进而获得数据模块的MIS。
[0102] 获得MIS后,需要对MIS结构进行Dewey编码,其具体方法为:
[0103] a)对根节点的Dewey编码为0 ;
[0104] b)对MIS结构树按宽度优先遍历的方式对树遍历,如果节点v是节点u的第i个 孩子,贝U节点v的Dewey编码为D(u). (i_1},其中D(u)表示节点u的Dewey编码。
[0105] c)在该编码u中的所有被"分割的整数的个数表示u的长度,以lu表示。取MIS 树根节点所在的层位第1层,那么定义Dewey码u中与第i层节点对应的整数为该Dewey 码的第i层整数,表示为W。由1到i层整数组成的Dewey码称为该节点Dewey码u的第 i层如缀,表不为Pu⑴。
[0106] Dewey编码结束后,将该码存储在数据库中,由于Dewey码包含了MIS的路径信息, 能够较好的支持信息片段的检索。
[0107] 3.将关键词划分成词串的具体实施过程
[0108] 下面详细叙述对用户提交的查询内容进行分词的具体过程。
[0109] a)分句处理。按照标点、空格、上标/下标等具备词串间隔特征的字符将输入内容 划分为若干个分句。假如用户提交的查询内容有重复内容,分词处理过程中将对其处理为 等价结果,即当作该词只出现过一次;假如用户提交的查询内容中含有中英文混杂内容,将 对其中的英文保留为一个单独的分句,并以此为断点讲中文切分开,而后对两端的中文进 行分句处理。
[0110] b)中文分词处理。如果字符串含有的中文长度小于等于3个字符,则认为是一个 词串保留不动,否则对其进行全分词。此处采用的算法是双向最大匹配算法,按正向最大匹 配法和逆向最大匹配法都切分一次,然后根据大粒度词串越多越好、非词典词和单字词越 少越好的原则对其词串划分结果作为中间处理结果保存。
[0111] 4.根据词串进行信息片段检索、相似度过滤的具体过程
[0112] 结合获得的词串内容,基于最紧致片段的检索算法实现信息片段的检索,具体工 作如下:
[0113] a)从"存贮器"的"主干信息存储模块"中提取当前IETM系统的一个MIS(主干信 息结构);
[0114] b)利用Xpath表达式过滤MIS树的各节点,获得节点内容中含有某个查询词串的 节点Dewey编码;
[0115] c)求各节点Dewey编码的前缀交集;
[0116] d)前缀Dewey编码代表的MIS树节点即为最终检索到的信息片段检索结果;
[0117] e)按以上步骤逐一过滤IETM系统中的MIS。
[0118] 至此,完成对IETM中所有数据模块MIS的信息检索,并初步检索出包含被检索词 串的信息片段。设基于以上方法可获得n个信息片段检索结果,且第i个信息片段检索结 果为ISp此时的为带有Dewey编码的主干信息结构片段,且可能存在和ISIS』结 构内容几乎或完全一致,即重复的检索结果。在IETM检索结果中,大量重复的检索结果将 降低用户对信息的准确把握能力,因此本发明将通过相似度计算工作完成对重复检索结果 的过滤。具体工作过程如下:
[0119] a)设定相似度阈值为入;
[0120] b)定义R相对Q的相似度为SQK,定义需要对比相似度的两个结构分别为Q和R;
[0121] c)计算Q和R的节点相似度SeQK,二者所包含相同节点越多则相似度越高,反之相 似度越低,计算公式为:
[0122] SeQK= |Q的节点数PIR的节点数|/|Q的节点数
[0123] d)计算Q和R的层次相似度S1QK,描述节点间的层次关系,可以更精确的表述相似 度,计算公式为:
[0124]S1QK=E(Min(R1uv,Qluv)/Max(Rluv,Q1ot) ) /EQ1ot
[0125] 其中,U、V是Q和R中都包含的节点,luv表示U、V节点之间的路径段数,R1 表示 R中U、V节点之间的路径段数。
[0126] e)计算R相对Q的相似度,计算公式为:
[0127] SQE -SeQR*S1QR
[0128]f)如果SQK小于等于A,视R与Q为两个不同检索结果;反之,视R与Q为重复检 索结果,在结果集中删除R。
[0129] 经过以上计算,可得到最终的主干信息片段检索结果集,根据各主干信息片段根 节点ID即可完成从完整数据模块中截取XML完整信息片段的工作。对于应用CSS、XSLT技 术对XML信息片段内容转换为HTML的过程,在此不详细描述。
[0130] 为验证本发明的有效性,我们搭建了典型应用环境对其进行验证,环境包括IETM 阅读器和IETM数据库(Oracle10g)。实验针对的是本发明提出的基于最紧致片段的IETM 技术信息片段检索技术,采用某型柴油机的IETM系统数据模块作为测试数据。系统中共包 括数据模块共475个。
[0131] 表2给出了具体技术参数。
[0132]表2具体技术参数
[0133]
[0134] 表3给出了检索结果及对比。
[0135] 表3检索结果
[0137]
[0138] 对以上结果分析如下:
[0139] a)本发明检索的结果最终定位在数据模块中的某一部分信息片段,用户可通过对 检索结果信息片段的浏览,快速确认该结果是否为所需内容;而常规方式只能定位到数据 模块整体,用户需浏览整个数据模块才能确认该模块是否含有所需内容。
[0140] b)当检索词长度较长时,本发明方法因采用分词技术,检索效果优于常规方式,体 现在检索出的信息片段个数较多;而常规方式按照检索词精确检索,对用户的检索词构建 能力要求过高。
[0141] c)当检索词字数过少,且是一个完整的词语时,本发明方法与常规方法检索出的 结果数量一致。
[0142] 基于以上分析,本发明在IETM信息检索方面有较好的效果。
【主权项】
1. 一种基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储器 三个部分,其特征在于:所述发布器接收符合GJB6600的交互式电子技术手册,通过特征提 取模块提取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所述检索 器通过关键词激励模块进行关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应 用相似度过滤器对提取的各信息片段进行过滤,对技术信息片段进行检索;存储器的主干 信息集存贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以 及各数据存放的结构描述。2. 根据权利要求1所述的一种基于最紧致片段的IETM技术信息片段检索装置,所述片 段发布器包括特征提取模块、编码模块和主干信息存储接口,其特征在于: 所述的特征提取模块通过对GJB6600标准的分析,对段落、图形、表格、多媒体和警示 信息的Schema进行简化,将无实际显示意义的子元素和属性以及有显示意义但不参与检 索的元素和属性裁减掉,形成数据模块的特征规则,根据特征规则过滤选定装备IETM的各 数据模块,只将特征规则中的各类Schema元素及其内容作为主干信息结构抽取出来,表示 为XML结构树抽取数据模块的主干信息结构; 所述的编码模块通过Dewey编码方式遵循宽度优先遍历的原则为主干信息结构中的 各节点编码;将每1个主干信息结构形成1个Dewey码;编码中存储各节点所属层级、路径 信息。3. 根据权利要求1所述的一种基于最紧致片段的IETM技术信息片段检索装置,所述 片段检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤模块和包装模 块,其特征在于: 所述的关键词激励模块按照先分句再分词的方式,采用双向最大匹配算法对用户输入 的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都切分 一次,将关键词形成多个小粒度词串,供片段检索时使用; 所述的片段嗅探模块在检索开始前将关键词词串与数据库中存储与数据模块类型相 关的词串对比,根据词串相似度将用户可能感兴趣的数据模块类型排序; 片段提取模块根据片段类型,提取XML片段块的主干结构; 相似度过滤模块采用按逐层匹配计算XML片段各节点路径段数的方式计算相似度,将 交互式电子技术手册中在不同的数据模块中重复出现的相同的图片、段落或表格过滤掉; 包装模块:基于CSS和XSLT对检索结果的各XML片段内容进行封装。4. 根据权利要求1所述的一种基于最紧致片段的IETM技术信息片段检索装置,所述存 储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则存贮模块,其特 征在于: 所述的主干信息存IC模块对符合GJB6600的交互式电子技术手册中所有数据模块的XML主干信息结构存贮; 所述的主干特征提取规则存贮模块根据GJB6600技术标准,定义文字段落、图、表格、 音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,对以上规则进行动态 存贮; 所述的片段提取规则存贮模块用于描述根据信息片段的主干结构从数据模块中提取 整体的数据块的过程。5. -种基于最紧致片段的IETM技术信息片段检索方法,其特征在于,包括如下步骤: 建立基于GJB6600的主干特征提取规则及其存贮结构:通过对GJB6600标准的分析, 定义段落、图形、表格、多媒体和警示信息共5类技术信息基础表现形式的主干特征提取结 构,并基于数据库中的XML管理技术实现Schema结构的存储; 基于主干特征提取规则,完成交互式电子手册主干信息结构提取:对IETM进行初始化 加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标准,则 给出错误提示信息;数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结合其模 块类型提取主干信息结构:加载并解析XML数据模块,按序解析子元素的名称,并用该名称 到主干特征提取规则存贮结构中进行匹配,如匹配成功,将对该元素按主干特征提取规则 存贮结构中RULES所描述的主干特征提取规则的结构进行简化,去除XML中与技术信息检 索无关的内容,进而获得数据模块的主干信息结构,之后对主干信息结构进行Dewey编码 并存储; 对关键词划分成词串:采用双向最大匹配算法对关键词逐步进行分句、中文分词处 理; 基于最紧致片段技术完成对主干信息结构的词串检索,并对检索结果进行相似度计 算,过滤重复结果。
【专利摘要】本发明属于交互式电子手册(IETM)技术和XML信息检索技术领域,具体涉及一种利用相似度计算对检索结果进行过滤的基于最紧致片段的IETM技术信息片段检索装置及其检索方法。基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储器三个部分:所述发布器通过特征提取模块提取数据模块的主干内容结构并编码;所述检索器通过关键词激励模块进行关键词的语义分析;存储器的主干信息集存贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以及各数据存放的结构描述。本发明利用片段发布器提取交互式电子手册的信息片段,并存贮起来供用户检索,能够有效缩短信息片段的检索时间,提升检索效率。
【IPC分类】G06F17/30
【公开号】CN104899340
【申请号】CN201510394706
【发明人】赖初荣, 冯伟强, 鄂弢金, 徐志超, 姚崇东, 李万超
【申请人】哈尔滨工程大学船舶装备科技有限公司
【公开日】2015年9月9日
【申请日】2015年7月8日