一种支持用户自定义归类规则的信息归类方法

xiaoxiao2020-10-23  17

一种支持用户自定义归类规则的信息归类方法
【技术领域】
[0001] 本发明属于数据库应用领域,具体涉及一种支持用户自定义归类规则的数据库 中信息归类的方法。
【背景技术】
[0002] 信息归类是指为了某种目的,以一定的归类原则和方法为指导,按照信息内容、性 质以及相关的需求,将数据库信息按一定的结构体系分门别类地组织起来。
[0003] 信息归类的工作原理是:第一,将信息存入数据库,同时提取出信息的关键内容, 作为归类的依据;第二,按照相关需求来定义归类规则;第三,根据归类规则,将数据库中 内容相似或相近的信息放在一起。
[0004] 与"信息归类"相关的技术是信息检索技术,针对数据库,检索一般是根据用户输 入的检索关键词进行精确查找或者模糊查找,得到与检索内容相匹配的信息,并将此信息 返回给用户。
[0005] 目前,不论是对数据库进行精确检索还是进行模糊检索,采用的都是基于关键词 的检索技术,这样的检索无法得到与检索内容相近、相似的相关信息内容,也无法得到与检 索内容存在潜在关系的相关信息内容。

【发明内容】

[0006] 本发明的目的就是为了克服上述现有技术中的不足之处,提供一种支持用户自定 义归类规则的信息归类方法,支持面向语句的数据库检索,从而实现对相关或相近或具有 潜在关系的信息归类。
[0007] 本发明是一种支持用户自定义归类规则的信息归类方法,以用户定制的归类规则 为基础,支持数据库进行语句检索,得到与检索语句相近或相似的信息内容,包括以下步 骤: (1) 信息归类规则建模,将用于信息归类时的相关规则用一张图来描述,图中的每个节 点代表一个关键词信息,包括关键词内容和关键词权重,图中的每条边代表两个关键词之 间的关系信息,包括关系内容和关系权重,具体操作中,用一个三元组,即主语、谓语、宾语 信息来表示图中的一条边,即主语和宾语两个节点之间的关系是谓语,用户通过定制上述 规则关系图来定制用于信息归类时的相关规则; (2) 基于规则的检索语句分词,通过遍历用户定制的规则关系图,得到此规则中的所有 关键词,组成关键词集,在用户输入检索语句之后,在关键词集中找出匹配的关键词,得到 分词结果; (3) 基于规则的检索关键词扩展,以经过步骤(2)分词处理后得到的分词结果中的每一 个关键词分别作为核心关键词加以处理,在用户定制的搜索层数的控制下,得到与之相近 或相关的关键词以及相关权重,最后得到扩展关键词集。此外,考虑到规则中关键词之间的 关联关系是图状拓扑结构形式,因此为了提高推理效率,需要限定关键词的扩展层数,即用 户定制的搜索层数; (4)利用扩展得到的关键词集,在数据库中进行精确检索或者模糊检索得到相应的内 容。依据规则关系图,可以扩展出与正在处理的核心关键词相关或相近的关键词,这样再 利用这些关键词进行进一步检索时,就可以得到与本次检索语句相关或相近的信息内容。 同理,依据规则关系图,可以扩展出与正在处理的核心关键词具有潜在语义关系的关键词, 利用这些关键词进行进一步检索时,就可得到与本次检索语句具有潜在语义关系的信息内 容。
[0008] 本发明适用于各类有信息归类需求的用户,支持用户按需定制相关的信息归类规 贝1J,这样用户能够随时修改相关规则或者制定新的归类规则。本发明的主要步骤均是以用 户定制的归类规则为基础,一方面依据定制归类规则的不同,检索分词操作和关键词扩展 操作将得到的不同结果,这使得信息归类的效果随着规则的定制而发生变化,另一方面,用 户可根据信息归类的效果不断完善归类规则。利用本发明进行信息归类,所得到的归类结 果除了得到与初始检索语句直接关联的结果外,还会得到与初始检索语句相关或相似或具 有潜在关系的结果,这样将帮助用户获取到更加全面的信息。
【附图说明】
[0009] 图1为本发明基于规则的检索语句分词算法流程图。
[0010] 图2为本发明基于规则的关键词扩展算法流程图。
【具体实施方式】
[0011] 本发明方法实施时,通过步骤1构造相关规则关系图,并将其存入数据库中。以下 以在开发机上用Java语言在eclipse开发环境下实现本发明方法的应用程序为例,详细说 明本发明技术方案。
[0012] 步骤1 :信息归类规则的建模。
[0013] 选择适当规则建模工具,按照用户需求建立以图的形式描述的规则。将用于信息 归类时的相关规则用一张图来描述,图中的每个节点代表一个关键词信息,包括关键词内 容和关键词权重,图中的每条边代表两个关键词之间的关系信息,包括关系内容和关系权 重,具体操作中,用一个三元组,即主语、谓语、宾语信息来表示图中的一条边,即主语和宾 语两个节点之间的关系是谓语,用户通过定制上述规则关系图来定制用于信息归类时的相 关规则。
[0014] 本实施例定义了一个Web界面,供用户上传规则文件,通过解析该规则文件,将得 到的三元组信息存入数据库,方便后继步骤使用。在将解析得到的三元组信息存入数据库, 同时,通过遍历这些三元组,可得到一个用于后续步骤的的关键词集。
[0015] 步骤2 :基于规则的检索语句分词。
[0016] 与传统的分词程序不同之处在于,本发明的分词操作是基于用户定制的规则的, 因此在不同的规则上,同一个检索语句的分词结果可能会不一样。
[0017] 如图1所示,基于规则的检索语句分词算法如下: 步骤一,设定当前考虑的字符串是从下标i开始的,i = 0 ; 步骤二,从i开始,截取一个长度为MaxLen的字符串CutWord ;MaxLen为规则关键 词集中关键词的最长长度; 步骤三,判断CutWord.是否是规则关键词集中的词语,如果是,将CiitWord.加入到分 词结果集,跳转至步骤五,否则转至步骤四; 步骤四,如果CutWord的长度为0,则转到步骤五,否则删除CiitWord的最后一个字 符,然后转到步骤三; 步骤五,删除匹配的部分,i值加1,如果i已经超过检索字符串长度,则程序停止,返回 分词结果集,否则转到步骤二。
[0018] 上述基于规则的检索语句分词算法中的相关变量含义如表1。
[0019] 表1.基于规则的检索语句分词算法中的变量
步骤3 :基于规则的检索关键词扩展。
[0020] 此步通过从数据库中读取三元组信息,并组成规则关系图,然后以每一个关键词 为中心,搜索出与之相关或相近的其他关键词,以及通过解析得到二者之间的关系权重和 相关的其他关键词的权重,最后将所有得到的关键词按综合权重进行排序。
[0021]如图2所示,基于规则的检索关键词扩展算法如下: 步骤一,如果分词结果集为空,则跳转至步骤九,否则,从中取出一个关键词Word,并 删除,跳转至步骤二; 步骤^,清空待扩展关键词集d,把Wont丨目息加入emfd和扩展结果集 ,设置当前搜索层数j=2,转置步骤三; 步骤三,如果j超过定制的搜索层数,则跳转至步骤一,否 则j加上1,跳转至步骤四; 步骤四,如果集合为空,则跳转至步骤七,否则从5exfs"fd中选出一个关键词 Key,并删除它,跳转至步骤五; 步骤五,以Key?为中心,在规则中搜索得到与之相关的三元组信息集合,跳至步 骤六; 步骤六,如果为空,则跳转至步骤四,否则从中选出一条三元组信息Temp,并删 除它。通过解析Temp,得到与Key相关的一个关键词w,以及通过解析关系权重和W 权重综合得到的权重weight,将w的信息,包括综合权重weight存入一个扩展中间集合 ^tsmp>跳至步骤六; 步骤七,去掉中的重复元素,如果stemp为空则跳至步骤三,否则从中选出一个 关键词,跳转至步骤八; 步骤八,把加入,并且判断是否已经被扩展过,如果没有,则 把加入,跳转至步骤七; 步骤九,去掉中的重复元素,按权重降序排序后,返回结果,程序停止。
[0022] 上述基于规则的关键词扩展算法中的相关变量定义如表2。
[0023] 表2.基于规则的关键词扩展算法中的变量 变量名 变童类型 含义 Set<String> 待扩展的关键词集合 Set<Atom¥ord> 关键词扩展的结果集合 Wwd String 检索语句分诃结果集中的关键词 j int 当前的扩展盾數 String 当前正在进行扩展的关键词 s Set<TrIpe> 通过关键诃扩展得到的三元组集合 Te,np Tripe 三元组集合中的一组三元组 w String 相关关键询的内容 double 相关吳键词的权重 ^ Set<Atom¥ord>过程集合,收集下次替要扩展_关键词 String 一个扩展关键词 注:表2中的AtomWord表示关键词信息,包括关键词的内容和权重。
[0024] 表2中的Tripe表示三元组信息,g卩(主语、谓语、宾语)。
[0025] 在得到关键词扩展结果之后,利用这些关键词在数据库中进行精确检索或者模糊 检索,即可以得到检索结果,最后将检索结果按照关键词的相关权重排序即可。在本发明的 实施中,用户可以按需定制相关的信息归类规则,包括新建规则和修改规则,并且在检索的 时候,用户可以直接检索一个语句,而不仅限于检索单个的关键词,本发明可以以用户定制 的归类规则为基础,对检索语句进行分词操作,提取出与归类规则有关的检索关键词。对于 分词得到的每一个关键词,本发明可以通过在用户定制的规则中进行关键词扩展,得到相 关或相近的其他关键词,通过对这些关键词进行数据库检索,得到了与用户初始检索内容 相关相近的内容。同理也可以得到规则中与检索关键词具有潜在语义关联的其他关键词, 因此也得到了与用户初始检索内容具有潜在联系的内容。
【主权项】
1. 一种支持用户自定义归类规则的信息归类方法,其特征在于该方法包括以下步骤: (1) 信息归类规则建模,将用于信息归类时的相关规则用一张图来描述,图中的每个节 点代表一个关键词信息,包括关键词内容和关键词权重,图中的每条边代表两个关键词之 间的关系信息,包括关系内容和关系权重,具体操作中,用一个三元组,即主语、谓语、宾语 信息来表示图中的一条边,即主语和宾语两个节点之间的关系是谓语,用户通过定制上述 规则关系图来定制用于信息归类时的相关规则; (2) 基于规则的检索语句分词,通过遍历用户定制的规则关系图,得到此规则中的所有 关键词,组成关键词集,在用户输入检索语句之后,在关键词集中找出匹配的关键词,得到 分词结果; (3) 基于规则的检索关键词扩展,以经过步骤(2)分词处理后得到的分词结果中的每一 个关键词分别作为核心关键词加以处理,在用户定制的搜索层数的控制下,得到与之相近 或相关的关键词以及相关权重,最后得到扩展关键词集; (4) 利用扩展得到的关键词集,在数据库中进行精确检索或者模糊检索得到相应的内 容。2. 根据权利要求1所述的支持用户自定义归类规则的信息归类方法,其特征在于:步 骤(1)中所述的信息归类规则建模过程,包括新建或者修改信息归类规则,即用户可以通过 新建一张图或者在原有图的基础上进行修改。3. 根据权利要求1所述的支持用户自定义归类规则的信息归类方法,其特征在于步骤 (2) 中所述的基于规则的检索语句分词过程如下: 第一步,设定当前考虑的字符串是从下标i开始的,i = O ; 第二步,从i开始,截取一个长度为MaxLen的字符串CutWord,其中,MaxLen为规则 关键词集中关键词的最长长度; 第三步,判断CutWord是否是规则关键词集中的词语,如果是,将CutWord加入到分 词结果集,转到第五步,否则转到第四步; 第四步,如果CutWord的长度为0,则转到第五步,否则删除CutWord的最后一个字 符,然后转到第三步; 第五步,删除匹配的部分,i值加1,如果?已经超过检索字符串长度,则程序停止,返回 分词结果集,否则转到第二步。4. 根据权利要求1所述的支持用户自定义归类规则的信息归类方法,其特征在于步骤 (3) 中基于规则的检索关键词扩展过程如下: 第一步,如果分词结果集为空,则转到第九步,否则,从中取出一个关键词Word,并删 除,转到第二步; 弟^?步,清空待扩展关键词集,把WoTcI丨目息加和扩展结果集 Amii,设置当前搜索层数j=2,转到第三步; 第三步,如果j超过定制的搜索层数,则转到第一步,否则j加上1,转到第四步; 第四步,如果集合为空,则转到第七步,否则从sexie"id中选出一个关键词 Key,并删除它,转到第五步; 第五步,以Key为中心,在规则中搜索得到与之相关的三元组信息集合&啡,转到第 六步; 第六步,如果&pSi为空,则转到第四步,否则从中选出一条三元组信息Temp,并删除 它,通过解析Temp,得到与Key相关的一个关键词W,以及通过解析关系权重和W权 重综合得到的权重weight,将胃的信息,包括综合权重'weiSht存入一个扩展中间集合 转到第七步; 第七步,去掉Sigmp中的重复元素,如果Stemp为空则转到第三步,否则从中选出一个 关键词A^viemp,转到第八步; 第八步,把加入Sqsuii,并且判断如知胃是否已经被扩展过,如果没有,则 把Areyf抓p加入Sex.細,转到第七步; 第九步,去掉Samit中的重复元素,按权重降序排序后,返回结果,程序停止。
【专利摘要】本发明属于数据库应用领域,具体涉及一种支持用户自定义归类规则的数据库中信息归类的方法,以用户定制的归类规则为基础,支持数据库进行语句检索,得到与检索语句相近或相似的信息内容,或具有潜在关系的信息内容,本发明方法将帮助用户获取到更加全面的信息。
【IPC分类】G06F17/30
【公开号】CN104899262
【申请号】CN201510262625
【发明人】叶俊民, 祝黄建, 叶竹君, 陈曙
【申请人】华中师范大学
【公开日】2015年9月9日
【申请日】2015年5月22日

最新回复(0)