信息提取模板的建立方法、知识数据的处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术,尤其涉及一种信息提取模板的建立方法、知识数据的处理方法和装置。
【背景技术】
[0002]随着互联网的普及和计算机技术的不断发展,通过网络获取信息已成为人们获取信息的主要途径,如可通过网络获取某人的属性信息,例如国籍、民族、性别和血型等,而如何从众多的信息中快速地查找到需要的信息成为需要解决的重要问题。
[0003]目前通过人工的方式制定触发词,然后基于触发词获取出现在其周围的词或语句作为需要提取的信息,例如对于人物的属性信息的提取是基于相应的人为规则进行。以提取人物的出生地为例,相应的人为规则设置为信息内容中关键词“出生于”或“生于”后面的信息即为该人物的出生地。
[0004]然而,基于人为规则的方法提取属性信息需要人工制定相应的信息提取规则,而制定的人为规则不能覆盖所有待提取的知识数据的样式,从而导致查全率偏低,降低了属性信息的提取精度和提取效率。
【发明内容】
[0005]本发明的目的在于,提供一种从知识数据提取预定属性的属性信息的技术方案,以使得用户不需要通过人工设置触发词的方式即可提取属性值,并且提高属性信息的查全率和提取精度。
[0006]根据本发明的一方面,提供一种信息提取模板的建立方法。所述建立方法包括,从多个知识数据中的结构化数据分别获取预定属性的第一属性值;分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段;根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。
[0007]优选地,所述根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板的处理包括:对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板,根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度;将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0008]优选地,所述置信度包括模板覆盖率和/或模板准确率,其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率,所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。
[0009]优选地,所述将获取的置信度的值大于预设的置信度阈值的属性信息候选模型选取为用于提取所述预定属性的属性值的属性信息提取模板的处理包括:如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或,如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0010]根据本发明的另一方面,提供一种知识数据的处理方法。所述处理方法包括,获取待处理的知识数据;对所述知识数据进行分析,分别将所述知识数据的内容片段与根据上述的建立方法建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
[0011]根据本发明的又一方面,提供一种信息提取模板的建立装置。所述建立装置包括:属性值获取模块,用于从多个知识数据中的结构化数据分别获取预定属性的第一属性值;内容片段获取模块,用于分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段;模板建立模块,用于根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。
[0012]优选地,所述模板建立模块包括:候选模板建立单元,用于对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板;置信度获取单元,用于根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度;模板选取单元,用于将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0013]优选地,所述置信度包括模板覆盖率和/或模板准确率,其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率,所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。
[0014]优选地,所述模板选取单元,用于如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或,如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0015]根据本发明的又一方面,提供一种知识数据的处理装置。所述处理装置包括:知识数据获取模块,用于获取待处理的知识数据;属性值提取模块,用于对所述知识数据进行分析,分别将所述知识数据的内容片段与根据上述信息提取模板的建立装置建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
[0016]根据本发明实施例提供的信息提取模板的建立方法、知识数据的处理方法和装置,通过从多个知识数据中的结构化数据分别获取预定属性的第一属性值,并分别从其中的正文数据获取与所述预定属性相关的内容片段,进而根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板,然后,可通过属性信息提取模板提取待处理的知识数据中的预定属性的属性值,使得用户不需要通过人工设置触发词的方式即可提取属性值,而且,由于属性信息提取模板是通过知识数据中的内容片段建立,所以提高了属性信息的查全率和提取精度。
【附图说明】
[0017]图1是示出根据本发明实施例一的信息提取模板的建立方法的流程图;
[0018]图2是示出根据本发明实施例一的知识数据的处理方法的流程图;
[0019]图3是示出根据本发明实施例二的知识数据的处理方法的流程图;
[0020]图4是示出根据本发明实施例三的信息提取模板的建立装置的逻辑框图;
[0021]图5是示出根据本发明实施例三的信息提取模板的建立装置的逻辑框图;
[0022]图6是示出根据本发明实施例四的知识数据的处理装置的逻辑框图。
【具体实施方式】
[0023]本方案的发明构思是,提供一种用于提取预定属性的属性值的信息提取模板的建立方法和通过建立的模板提取待处理的知识数据的预定属性的属性值,通过从多个知识数据中的正文数据获取与预定属性相关的内容片段,根据所述内容片段建立属性信息提取模板,进而可通过属性信息提取模板提取待处理的知识数据中的预定属性的属性值,从而使得用户不需要通过人工设置触发词的方式即可从知识数据提取预定属性的属性值,并且提高属性信息的查全率和提取精度。
[0024]下面结合附图详细描述本发明的示例性实施例。
[0025]实施例一
[0026]图1是示出根据本发明实施例一的信息提取模板的建立方法的流程图。通过包括如图4所示的建立装置的计算机系统执行所述建立方法。
[0027]参照图1,在步骤S110,从多个知识数据中的结构化数据分别获取预定属性的第一属性值。
[0028]其中,预定属性可为预先指定的任意属性,例如国籍、民族或性别等属性。第一属性值可为所述预定属性的任意属性值,例如,预定属性为国籍,则第一属性值可为中国、美国或英国等。知识数据可为知识库中的任一词条对应的数据,例如,电子百科中词条“兰花”对应的数据等。结构化数据可为知识数据中的卡片式
数据,例如,百度百科中人物词条中“基本信息”栏中的数据等。
[0029]具体地,对于知识库中的知识数据中某些特定属性的挖掘,对提高知识检索的精准度非常重要,同时对于知识库的建设和知识准确度要求非常高,为此,可以建立用于提取预定属性的属性值的属性信息提取模板来对知识数据中的预定属性的属性值。可从多个知识库中分别获取知识化数据中包括预定属性的属性值的知识数据,从多个知识数据中的每个知识数据的结构化数据中提取预定属性的属性值(即第一属性值)。
[0030]在步骤S120,分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段。
[0031]其中,知识数据中可包括结构化数据和正文数据等,其中结构化数据可为所述知识数据的简化数据,正文数据可为所述知识数据的详细信息对应的数据。
[0032]具体地,可从所述多个知识数据中的任意一个知识数据中获取正文数据,对所述正文数据进行分析,可从所述正文数据中获取与所述预定属性相关的内容片段,例如,预定属性为国籍,则可获取任一知识数据的正文数据,从所述正文数据中获取与国籍相关的属性值,然后,可从正文数据中提取包括所述属性值的内容片段,其中,该内容片段可为包括所述属性值的整个语句(如两个标点符号之间的语句),也可是整个语句中的一部分数据等。
[0033]在步骤S130,根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。
[0034]具体地,通过上述步骤S120的处理可得到多个内容片段,可对多个内容片段进行分析,从中选取满足预定条件的内容片段,可将选取的内容片段作为所述预定属性的属性值的属性信息提取模板。
[0035]需要说明的是,在多个内容片段中选取用于提取所述预定属性的属性值的属性信息提取模板的内容片段的处理还可通过随机选取的方式进行选择,从而得到所述属性信息提取模块。
[0036]图2是示出根据本发明实施例一的知识数据的处理方法的流程图。通过包括如图6所示的处理装置的计算机系统执行所述处理方法。
[0037]参照图2,在步骤S210,获取待处理的知识数据。
[0038]具体地,通过上述步骤S110?步骤S130的处理建立用于提取预定属性的属性值的属性信息提取模板后,可使用所述属性信息提取模板对结构化数据中不包括所述预定属性的属性值的知识数据进行属性值提取,相应的处理可包括:用户可在知识库中选择一个或多个需要提取预定属性的属性值的知识数据,终端设备可从知识库中提取用户选择的知识数据,如果待处理的知识数据为多个,则可分别提取相应的知识数据,并将其分开存储。
[0039]在步骤S220,对所述知识数据进行分析,分别将所述知识数据的内容片段与根据图1所述的建立方法建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
[0040]具体地,对待处理的知识数据中的正文数据进行分析,可将正文数据根据预设的数据划分规则划分成多个内容片段,例如,可根据属性信息提取模板中的字符数目的范围(如4?20等)对正文数据进行划分,从而得到多个内容片段等。然后,可将每个内容片段与所述属性信息提取模板进行匹配,可将从该内容片段中提取到的属性值作为预定属性的属性值。
[0041]需要说明的是,如果从多个内容片段中提取的属性值包括多个,则可计算提取的每个属性值的数目,可将数目最大的属性值作为预定属性的属性值。
[0042]本发明实施例提供的信息提取模板的建立方法和知识数据的处理方法,通过从多个知识数据中的结构化数据分别获取预定属性的第一属性值,并分别从其中的正文数据获取与所述预定属性相关的内容片段,进而根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板,然后,可通过属性信息提取模板提取待处理的知识数据中的预定属性的属性值,使得用户不需要通过人工设置触发词的方式即可从知识数据中提取预定属性的属性值,而且,由于属性信息提取模板是通过知识数据中的内容片段建立,所以提高了属性信息的查全率和提取精度。
[0043]实施例二
[0044]图3是示出根据本发明实施例二的知识数据的处理方法的流程图,所述实施例可视为图1和图2相结合的又一种具体的实现方案。
[0045]参照图3,在步骤S310,从多个知识数据中的结构化数据分别获取预定属性的第一属性值。
[0046]其中,步骤S310的步骤内容与上述实施例一中的步骤S110的步骤内容相同,在此不再赘述。
[0047]在步骤S320,分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段。
[0048]步骤S320的处理除了可通过上述实施例一中步骤S120的处理过程执行外,还可通过以下的处理方式进行,具体可包括:以多个知识数据中任一知识数据(可称为第一知识数据)为例,可通过步骤S310的处理从所述第一知识数据中获取结构化数据,并从所述结构化数据中提取预定属性的属性值(即第一属性值),可检测所述第一知识数据的正文数据中是否包括所述第一属性值,如果包括,则获取所述第一属性值在所述正文数据中的位置,然后,以所述第一属性值为中心,从该中心向两侧分别获取预定数目的字符,可使用获取的字符和所述第一属性值构建与所述预定属性相关的内容片段。例如,预定属性可为国籍,第一属性值可为中国,正文数据可为“XXX,XX中国XXXXX”,其中“X”表示一个字符,则得到的内容片段可为“XX中国XXXX”。
[0049]在步骤S330,对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板。
[0050]其中,第二属性值可为所述预定属性的任意属性值,所述第二属性值与所述第一属性值可以相同,也可以不同。
[0051]具体地,当通过上述步骤S320的处理得到多个内容片段后,可对其中的每一个内容片段进行分析,从每一个内容片段中提取预定属性的属性值(即第二属性值),可将所述第二属性值与相应的内容片段的标识对应存储。然后,可将内容片段中的所述第二属性值使用预定的变量代替,将替换完成后的内容片段可作为所述预定属性的属性信息候选模板,其中,如果内容片段中还包括专有名称(如人名、地名等),则在生成属性信息候选模板的过程中,可将该专有名词删除或使用预定的字符代替。
[0052]例如,预定属性为国籍,内容片段可为“北京是中国著名城市”,预定的变量可为“subject”,则第二属性值为“中国”,属性信息候选模板可为“是subject著名城市”。
[0053]通过上述处理可得到多个属性信息候选模板,为了从中选取到适用范围广和准确率较高的属性信息候选模板,可通过置信度的方式进行上述选取过程,相应的处理可包括以下步骤S340和步骤S350。
[0054]在步骤S340,根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度。
[0055]具体地,可将通过步骤S310从知识数据的结构化数据中获取的第一属性值与步骤S330存储的所述知识数据的第二属性值进行比较,如果某一知识数据的第一属性值与第二属性值不同,则可将所述属性信息候选模板的失败次数加1,如果某一知识数据的第一属性值与第二属性值相同,则可将所述属性信息候选模板的成功次数加1,然后,可使用所述属性信息候选模板的成功次数或失败次数除以第二属性值的总数得到的数值可作为所述属性信息候选模板的置信度的值。
[0056]在步骤S350,将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0057]其中
,置信度阈值可根据实际情况进行设置,具体如90%或85%等。
[0058]具体地,通过上述步骤S340得到所述属性信息候选模板的置信度,可将该置信度的值与预设的置信度阈值进行比较,如果得到的置信度的值大于所述置信度阈值,则可将所述属性信息候选模板设置为用于提取所述预定属性的属性值的属性信息提取模板,如果得到的置信度的值小于所述置信度阈值,则可讲所述属性信息候选模板丢弃,此时可继续验证其它属性信息候选模板是否满足上述要求,直到完成对所有属性信息候选模板的验证,或者找到满足上述要求的一个或多个属性信息候选模板作为所述预定属性的属性信息提取模板。
[0059]另外,置信度可包括多种指标,例如,模板覆盖率和/或模板准确率。其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率。第一属性信息候选模板可为属性信息候选模板中的任意一个,例如,第一属性信息候选模板为“是subject著名城市”,如果内容片断为“纽约是美国的著名城市”,则可认为所述内容片断与所述第一属性信息候选模板匹配,然后,可以通过上述方式计算与所述第一属性信息候选模板相匹配的内容片段的数目,使用计算得到的数目除以内容片段的总数得到所述第一属性信息候选模板的模板覆盖率,例如90%等。所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。第二属性信息候选模板可为属性信息候选模板中的任意一个,第二属性信息候选模板与第一属性信息候选模板可以相同,也可以不同。
[0060]基于置信度包括的上述指标(即模板覆盖率和/或模板准确率)的示例,步骤S350的处理可包括以下内容:如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或,如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0061]其中,覆盖率阈值和准确率阈值可分别根据实际情况设定,覆盖率阈值具体可为80 %或90 %等,准确率阈值具体可为90 %或95 %等。
[0062]具体地,通过上述步骤S310的处理得到从多个知识数据中的每个知识数据的结构化数据中获取的预定属性的属性值。以置信度包括模板覆盖率和模板准确率为例,可从预先建立的多个属性信息候选模板中任选一个属性信息候选模板(即第三属性信息候选模板),分别将每一个内容片段与所述第三属性信息候选模板匹配,记录与所述第三属性信息候选模板相匹配的内容片段的数目,使用记录的数目除以内容片段的总数得到所述第三属性信息候选模板的模板覆盖率的值,将得到的模板覆盖率的值与预设的覆盖率阈值对比,如果得到的模板覆盖率的值大于覆盖率阈值,则使用所述第三属性信息候选模板提取多个内容片段中的每一个内容片段的属性值,将提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值进行比较,记录提取的属性值与相应的结构化数据中的预定属性的属性值相同的数目,使用记录的数目除以内容片段的总数得到所述第三属性信息候选模板的准确率的值,将得到的准确率的值与预设的准确率阈值进行比较,如果得到的准确率的值大于准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板,否则,可将所述第三属性信息候选模板丢弃,继续对其它属性信息候选模板进行上述处理。
[0063]需要说明的是,在进行上述验证的过程中,可预先对内容片段和相应的第一属性值进行筛选,只保留内容片段中包含的属性值与第一属性值为同一预定属性的数据,例如,预定属性为国籍,某个内容片段中包含的属性值为“山东”,第一属性值为“中国”,则可丢弃所述内容片段和相应的第一属性值,相应地,在进行上述验证处理时,不使用所述内容片段和相应的第一属性值。
[0064]在步骤S360,获取待处理的知识数据。
[0065]其中,步骤S360的步骤内容与上述实施例一中的步骤S210的步骤内容相同,在此不再赘述。
[0066]在步骤S370,对所述知识数据进行分析,分别将所述知识数据的内容片段与根据步骤S310?步骤S350所述的建立方法建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
[0067]其中,步骤S370的步骤内容与上述实施例一中的步骤S120的步骤内容相同,在此不再赘述。
[0068]本发明实施例提供的知识数据的处理方法,一方面,通过从多个知识数据中的正文数据获取与预定属性相关的内容片段,根据所述内容片段建立属性信息候选模板,然后,通过每个属性信息候选模板的置信度与预先设定的置信度阈值之间的大小关系,从多个属性信息候选模板中选取一个或多个属性信息候选模板作为属性信息提取模板,从而提高了属性信息的查全率和预定属性的属性值的提取精度;另一方面,将属性信息候选模板的模板覆盖率作为选取属性信息提取模板的要素,使得通过上述方式建立的属性信息提取模板具有普遍适用性,扩大了属性信息提取模板的使用范围。
[0069]实施例三
[0070]基于相同的技术构思,图4是示出根据本发明实施例三的信息提取模板的建立装置的逻辑框图。参照图4,所述建立装置包括属性值获取模块410、内容片段获取模块420和模板建立模块430。
[0071]属性值获取模块410用于从多个知识数据中的结构化数据分别获取预定属性的第一属性值。
[0072]内容片段获取模块420用于分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段。
[0073]模板建立模块430用于根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。
[0074]进一步地,在图4所示实施例的基础上,如图5所示的模板建立模块430包括:候选模板建立单元431,用于对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板;置信度获取单元432,用于根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度;模板选取单元433,用于将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0075]此外,所述置信度包括模板覆盖率和/或模板准确率,其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率,所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。
[0076]另外,模板选取单元433用于如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或,如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。
[0077]本发明实施例提供的信息提取模板的建立装置,通过从多个知识数据中的结构化数据分别获取预定属性的第一属性值,并分别从其中的正文数据获取与所述预定属性相关的内容片段,进而根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板,以便后续可通过属性信息提取模板提取待处理的知识数据中的预定属性的属性值,使得用户不需要通过人工设置触发词的方式即可从知识数据中提取预定属性的属性值,而且,由于属性信息提取模板是通过知识数据中的内容片段建立,所以提高了属性信息的查全率和提取精度。
[0078]进一步地,本发明实施例中,一方面,通过从多个知识数据中的正文数据获取与预定属性相关的内容片段,根据所述内容片段建立属性信息候选模板,然后,通过每个属性信
息候选模板的置信度与预先设定的置信度阈值之间的大小关系,从多个属性信息候选模板中选取一个或多个属性信息候选模板作为属性信息提取模板,从而提高了属性信息的查全率和预定属性的属性值的提取精度;另一方面,将属性信息候选模板的模板覆盖率作为选取属性信息提取模板的要素,使得通过上述方式建立的属性信息提取模板具有普遍适用性,扩大了属性信息提取模板的使用范围。
[0079]实施例四
[0080]基于相同的技术构思,图6是示出根据本发明实施例四的知识数据的处理装置的逻辑框图。参照图6,所述处理装置包括知识数据获取模块610和属性值提取模块620。
[0081 ]知识数据获取模块610用于获取待处理的知识数据。
[0082]属性值提取模块620用于对所述知识数据进行分析,分别将所述知识数据的内容片段与根据上述信息提取模板的建立装置建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
[0083]本发明实施例提供的知识数据的处理装置,基于通过从多个知识数据中的正文数据获取与所述预定属性相关的内容片段,根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板提取待处理的知识数据中的预定属性的属性值,使得用户不需要通过人工设置触发词的方式即可从知识数据中提取预定属性的属性值,提高了预定属性的属性值的提取效率。
[0084]需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
[0085]上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD R0M、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
[0086]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1.一种信息提取模板的建立方法,其特征在于,所述建立方法包括: 从多个知识数据中的结构化数据分别获取预定属性的第一属性值; 分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段; 根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。2.根据权利要求1所述的建立方法,其特征在于,所述根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板的处理包括: 对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板,根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度; 将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。3.根据权利要求2所述的建立方法,其特征在于,所述置信度包括模板覆盖率和/或模板准确率, 其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率,所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。4.根据权利要求3所述的建立方法,其特征在于,所述将获取的置信度的值大于预设的置信度阈值的属性信息候选模型选取为用于提取所述预定属性的属性值的属性信息提取模板的处理包括: 如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或, 如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。5.一种知识数据的处理方法,其特征在于,所述处理方法包括: 获取待处理的知识数据; 对所述知识数据进行分析,分别将所述知识数据的内容片段与根据权利要求1?4中任一项所述的建立方法建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。6.一种信息提取模板的建立装置,其特征在于,所述建立装置包括: 属性值获取模块,用于从多个知识数据中的结构化数据分别获取预定属性的第一属性值; 内容片段获取模块,用于分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段; 模板建立模块,用于根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。7.根据权利要求6所述的建立装置,其特征在于,所述模板建立模块包括: 候选模板建立单元,用于对于任一内容片段,从所述内容片段提取所述预定属性的第二属性值,基于所述内容片段建立所述预定属性的属性信息候选模板; 置信度获取单元,用于根据所述预定属性的第一属性值和第二属性值获取所述属性信息候选模板的置信度; 模板选取单元,用于将获取的置信度的值大于预设的置信度阈值的属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。8.根据权利要求7所述的建立装置,其特征在于,所述置信度包括模板覆盖率和/或模板准确率, 其中,所述模板覆盖率为多个内容片段中与第一属性信息候选模板相匹配的概率,所述模板准确率为通过第二属性信息候选模板提取的属性值与从相应的知识数据中的结构化数据获取的预定属性的属性值相同的概率。9.根据权利要求8所述的建立装置,其特征在于,所述模板选取单元,用于如果第三属性信息候选模板的模板覆盖率的值大于预设的覆盖率阈值,和/或,如果所述第三属性信息候选模板的模板准确率的值大于预设的准确率阈值,则将所述第三属性信息候选模板选取为用于提取所述预定属性的属性值的属性信息提取模板。10.—种知识数据的处理装置,其特征在于,所述处理装置包括: 知识数据获取模块,用于获取待处理的知识数据; 属性值提取模块,用于对所述知识数据进行分析,分别将所述知识数据的内容片段与根据权利要求6?9中任一项所述的建立装置建立的用于提取所述预定属性的属性值的属性信息提取模板进行匹配,提取所述预定属性的属性值。
【专利摘要】本发明实施例提供一种信息提取模板的建立方法、知识数据的处理方法和装置。所述信息提取模板的建立方法包括:从多个知识数据中的结构化数据分别获取预定属性的第一属性值;分别从所述多个知识数据中的正文数据获取与所述预定属性相关的内容片段;根据所述内容片段建立用于提取所述预定属性的属性值的属性信息提取模板。采用本发明实施例,可以使得用户不需要通过人工设置触发词的方式即可进行预定属性的属性值的提取操作,而且由于属性信息提取模板是通过知识数据中的内容片段建立,所以提高了属性信息的查全率和提取精度。
【IPC分类】G06F17/30
【公开号】CN105488105
【申请号】CN201510809586
【发明人】张志明, 陈卫东, 王波, 李 浩
【申请人】百度在线网络技术(北京)有限公司
【公开日】2016年4月13日
【申请日】2015年11月19日