一种人物别称的抽取方法及装置的制造方法

xiaoxiao2021-2-28  186

一种人物别称的抽取方法及装置的制造方法
【技术领域】
[0001]本发明涉及数字资源处理领域,具体涉及一种人物别称的抽取方法及装置。
【背景技术】
[0002]人物别称是指对人物的属性进行描述的词语。如:“李白,字太白。”、“李白号青莲居士”,“李白又被后人称为诗仙”,在上述三句话中词“太白”、“青莲居士”、“诗仙”均是修饰性同位语,它们起到了对主体“李白”补充说明的作用。
[0003]人物别称对人物的研究具有重要价值,尤其是历史人物。由于古籍或其他文字载体上往往使用的是人物的别称或别名,因此如果对同一个人物的别称掌握不全面的话,在收集其相关资料时,就很容易漏掉部分重要资料。
[0004]虽然线已有专用以字号、别名查考本名的常用工具书,例如《古今人物别名索引》等,但是其记载的毕竟有限,并不全面。且目前对人物别称的识别汇总等工作主要还是由人工来完成,而由人工在大量的语料中提取各个人物的别称必然费时费力。因此,亟需一种可以从包含大量语料信息的数字资源中智能提取人物别称的方法。

【发明内容】

[0005]因此,本发明要解决的技术问题在于主要通过人工在大量的数字资源中提取各个人物的别称费时费力。
[0006]为此,本发明提供了如下技术方案:
[0007]—种人物别称的抽取方法,包括如下步骤:
[0008]获取目标名称;
[0009]获取至少一个参考语句,参考语句中包含人物名称和其对应的别称;
[0010]获取包含目标名称的目标语句;
[0011 ]计算目标语句与参考语句的匹配程度;
[0012]根据匹配程度确定目标语句中是否包含目标名称的别称,若是则以参考语句为模板提取目标语句中的别称。
[0013]优选地,计算目标语句与参考语句的匹配程度的步骤包括:
[0014]分别获取参考语句的第一词语马尔科夫链和第一词性马尔科夫链;
[0015]获取目标语句的第二词语马尔科夫链和第二词性马尔科夫链;
[0016]根据第一词语马尔科夫链、第一词性马尔科夫链、第二词语马尔科夫链和第二词性马尔科夫链分别计算目标语句与各个参考语句的匹配得分;
[0017]获取目标语句与各个参考语句的匹配得分之和。
[0018]优选地,匹配得分是通过以下公式计算得到的:
[0019]score = count(WordMarkovΠPwordMarkov)/count(PwordMarkov) + count(NonminalMarkovΠPnonminalMarkov)/count(PnonminalMarkov)
[0020]其中,PwordMarkov为其中一个参考语句的第一词语马尔科夫链,PnonminalMarkov为该参考语句的第一词性马尔科夫链,WordMarkov第二词语马尔科夫链,NonminalMarkov第二词性马尔科夫链,count(PwordMarkov)为第一词语马尔科夫链中词语对的个数,count (PnonminalMarkov)为第一词性马尔科夫链中的词性对的个数,count(WordMarkov Π PwordMarkov)为第一词语马尔科夫链和第二词语马尔科夫链中相同词语对的个数,count(NonminalMarkov Π PnonminalMarkov)为第一词性马尔科夫链和第二词性马尔科夫链中相同词性对的个数。
[0021]优选地,获取目标语句的第二词语马尔科夫链和第二词性马尔科夫链的步骤包括:
[0022]获取目标语句中的所有目标名称和名词;
[0023]分别获取目标语句中的每一目标名称与各个名词对应的第二词语马尔科夫链和第二词性马尔科夫链。
[0024]优选地,还包括:
[0025]在确定目标语句中包含目标名称对应的别称后,则利用该句子作为参考语句在其他目标语句中抽取目标名称对应的别称。
[0026]一种人物别称的抽取装置,包括:
[0027]目标名称获取单元,用于获取目标名称;
[0028]参考语句获取单元,用于获取至少一个参考语句,参考语句中包含人物名称和其对应的别称;
[0029]目标语句获取单元,用于获取包含目标名称的目标语句;
[0030]匹配程度获取单元,用于计算目标语句与参考语句的匹配程度;
[0031 ]别称提取单元,用于根据匹配程度确定目标语句中是否包含目标名称的别称,若是则以参考语句为模板提取目标语句中的别称。
[0032]优选地,匹配程度获取单元包括:
[0033]第一获取单元,用于分别获取参考语句的第一词语马尔科夫链和第一词性马尔科夫链;
[0034]第二获取单元,用于获取目标语句的第二词语马尔科夫链和第二词性马尔科夫链;
[0035]第一计算单元,用于根据第一词语马尔科夫链、第一词性马尔科夫链、第二词语马尔科夫链和第二词性马尔科夫链分别计算目标语句与各个参考语句的匹配得分;
[0036]第二计算单元,用于获取目标语句与各个参考语句的匹配得分之和。
[0037]优选地,第二获取单元包括:
[0038]第一提取单元,用于获取目标语句中的所有目标名称和名词;
[0039]第二提取单元,用于分别获取目标语句中的每一目标名称与各个名词对应的第二词语马尔科夫链和第二词性马尔科夫链。
[0040]优选地,还包括:
[0041]迭代单元,用于在确定目标语句中包含目标名称对应的别称后,则利用该句子作为参考语句在其他目标语句中抽取目标名称对应的别称。
[0042]本发明实施例技术方案,具有如下优点:
[0043]本发明实施例提供的人物别称的抽取方法及装置,算法简单,可以快速准确地从包含大量语料的数字资源中提取人物的别称。该人物别称的抽取方法同时也可适用于其他事物别称的抽取。
【附图说明】
[0044]为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案,下面将对【具体实施方式】或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]图1为本发明实施例1中一种人物别称的抽取方法的流程图;
[0046]图2为本发明实施例1中一种目标语句与参考语句的匹配程度的计算流程图;
[0047]图3为本发明实施例2中一种人物别称的抽取装置的原理框图。
【具体实施方式】
[0048]下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0050]实施例1
[0051]如图1所示,本实施例提供了一种人物别称的抽取方法,包括如下步骤:
[0052]S1:获取目标名称;
[0053]S2:获取至少一个参考语句,参考语句中包含人物名称和其对应的别称;
[0054]S3:获取包含目标名称的目标语句;
[0055]S4:计算目标语句与参考语句的匹配程度;
[0056]S5:根据匹配程度确定目标语句中是否包含目标名称的别称,若是则以参考语句为参考语句提取目标语句中的别称。
[0057]本实施例提供的人物别称的抽取方法,算法简单,可以快速准确地从包含大量语料的数字资源中提取人物的别称。该人物别称的抽取方法同时也可适用于其他事物别称的抽取。
[0058]具体地,上述步骤S1,本实施例中预先获取5000个需要抽取其别称的目标名称,例如:“李白”、“杜甫”、“白居易”等。并选取3万本人文领域相关的电子书作为语料库。作为参考语句的确定包含人物名称和其对应的别称的句子为:李白又被后人称为诗仙。根据该参考语句可以建立相应的种子元组,即“李白一诗仙一李白又被后人称为诗仙”。本实施例中也还可以有其他参考语句。
[0059]具体地,如图2所示,上述步骤S4包括:
[0060]S41:分别获取参考语句的第一词语马尔科夫链和第一词性马尔科夫链;
[0061]S42:获取目标语句的第二词语马尔科夫链和第二词性马尔科夫链;
[0062]S43:根据第一词语马尔科夫链、第一词性马尔科夫链、第二词语马尔科夫链和第二词性马尔科夫链分别计算目标语句与各个参考语句的匹配得分;
[0063]S44:获取目标语句与各个参考语句的匹配得分之和。如果只有一个参考语句就不需要该求和的步骤了。
[0064]本实施例中,参考语句的第一词语马尔科夫链和第一词性马尔科夫链,即该参考语句句子的关系描述模式,其获取过程是:首先,对该参考语句进行分词,并获取各分词的词性,为:(ent/ns)(又/w)(被/w)(后人/η)(称为/v)(obj/n),ent为主体(人物本名)、obj为客体(人物别称);然后,获取的第一词语马尔科夫链PwordMarkov= Kent,又),(又,被),(被,后人),(后人,称为),(称为,obj)},第一词性马尔科夫链PnonminalMarkov= {(ns,w),(w,w),(w,n),(η,ν),(v,n)}。
[0065]具体地,上述匹配得分是通过以下公式计算得到的:
[0066]score = count(WordMarkovΠPwordMarkov)/count(PwordMarkov) + count(NonminalMarkovΠPnonminalMarkov)/count(PnonminalMarkov)
[0067 ] 其中,PwordMarkov为其中一个参考语句的第一词语马尔科夫链,PnonminalMarkov为该参考语句的第一词性马尔科夫链,WordMarkov第二词语马尔科夫链,NonminalMarkov第二词性马尔科夫链,count (PwordMarkov)为第一词语马尔科夫链中词语对的个数,count (PnonminalMarkov)为第一词性马尔科夫链中的词性的对个数,count(WordMarkov Π PwordMarkov)为第一词语马尔科夫链和第二词语马尔科夫链中相同词语对的个数,count(NonminalMarkov Π PnonminalMarkov)为第一词性马尔科夫链和第二词性马尔科夫链中相同词性对的个数。
[0068]具体地,上述步骤S42,即获取目标语句的第二词语马尔科夫链和第二词性马尔科夫链的步骤包括:
[0069]首先,获取目标语句中的所有目标名称和名词;
[ 0070]然后,分别获取目标语句中的每一目标名称与各个名词对应的第二词语马尔科夫链和第二词性马尔科夫链。
[0071]本实施例中,其中一个目标语句为:(杜甫/η)(也/w)(被/w)(称为/V)(诗圣/η)。其中的所有目标名称EntList = {杜甫},其中的名词0b jList = {诗圣},生成EntList和ObjList的笛卡尔积,S卩{(杜甫、诗圣)}用笛卡尔积中的元素分别取代句子中的对应词,并变换成ent和obj,结果如下:(ent/n)(也/w)(被/w)(称为/v)(obj/n)。
[0072]生成该句的马尔科夫链,即第二词语马尔科夫链WordMarkov= {(ent,也),(也,被),(被,称为),(称为,obj)}、第二词性马尔科夫链NonminalMarkov= {(ns,w),(w,w),(w,v),(v,n)}o
[0073]作为优选的实施方案,该人物别称抽取方法还包括:
[0074]在确定目标语句中包含目标名称对应的别称后,则利用该句子作为参考语句在其他目标语句中抽取目标名称对应的别称。
[0075]即本实施例采用迭代的方式来在3万本人文领域相关的电子书中抽取待人物别称。由于最开始使用的参考语句有限,只使用有限的参考语句难以准确全面地提取人物别称,所以在使用最初的参考语句进行别称抽取后,会获取一部分包含目标名称和其别称的句子,再将这些句子作为参考语句可以较全面地在语料库中抽取人物别称。为了更准确全面地提取人物别称,一般需要多次迭代来完成在语料库中抽取人物别称的过程。具体可选择迭代的次数,例如20次,或者在没有新的包含人物别称的句子出现时停止迭代。
[0076]具体地,上述步骤S5中,即根据匹配程度确定目标语句中是否包含目标名称对应的别称的步骤,具体是通过该目标语句与各个参考语句的匹配得分之和来确定的,可以是选取匹配得分之和大于设定阈值的目标语句,也可以是按一定比例选取匹配得分之和较大的目标语句。
[0077]实施例2
[0078]如图2所示,本施例提供一种人物别称的抽取装置,包括:
[0079]目标名称获取单元U1,用于获取目标名称;
[0080]参考语句获取单元U2,用于获取至少一个参考语句,参考语句中包含人物名称和其对应的别称;
[0081 ]目标语句获取单元U3,用于获取包含目标名称的目标语句;
[0082]匹配程度获取单元U4,用于计算目标语句与参考语句的匹配程度;
[0083]别称提取单元U5,用于根据匹配程度确定目标语句中是否包含目标名称的别称,若是则以参考语句为模板提取目标语句中的别称。
[0084]本实施例提供的人物别称的抽取装置,算法简单,可以快速准确地从包含大量语料的数字资源中提取人物的别称。该人物别称的抽取装置同时也可适用于其他事物别称的抽取。
[0085]具体地,匹配程度获取单元U4包括:
[0086]第一获取单元U41,用于分别获取参考语句的第一词语马尔科夫链和第一词性马尔科夫链;
[0087]第二获取单元U42,用于获取目标语句的第二词语马尔科夫链和第二词性马尔科夫链;
[0088]第一计算单元U43,用于根据第一词语马尔科夫链、第一词性马尔科夫链、第二词语马尔科夫链和第二词性马尔科夫链分别计算目标语句与各个参考语句的匹配得分;
[0089]第二计算单元U44,用于获取目标语句与各个参考语句的匹配得分之和。
[0090]上述目标语句与参考语句匹配得分是通过以下公式计算得到的:
[0091 ] score = count(WordMarkovΠPwordMarkov)/count(PwordMarkov) + count(NonminalMarkovΠPnonminalMarkov)/count(PnonminalMarkov)
[0092]其中,PwordMarkov为其中一个参考语句的第一词语马尔科夫链,PnonminalMarkov为该参考语句的第一词性马尔科夫链,WordMarkov第二词语马尔科夫链,NonminalMarkov第二词性马尔科夫链,count (PwordMarkov)为第一词语马尔科夫链中词语对的个数,count (PnonminalMarkov)为第一词性马尔科夫链中的词性的对个数,count(WordMarkov Π PwordMarkov)为第一词语马尔科夫链和第二词语马尔科夫链中相同词语对的个数,count(NonminalMarkov Π PnonminalMarkov)为第一词性马尔科夫链和第二词性马尔科夫链中相同词性对的个数。
[0093]具体地,第二获取单元U42包括:
[0094]第一提取单元,用于获取目标语句中的所有目标名称和名词;
[0095]第二提取单元,用于分别获取目标语句中的每一目标名称与各个名词对应的第二词语马尔科夫链和第二词性马尔科夫链。
[0096]作为其他的【具体实施方式】,该装置还包括:
[0097]迭代单元,用于在确定目标语句中包含目标名称对应的别称后,则利用该句子作为参考语句在其他目标语句中抽取目标名称对应的别称。
[0098]由于最开始使用的参考语句有限,只使用有限的参考语句难以准确全面地提取人物别称,所以在使用最初的参考语句进行别称抽取后,会获取一部分包含目标名称和其别称的句子,再将这些句子作为参考语句可以较全面地在语料库中抽取人物别称。为了更准确全面地提取人物别称,一般需要多次迭代来完成在语料库中抽取人物别称的过程。
[0099]显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
【主权项】
1.一种人物别称的抽取方法,其特征在于,包括如下步骤: 获取目标名称; 获取至少一个参考语句,所述参考语句中包含人物名称和其对应的别称; 获取包含所述目标名称的目标语句; 计算所述目标语句与所述参考语句的匹配程度; 根据所述匹配程度确定所述目标语句中是否包含目标名称的别称,若是则以参考语句为模板提取所述目标语句中的别称。2.根据权利要求1所述的方法,其特征在于,所述计算所述目标语句与所述参考语句的匹配程度的步骤包括: 分别获取所述参考语句的第一词语马尔科夫链和第一词性马尔科夫链; 获取所述目标语句的第二词语马尔科夫链和第二词性马尔科夫链; 根据所述第一词语马尔科夫链、所述第一词性马尔科夫链、所述第二词语马尔科夫链和所述第二词性马尔科夫链分别计算所述目标语句与各个所述参考语句的匹配得分; 获取所述目标语句与各个所述参考语句的匹配得分之和。3.根据权利要求2所述的方法,其特征在于,所述匹配得分是通过以下公式计算得到的: score = count (WordMarkovflPwordMarkov)/count (PwordMarkov)+count(NonminalMarkovΠPnonminalMarkov)/count(PnonminalMarkov) 其中,PwordMarkov为其中一个参考语句的第一词语马尔科夫链,PnonminalMarkov为该参考语句的第一词性马尔科夫链,WordMarkov第二词语马尔科夫链,NonminalMarkov第二词性马尔科夫链,count (PwordMarkov)为第一词语马尔科夫链中词语对的个数,count(PnonminalMarkov)为第一词性马尔科夫链中的词性对的个数,count (WordMarkov ΠPwordMarkov)为第一词语马尔科夫链和第二词语马尔科夫链中相同词语对的个数,count(NonminalMarkov Π PnonminalMarkov)为第一词性马尔科夫链和第二词性马尔科夫链中相同词性对的个数。4.根据权利要求2所述的方法,其特征在于,获取所述目标语句的第二词语马尔科夫链和第二词性马尔科夫链的步骤包括: 获取所述目标语句中的所有目标名称和名词; 分别获取所述目标语句中的每一目标名称与各个名词对应的第二词语马尔科夫链和第二词性马尔科夫链。5.根据权利要求1-4中任一项所述的方法,其特征在于,还包括: 在确定所述目标语句中包含所述目标名称对应的别称后,则利用该句子作为参考语句在其他目标语句中抽取所述目标名称对应的别称。6.一种人物别称的抽取装置,其特征在于,包括: 目标名称获取单元,用于获取目标名称; 参考语句获取单元,用于获取至少一个参考语句,所述参考语句中包含人物名称和其对应的别称; 目标语句获取单元,用于获取包含所述目标名称的目标语句; 匹配程度获取单元,用于计算所述目标语句与所述参考语句的匹配程度; 别称提取单元,用于根据所述匹配程度确定所述目标语句中是否包含目标名称的别称,若是则以参考语句为模板提取所述目标语句中的别称。7.根据权利要求6所述的装置,其特征在于,所述匹配程度获取单元包括: 第一获取单元,用于分别获取所述参考语句的第一词语马尔科夫链和第一词性马尔科夫链; 第二获取单元,用于获取所述目标语句的第二词语马尔科夫链和第二词性马尔科夫链; 第一计算单元,用于根据所述第一词语马尔科夫链、所述第一词性马尔科夫链、所述第二词语马尔科夫链和所述第二词性马尔科夫链分别计算所述目标语句与各个所述参考语句的匹配得分; 第二计算单元,用于获取所述目标语句与各个所述参考语句的匹配得分之和。8.根据权利要求6或7所述的装置,其特征在于,所述第二获取单元包括: 第一提取单元,用于获取所述目标语句中的所有目标名称和名词; 第二提取单元,用于分别获取所述目标语句中的每一目标名称与各个名词对应的第二词语马尔科夫链和第二词性马尔科夫链。9.根据权利要求6-8中任一项所述的装置,其特征在于,还包括: 迭代单元,用于在确定所述目标语句中包含所述目标名称对应的别称后,则利用该句子作为参考语句在其他目标语句中抽取所述目标名称对应的别称。
【专利摘要】一种人物别称的抽取方法及装置,该方法包括如下步骤:获取目标名称;获取至少一个参考语句,参考语句中包含人物名称和其对应的别称;获取包含目标名称的目标语句;计算目标语句与参考语句的匹配程度;根据匹配程度确定目标语句中是否包含目标名称的别称,若是则以参考语句为参考语句提取目标语句中的别称。算法简单,可以快速准确地从包含大量语料的数字资源中提取人物的别称。该人物别称的抽取方法同时也可适用于其他事物别称的抽取。
【IPC分类】G06F17/27
【公开号】CN105488028
【申请号】CN201510857402
【发明人】卢菁, 叶茂, 马佳乐, 汤帜, 黄肖俊, 徐剑波
【申请人】北大方正集团有限公司, 北京方正阿帕比技术有限公司, 北京大学
【公开日】2016年4月13日
【申请日】2015年11月30日

最新回复(0)