一种图片挂接方法及装置、知识图谱的制作方法

xiaoxiao2021-2-28 196

一种图片挂接方法及装置、知识图谱的制作方法
【技术领域】
[0001] 本发明涉及数字资源处理领域，具体涉及一种图片挂接方法及装置、知识图谱的制作方法。
【背景技术】
[0002] 知识图谱，是指以实体、概念作为节点，以语义关系作为边的语义网络。知识图谱使得知识获取更直接，因此能够为阅读提供语义关联的知识，从而实现阅读的便捷化、智能化和人性化。
[0003] 科学计量学和可视化技术的发展，驱动了知识图谱应用的广泛研究。知识图谱目前在教育科研、技术更新、智力结构分析和社会问题等方面应用广泛。
[0004] 知识图谱的构建的一个主要内容是将图片和实例挂接，即将内容与实例紧密相关的图片关联起来。现有技术中的图片挂接方法步骤复杂、实现的难度大且准确性低，因此亟需一种操作简单、容易实现的图片挂接方法，以方便制作知识图谱。

【发明内容】

[0005] 因此，本发明要解决的技术问题在于现有知识图谱制作中的图片挂接方法的步骤复杂、实现的难度大且准确性低。
[0006 ]为此，本发明提供了如下技术方案：
[0007] -种图片挂接方法，包括如下步骤：
[0008] 获取一张或多张图片和待挂接实体的属性信息；
[0009] 获取图片的结构化信息；
[0010] 获取实体的属性信息与结构化信息的匹配程度；
[0011] 根据图片自身的质量和匹配程度分别获取每张图片与实体的关联程度；
[0012] 根据关联程度完成图片挂接。
[0013] 优选地，获取图片的结构化信息的步骤包括：
[0014] 截取图片在文本中几何位置的上下两个自然段作为摘要；
[0015] 对摘要文本进行分词和去停用词，选择词频最高的词作为标题。
[0016] 优选地，实体的属性信息包括至少一条由主体、谓词和客体组成的三元组，其中一条三元组表示该实体的名称，获取实体的属性信息与结构化信息的匹配程度的步骤包括：
[0017] 获取实体的名称和标题的匹配度；
[0018] 获取三元组的客体和摘要的匹配度。
[0019] 优选地，实体的名称和标题的匹配度是通过以下公式计算得到的：
[0020] Scoretitie= 1/(1+Levenshtein(titleimg，titleinstance))
[0021 ] 其中，Levenshtein(titleimg, titleinstance)为实体的名称和标题之间的编辑距离。
[0022]优选地，三元组的客体和摘要的匹配度是通过以下公式计算得到的：
[0024] 其中，WordSetcontent为摘要分词结果的集合，WordSettripple为三元组客体的集合。
[0025] 优选地，图片自身的质量是通过以下公式计算得到的：
[0026] Score image -l〇g (Pred )+ l〇g (Pgreen)+ l〇g(Pblue )，
[0030]其中，Width为图片本身的像素宽度，Height为图片本身的像素高度，（i，j)为图片中的一个像素点，i>〇，j>〇。
[0031 ] -种知识图谱的制作方法，包括以下步骤：
[0032] 使用上述的图片挂接方法进行图片挂接；
[0033] 对关联程度最高的图片进行二值化处理，并根据二值化后的结果标记出该图片前景的最大矩形连通区，该连通区作为该图片的前景区；
[0034] 获取前景区的最大内接椭圆区域，获得非椭圆区内像素点的平均值作为背景色； [0035]对前景区的矩形进行外接圆扩展，并用背景色填充该外接圆内非矩形区域，获得切圆后的图片。
[0036] -种图片挂接装置，包括：
[0037] 初始获取单元，用于获取一张或多张图片和待挂接实体的属性信息；
[0038] 转换单元，用于获取图片的结构化信息；
[0039] 匹配程度获取单元，用于获取实体的属性信息与结构化信息的匹配程度；
[0040] 关联程度获取单元，用于根据图片自身的质量和匹配程度分别获取每张图片与实体的关联程度；
[0041] 挂接单元，用于根据关联程度完成图片挂接。
[0042] 优选地，转换单元包括：
[0043] 摘要获取子单元，用于截取图片在文本中几何位置的上下两个自然段作为摘要；
[0044]标题获取子单元，用于对摘要文本进行分词和去停用词，选择词频最高的词作为标题。
[0045]优选地，实体的属性信息包括至少一条由主体、谓词和客体组成的三元组，其中一条三元组表示该实体的名称；
[0046]匹配程度获取单元包括：
[0047] 第一匹配度计算子单元，用于获取实体的名称和标题的匹配度；
[0048] 第二匹配度计算子单元，用于获取三元组的客体和摘要的匹配度。
[0049]本发明技术方案，具有如下优点：
[0050] 1.本发明提供的图片挂接方法及装置，通过待挂接实体与图片的匹配度以及图片自身的质量来进行图片挂接，计算匹配度和图片自身质量得分的算法简单，容易实现，而且图片挂接的准确性高。
[0051] 2.本发明提供的知识图谱的制作方法，在完成图片挂接步骤后，还会对关联得分最高的图片进行切圆处理以便于作为对应实体的展示图来展示。经切圆处理后图片不仅最大程度地保留了其前景图，而且删除了记载信息较少的部分，以便于展示。
【附图说明】
[0052] 为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0053] 图1为本发明实施例1中的一种图片挂接方法的流程图；
[0054] 图2为本发明实施例1中的一种获取图片的结构化信息的方法流程图；
[0055] 图3为本发明实施例1中的一种计算实体与图片的结构化信息匹配程度的流程图；
[0056] 图4为本发明实施例2中的一种知识图谱制作方法的流程图；
[0057] 图5为本发明实施例2中的一个图片切圆处理过程的示例图；
[0058]图6为本发明实施例3中的一种图片挂接装置的原理框图。
【具体实施方式】
[0059] 下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0060] 此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0061] 实施例1
[0062] 如图1所示，本实施例提供了一种图片挂接方法，其特征在于，包括如下步骤：
[0063] S11:获取一张或多张图片和待挂接实体的属性信息，该图片可来源于网络或者电子书籍等；
[0064] S12:获取图片的结构化信息；
[0065] S13:获取实体的属性信息与结构化信息的匹配程度；
[0066] S14:根据图片自身的质量和匹配程度分别获取每张图片与实体的关联程度；
[0067] S15:根据关联程度完成图片挂接。
[0068]上述实体的属性信息是利用三元组来描述的，三元组由主体、谓词和客体三个要素组成，每个实体通过若干条三元组进行描述。例如，实体"李白"可以通过以下三元组进行描述：
[0070]其中，YNNNZSbb为该实体的ID号，谓词为标签的三元组表示该实体的名称。
[0071 ]例如，本实施例中待挂接实体的属性信息用三元组表示如下：
[0073]上述图片的结构化信息是指一组有三个元素的信息，分别是图片文件的存储路径、标题和摘要。例如，其中一张图片的结构化信息如下表所示：
[0075] 本实施例提供的图片挂接方法，通过待挂接实体与图片的结构化信息之间的匹配度以及图片自身的质量来进行图片挂接，计算匹配度和图片自身质量得分的算法简单，容易实现，而且图片挂接的准确性高。
[0076] 具体地，如图2所示，上述步骤S12,即获取图片的结构化信息，也即将图片转换为结构化图片的步骤包括：
[0077] S121:截取图片在文本中几何位置的上下两个自然段作为摘要；
[0078] S122:对摘要文本进行分词和去停用词，选择词频最高的词作为标题。
[0079]本实施例中，将不同来源的图片存储至路径D:\\image\\下，并将获取的图片进行归一化处理以得到各张图片的结构化信息，如下：

[0083] 具体地，实体的属性信息包括至少一条由主体、谓词和客体组成的三元组，其中一条三元组表示该实体的名称；
[0084] 如图3所示，上述步骤S13,即获取实体的属性信息与结构化信息的匹配程度的步骤包括：
[0085] S131:获取实体的名称和标题的匹配度；
[0086] S132:获取三元组的客体和摘要的匹配度。
[0087] 具体地，上述实体的名称和标题的匹配度是通过以下公式计算得到的：
[0088] Scoretitie= 1/(1+Levenshtein(titleimg，titleinstance))
[0089] 其中，Levensht ein( tit leimg, titleinstance)为实体的名称和图片标题之间的编辑距离。
[0090]具体地，上述三元组的客体和摘要的匹配度是通过以下公式计算得到的：
[0092] 其中，WordSetccintent为摘要分词结果的集合，WordSet trippie为三元组客体的集合。
[0093] 具体地，上述图片自身的质量主要是指图片本身的对比度和色彩鲜艳程度，其得分是通过以下公式计算得到的：
[0098] 其中，Width为图片本身的像素宽度，Height为图片本身的像素高度，（i，j)为图片中的一个像素点，i>〇，j>〇。
[0099] 具体地，上述图片和实体的关联程度是根据关联得分的大小来判断的，该关联得分是由实体的名称和图片标题的匹配度、三元组的客体和图片摘要的匹配度和图片自身的质量得分这三者加权计算得到的。该权值可以根据实际需要合理选择。
[0100]另外，在计算出各张图片与实体的关联得分后，可根据实际需要来完成图片挂接。例如按照关联得分进行降序排序，或者取关联得分大于预设阈值的图片，也或者按照关联得分的降序排序提取一定比例的图片。本实施例中在计算出各张图片与实体的关联得分后，对图片按照的关联得分的降序排序，最终的图片挂接结果为：
[0102] 实施例2
[0103]如图4所示，本实施例提供了一种知识图谱的制作方法，包括以下步骤：
[0104] S21:使用上述实施例1中的方法进行图片挂接；
[0105] S22:对关联程度最高的图片进行二值化处理，并根据二值化后的结果标记出该图片前景的最大矩形连通区，该连通区作为该图片的前景区；
[0106] S23:获取矩形的前景区的最大内接椭圆区域，对前景区内非椭圆区的图片进行像素遍历，获得这些像素点的平均值作为背景色；
[0107] S24:对前景区的矩形进行外接圆扩展，并用背景色填充该外接圆内非矩形区域，获得切圆后的图片作为对应实体的展示图片。
[0108] 本实施例提供的知识图谱制作方法，对与实体的关联得分最高的图片进行切圆处理，以便于作为该实体的展示图片。
[0109] 另外，为了使得展示图片更加美观，还可以对切圆处理后的圆形图片加上彩色边框。
[0110] 具体地，上述步骤S24还包括将切圆后图片的非圆形区域设置为透明的步骤，并将最终的处理结果图片保存为png格式。
[0111] 例如，图5示出了将李白头像进行切圆处理的过程。
[0112] 实施例3
[0113] 如图6所示，本实施例提供了一种图片挂接装置，包括：
[0114]初始获取单元U1，用于获取一张或多张图片和待挂接实体的属性信息；
[0115]转换单元U2,用于获取图片的结构化信息；
[0116]匹配程度获取单元U3,用于获取实体的属性信息与结构化信息的匹配程度；
[0117]关联程度获取单元U4,用于根据图片自身的质量和匹配程度分别获取每张图片与实体的关联程度；
[0118] 挂接单元U5，用于根据关联程度完成图片挂接。
[0119] 本实施例提供的图片挂接装置，通过待挂接实体与图片的匹配度以及图片自身的质量来进行图片挂接，计算匹配度和图片自身质量得分的算法简单，容易实现，而且图片挂接的准确性高。
[0120] 具体地，上述转换单元U2包括：
[0121]摘要获取子单元，用于截取图片在文本中几何位置的上下两个自然段作为摘要；
[0122] 标题获取子单元，用于对摘要文本进行分词和去停用词，选择词频最高的词作为标题。
[0123] 具体地，实体的属性信息包括至少一条由主体、谓词和客体组成的三元组，其中一条三元组表示该实体的名称；
[0124] 匹配程度获取单元U3包括：
[0125] 第一匹配度计算子单元，用于获取实体的名称和标题的匹配度；
[0126] 第二匹配度计算子单元，用于获取三元组的客体和摘要的匹配度。
[0127] 具体地，上述实体的名称和标题的匹配度是通过以下公式计算得到的：
[0128] Scoretitie= 1/(1+Levenshtein(titleimg，titleinstance))
[0129] 其中，Levenshtein( tit leimg, titleinstance)为实体的名称和图片标题之间的编辑距离。
[0130] 具体地，上述三元组的客体和摘要的匹配度是通过以下公式计算得到的：
[0132] 其中，WordSet?ntent为摘要分词结果的集合，WordSet triPPie为三元组客体的集合。
[0133] 具体地，上述图片自身的质量主要是指图片本身的对比度和色彩鲜艳程度，其得分是通过以下公式计算得到的：

[0138] 其中，Width为图片本身的像素宽度，Height为图片本身的像素高度，（i，j)为图片中的一个像素点，i>〇，j>〇。
[0139] 显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
【主权项】
1. 一种图片挂接方法，其特征在于，包括如下步骤：获取一张或多张图片和待挂接实体的属性信息；获取所述图片的结构化信息；获取所述实体的属性信息与所述结构化信息的匹配程度；根据所述图片自身的质量和所述匹配程度分别获取每张所述图片与所述实体的关联程度；根据所述关联程度完成图片挂接。2. 根据权利要求1所述的方法，其特征在于，所述获取所述图片的结构化信息的步骤包括：截取所述图片在文本中几何位置的上下两个自然段作为摘要；对所述摘要文本进行分词和去停用词，选择词频最高的词作为标题。3. 根据权利要求2所述的方法，其特征在于，所述实体的属性信息包括至少一条由主体、谓词和客体组成的三元组，其中一条三元组表示该实体的名称，所述获取所述实体的属性信息与所述结构化信息的匹配程度的步骤包括：获取所述实体的名称和所述标题的匹配度；获取所述三元组的客体和所述摘要的匹配度。4. 根据权利要求3中所述的方法，其特征在于，所述实体的名称和所述标题的匹配度是通过以下公式计算得到的： Sc〇!T6title - I/( l+LeVeHshte ill( ?i?Ieimg，?i?Ieinstance)) 其中，Levenshte in (titleimg, tit leinstance)为所述实体的名称和所述标题之间的编辑距离。5. 根据权利要求3所述的方法，其特征在于，所述三元组的客体和所述摘要的匹配度是通过以下公式计算得到的：其中，WordSet_tent为所述摘要分词结果的集合，WordSettrippIe为三元组客体的集合。6. 根据权利要求1-5中任一项所述的方法，其特征在于，所述图片自身的质量是通过以下公式计算得到的：其中，Width为图片本身的像素宽度，Height为图片本身的像素高度，（i，j)为图片中的一个像素点，i>〇, j>〇。7. -种知识图谱的制作方法，其特征在于，包括以下步骤：使用权利要求1-6中任一项所述的方法进行图片挂接；对关联程度最高的图片进行二值化处理，并根据二值化后的结果标记出该图片前景的最大矩形连通区，该连通区作为该图片的前景区；获取所述前景区的最大内接椭圆区域，获得非椭圆区内像素点的平均值作为背景色；对所述前景区的矩形进行外接圆扩展，并用所述背景色填充该外接圆内非矩形区域，获得切圆后的图片。8. -种图片挂接装置，其特征在于，包括：初始获取单元，用于获取一张或多张图片和待挂接实体的属性信息；转换单元，用于获取所述图片的结构化信息；匹配程度获取单元，用于获取所述实体的属性信息与所述结构化信息的匹配程度；关联程度获取单元，用于根据所述图片自身的质量和所述匹配程度分别获取每张所述图片与所述实体的关联程度；挂接单元，用于根据所述关联程度完成图片挂接。9. 根据权利要求8所述的装置，其特征在于，所述转换单元包括：摘要获取子单元，用于截取所述图片在文本中几何位置的上下两个自然段作为摘要；标题获取子单元，用于对所述摘要文本进行分词和去停用词，选择词频最高的词作为标题。10. 根据权利要求8或9所述的装置，其特征在于，所述实体的属性信息包括至少一条由主体、谓词和客体组成的三元组，其中一条三元组表示该实体的名称；所述匹配程度获取单元包括：第一匹配度计算子单元，用于获取所述实体的名称和所述标题的匹配度；第二匹配度计算子单元，用于获取所述三元组的客体和所述摘要的匹配度。
【专利摘要】一种图片挂接方法及装置、知识图谱的制作方法，该图片挂接方法包括：获取一张或多张图片和待挂接实体的属性信息；获取图片的结构化信息；获取实体的属性信息与结构化信息的匹配程度；根据图片自身的质量和匹配程度分别计算每张图片与实体的关联程度；根据关联程度完成图片挂接。该图片挂接方法算法简单、容易实现，而且图片挂接的准确性高。
【IPC分类】G06T7/00, G06F17/30
【公开号】CN105488160
【申请号】CN201510856918
【发明人】卢菁, 叶茂, 马佳乐, 汤帜, 黄肖俊, 徐剑波
【申请人】北大方正集团有限公司, 北京方正阿帕比技术有限公司, 北京大学
【公开日】2016年4月13日
【申请日】2015年11月30日

技术

最新回复(0)