本发明涉及数据处理,特别涉及一种图表数据的提取方法和装置。
背景技术:
1、在各种行业知识图谱的建设过程中,需要使用大量该行业的文本、图表等数据。常规的做法是从大量非结构化数据中抽取出对应的文本、图、表等,处理成结构化数据,作为构建知识图谱的数据基础。
2、在处理成结构化数据的过程中,图和表格的处理一直是难点,传统的做法,对于大量非结构化文档中图片(或表格)和图片(或表格)对应的标签,在实际数据处理过程中,需要人工把图片(或表格)以及图片(或表格)对应的标签提取出来。由于有的企业存在几tb的非结构化文档数据,如果人工去提取这些图片(或表格)和标签,那需要花费大量的时间和人力成本。
技术实现思路
1、鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种图表数据的提取方法和装置。
2、第一方面,本发明实施例提供一种图表数据的提取方法,包括:
3、对文档进行分割,得到多个段落列表;
4、依次取出所述段落列表中的每个段落;针对取出的每个段落,执行图片提取操作或表格提取操作,获得图片数据或者表格数据;或者执行提取图片标签或表格标签的操作,以获得图片标签或表格标签;
5、将从各段落提取出的图片数据与图片标签进行匹配,得到所述图片数据及对应的图片标签;或者将提取的表格数据与表格标签进行匹配,得到表格数据及对应的表格标签。
6、在一个实施例中,对文档进行分割,具体包括:
7、使用预设的docx库的文档document方法加载所述文档的数据,通过数据的段落属性,将所述文档分割成段落列表,所述段落列表中包含所述文档中各个段落的数据。
8、在一个实施例中,针对取出的每个段落,执行图片提取操作,包括:
9、利用预设的xml库,将取出的每个段落转换成树型结构,通过命名空间搜索图片所在的区域,并基于预设的正则表达式,遍历所述区域,获得图片的关键信息;
10、根据图片的关键信息,读取出所述图片对应的图片数据。
11、在一个实施例中,根据图片的关键信息,读取出所述图片对应的图片数据,包括:
12、调用预设的相关部件related_parts方法,在所述方法中输入所述关键信息,获取图片数据;
13、对获取到的图片数据进行处理并保存为预设的格式。
14、在一个实施例中,针对取出的每个段落,执行表格的提取操作,包括:
15、通过执行预设的docx库的表格方法,生成包含表格的列表;
16、取出所述表格数据的列表中的每个表格,对表格的内容进行解析,并将解析出的表格内容保存为预设格式的表格数据。
17、在一个实施例中,取出所述表格数据的列表中的每个表格,对表格的内容进行解析,并将解析出的表格内容保存为预设格式的表格数据,包括:
18、通过预设的cells方法,把表格中的每个单元格的内容提取出来,形成行内容列表,利用预设的解析工具把行内容列表保存为预设格式的表格文件。
19、在一个实施例中,执行提取表格标签的操作,以获得图片标签或表格标签,包括:
20、通过预先设置的正则表达式,从所述段落中提取出对应的图片标签或者表格标签。
21、在一个实施例中,将提取的图片数据与图片标签进行匹配,得到所述图片数据及对应的图片标签,包括:
22、若提取的图片数据的数量,与图片标签的数量一致,则按段落提取的次序,将提取出的图片数据,与提取的图片标签数据一一匹配;
23、若提取的图片数据的数量,与图片标签的数量不一致,则针对每个图片,判断其是否有匹配的图片标签;若有,则判断所述图片标签在图片的上方或下方,并将图片上方或下方的图片标签与图片数据对齐并保存。
24、在一个实施例中,判断所述图片标签在图片的上方或下方,包括:
25、若识别出图片标签所在的段落为图片所在的段落的上一个段落,当图片标签所在段落的上一个段落或者图片所在段落的下一个段落,均不为图片或者图片标签,或者当所述图片标签所在段落的上一个段落为图片或图片标签但为已对齐的图片或者图片标签,则确定所述图片标签与所述图片匹配且位于图片的上方;
26、若识别出图片所在的段落为图片标签所在的段落的上一个段落,当图片所在段落的上一个段落或者图片标签所在段落的下一个段落,均不为图片或者图片标签,或者当所述图片所在段落的上一个段落为图片或图片标签但为已对齐的图片或者图片标签,则确定所述图片标签与所述图片匹配且位于图片的下方。
27、在一个实施例中,上述图表数据的提取方法,还包括:
28、若识别图片所在的段落的上一个段落或下一个段落,并不是图片标签所在的段落,则判断所述图片不具有图片标签。
29、在一个实施例中,将提取的表格数据与表格标签进行匹配,得到所述表格数据及对应的表格标签,包括:
30、若提取的表格数据的数量,与表格标签的数量一致,则按段落提取的次序,将提取出的表格数据,与提取的表格标签数据一一匹配;
31、若提取的表格数据的数量,与表格标签的数量不一致,则针对每个表格,判断其是否有匹配的图片标签;若有,则判断所述表格标签在表格的上方或下方,并将表格上方或下方的表格标签与表格数据对齐保存。
32、在一个实施例中,若识别出表格标签所在的段落为表格所在的段落的上一个段落,当表格标签所在段落的上一个段落或者表格所在段落的下一个段落,均不为表格或者表格标签,或者当所述表格标签所在段落的上一个段落为表格或表格标签但为已对齐的表格或者表格标签,则判断所述表格标签与所述表格匹配且位于表格的上方;
33、若识别出表格所在的段落为表格标签所在的段落的上一个段落,当表格所在段落的上一个段落或者表格标签所在段落的下一个段落,均不为表格或者表格标签,或者当所述表格所在段落的上一个段落为表格或表格标签但为已对齐的表格或者表格标签,则判断所述表格标签与所述表格匹配且位于表格的下方。
34、第二方面,本发明实施例提供一种图表数据的提取装置,包括:
35、段落分割模块,用于对文档进行分割,得到多个段落列表;
36、提取模块,用于依次取出所述段落列表中的每个段落;针对取出的每个段落,执行图片提取操作或表格提取操作,获得图片数据或者表格数据;或者执行提取图片标签或表格标签的操作,以获得图片标签或表格标签;
37、匹配模块,用于将从各段落提取出的图片数据与图片标签进行匹配,得到所述图片数据及对应的图片标签;或者将提取的表格数据与表格标签进行匹配,得到表格数据及对应的表格标签。
38、第三方面,本发明实施例提供一种计算设备,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前述的图表数据的提取方法。
39、第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述的图表数据的提取方法。
40、本发明实施例提供的上述技术方案的有益效果至少包括:
41、本发明实施例提供的上述图表数据的提取方法和装置,可实现从非结构化的数据中,提取结构化的图片数据、图片标签、表格数据和表格标签,并将其匹配,实现图片数据和表格数据的自动提取和对齐,极大地减少人工处理文档中图片、表格和对应标签的工作,提升数据的处理效率。
42、进一步地,本发明实施例利用图片、图片标签、表格和表格标签的匹配关系,在两者数量不一致的情况下,逐个段落依次按照预设的逻辑判断图片和图片标签,表格与表格标签之间是否具有匹配关系,并对图片标签位于图片上方或下方进行智能识别,并根据识别的结果对齐图片和图片标签,表格和表格标签,保证了数据提取结果的准确性。
43、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
44、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种图表数据的提取方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,对文档进行分割,具体包括:
3.如权利要求1所述的方法,其特征在于,针对取出的每个段落,执行图片提取操作,包括:
4.如权利要求3所述的方法,其特征在于,根据图片的关键信息,读取出所述图片对应的图片数据,包括:
5.如权利要求1所述的方法,其特征在于,针对取出的每个段落,执行表格的提取操作,包括:
6.如权利要求5所述的方法,其特征在于,取出所述表格数据的列表中的每个表格,对表格的内容进行解析,并将解析出的表格内容保存为预设格式的表格数据,包括:
7.如权利要求1所述的方法,其特征在于,执行提取表格标签的操作,以获得图片标签或表格标签,包括:
8.如权利要求1-7任一项所述的方法,其特征在于,将提取的图片数据与图片标签进行匹配,得到所述图片数据及对应的图片标签,包括:
9.如权利要求8所述的方法,其特征在于,判断所述图片标签在图片的上方或下方,包括:
10.如权利要求8所述的方法,其特征在于,还包括:
11.如权利要求1-7任一项所述的方法,其特征在于,将提取的表格数据与表格标签进行匹配,得到所述表格数据及对应的表格标签,包括:
12.如权利要求11所述的方法,其特征在于,若识别出表格标签所在的段落为表格所在的段落的上一个段落,当表格标签所在段落的上一个段落或者表格所在段落的下一个段落,均不为表格或者表格标签,或者当所述表格标签所在段落的上一个段落为表格或表格标签但为已对齐的表格或者表格标签,则判断所述表格标签与所述表格匹配且位于表格的上方;
13.一种图表数据的提取装置,其特征在于,包括:
14.一种计算设备,其特征在于,包括:存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-12任一项所述的图表数据的提取方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12任一项所述的图表数据的提取方法。