将印刷媒体页面分割成文章的制作方法

xiaoxiao2020-7-22  19

专利名称:将印刷媒体页面分割成文章的制作方法
技术领域
本发明涉及对印刷媒体材料的计算机辅助分析。
背景技术
计算机日益用于执行或帮助对文档和印刷材料的分析。这样的分析包括识别文档内的文本和图像的位置和相对布置。这样的文档布局分析在许多文档成像应用中会很重要。例如,文档布局分析可以用作基于布局的文档检索、使用光学字符识别的文档提取以及电子文档图像转换的其它方法的一部分。然而,这样的分析和转换通常对于诸如商业信件或单栏报告的简单文档工作最佳,而在布局变得复杂或可变的时会很困难或不能工作。诸如报纸的复杂印刷媒体材料通常在单个页面上涉及主体文本栏、标题、图形图像、多种字体大小,包括相互紧靠的多个文章和逻辑元素。在这样的情况下试图利用光学字符识别是典型不适当的,这会导致宽范围的多种错误,包括例如不能将来自多栏的文本作为来自相同文章的恰当关联、误关联在相关联的标题范围外的文本区域或跨页界的那些文章以及将较大标题字体分类为图形图像。因此,所需要的是减轻前述缺陷的系统和/或方法。具体地,所需要的是识别和分析以复杂栏状格式展现的印刷媒体材料的有效和高效方法,以将印刷媒体材料分割成文

发明内容
与在此体现和概括描述的本发明的原理一致,本发明的实施例包括印刷媒体文章分割系统,其包括块分割器和文章分割器。块分割器被配置为接受印刷媒体图像,其中对前景进行分析,导致对图像内的线和版沟(gutter)的检测和识别。此外,块分割器将执行光学字符识别分析以及产生标题块和主体文本块的块类型识别器。文章分割器被配置为接受标题和主体文本块以确定给定的块对属于相同文章还是不同文章。然后将确定属于相同文章的块组合成单个基于电子的文章,以及如果存在相应标题的话,将其与相应标题合并。在另一个实施例中,文章分割器使用分类和回归树(CART)分类器机器学习算法来对块进行分类。在另一个实施例中,文章分割器使用基于规则的分类器算法来对块进行分类。将在下面参考附图详细描述本发明的进一步实施例、特征和优势,以及本发明的各种实施例的结构和操作。


合并入并且构成本说明书的一部分的附示了本发明的实施例,并且与在上面给出的一般描述和在下面给出的实施例的详细描述一起用于解释本发明的原理。在附图中
图1是根据本发明的一个实施例的描绘了用于将印刷媒体页面分割成文章的系统的实现的系统图。图2是根据本发明的一个实施例的描绘了用于将印刷媒体页面分割成文章的系统的实现的块分割器的系统图。图3是根据本发明的一个实施例的描绘了用于将印刷媒体页面分割成文章的系统的实现的前景检测器的系统图。图4是根据本发明的一个实施例的图示了用于版沟和线检测的过程的示例的图。图5是根据本发明的一个实施例的描绘了用于将印刷媒体页面分割成文章的系统的实现的文章分割器系统的系统图。图6是根据本发明的一个实施例的示出了标题和主体文本块的印刷媒体图像的副本。图7是根据本发明的一个实施例的示出了孤儿块的印刷媒体图像的副本。图8是根据本发明的一个实施例的描绘了用于将印刷媒体页面分割成文章的方法的流程图。
具体实施例方式本发明涉及分割印刷媒体图像。在本发明的实施例中,印刷媒体文章分割系统包括块分割器和文章分割器,其中块分割器被配置为接受印刷媒体图像,并且生成标题和主体文本的块对。文章分割器被配置为接受块对,并且生成包括相关块的文章。虽然论述了特定配置、布置和步骤,但是应当理解,这仅仅为了说明性目的而论述。相关领域技术人员将认识到,可以在不背离本发明的精神和范围的情况下使用其它配置、布置和步骤。对相关领域技术人员显而易见的是还可以在多种其它应用中利用本发明。应注意,在说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性,但是每个实施例可以不必包括特定特征、结构或特性。而且,这样的短语不一定是指相同实施例。此外,当结合实施例描述特定特征、结构或特性时,无论是否明确描述,结合其它实施例合并这样的特征、结构或特性在本领域技术人员的知识范围内。虽然在此参考用于特定应用的说明性实施例描述了本发明,但是应当理解,本发明不限于此。本领域技术人员使用在此提供的教导后将认识到在本发明的范围内的额外修改、应用和实施例以及本发明在其中将有重大功用的额外领域。图1是根据本发明的一个实施例的印刷媒体文章分割系统100的图示。系统100 包括从之获取印刷媒体图像120的输入的印刷媒体部分110。印刷媒体图像120由块分割器130和文章分割器140处理,从而产生存储在文章数据库150中的文章。块分割器130通过检测印刷媒体图像120上的主要由版沟和线组成的结构化元素开始。可以使用一系列过滤和图像形态学操作来识别印刷媒体图像120上的版沟和线。一旦块分割器130检测到版沟和线,印刷媒体图像120就通过光学字符识别方法被处理,并且由先前检测到的版沟和线切割(chop),这导致被识别为标题或主体文本块的新的段落集。文章分割器140利用基于规则的系统,以将标题和主体文本块聚组成文章。然而,在另一个实施例中,使用分类和回归树机器学习算法将标题和主体文本块聚组成文章。两个分类实施例可以生成邻接矩阵A,其中A(i,j) = 1暗示块i和j属于相同文章,整个文章为块的传递闭包。系统100(包括其组件模块)可以在软件、固件、硬件或以上的任何组合中实现。系统100可以实现来运行于任何类型的处理设备(或多个设备)上,所述处理设备(或多个设备)包括但不限于计算机、工作站、分布式计算系统、嵌入式系统、单机电子设备、联网设备、移动设备、机顶盒、电视或其它类型的处理器或计算机系统。在一个实施例中,系统100可以操作来生成文章或识别文章,以存储在文章数据库150中。在另一个实施例中,文章数据库150中的信息可以被进一步访问来完成搜索查询。例如,远程用户可以通过万维网输入搜索查询。搜索引擎(未示出)然后可以用文章数据库150中的信息完成搜索查询。如本领域已知的,该信息还可以先前已由搜索引擎索引以帮助搜索。前景检测图2图示了根据本发明的一个实施例的块分割器130的更详细视图。块分割器 130被配置为接收印刷媒体图像120。印刷媒体图像120首先由前景检测器210分析。由于印刷媒体图像有时检索自诸如缩微胶片的源,所以图像的背景可能非常嘈杂。另外,背景和前景灰度级按照页面、在页面内以及在多个缩微胶片卷之间可能变化很大。由于这样的变化,基于全局阈值的二值化不是适当的。因此,前景检测器210基于图像形态学灰度重构来利用分析。图3图示了根据本发明的一个实施例的前景检测器210的更详细视图。在该实施例中,假设印刷媒体图像120是前景比背景白的图像。在另一个实施例中,如果必要的话, 原始图像可以由反转器310(inVerter)反转以获得比背景白的前景。虽然背景或前景不以恒定灰度级出现,但是认为在前景和背景之间存在最低对比度水平313。如果前景不比背景白,则从印刷媒体图像或反转的印刷媒体图像120减去最低对比度水平313,以及导致然后被定向到形态学灰度图像重构器320的标记/种子图像。标记/种子图像以及印刷媒体图像120作为掩模(mask)被输入到形态学灰度图像重构器320。然后从掩模图像减去形态学灰度图像重构器320的输出,其中剩余图像作为在背景之上的峰值或拱顶出现。以这种方式,前景检测器210用作为峰值检测器。前景检测器210的结果是印刷媒体图像120的二值化图像。光学字符识别(OCR)在图2中,一旦前景检测器210处理了印刷媒体图像120,光学字符识别(OCR)引擎220以及线和版沟检测器230就分析结果图像。OCR引擎220执行第一轮回以识别已由前景检测器210处理的印刷媒体图像120内的字符。OCR引擎220处理被识别为来自图像的文本的所有块。为了试图识别由于大小一例如非常大的标题字体一可能被误认为不是文本的字符,作为结果的图像由重新比例缩放器(reSCaler)222缩小比例并且变小为原来一半,在此点OCR引擎220再次试图识别额外文本。在该实施例中,该过程被重复总计三次迭代,以试图识别OCR引擎220最初没有识别的所有较大文本。在另一个实施例中,图像由重新比例缩放器222放大比例并且变大为原来两倍, 以使OCR引擎220识别另外可能没有被识别的较小文本。在该实施例中,该过程被重复总计三次迭代,以试图识别OCR引擎220最初没有识别的所有较小文本。版沟检测在印刷媒体图像内的版沟被分类为垂直版沟或水平版沟。垂直版沟是典型分离印刷媒体图像120内的文本、标题或图像块的高窄白色区域。水平版沟是典型分离印刷媒体图像120内的文本、标题或图像块的短宽白色区域。换句话说,印刷媒体图像120中的块可以由版沟和/或线定义和界定。在一个实施例中,利用对位于高窄并且大部分白色的区域内的像素作出响应的高窄过滤器来检测垂直版沟。为了使影响或偏斜以及印刷媒体图像120中的噪声最小化, 通过置放以被分析的像素为中心的高窄矩形窗口来分析在印刷媒体图像120内的特定像素。该偏斜过程在图4中被图示为根据本发明的一个实施例的偏斜鲁棒版沟和线检测系统 400。在图4中示出了在高窄矩形窗口 410的中心处由“ + ”符号标记的被检查的像素。高窄矩形窗口 410对应于垂直版沟检测,并且以包围以暗区420-L和420-R环绕的主要白色空间的虚线轮廓示出。为了确定被检查的特定像素是否对应于版沟,在该示例中为垂直版沟,在应用矩形窗口 410后,对矩形窗口 410内的每一行上的多个白色像素进行计数。如果白色与黑色像素的比率超过最小百分比阈值,则行被认为是“白色的”。对于每一行重复该过程。如果在矩形窗口 410内的白色行的总计百分比超过例如99%的第二阈值百分比,则将被分析的中心像素标记为垂直版沟像素。如在图4中所见,如由“ + ”符号所指示的被分析的像素在矩形窗口 410的中心处。作为一个示例,如果对于每一行最小百分比阈值为66%,则在图4中,因为每行有三个像素,如果每一行内的像素中的两个或三个是白色的,则该行将被认为是“白色的”。因此, 在图4的示例中,在矩形窗口 410内的所有行将被“认为是”白色的。在该分析示例中的下一步骤将是确定白色行的总计百分比是否超过如示例99%的第二阈值百分比,确定被分析的中心像素待被标记为垂直版沟像素。在该示例中,因为“认为是”白色行的总计百分比是 100%,所以这超过了阈值示例百分比99%,因此标记有“ + ”符号的中心像素将被标记为垂直版沟像素。在图4中演示的方法不需要矩形窗口 410内的每个像素都是白色的,以确定被分析的像素被标记为版沟像素,因此增加了噪声耐量。另外,如图4的矩形窗口 410内所图示的,该方法不需要白色像素具有精确的垂直对齐,因为可以容忍较小的置放变化。矩形窗口 410的宽度和高度随印刷媒体图像页面120上的连通分量的众数高度的恒定倍数动态选择。作为一个示例,如果印刷媒体图像120是报纸的图像,则连通分量的众数高度典型对应于主体文本线的高度。以类似的方式,替代如图4中所图示的高窄矩形窗口,可以通过使用短宽矩形窗口来对像素进行分析以被标记为水平版沟像素。一旦分析了所有可应用的像素,就作出垂直和水平版沟像素的联合以获取版沟图像。线检测线和版沟检测器230还以与版沟检测的方式相似的方式执行线检测。然而,因为线通常由前景对象的短窄部分组成,所以在上面描述的用于检测版沟的基于过滤器的方法不一定检测这样的线。因此,在该实施例中,在线和版沟检测器230的操作中利用下述九步骤方法Li.执行基于过滤器的线检测以检测垂直和水平线两者。作为结果的线被称为严格线。L2.从输入图像删除所有的严格水平线(在步骤1中检测的)。L3.对带有矩形结构化元素的作为结果的图像执行形态学打开。矩形的宽度对应于最大期望的线宽度。这消除了图像的比结构化元素的宽度窄的所有部分。L4.从在步骤2中所获取的图像减去上面的图像。该图像仅仅具有窄部分。L5.对步骤4中的图像执行形态学关闭。这将填充在较小窄部分之间的间隙。L6.执行对关闭的图像的连通分量分析。删除比预定阈值短的分量。结果是其高度(在关闭后)大于阈值的窄对象。L7.以作为掩模的二值图像和来自步骤6的作为标记的图像执行形态学二值重构。这产生具有适度高(在关闭后)的至少一个窄部分的输入图像中的所有连通分量。L8.执行对图像的连通分量分析。保留其高度超过高于步骤6中的阈值的第二阈值或具有与严格垂直线实质交叉的分量。因此,它们自身实质很高或延伸严格线的分量被保留。L9.消除线的部分,其中其与所检测的OCR词交叉。这移除了贯穿文本的假线(由刮痕等导致)。该规则L1-L9的示例是说明性的,并且并不意在限制本发明。可以使用如给出本描述而对本领域技术人员显而易见的其它规则来检测线和版沟。细分OCR生成的段落当线和版沟检测器230识别了版沟和线时,将结果覆盖在由OCR引擎220返回的段落上。切割器240生成与来自印刷媒体图像120的OCR块的矩形边界框相对应的更小的子图像集。在每一个子图像中,与版沟或线相对应的所有像素被设置为“白色的”,其中对作为结果的图像执行连通分量分析。每当版沟和线包围文本块,切割器240分割OCR识别的段落。以这种方式,切割器240生成新的段落集,其中没有文本跨越线或版沟。识别标题和主体文本段落块类型识别器250的目的是区分被认为是标题的文本和为文章的主体的一部分的文本。OCR引擎220试图识别所有文本字符。如果OCR引擎220不能将块识别为包括字符,则OCR引擎220将该块标记为图像。然而,由于在印刷媒体图像120中发现字体大小的较大变化,OCR引擎220可能将包含较大字体的段落和块误认为图像。此外,如果文本由相对较大的字体和/或大部分大写字母组成,则块类型识别器250将由OCR引擎220标示为文本的块标记为标题。通过块类型识别器250遍及印刷媒体图像120的整个页面生成字体大小的直方图来确定截止(cutoff)字体大小。为了验证由OCR引擎220报告的文本的字体大小是正确的,块类型识别器250以 OCR引擎220报告的字体大小确证符号边界框的大小。如果两个字体大小没有实质等价,则不将有关块标记为标题。经由合并创建块块类型识别器250的输出由被标记为标题或主体文本的段落集组成。从该段落集,合并器260将段落组合成块集,每一个由段落集合组成。在一个示例中,合并器260使用下述规则来完成该任务Ml.标题段落仅可以与其它标题段落合并。主体文本段落仅可以与其它主体文本段落合并。M2.如果标题段落内的文本没有对齐,则不合并标题段落。通过拟合通过独立符号的基准点的最小二乘线并且测量拟合误差来确定对齐。M3.如果左边距和右边距均基本上对齐,则合并为垂直邻居(即,一个在另一个上方,其中没有干预的其它块)的主体文本段落。M4.如果上部边距和底部边距基本上对齐,则合并水平邻近的段落。M5.如果主体文本段落由线或版沟分离,则不合并主体文本段落。如果标题段落由垂直线分离,则不合并标题段落。然而,可以合并跨版沟或水平线的标题段落。该规则M1-M5的示例是说明性的,并且并不意在限制本发明。可以使用如给出本描述而对本领域技术人员显而易见的其它规则来识别用于合并的块。将标题分配给主体文本块通过合并器260对上面规则的实现导致生成标题块集和主体文本块集。然而,典型地,主体文本块与标题块相关联。因此,合并器260为相关联的标题块的存在而分析主体文本块。合并器260通过将主体文本块识别为特定标题块的候选来实现标题块与一个或多个主体文本块的关联,其中标题块的中点位于主体文本块的中点之上并且标题块与主体文本块水平重叠。最低候选标题块被视为讨论中的主体文本块的标题,除非存在没有紧接在标题之下将标题块和主体文本块分离的水平线,因为许多印刷媒体发布者将线紧接在许多标题之下置放。然而,其它干预的线将使块和标题脱离(delink),在这点,主体文本块被认为是没有相关联的标题块的孤儿。特征计算特征计算器270计算与每一个所识别的块相关联的多个特征。特征计算器270计算与每一个块相关联的块几何,其由左上角坐标以及块边界框的宽度和高度组成。另外,特征计算器270识别在块之上的最低标题,如果存在的话,以及在块和相关联的标题之间是否存在线。对于所有邻近的块,特征计算器270计算是否存在分离两个块的线,这对于文章分割器140在确定邻近块是否属于相同文章时是必要的。块分割器130然后用相关联的几何产生输出块272。如图2中所示的块分割器130是说明性的,并且并不意在限制本发明。例如,块分割器130不限于组件210-270中的每一个。例如,OCR引擎220可以与块分割器130分离, 并且替代地仅与如在此所描述的前景检测器210和切割器240通信。CART 分类器图5图示了根据本发明的一个实施例的文章分割器140的更详细视图。文章分割器140被配置为从块分割器130接收输出块272。文章分割器包括分类器510和文章生成器 520。在一个实施例中,分类器510利用分类和回归树分类器机器学习算法(CART)来确定给定的块对是否属于相同文章。在另一个实施例中,分类器510利用基于规则的分类算法来确定给定的块对是否属于相同文章。
在分类器510使用CART分类器的一个实施例中,分类器510利用并且比较下述信息来确定邻近块对属于相同还是不同文章对于垂直邻居VI.框的平均宽度。V2.框之间的距离。V3.框之间的相对宽度差。V4.框之间的左对齐。V5.框之间的右对齐。除V1-V5外,在垂直邻居由标题分离的情况下V6.标题的左边距与两个框的平均左边距的对齐。V7.标题的右边距与两个框的平均右边距的对齐。V8.标题宽度。V9.标题和顶部框之间的距离。V10.标题和底部块之间的距离。VlL标题高度。V12.标题字数。V13.标题平均字体大小。V14.标题最大字体大小。对于水平邻居Hl.框的平均宽度。H2.框之间的距离。H3.框之间的相对宽度差。H4.框之间的顶部对齐。H5.干预线强度。除H1-H5外,在水平邻居具有共享标题的情况下H6.标题的左边距与左框的左边距的对齐。H7.标题的右边距与右框的右边距的对齐。H8.标题宽度。H9.标题和框之间的距离。H10.标题高度。Hll.标题字数。H12.标题平均字体大小。H13.标题最大字体大小。该规则V1-V14和H1-H13的示例是说明性的,并且并不意在限制本发明。可以使用如给出本描述而对本领域技术人员显而易见的其它规则来确定给定的块对是否属于相
同文章。针对每一个印刷媒体图像120标题单独训练利用CART分类器的分类器510,其中在通过使用词频-倒数文档频率(TF-IDF)语言,计算在所有邻近块对之间的相似性测量的情况下,生成训练数据。在相似性非常高的情况下,该块对用作正例,在相似性非常低的情况下,该块用作反例。基于规则的分类器在分类器510使用基于规则的分类器的一个实施例中,分类器510可以使用下述规则来确定邻近块对属于相同还是不同文章通用标题规则使用基于规则的分类器算法,分类器510确定带有共同的分配的标题的块属于相同文章。图6中图示了共同的分配的标题的示例。孤儿块规则使用基于规则的分类器算法,分类器510确定不带分配的标题的块被认为是孤儿块。图7中图示了孤儿块的示例。只有为章节起始者的孤儿块可以被连接到另一个块,其中章节起始者孤儿块被定义为是紧接章节分离者之下或在页面的顶部处的孤儿块。章节分离者被定义为跨越多个主体文本块、标题和/或图片的线。当识别了孤儿块时,分类器510确定是否存在可以被连接到孤儿块的任何候选块。只有在块的右边距和章节起始者孤儿块的左边距之间没有其它块时块才是候选块。另外,候选块的底部必须在章节起始者孤儿块的顶部边距之下。在该实施例中,如果块完全位于章节起始者孤儿块之上,则该块不被认为是候选块,但是如果块完全位于章节起始者孤儿块之下,则候选块是候选。章节起始者孤儿块被连接到紧接章节分离者之上的最顶部候选块。生成文章文章生成器520使用分类器510的结果来构建包括标题块和主体文本块的文章。 分类器510有效地生成邻接矩阵A,其中
权利要求
1.一种印刷媒体文章分割系统,包括块分割器,所述块分割器从印刷媒体图像识别并且产生内容块;以及文章分割器系统,所述文章分割器系统基于分类器算法来确定哪些内容块属于所述印刷媒体图像中的一个或多个文章。
2.根据权利要求1所述的印刷媒体文章分割系统,其中所述块分割器进一步包括前景检测器系统,所述前景检测器系统检测所述印刷媒体图像的前景。
3.根据权利要求1所述的印刷媒体文章分割系统,其中所述块分割器进一步包括线和版沟系统,所述线和版沟系统识别所述印刷媒体图像上的线和版沟。
4.根据权利要求3所述的印刷媒体文章分割系统,其中所述块分割器进一步包括光学字符识别(OCR)引擎,所述光学字符识别引擎识别所述印刷媒体图像内的段落。
5.根据权利要求3所述的印刷媒体文章分割系统,其中所述块分割器进一步包括切割系统,所述切割系统根据由所述线和版沟系统识别的所述线和版沟来分割所述印刷媒体图像的段落。
6.根据权利要求5所述的印刷媒体文章分割系统,其中所述块分割器进一步包括块类型识别器系统,所述块类型识别器系统将所述切割器系统的所分割的段落分类为主体文本、图像和标题中的至少一个。
7.根据权利要求6所述的印刷媒体文章分割系统,其中所述块分割器进一步包括合并器系统,所述合并器系统将所述块分割器的与主体文本相对应的所分割的段落合并成输出块。
8.根据权利要求7所述的印刷媒体文章分割系统,其中所述合并器系统对所述块类型识别器系统的所述主体文本分割段落分析相关联的标题分割段落的存在。
9.根据权利要求7所述的印刷媒体文章分割系统,其中所述块分割器进一步包括特征计算器系统,其中所述合并器系统的所述输出块与以下的至少一个相关联块几何坐标;在块之上的最低标题;以及在块和相关联的标题之间的线的存在。
10.根据权利要求1所述的印刷媒体文章分割系统,其中所述文章分割器系统包括 分类器系统,其中所述分类器算法包括用来确定多个文本块是否属于相同文章从而生成邻接矩阵的分类和回归树(CART)分类器机器学习算法;以及文章生成器系统,所述文章生成器系统基于所述邻接矩阵来构建文章。
11.根据权利要求1所述的印刷媒体文章分割系统,其中所述文章分割器系统包括 分类器系统,其中所述分类器算法包括用来确定多个文本块是否属于相同文章从而生成邻接矩阵的基于规则的分类器算法;以及文章生成器系统,所述文章生成器系统基于所述邻接矩阵来构建文章。
12.一种用于将印刷媒体页面分割成文章的方法,包括 从印刷媒体图像识别内容块; 基于分类器算法来确定哪些内容块属于一个或多个文章。
13.根据权利要求12所述的方法,进一步包括禾IJ用前景检测和图像二值化来处理所述印刷媒体图像。
14.根据权利要求12所述的方法,进一步包括 分析所述印刷媒体图像以识别并且定位版沟和线。
15.根据权利要求14所述的方法,进一步包括 利用光学字符引擎来检测所述印刷媒体图像内的段落。
16.根据权利要求15所述的方法,进一步包括 通过所述线和版沟分割所检测到的段落。
17.根据权利要求16所述的方法,进一步包括将所分割的段落分类为主体文本、图像或标题中的一个。
18.根据权利要求17所述的方法,进一步包括 将所分割的段落合并成块。
19.根据权利要求17所述的方法,进一步包括对所述主体文本分割段落分析相关联的标题分割段落的存在。
20.根据权利要求18所述的方法,进一步包括 对于每一个块关联块几何坐标;确定在每一个块之上是否存在最低标题;以及确定在每一个块和相关联的标题之间的线的存在。
21.根据权利要求12所述的方法,其中所述分类器算法基于分类和回归树(CART)分类器机器学习算法。
22.根据权利要求12所述的方法,其中所述分类器算法基于基于规则的分类器算法。
23.一种包括具有存储在其中、用于促使计算机将印刷媒体页面分割成文章的控制逻辑的计算机可用介质的计算机程序产品,所述控制逻辑包括第一计算机可读程序代码,用于促使所述计算机从印刷媒体图像识别内容块; 第二计算机可读程序代码,用于促使所述计算机利用前景检测和图像二值化来处理所述印刷媒体图像;第三计算机可读程序代码,用于促使所述计算机分析所述印刷媒体图像以识别并且定位版沟和线;第四计算机可读程序代码,用于促使所述计算机利用光学字符引擎来检测所述印刷媒体图像内的段落;第五计算机可读程序代码,用于促使所述计算机通过所述线和版沟分割所检测到的段落;第六计算机可读程序代码,用于促使所述计算机将所分割的段落分类为主体文本、图像或标题中的一个;第七计算机可读程序代码,用于促使所述计算机将所分割的段落合并成块; 第八计算机可读程序代码,用于促使所述计算机对所述主体文本分割段落分析相关联的标题分割段落的存在;第九计算机可读程序代码,用于促使所述计算机对于每一个块关联块几何坐标; 第十计算机可读程序代码,用于促使所述计算机确定在每一个块之上是否存在最低标题;第十一计算机可读程序代码,用于促使所述计算机确定在每一个块和相关联的标题之间的线的存在;以及第十二计算机可读程序代码,用于促使所述计算机基于分类器算法来确定哪些内容块属于一个或多个文章。
24. 一种用于将印刷媒体页面分割成文章的系统,包括 处理器;以及与所述处理器通信的存储器,所述存储器用于存储多个处理指令,所述多个处理指令用于指示所述处理器从印刷媒体图像识别内容块;禾IJ用前景检测和图像二值化来处理所述印刷媒体图像; 分析所述印刷媒体图像以识别并且定位版沟和线; 利用光学字符引擎来检测所述印刷媒体图像内的段落; 通过所述线和版沟分割所检测到的段落; 将所分割的段落分类为主体文本、图像或标题中的一个; 将所分割的段落合并成块;对所述主体文本分割段落分析相关联的标题分割段落的存在;对于每一个块关联块几何坐标;确定在每一个块之上是否存在最低标题;确定在每一个块和相关联的标题之间的线的存在;基于分类器算法来分类每一个块,其中创建邻接矩阵;以及基于所述邻接矩阵来识别文章。
全文摘要
用于快速并且高效地将印刷媒体页面分割成独立文章的方法和系统。将可以包括多种栏、标题、图像和文本的基于印刷媒体的图像输入到包括块分割器和文章分割器系统的系统中。块分割器从印刷媒体图像识别并且产生文本内容块,而文章分割器系统基于分类器算法来确定哪些文本内容块属于印刷媒体图像中的一个或多个文章。还提供了用于将印刷媒体页面分割成独立文章的方法。
文档编号G06K9/20GK102177520SQ200980139915
公开日2011年9月7日 申请日期2009年8月13日 优先权日2008年8月13日
发明者克里希讷杜·乔杜里, 安库尔·贾殷, 维韦克·萨哈斯拉纳曼, 肖布希特·萨克塞纳 申请人:谷歌公司

最新回复(0)