一种表单图像分类方法

xiaoxiao2020-10-23  20

一种表单图像分类方法
【技术领域】
[0001] 本发明属于文档分类与模式识别技术领域,具体涉及一种基于距离测量的表单图 像分类方法。
【背景技术】
[0002] 当前,在很多业务(如银行、保险、统计等)中,大量的中文表单通过打印/复印等 形式生成后,传递给客户进行打印填写或手工填写,因而导致大量的中文表单以纸质形式 存在,给后期的表单自动化处理带来了许多挑战与困难。另一方面,为了使办公更加自动 化,进而能够从表单中抽取挖掘出有用的信息,对表单自动化处理的需求日益强烈。
[0003] 表单的自动化处理通常包括纸质表单的扫描、读入、分类、版面分析、识别和编辑 等一系列过程。其中表单分类是表单自动化处理流程中非常关键的步骤,能够对版面分 析和识别过程进行指导,从而使处理流程更加自动化。表单分类的粒度往往因业务场景而 不同,文献"DimensionalityReductionandFeatureSelectionMethodsforScript IdentificationonDocumentImages,inINFORMATIONTECHNOLOGYININDUSTRY" 仅针 对语言进行分类,文献"ACompleteLogoDetection/RecognitionSystemforDocument Image,inDocumentAnalysisSystems(DAS), 201411thIAPRInternationalWorkshop on.IEEE"根据是否有印章和商标进行分类。本发明处理的是版面相似中文表单的分类问 题,分类目标是将采用不同表单模板的表单区分开来,即同一类的表单除用户填写区域外 均完全相同。
[0004] 在银行和保险等机构中,有大量的相似业务存在,如"取款"和"存款";另外还有隶 属于不同银行或保险机构的同一种业务,如不同银行的汇款单。这一类中文表单模板通常 有国家的标准设计要求,因此他们的版面设计几乎完全相同,差别只体现在表单标题中的 业务名称或银行名称和标志上。
[0005] 目前绝大部分表单分类方法都是从表单图像直接进行特征的提取,有的提取全局 的特征,有的提取局部的线条等结构特征。但是这些方法都不适用于版面相似表单的分类, 因为对于这类表单,这些方法所提取出的特征,尤其是结构特征,几乎都是相似的特征,区 分度很小。所以这一类方法在进行表单分类时,常常会被表单的结构相似性所迷惑,从而取 得较差的分类效果。
[0006] 在实际应用当中,需要进行分类的中文表单绝大部分是已经由用户填写好(打印 填写或手写填写)的表单。由于表单的类别差异仅体现在表单版面部分的差异上,与用户 所填信息无关。因此对于表单分类任务而言,可以认为用户填写信息是噪声信息。在此前 提下,版面相似表单的分类主要有以下两个挑战:
[0007] 1.用户所填信息的随机性。用户所填信息相对于固定的表单版面是完全因人而异 的,并且同一种类表单的用户所填信息也不尽相同。因此在提取全局特征时,用户所填信息 的位置变化以及字体变化等会引起全局特征的变化,造成分类错误。
[0008] 2.中文表单版面部分的区分信息过少。由于版面相似表单的类别差异只体现在表 单版面部分的差异信息上(如前文所提到的表单标题和银行标志等等),差异信息非常有 限,往往只靠标题中几个字符的差别确定表单的种类,但这些差别又会被用户填写信息的 差异所掩盖,导致分类出现错误。因此如何最大化地利用这类有限的差异信息成为了版面 相似表单分类的关键和挑战。在这种情况下,使用单纯的欧氏距离进行计算,同类表单之间 的距离很有可能大于不同类表单之间的距离。
[0009] 表单分类作为表单识别的关键步骤,已经引起研宄者的广泛关注,大量的表单分 类方法被相继提出,其中主要的方法类型包括三种,即基于全局特征提取的方法、基于结构 特征的版面分析方法和基于分层特征表达的方法。
[0010] 1,在全局特征提取方面,有基于字数、单元格和Haar特征等的方法。文献 "Imageclassification:Classifyingdistributionsofvisualfeatures.InPattern Recognition. "提出了一种类Haar特征的方法,并使用潜在条件独立(LatentConditional Independent,LCI)模型来进行表单分类。文献"Formidentificationbasedoncell structure.InICPR"提出了一种点集匹配技术,将表单中单元格的中心标记成点,然后再 对不同的表单进行点集匹配。
[0011] 2,对表单结构特征的提取也是表单分类中非常有效的手段。文献"Form classificationusingdpmatching.Proceedingsofthe2000ACMsymposium onAppliedcomputing"提出了基于表单中线段提取的方法,文献"Businessform classificationusingstrings.InPatternRecognition." 则将线段和文本表不成字符 串进行分类。这一类的方法针对具有明显结构性版面的表单,取得了较好的效果。
[0012] 3,对表单特征进行分层表达也是具有较高分类准确率并且计算复杂度较低的方 法t文献"Ahierarchicalrepresentationofformdocumentsforidentificationand retrieval.InInternationalJournalonDocumentAnalysisandRecognition. " 提出 了一种基于X-Y树的分层方法来表示表单中的矩形结构。文献"Fine-graineddocument genreclassificationusingfirstorderrandomgraphs.DocumentAnalysisand Recognition"则将表单的物理版面信息提取成多层XY树,并编码成固定长度的特征向量, 然后使用神经网络模型和多层感知机进行分类。
[0013] 然而,上述方法难以处理相似表单,从相似表单中提取的特征也非常相似,因此往 往将具有相似版面的表单判断为同一类,从而导致分类错误。
[0014] 另外,文献"层次型金融票据图像分类方法"提出了利用0CR(0pticalCharacter Recognition)识别标题从而进行表单分类的方法,并应用于金融票据中,取得了较好的效 果。然而,OCR技术在表单识别中对表单模板有较大的依赖性,而且错误的识别结果将直接 影响分类正确率;另外基于OCR的方法需要识别大量无关信息,比较耗时,效率较低。
[0015] 为此,文献"Identificationofverysimilarfilled-informswithareject option.InICDAR. "提出了专门针对相似表单的分类算法,该算法首先检测出相似表单的 标志区域,再用基于距离度量的方法对该区域进行模板匹配。但是该算法要求利用空白表 单来提取标志区域。在实际应用中,由于保密性和安全原因,空白表单通常难以获取,因此 该方法在实际应用时,适用性较弱。
[0016] 最新的相关研宄中,文献"Businessformsclassificationusingearth mover'sdistance,inDocumentAnalysisSystems(DAS) " 等人提出一种基于EMD(Earth Mover'sDistance)的表单分类方法。该方法是利用表单二值化后的连通域面积和连通域 像素点位置信息,将表单灰度图转化为彩色图的一种伪彩色编码算法。实验证明,该算法 对用户所填信息的位置变化具有很好的鲁棒性,对表单的整体位置偏移也有稳定的分类效 果。但是,该算法将表单的标题等区分性信息与其它信息等同处理,未有效利用该类区分性 信息,导致最 终的分类准确率不高。另外该算法是一种寻优算法,具有较高的时间复杂度。

【发明内容】

[0017] 现有的表单分类技术在表单分类问题中主要是解决了不同版式的表单的分类问 题,但对于版式相似或相近的表单,这一类算法则认为属于同一类表单。因此,为了解决相 似表单难以进行分类的问题,本发明提出一种简单有效的基于加权距离的中文表单分类方 法,减少用户填写信息的随机性带来的影响,同时放大表单版面中区分信息的重要性,从而 针对版面相似的中文表单取得较好的分类性能。
[0018] 本发明采用基于表单整幅图像的匹配算法,能够通过已填写的少量表单用作训练 图像,自动检测出版式中的差别部分和用户填写的不稳定部分,再根据这些内容计算出分 类时不同位置的权重信息。在分类时利用这些权重信息进行比较,提高了版式中差别部分 的权重,而降低了用户填写部分的权重,能够较好的区分出相似表单。
[0019] 本发明所采用的技术方案的总体流程如图1所示:首先进行表单的对齐操作,检 测出表单的边缘和表单的位置,将表单进行倾斜校正,并将表单的大小都正规化到同样的 尺寸;然后用一部分已知类型的相似表单作为训练表单图像;对于训练图像,首先对属于 同一类的表单求取均值图像,均值图像的每个像素点是每张训练图像在该位置的像素的均 值,得到的均值图像构成每一类的均值模板;然后求取三种权重值:一致性权重、随机性权 重和抖动性权重,得到的三个权重也就对应了三张权重图,在进行表单分类时,则使用三种 权重和均值模板进行分类的计算。进行分类计算时,全部使用三种权重的效果最好,但也可 以仅使用随机性权重和一致性权重进行表单分类,此时也能够取得较好的效果。下面具体 说明三种权重的计算方法。
[0020] 1.第一种权重为一致性权重,是为了强调相似表单类间的一致性所设。对所有的 均值模板每个对应像素点求方差,该方差是类间方差,此方差是计算均值模板中对应像素 点的方差。用得到的方差和所有均值模板每个对应像素点计算均值,由这两个值的高斯函 数计算该点的权重。在方差越大的像素点,权重越高,方差较小的像素点具有较低的权重, 能够在表单相似的情况下突出表单预定义信息的重要性,突出了相似表单的具有差异性的 部分。
[0021] 一致性权重计算公式如下:
[0023] 其中,?f是第i个像素点的高斯函数一致性权重; < 是平均图像中第i个像素 点对于平均图像再计算平均值的方差;U1是所有平均图像计算第i个像素点的均值;C1是 待分类表单的第i个像素点,P是待分类表单图像的大小。
[0024] 2.第二种权重为随机性权重,是为了降低用户填写区域的随机性而设。对属于同 一类的每一张训练图都计算权重。首先仍是对该类的每一张图的对应像素点求方差,该方 差是类内方差,再用得到的方差和该类的平均表单得到的平均值计算该点的权重,该权重 由方差和均值计算得出。该权重很好的抑制了因用户填写而异的填写部分对表单分类的影 响,降低了这些不稳定区域对表单分类的影响。
[0025] 随机性权重的计算公式如下:
[0027] 其中》是像素点i对于第k类表单的随机性权重;O';;是像素点i对于第k类 表单的方差;Q是待分类表单的第i个像素点,yki是第k类表单的平均表单的第i个像素 点;P是待分类表单图像的大小。
[0028] 3.第三种权重为抖动性权重,是为了减少抖动对像素点的影响而设。对每一张均 值模板的像素点和其周边的八个邻域像素求方差,并用八个邻域像素求出均值。该权重同 样使用方差和均值计算高斯函数的值。在该权重的计算中,方差越大,说明像素点和其邻域 点的像素差别越大,因此表单的抖动对该像素点的影响就越大,因此需要降低该像素点的 权重,减少抖动带来的影响。
[0029] 抖动性权重的计算公式如下:
[0031] 其中是像素点i对于第k类表单的抖动性权重;erf,是像素点i对于第k类 表单的方差;Q是待分类表单的第i个像素点;yki是第k类表单的平均表单的第i个像素 点;P是待分类表单图像的大小。
[0032] 得到的三个权重也就对应了三张权重图,如图2、图3和图4所示,在进行表单分类 时,则使用三种权重(或仅使用随机性权重和一致性权重)和均值模板进行分类的计算,分 类步骤如下:
[0033] 1)首先对待分类的表单也进行归一化的操作,在边缘检测的基础上进行图像的校 正和提取,将表单的图像限制在和训练图相同的大小和角度上。
[0034] 2)直接计算待分类表单图像和均值模板的距离。也就是每一个对应位置的像素点 计算出差值的平方,求出后再用差值的平方直接乘以该点对应位置的三个权重的值(或仅 使用随机性权重和一致性权重),得到的值就是该位置待分类图像和均指模板的像素点距 离。最后对所有的点所计算出的距离进行求和后开平方,得到两幅图像之间的距离值。
[0035] 3)对于送入的待分类图像,将待分类图像和每一类计算出的均值模板按照上一步 骤的计算方式计算出两幅图像之间的距离,选取距离最近的均值模板所在的类型作为最终 分类的结果。
[0036] 采用三种权重计算距离的公式如下:
[0039] 其中,D(C,yk)是待分类表单和平均表单的距离,Dki是该待分类表单在像素点i 处的权重值,而?f、分别是像素点i处三个权重的值。
[0040] 另外,本发明仅使用随机性权重和一致性权重进行表单分类也可以取得较好效 果,其分类公式如下:
[0042] 其中D(C,yk)是待分类表单和平均表单的距离,< 分别是像素点i处的 随机性权重和一致性权重。
[0043] 对于本发明的三种权重,除上述计算方法外,还可以有不同的替代方式。比如可以 将三个权重中的平均表单改为取该位置像素点众数的表单,然后针对该众数表单计算方差 和不同的权值。
[0044] 众数模版代替了以前的均值模板,用来作为计算类间高斯函数和抖动高斯函数的 先验概率。众数模板得到的众数表单图像为y。由于在计算一致性权重时需要计算众数模 板的众数表单,也就是对每一张众数模板的表单图像再在同样的像素点位置取这些像素点 的众数,最终得到一张表单图像作为众数表单的模板。而每一张训练表单同样也用于计算 各高斯函数。而各个高斯函数的方差均是由各图像与众数的方差进行计算,而非对期望计 算方差。
[0045] 一致性权重计算公式如下:
[0047] 其中< 是第i个像素点的高斯函数一致性权重;< 是众数图像中第i个像素点 对于众数图像再计算众数值的方差;1〇屯是所有众数图像计算第i个像素点的众数值;Ci 是待分类表单的第i个像素点,P是待分类表单图像的大小。
[0048] 若计算众数的函数为Mode〇,得到的众数表单为Mod」,因此有:
[0049] Modj=Mode(T〇),j=1,2,…,n
[0050] 其中Tu是所有第j类训练表单的第i个像素点;n是表单类型的数目;Mod」是第 j类表单的众数表单;Moc^表示的是整张众数表单图像。同样计算方差的函数如下:
[0052] 其中〇」是第j类表单的方差矩阵,T」是第j类训练表单,Mod」是第j类众数表 单,P是第j类训练表单的表单数量。
[0053] 在计算随机性权重时,使用与众数表单得到的方差〇和众数表单Modi。随机性权 重的概率计算如下:
[0055] 其中仞二是像素点i对于第k类表单的随机性权重;crj,是像素点i对于第k类表 单的方差,q是带分类表单的第i个像素点,Modki是第k类表单的众数表单的第i个像素 点;P是待分类图像的大小。
[0056] 对于众数表单像素点,计算其与八邻域像素点的众数及与众数的方差。使用这两 个方差和众数进行计算,其权重的后验概率计算如下:
[0058] 其中是像素点i对于第k类表单的抖动性权重,cr/,.是像素点i对于第k类 表单的方差,是带分类表单的第i个像素点,Modki是第k类表单的众数表单的第i个像 素点,P是待分类图像的大小。
[0059] 相似表单分类的计算方法如下:
[0062] 其中D(C,yk)是待分类表单和众数表单的距离,Qki是该待分类表单在像素点i处的权重值,而?/、?乂分别是像素点i处三个权重的值。与上面采用均值模板的 方法类似,采用众数模板时,仅使用随机性权重和一致性权重进行表单分类也可以取得较 好效果,故Dki也可以只包含该两个权重。
[0063] 另外,本发明中的三种权重还可以只利用方差,利用方差的信息和方差的倒数归 一化处理后,也可以计算出表单的三种权重,然后对表单进行分类处理。这里也分为采用平 均表单和采用众数表单两种情况。下面以采用平均表单为例说明只利用方差计算三种权重 的方法。
[0064] 采用对方差求倒数的方式来定义某一位置的随机性权重,计算方式如下:
[0066]其中是第i类表单在第k个像素点的随机性权重。是第i类表 单在第k个像素点的方差值。而N是表单图像的像素点数。/1/^(/^表示随机性常数,在 本文中,其取值设置为方差在N个像素点的均值。
[0067] 一致性权重的计算方式如下:
[0069] 其中是表单图像在像素点k的一致性权重,是所有在像素点k的平均 表单的像素方差,被设置为方差0f"S在N个像素点的均值。
[0070] 抖动性权重的定义如下:
[0072] 其中表示第i类表单图像在第k个像素点的抖动性权重。erf^表示第 i类平均表单在像素点k的方差,该方差是由均值图像中的第k个像素点和其周围八邻域像 素点共九个像素值的方差。设置为方差cj;f/w'在N个点均值的两倍,避免出现方 差计算不可逆的情况,同时避免该权重减弱差异化信息的重要性。
[0073] 本发明的有益效果是,能够计算出相似表单中版式中的区分点,从而在计算距离 时增大区分处的权重;同时也能够检测出用户填写部分的区域,将这一部分不稳定区域的 权重降低,减小用户填写所带来的影响;而对于表单的版式抖动或是在归一化时引起的抖 动影响,本方法也能够通过降低抖动处的权重而减小其影响。实验证明本发明方法也可以 用于不相似表单的分类,但对相似表单的分类效果更好。
【附图说明】
[0074] 图1为本发明方法的总体流程图。
[0075] 图2为本发明提供的第一种权重图。
[0076] 图3为本发明提供的第二种权重图。
[0077] 图4为本发明提供的第三种权重图。
[0078] 图5是两种相似表单的实例图。
[0079] 图6是实施例中的对比实验结果。
[0080] 图7是中实施例中对相似表单分别计算平均表单、随机性权重和一致性权重的示 例图像。
【具体实施方式】
[0081] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和 附图,对本发明做进一步说明。
[0082] 本实施例针对将表单图像作为查询条件输入表单分类系统的应用场景,介绍表单 查询条件输入方法的具体实施过程。而输出通常是表单中文字区域并进行下一步的文字识 别和对应区域信息的录入操作。这里表单的输入可以是扫描的表单或是图像质量较好的表 单照片图片,并且支持多种语言的表单分类工作。输入图像的预处理采用了hough变换进 行直线检测和倾斜矫正等,将表单图像归一化到和训练表单图像相同的尺度和角度。用户U的设备(扫描仪、手持设备等)对表单进行批量扫描和拍照,系统通过匹配识别出表单所 属的类型,送入到后续的表单文本识别的流程中,由后续的文字识别模块对表单中的文本 信息进行版面分析,然后分类录入文本信息。
[0083] 本实施例的总体流程是:用户U在将需要进行分类的表单进行扫描或是拍照后, 发出表单信息录入请求,表单分类模块响应该请求,对送入的表单图像调用预处理子过程, 将表单主要区域通过边缘检测,倾斜校正等算法进行尺度和方向的归一化处理,将处理后 的结果发送给表单分类子过程。表单分类子过程根据训练过程中计算出的每一类表单权重 信息和模板进行距离计算,将待分类的表单图像和每一种表单模板进行距离加权,加权模 板为在训练过程中计算出的针对每一种特定表单的权重图。待分类表单与每一种表单模板 计算加权距离后,选取距离最短的表单类型作为表单分类的结果,将该结果传递给下一个 模块,并将识别的表单类型结果返回给用户U。
[0084] 本实施例的具体步骤为:
[0085] 1)待分类表单获取
[0086] 使用扫描或移动设备拍照的方法获取出待分类的表单图像。图5是两种相似表单 的实例。
[0087] 2)待分类表单预处理
[0088] 对表单图像进行边缘检测,然后根据检测结果进行表单图像的校正和尺度归一化 操作,使得待分类的表单图像和表单图像数据库中的图像具有相同的尺度和角度。
[0089] 3)待分类表单进行距离计算
[0090]利用训练表单的权重模板和平均训练表单,计算待分类表单和每一类平均训练表 单的加权距离,其中权重模板的每一个权重都在每一个像素点相乘,计算总的加权距离。
[0091] 4)根据距离计算结果判断待分类表单类型
[0092] 在与每一类表单模板进行比较后,选择与待分类表单距离最小的表单模板作为待 分类表单所属的表单类型。最后输出待分类表单类型。
[0093]本发明应用上述方法,生成了四种中文表单数据库,分别是用户填写信息位置变 化较小的版面相似表单、用户填写信息位置变化较大的版面相似表单、版面不相似表单和 综合版面的表单(包括版面相似表单和版面不相似表单)。本发明模拟真实表单的填写情 况,将各个表单库中的用户填写部分用打印机进行填写,填写的内容、字体和相对表格的位 置均不相同。
[0094] 1,版面相似表单数据库上的对比实验
[0095]本发明生成了两个版面相似表单的图像数据库,其中分别为用户填写信息有较小 位置偏移的图像库和有较大位置偏移的图像库。这两个图像库的用户填写部分在内容和 字体上均不相同,尽可能真实地模拟了实际表单的填写情况。两个表单图像库均有200张 版面相似的表单,包含10类表单,每类20张。本发明所比较的方法主要是【背景技术】中所提 到的对用户填写信息变化鲁棒的基于EMD的最新表单分类算法。另外,实验也对比了直接 与平均表单进行欧氏距离计算而不加入任何权重信息的类似均值分类器的方法("平均比 较"),将其作为基准方法。
[0096]本发明的对比实验结果见下图,分别是用户填写信息位置变化较小的图像库实验 结果(图6(a))和位置变化较大的图像库实验结果(图6(b))。实验结果中,横坐标是训练 时每一类表单的训练样本数量,纵坐标是分类的正确率(% )。
[0097] 从实验结果可以看出,本发明对用户所填信息的变化较为鲁棒,并且在版面相似 表单的分类中,本发明远优于最新的EMD方法和平均比较方法。
[0098] 2.版面不相似表单数据库上的对比实验
[0099] 实验对比了具有不相似版面表单分类情况。不相似版面表单图像库包含260张表 单,包含13个类型,每类20张表单。
[0100] 实验结果如图6(C),从中可以看出,在版面不相似中文表单的分类结果中,各个 方法差别较小,其中EMD算法的结果对比其在版面相似表单图像分类中的结果有了大幅提 高。在版面不相似的表单图像库中,本发明同样取得了最好结果。另外,从实验结果中可以 看出,"平均比较"方法的结果对训练样本的数量比较敏感,随着样本数量的变化,结果抖动 比较严重,而本发明性能比较稳定。
[0101] 3.综合表单数据库上的对比实验
[0102] 最后生成了一个较大的具有440张表单的混合版面图像库。该图像库包含22类表 单,每类20张,其中既有版面 相似表单,又有版面不相似的表单。其中版面相似表单有180 张,版面不相似表单有260张。分类的结果见图6(d)。在混合版面的表单分类中,本发明同 样取得了最佳效果,而EMD算法也表现出了稳定有效的分类结果。由于同时存在相似表单 和不相似表单,可以看出,本发明拓展性较佳,可以用于混合版面表单的分类,且更加切合 实际应用场景。
[0103] 在使用本发明进行权重计算后,还可以利用权重结合后的效果,利用二值化和连 通区域提取表单中具有标识性的区域,并直接利用该区域进行表单的后续匹配分类等处 理。如图7中(a)、(b)、(c)所示是对相似表单分别计算平均表单、随机性权重和一致性 权重的图像。随机性权重抑制了用户填写区域的像素点,而一致性权重强调了标题区分部 分,但平均表单由于存在用户填写区域的不同,因此也加大了用户填写部分的权重,但由于 用户填写区域被平均化,因此该部分的权重与标题部分权重相比权重较低。通过图7可以 看出,将两种权重通过点乘相结合,可以更加强调标题部分权重,而弱化用户填写区域的权 重,若再加入一个适当的二值化阈值进行处理,标题等区分区域可以顺利地提取出来,从而 更加精确地进行相似表单的分类。
[0104] 以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术 人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本 发明的保护范围应以权利要求书所述为准。
【主权项】
1. 一种表单图像分类方法,其特征在于,包括如下步骤: 1) 将一部分已知类型的相似表单图像作为训练图像,对训练图像中属于同一类的表单 求取均值图像,作为每一类表单的均值模板;所述均值图像的每个像素点是每张训练图像 在相同位置的像素的均值; 2) 利用所述训练图像和所述均值模板计算训练图像中相似表单的一致性权重和随机 性权重,所述一致性权重衡量相似表单的类间一致性,所述随机性权重衡量用户填写区域 的随机性; 3) 利用计算得到的一致性权重和随机性权重,计算待分类的表单图像与每一类表单的 均值模板的加权距离,选取距离最短的均值模板所在的表单类型作为表单分类的结果。2. 如权利要求1所述的方法,其特征在于:步骤2)还计算相似表单的抖动性权重,用 于衡量表单的抖动对像素点的影响;步骤3)根据三种权重即一致性权重、随机性权重和抖 动性权重,计算所述加权距离。3. 如权利要求2所述的方法,其特征在于,步骤2)所述一致性权重、随机性权重、抖动 性权重的计算公式如下: a) -致性权重:其中,~;是第i个像素点的一致性权重;是平均图像中第i个像素点对于平均图 像再计算平均值的方差;μ 1是所有平均图像计算第i个像素点的均值;C 1是待分类表单的 第i个像素点,P是待分类表单图像的大小; b) 随机性权重:其中是像素点i对于第k类表单的随机性权重;是像素点i对于第k类表单 的方差;Ci是待分类表单的第i个像素点,μ ki是第k类表单的平均表单的第i个像素点; P是待分类表单图像的大小; C)抖动性权重:其中是像素点i对于第k类表单的抖动性权重;σ=是像素点i对于第k类表单 的方差;Ci是待分类表单的第i个像素点;μ ki是第k类表单的平均表单的第i个像素点; P是待分类表单图像的大小。4. 如权利要求3所述的方法,其特征在于,步骤3)根据一致性权重和随机性权重计算 加权距离的公式如下:其中D (C,yk)是待分类表单和平均表单的距离,分别是像素点i处的随机性 权重和一致性权重; 步骤3)根据三种权重计算加权距离的公式如下:7 其中,D(C,yk)是待分类表单和平均表单的距离,ΩΗ是该待分类表单在像素点i处的 权重值,而分别是像素点i处三个权重的值。5.如权利要求2所述的方法,其特征在于,步骤2)仅利用方差的信息计算三种权重,计 算公式如下: a) 随机性权重:其中是第i类表单在第k个像素点的随机性权重,是第i类表单在 第k个像素点的方差值,N是表单图像的像素点数,;表示随机性常数,其取值设置 为方差在N个像素点的均值; b) -致性权重:其中iT"5是表单图像在像素点k的一致性权重,是所有在像素点k的平均表 单的像素方差,被设置为方差σf"?在N个像素点的均值; c) 抖动性权重的定义如下:其中表示第i类表单图像在第k个像素点的抖动性权重,^表示第i类 平均表单在像素点k的方差,该方差是由均值图像中的第k个像素点和其周围八邻域像素 点共九个像素值的方差,zl/Mw设置为方差在N个点均值的两倍。6. -种表单图像分类方法,其特征在于,包括如下步骤: 1) 将一部分已知类型的相似表单图像作为训练图像,对训练图像中属于同一类的表单 求取众数图像,作为每一类表单的众数模板;所述众数图像的每个像素点是每张训练图像 在相同位置的像素的众数; 2) 利用所述训练图像和所述众数模板计算训练图像中相似表单的一致性权重和随机 性权重,所述一致性权重衡量相似表单的类间一致性,所述随机性权重衡量用户填写区域 的随机性; 3) 利用计算得到的一致性权重和随机性权重,计算待分类的表单图像与每一类表单的 众数模板的加权距离,选取距离最短的众数模板所在的表单类型作为表单分类的结果。7. 如权利要求6所述的方法,其特征在于:步骤2)还计算相似表单的抖动性权重,用 于衡量表单的抖动对像素点的影响;步骤3)根据三种权重即一致性权重、随机性权重和抖 动性权重,计算所述加权距离。8. 如权利要求7所述的方法,其特征在于,步骤2)所述一致性权重、随机性权重、抖动 性权重的计算公式如下: a) -致性权重:其中是第i个像素点的高斯函数一致性权重; < 是众数图像中第i个像素点对于 众数图像再计算众数值的方差;1〇屯是所有众数图像计算第i个像素点的众数值;Ci是待 分类表单的第i个像素点,P是待分类表单图像的大小; b) 随机性权重:其中,是像素点i对于第k类表单的随机性权重;是像素点i对于第k类表单 的方差,Ci是带分类表单的第i个像素点,Modki是第k类表单的众数表单的第i个像素点; P是待分类图像的大小; c) 抖动性权重:其中是像素点i对于第k类表单的抖动性权重,σ^是像素点i对于第k类表单的 方差,Ci是待分类表单的第i个像素点,Modki是第k类表单的众数表单的第i个像素点,p 是待分类图像的大小。9. 如权利要求8所述的方法,其特征在于,步骤3)根据一致性权重和随机性权重计算 加权距离的公式如下:其中D(C,yk)是待分类表单和众数表单的距离,、ω/分别是像素点i处的随机性 权重和一致性权重; 步骤3)根据三种权重计算加权距离的公式如下:其中D(C,μk)是待分类表单和众数表单的距离,ΩΗ是该待分类表单在像素点i处的 权重值,而ω/'、出丨:、分别是像素点i处三个权重的值。10. 如权利要求1或6所述的方法,其特征在于:在步骤3)进行权重计算后,利用权重 结合后的效果,通过二值化和连通区域提取表单中具有标识性的区域,并直接利用该区域 进行表单的后续匹配分类处理。
【专利摘要】本发明涉及一种表单图像分类方法。对于训练图像,首先对属于同一类的表单求取均值图像,均值图像的每个像素点是每张训练图像在该位置的像素的均值,得到的均值图像构成每一类的均值模板;然后求取三种权重值:一致性权重、随机性权重和抖动性权重,在进行表单分类时使用三种权重和均值模板进行分类的计算。也可以将平均表单改为取该位置像素点众数的表单,然后针对该众数表单计算方差和不同的权值。本发明能够减少用户填写信息的随机性带来的影响,同时放大表单版面中区分信息的重要性,从而针对版面相似的中文表单取得很好的分类性能。
【IPC分类】G06K9/00, G06K9/46, G06K9/62
【公开号】CN104899551
【申请号】CN201510217474
【发明人】王思萌, 高良才, 王悦涵, 汤帜
【申请人】北京大学
【公开日】2015年9月9日
【申请日】2015年4月30日

最新回复(0)