1.本技术涉及文本识别技术领域,特别涉及文本识别方法以及相关装置。
背景技术:2.传统营销领域的头部品牌公司迭代自身产品的速度也在不断加快,同时开始寻求物料管理平台来存放和管理旗下的各类商品sku,通过纯人工的方式进行打标工作量太大,通过各种辅助方式来进行打标,通过配置词典库,对于图像文本中的所有文字信息进行识别匹配后为图像进行打标,完成大量重复性劳动打标工作但是营销素材的文案通常由于排版,宣传的原因会对原始的文案信息分割,采用不同的大小字体,旋转角度,这在匹配过程中增加了一定计算复杂度,需要更多匹配规则。
3.现有的文本信息并没有被拆分,以完整语句存在,可以通过这个完整语句提取需要的信息,现有的文本以结构化的规整形式存在于表格中,可以通过模型或者规则直接对表格中不同单元的信息进行识别。
4.营销领域中,产品海报中的特殊情况:由于图像编辑的存在,文本被拆分成不同的片段存在于上下行,比如“活力元气清新限量款”,被拆分为“活力元气”,“清新限量款”。此外,为了视觉上的表达突出,同一句话的中的文本可能被拆解为不同模块,大小不一致,比如图片中的“完美遮瑕粉底”,被拆解为“完美”,“遮瑕”,“粉底”,“完美”的大小要远大于“遮瑕”。为了视觉上的排版美观,不同文本可能存在不同角度环绕在商品图周围,比如“活力元气清新限量款”,“完美遮瑕粉底”以不同角度分布在不同位置。
5.相关技术中,如果需要根据图片中的信息,为这张图片打标,图像标签为产品父标签:“完美遮瑕粉底”,产品子标签:“活力元气清新限量款”。为了识别出这些标签,需要对图像中的所有ocr文本子单元进行排列组合,对排列出的不同长文本信息进行文字信息匹配。
6.这种方法在实际操作中,由于机器在操作过程中,并不知道语义信息,图像中需要匹配的文本长度,所以需要排列组合,每一种组合多做一次匹配尝试,这种方式会随着图片中识别到的单词数量增加而大幅度增加,比如需要对3个单词做一次全排列,则一共可能有6种情况,如果是对10个单词做一次全排列,则一共可能有3628800种情况。
7.针对相关技术中文本识别匹配效率不高的问题,目前尚未提出有效的解决方案。
技术实现要素:8.本技术的主要目的在于提供文本识别方法以及相关装置,以解决相关技术中的不足。
9.为了实现上述目的,根据本技术的一个方面,提供了一种文本识别方法。
10.根据本技术的文本识别方法包括:
11.计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本;
12.将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇;
13.分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;
14.将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。
15.在一些实施例中,所述分离每个所述聚类簇内的不符合要求的文本识别框,包括:
16.根据所述聚类簇内每个文本识别框计算两两文本识别框之间的归一化阈值;
17.基于所述归一化阈值,将不符合要求的文本识别框分离之后将剩余的所述聚类簇内的文字再次分类得到最小聚类簇,所述聚类簇至少包括两个最小聚类簇,所述最小聚类簇至少包括一个文本识别框。
18.在一些实施例中,所述将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组,包括:
19.将文本阅读习惯作为先验知识,将每个所述聚类簇内符合要求的文本识别框在预设坐标系下进行dbscan聚类;
20.根据dbscan聚类结果,确定每个所述聚类簇内符合要求的文本识别框之间的位置关系以及类别关系,所述位置关系包括上下关系、左右关系,所述类别关系包括距离关系;
21.按照所述位置关系以及所述类别关系将每个所述聚类簇内符合要求的文本识别框按照预设语序排列之后得到所述文本识别框的目标语序排列组。
22.在一些实施例中,所述根据所述聚类簇内每个文本识别框计算两两文本识别框之间的归一化阈值,包括:
23.将同一个聚类簇内的角度平均值作为该簇内的坐标系变换角度;
24.将所述同一个聚类簇内每个文本识别框的旋转角度映射到预设坐标系;
25.基于所述预设坐标系分别计算所述两两文本识别框之间的归一化阈值,以判断所述两两文件识别框是否可进行拼接。
26.在一些实施例中,所述将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇,包括:
27.判断两两文本识别框的旋转角度差是否大于预设阈值;
28.如果大于,则不连接;
29.如果小于,则将所述两两文本识别框连接,得到多个聚类簇,所述聚类簇中至少包括一个文本识别框。
30.在一些实施例中,所述计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本,之前还包括:
31.获得至少包括营销海报包装信息的文本信息图片;
32.基于ocr将所述文本信息图片中的语义连贯的文本作为一个文本识别框进行标注,并确定每个所述文本识别框的四个角点坐标信息。
33.在一些实施例中,所述计算每个文本识别框的旋转角度,包括:
34.根据所述每个所述文本识别框的四个角点坐标信息,计算预设角点对应的向量;
35.根据不同所述向量之间叉积,得到所述向量与预设坐标轴单位向量的夹角。
36.为了实现上述目的,根据本技术的另一方面,提供了一种文本识别装置。
37.根据本技术的文本识别装置包括:
38.计算模块,用于计算每个文本识别框的旋转角度,所述文本识别框至少包括一组
语义连贯的文本;
39.聚类模块,用于将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇;
40.排列模块,用于分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;
41.匹配模块,用于将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果根据本发明的另一个方面,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
42.根据本发明的再一个方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
43.在本技术实施例中文本识别方法以及相关装置,采用计算每个文本识别框的旋转角度以及将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇的技术方案,达到了分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组目的,从而实现了将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果的技术效果,进而解决了相关技术中文本识别匹配效率不高的的技术问题。
附图说明
44.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
45.图1是根据本技术实施例的文本识别方法的流程示意图;
46.图2是根据本技术实施例的文本识别方法中文本识别框示意图;
47.图3是根据本技术实施例的文本识别方法中文本识别框的旋转角度示意图;
48.图4是根据本技术实施例的文本识别方法中dbscan聚类原理示意图;
49.图5是根据本技术实施例的文本识别方法中聚类簇示意图;
50.图6是根据本技术实施例的文本识别方法中对文本识别框进行排序的原理示意图;
51.图7是根据本技术实施例的文本识别装置的结构示意图;
具体实施方式
52.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
53.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
54.在本技术中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
55.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本技术中的具体含义。
56.此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本技术中的具体含义。
57.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
58.发明人研究时发现,认为相关技术中的海报中在语义上有一定连贯性的文本,设计师在排版的时候,虽然采用了不同的文字大小,但是还是会排版在一起,可以优先对这些海报信息进行一定程度聚类,聚类后再根据阅读理解习惯进行排序,大幅度提升了匹配效率,如果图片中的10个单词,通过聚类排序操作,直接可以得到4个符合语义的“长文本”,一般情况下只需要对这4个长文本单独进行语义匹配就可以。如果需要组合信息,还可以通过对这4个长文本进行排列组合匹配即可。
59.因此,本技术实施例中的文本识别方法针对这种场景的营销素材提取的文本匹配采用的新的算法,在文本提取后根据文本的相对位置和大小,以及旋转角度,优先聚类成具有符合一定阅读习惯的语序的文本,再进行文本的匹配打标,从而实现打标效率的提升和打标工作的简化。
60.如图2所示,该方法包括如下的步骤s110至步骤s140:
61.步骤s110,计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本。
62.先基于ocr会把图片中的文字进行识别画框得到所述文本识别框,并给出所有文本识别框的四点坐标。之后,针对每个文本识别框计算旋转角度。
63.步骤s120,将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇。
64.对于所有文本框进行角度计算后,通过dbscan算法进行聚类。
65.可以理解,dbscan为聚类思路,意思是只要两个点之间的距离在设置的距离范围内,就把他们进行连接,最终把所有满足条件的点连接起来形成一个簇。
66.步骤s130,分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组。
67.聚簇完成后则主要完成:实现簇内间隔过大的文本分离以及簇内符合间隔的按语
序排序。
68.步骤s140,将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。
69.将排序组合后的文本与预设词典库内已知商品sku描述进行匹配,得到最终匹配结果。
70.从以上的描述中,可以看出,本技术实现了如下技术效果:
71.在本技术实施例中文本识别方法以及相关装置,采用计算每个文本识别框的旋转角度以及将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇的技术方案,达到了分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组目的,从而实现了将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果的技术效果,进而解决了相关技术中文本识别匹配效率不高的的技术问题。
72.作为本实施例中的优选,所述分离每个所述聚类簇内的不符合要求的文本识别框,包括:根据所述聚类簇内每个文本识别框计算两两文本识别框之间的归一化阈值;基于所述归一化阈值,将不符合要求的文本识别框分离之后将剩余的所述聚类簇内的文字再次分类得到最小聚类簇,所述聚类簇至少包括两个最小聚类簇,所述最小聚类簇至少包括一个文本识别框。
73.具体实施时,针对分离每个所述聚类簇内的不符合要求的文本识别框,可以根据所述聚类簇内每个文本识别框计算两两文本识别框之间的归一化阈值,并根据所述归一化阈值,将不符合要求的文本识别框分离之后将剩余的所述聚类簇内的文字再次分类得到最小聚类簇。
74.需要注意的是,为了满足聚类的要求,所述聚类簇至少包括两个最小聚类簇。且在所述最小聚类簇中至少包括一个文本识别框。通过这种方式,不用考虑方框大小,从而可以将一个簇内的文字再次进行分类。
75.比如将簇3:(“赠送礼物袋”,“促销装”,“粉底”,“遮瑕”,“完美”)中的元素再次分割为簇3_a(“赠送礼物袋”,“促销装”),簇3_b(“粉底”,“遮瑕”,“完美”)。
76.作为本实施例中的优选,所述将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组,包括:将文本阅读习惯作为先验知识,将每个所述聚类簇内符合要求的文本识别框在预设坐标系下进行dbscan聚类;根据dbscan聚类结果,确定每个所述聚类簇内符合要求的文本识别框之间的位置关系以及类别关系,所述位置关系包括上下关系、左右关系,所述类别关系包括距离关系;按照所述位置关系以及所述类别关系将每个所述聚类簇内符合要求的文本识别框按照预设语序排列之后得到所述文本识别框的目标语序排列组。
77.具体实施时,通过将文本阅读习惯作为先验知识,将每个所述聚类簇内符合要求的文本识别框在预设坐标系下进行dbscan聚类,根据dbscan聚类结果,确定每个所述聚类簇内符合要求的文本识别框之间的位置关系以及类别关系,最后按照所述位置关系以及所述类别关系将每个所述聚类簇内符合要求的文本识别框按照预设语序排列之后得到所述文本识别框的目标语序排列组。
78.作为本实施例中的优选,所述根据所述聚类簇内每个文本识别框计算两两文本识
别框之间的归一化阈值,包括:将同一个聚类簇内的角度平均值作为该簇内的坐标系变换角度;将所述同一个聚类簇内每个文本识别框的旋转角度映射到预设坐标系;基于所述预设坐标系分别计算所述两两文本识别框之间的归一化阈值,以判断所述两两文件识别框是否可进行拼接。
79.具体实施时,假如一个簇内有4个文本框,4个文本框的中心点坐标为(x1,y1),(x2,y2),(x3,y3),(x4,y4),旋转角度由文本框计算旋转角度的到,依次为a1,a2,a3,a4,由于坐标变换中角度差距,即使相差1,2度也会对最后结果影响比较大,所以这里对同一个簇内的文本框进行角度平均,角度a=(a1+a2+a3+a4)/4,这就是簇内的坐标系变换角度。即将同一个聚类簇内的角度平均值作为该簇内的坐标系变换角度。
80.基于所述预设坐标系分别计算所述两两文本识别框之间的归一化阈值,以判断所述两两文件识别框是否可进行拼接,接着需要将原始坐标通过角度a映射到新的坐标系,接下来通过归一化阈值来决定是否要将两个方框进行连接。
81.作为本实施例中的优选,所述将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇,包括:判断两两文本识别框的旋转角度差是否大于预设阈值;如果大于,则不连接;如果小于,则将所述两两文本识别框连接,得到多个聚类簇,所述聚类簇中至少包括一个文本识别框。
82.具体实施时,通过这种方式,不用考虑方框大小,从而可以将一个簇内的文字再次进行分类。
83.作为本实施例中的优选,所述计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本,之前还包括:获得至少包括营销海报包装信息的文本信息图片;基于ocr将所述文本信息图片中的语义连贯的文本作为一个文本识别框进行标注,并确定每个所述文本识别框的四个角点坐标信息。
84.具体实施时,获得至少包括营销海报包装信息的文本信息图片,之后需要基于ocr将所述文本信息图片中的语义连贯的文本作为一个文本识别框进行标注,即如图2所示,“底色”,“修复”,“功效”,“活力”,“元气”,“完美”,“遮瑕”,“清新限量款”,“粉底”,“促销装”,“赠送礼物袋”。
85.作为本实施例中的优选,所述计算每个文本识别框的旋转角度,包括:根据所述每个所述文本识别框的四个角点坐标信息,计算预设角点对应的向量;根据不同所述向量之间叉积,得到所述向量与预设坐标轴单位向量的夹角。
86.具体实施时,对每个文本框计算旋转角度。比如通过计算ab,cd与单位向量(1,0)之间的叉积,可以求得ab,cd与x轴单位向量的夹角。
87.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
88.根据本技术实施例,还提供了一种用于实施上述方法的文本识别装置,如图7所示,该装置包括:
89.计算模块710,用于计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本;
90.聚类模块720,用于将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个
聚类簇;
91.排列模块730,用于分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;
92.匹配模块740,用于将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。
93.本技术实施例中的所述计算模块710中先基于ocr会把图片中的文字进行识别画框得到所述文本识别框,并给出所有文本识别框的四点坐标。之后,针对每个文本识别框计算旋转角度。
94.本技术实施例中的所述聚类模块720中对于所有文本框进行角度计算后,通过dbscan算法进行聚类。
95.可以理解,dbscan为聚类思路,意思是只要两个点之间的距离在设置的距离范围内,就把他们进行连接,最终把所有满足条件的点连接起来形成一个簇。
96.本技术实施例中的所述排列模块730中聚簇完成后则主要完成:实现簇内间隔过大的文本分离以及簇内符合间隔的按语序排序。
97.本技术实施例中的所述匹配模块740中将排序组合后的文本与预设词典库内已知商品sku描述进行匹配,得到最终匹配结果。
98.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
99.为了更好的理解上述考文本识别方法流程,以下结合优选实施例对上述技术方案进行解释说明,但不用于限定本发明实施例的技术方案。
100.步骤s1,识别结果如图1所示。“底色”,“修复”,“功效”,“活力”,“元气”,“完美”,“遮瑕”,“清新限量款”,“粉底”,“促销装”,“赠送礼物袋”。
101.步骤s2,对每个文本框计算旋转角度。通过右上角坐标-左上角坐标。比如如向量ab=(x2-x1,y2-y1),向量cd=(x4-x3,y4-y3)。通过计算ab,cd与单位向量(1,0)之间的叉积,可以求得ab,cd与x轴单位向量的夹角。ab为30度,cd为-60度。如图3所示。
102.步骤s3,对于所有文本框进行角度计算后,通过dbscan算法进行聚类。
103.如图4所示,dbscan为聚类思路,意思是只要两个点之间的距离在设置的距离范围内,就把他们进行连接,最终把所有满足条件的点连接起来形成一个簇,比如图中,x1与x2的距离小于阈值,所以可以把他们相连,同理,x2可以和x3连接,最终连完所有的点,当发现x3可以和x4连接,他们可以同属于一个类,同时,再设置一个参数,只要簇里的数量大于一定数,比如2,就是只要一个簇内至少有两个点,就认为这个簇是可以成立的(注:这里的x1不是前述的坐标,用来表示一个点)。
104.在此算法基础上,带入角度计算,设置一个阈值,比如5度,只要旋转角度相差在5度以内,就认为文本框和文本框符合满足的条件。比如在图中,“完美”,“遮瑕”,“粉底”的旋转角度依次是28度,25度,22度,则“完美”可以和“遮瑕”连接,“遮瑕”可以“粉底”连接,同
时,已知“活力”的旋转角度是-20度,与这三个词不满足5度的连接阈值,所以不可以划进来。最终,通过这种方式,在图5中得到了4个簇。
105.簇1:(“功效”,“修复”,“底色”),
106.簇2:(“清新限量款”,“活力”,“元气”),
107.簇3:(“赠送礼物袋”,“促销装”,“粉底”,“遮瑕”,“完美”)
108.步骤s4,聚簇完成后,完成两步工作,实现簇内间隔过大的文本分离,簇内符合间隔的按语序排序。
109.无论是判断簇内的文本是否要进行合并分离,还是簇内文本的连接顺序,都需要进行坐标变换。原因在于:现在坐标体系,是基于图像的左上角为坐标原点的直角坐标系,如果通过这个坐标系去进行判断,就会出现规则无法统一的情况。
110.坐标变换原因一:比如对于上面的“活力”,“元气”,顺序应该是先“活力”,再“元气”,此时“元气”在“活力”的右上方向,但是对于“完美”,“遮瑕”,顺序应该是先“完美”,再“遮瑕”,此时“遮瑕”在“完美”的右下角,这里规则就没有办法统一。
111.坐标变换原因二:可以对文本框的距离再次采用dbscan的思路进行聚类,“完美”,“遮瑕”,“粉底”这三个词在簇3内距离较近,与“促销装”,“赠送礼物袋”在簇3内距离较远,但是这个远和近是相对的,会受到文字大小,文字旋转角度上的影响,比如“完美”和“促销装”人眼可以判断两者应该不连接,判断不是直接通过距离,而是通过在文字倾斜方向上的横向和纵向分量距离进行判断,虽然他们在倾斜方向上的横向分量差别较小,但是在倾斜方向上的横向分量差别较大,所以不进行连接。
112.如图6所示,假如一个簇内有4个文本框,4个文本框的中心点坐标为(x1,y1),(x2,y2),(x3,y3),(x4,y4),旋转角度由文本框计算旋转角度的到,依次为a1,a2,a3,a4,由于坐标变换中角度差距,即使相差1,2度也会对最后结果影响比较大,所以这里对同一个簇内的文本框进行角度平均,角度a=(a1+a2+a3+a4)/4,这就是簇内的坐标系变换角度。
113.接着需要将原始坐标通过角度a映射到新的坐标系,公式计算为
[0114][0115]
通过这个方式,将(x1,y1),(x2,y2),(x3,y3),(x4,y4)转换为新坐标系里的(x1',y1'),(x2',y2'),(x3',y3'),(x4',y4')。
[0116]
接下来通过归一化阈值来决定是否要将两个方框进行连接。对于方框1和方框2而言:
[0117]
如图delta x_12=|x1'-x2'|
[0118]
如图delta y_12=|y1'-y2'|
[0119]
阈值为threshold x_12=(宽度1+宽度2)/2*1.3
[0120]
threshold y_12=(高度1+高度2)/2*1.3
[0121]
只有当delta x_12《threshold x_12,delta y_12《threshold y_12同时满足,才能判定方框1和方框2连接。比如方框3和方框4不能连接的原因就是delta y_34》threshold y_34。
[0122]
通过这种方式,不用考虑方框大小,从而可以将一个簇内的文字再次进行分类。
[0123]
比如将簇3:(“赠送礼物袋”,“促销装”,“粉底”,“遮瑕”,“完美”)中的元素再次分割为簇3_a(“赠送礼物袋”,“促销装”),簇3_b(“粉底”,“遮瑕”,“完美”)。
[0124]
最后一步,在最小的簇内,确定顺序。比如对于簇3_b(“粉底”,“遮瑕”,“完美”),怎么变成顺序文字“完美遮瑕粉底”。其中,“粉底”,“遮瑕”,“完美”分别对应下图中的方框1,方框2,方框3。
[0125]
先验知识可知,阅读习惯一般是从上到下,从做到右,在这个经验基础上,首先对方框1,2,3的在新的坐标系x'-y'中的纵坐标y1',y2',y3',进行dbscan聚类,发现方框1,和方框2的y坐标近似,应该划为一类,而方框3的坐标应该单独划为一类,同时方框1,2的坐标平均值(y1'+y2')/2,比方框3的y3'值要小,表明方框1和方框2的文本应该在方框3上侧,然后再对方框1和方框2的x1',x2'进行比较,发现x1'《x2',所以方框1应该再方框2的左侧。
[0126]
综合上面的经验,得出三个方框的排列顺序,应该是方框1,方框2,方框3,按照这个顺序,再把方框内的文本进行连接就得到了最终的顺序“完美遮瑕粉底”。
[0127]
步骤s5,将排序组合后的文本与预设词典库内已知商品sku描述进行匹配,得到最终结果。
[0128]
通过以上流程,通过机器知道图像中文字组合顺序为:“底色修复功效”,“活力元气清新限量款”,“完美遮瑕粉底”,“促销装赠送礼物袋”。
[0129]
通过匹配词典库中的已有标签,知道这款商品的sku主标签是“完美遮瑕粉底”,子标签是“活力元气清新限量款。
[0130]
经过最终的效果验证,密集型营销文字的单张图片,平均匹配相应时间由原先的约10秒缩减到0.6s,效率的对比提升会随着图片中营销文案数量的增加而更加明显。
[0131]
由于阈值判定的归一化原则,可以对领近的不同大小的文本,不同旋转角度的文本,批量计算归一化的阈值,这样阈值的大小自动适配文本字体的大小来判定文本之间是否要进行拼接,避免了阈值固定情况下引入的badcase。
[0132]
由于可以按照一定编辑语义,拼接的图片中零散文本,同时,可以对一些长文本标签匹配予以了支持,避免规则的文本无法兼容。
[0133]
本技术的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0134]
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
[0135]
s1,计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本;
[0136]
s2,将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇;
[0137]
s3,分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;
[0138]
s4,将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。
[0139]
可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
[0140]
本技术的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0141]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0142]
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
[0143]
s1,计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本;
[0144]
s2,将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇;
[0145]
s3,分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;
[0146]
s4,将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。
[0147]
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0148]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:1.一种文本识别方法,其特征在于,所述方法包括:计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本;将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇;分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。2.根据权利要求1所述的方法,其特征在于,所述分离每个所述聚类簇内的不符合要求的文本识别框,包括:根据所述聚类簇内每个文本识别框计算两两文本识别框之间的归一化阈值;基于所述归一化阈值,将不符合要求的文本识别框分离之后将剩余的所述聚类簇内的文字再次分类得到最小聚类簇,所述聚类簇至少包括两个最小聚类簇,所述最小聚类簇至少包括一个文本识别框。3.根据权利要求1或2所述的方法,其特征在于,所述将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组,包括:将文本阅读习惯作为先验知识,将每个所述聚类簇内符合要求的文本识别框在预设坐标系下进行dbscan聚类;根据dbscan聚类结果,确定每个所述聚类簇内符合要求的文本识别框之间的位置关系以及类别关系,所述位置关系包括上下关系、左右关系,所述类别关系包括距离关系;按照所述位置关系以及所述类别关系将每个所述聚类簇内符合要求的文本识别框按照预设语序排列之后得到所述文本识别框的目标语序排列组。4.根据权利要求2所述的方法,其特征在于,所述根据所述聚类簇内每个文本识别框计算两两文本识别框之间的归一化阈值,包括:将同一个聚类簇内的角度平均值作为该簇内的坐标系变换角度;将所述同一个聚类簇内每个文本识别框的旋转角度映射到预设坐标系;基于所述预设坐标系分别计算所述两两文本识别框之间的归一化阈值,以判断所述两两文件识别框是否可进行拼接。5.根据权利要求1所述的方法,其特征在于,所述将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇,包括:判断两两文本识别框的旋转角度差是否大于预设阈值;如果大于,则不连接;如果小于,则将所述两两文本识别框连接,得到多个聚类簇,所述聚类簇中至少包括一个文本识别框。6.根据权利要求1所述的方法,其特征在于,所述计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本,之前还包括:获得至少包括营销海报包装信息的文本信息图片;基于ocr将所述文本信息图片中的语义连贯的文本作为一个文本识别框进行标注,并确定每个所述文本识别框的四个角点坐标信息。7.根据权利要求6所述的方法,其特征在于,所述计算每个文本识别框的旋转角度,包括:
根据所述每个所述文本识别框的四个角点坐标信息,计算预设角点对应的向量;根据不同所述向量之间叉积,得到所述向量与预设坐标轴单位向量的夹角。8.一种文本识别装置,其特征在于,所述装置包括:计算模块,用于计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本;聚类模块,用于将多个所述文本识别框的旋转角度进行dbscan聚类,得到多个聚类簇;排列模块,用于分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;匹配模块,用于将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
技术总结本申请公开了文本识别方法以及相关装置,其中所述方法包括计算每个文本识别框的旋转角度,所述文本识别框至少包括一组语义连贯的文本;将多个所述文本识别框的旋转角度进行DBScan聚类,得到多个聚类簇;分离每个所述聚类簇内的不符合要求的文本识别框并且将每个所述聚类簇内符合要求的文本识别框按照预设语序排列,得到目标语序排列组;将所述目标语序排列组与预设词典库中的商品标签匹配,得到识别结果。通过本申请可用于密集型营销文字的单张图片,且具有较好的识别效果。且具有较好的识别效果。且具有较好的识别效果。
技术研发人员:范凌 蒋兆湘
受保护的技术使用者:特赞(上海)信息科技有限公司
技术研发日:2022.10.17
技术公布日:2023/1/6