本发明实施例涉及图像处理,尤其涉及一种文档中印章的处理方法及装置。
背景技术:
1、目前,如果以图像形式存储的文档图像中包含印章,那么,将文档图像还原成文本形式的文本文档的过程一般是:直接将印章与文档图像中的文字均视作文本内容,对文档图像进行内容识别,进而,根据识别结果将文档图像还原为文本文档。通过这种内容识别方式对文档图像进行还原的过程中,对于文档图像中印章与文字重叠的部分,容易将重叠的文字识别为印章的一部分,同时,容易将印章中的一部分视作文本的一部分,影响文字的识别效果。例如,通过内容识别方式对如图1所示文档图像进行识别,可以得到如图2所示的印章图像,可见,印章还原效果较差。
2、因此,亟需一种可以提高对文档中印章的还原效果的技术方案。
技术实现思路
1、鉴于此,为提供一种可以提高对文档中印章的还原效果的技术方案,本发明实施例提供一种文档中印章的处理方法及装置。
2、第一方面,本发明实施例提供一种文档中印章的处理方法,包括:
3、获取待处理的文档图像,其中,所述文档图像中包含文本和印章;
4、从所述文档图像中提取所述文档图像的图像特征;
5、从所述图像特征中解码出所述文本对应的文本特征、从所述图像特征中解码出所述印章对应的印章掩膜特征、以及从所述图像特征中解码出所述印章对应的印章特征;
6、基于所述文本特征、所述印章掩膜特征及所述印章特征,对所述印章进行还原,得到对应的印章图像。
7、在一可能的实施方式中,所述从所述文档图像中提取所述文档图像的图像特征,包括:
8、利用第i个编码器对第i-1个编码特征进行特征提取处理,得到第i个编码特征,其中,所述i依次为1,2,…,m,所述m为编码器的数量,所述m为正整数,第0个编码特征为所述文档图像,所述第i个编码器的编码维度高于所述第i-1个编码器;
9、利用共享编码器对第m个编码特征进行特征提取处理,得到所述图像特征,其中,所述共享编码器的编码维度高于第m个编码器。
10、在一可能的实施方式中,所述从所述图像特征中解码出所述印章对应的印章掩膜特征,包括:
11、利用共享解码器对所述图像特征进行解码处理,得到掩膜解码特征;
12、利用第j个印章掩膜解码器对第j-1个印章掩膜特征进行解码处理,得到第j个印章掩膜特征,其中,所述j依次为1,2,…,m,所述m为印章掩膜解码器的数量,第0个印章掩膜特征为所述掩膜解码特征;
13、将第m个印章掩膜特征确定为所述印章对应的印章掩膜特征。
14、在一可能的实施方式中,所述利用第j个印章掩膜解码器对第j-1个印章掩膜特征进行解码处理,得到第j个印章掩膜特征,包括:
15、将第i个编码特征输入至第j个印章掩膜解码器,其中,i+j=m+1;
16、利用第j个印章掩膜解码器,基于第i个编码特征对第j-1个印章掩膜特征进行解码处理,得到第j个印章掩膜特征。
17、在一可能的实施方式中,所述从所述图像特征中解码出所述文本对应的文本特征,包括:
18、利用所述共享解码器对所述图像特征进行解码处理,得到文本解码特征;
19、利用第k个文档解码器对第k-1个文本特征进行解码处理,得到第k个文本特征,其中,所述k依次为1,2,…,m,所述m为文档解码器的数量,第0个文本特征为所述文本解码特征;
20、将第m个文本特征确定为所述文本对应的文本特征。
21、在一可能的实施方式中,所述利用第k个文档解码器对第k-1个文本特征进行解码处理,得到第k个文本特征,包括:
22、将所述第i个编码特征和所述第j个印章掩膜特征,输入至第k个文档解码器,其中,i+k=m+1,j=k;
23、利用第k个文档解码器,基于第i个编码特征和第j个印章掩膜特征,对第k-1个文本特征进行解码处理,得到所述第k个文本特征。
24、在一可能的实施方式中,所述从所述图像特征中解码出所述印章对应的印章特征,包括:
25、利用所述共享解码器对所述图像特征进行解码处理,得到印章解码特征;
26、利用第n个印章重构解码器对第n-1个印章特征进行解码处理,得到第n个印章特征,其中,所述n依次为1,2,…,m,所述m为印章重构解码器的数量,第0个印章特征为所述印章解码特征;
27、将所述第m个印章特征确定为所述印章对应的印章特征。
28、在一可能的实施方式中,所述利用第n个印章重构解码器对第n-1个印章特征进行解码处理,得到第n个印章特征,包括:
29、将所述第i个编码特征、所述第j个印章掩膜特征及所述第k个文本特征,输入至第n个印章重构解码器,其中,i+n=m+1,j=k=n;
30、利用第n个印章重构解码器,基于第i个编码特征、第j个印章掩膜特征及第k个文本特征,对第n-1个印章特征进行解码处理,得到第n个印章特征。
31、在一可能的实施方式中,所述方法还包括:
32、基于所述印章掩膜特征,在所述印章图像中确定所述印章所在位置的印章像素;
33、将所述印章图像中除所述印章像素以外的像素确定为待处理像素;
34、将所述待处理像素的阿尔法通道的取值,设置为用于表示透明通道的取值。
35、第二方面,本发明实施例提供一种文档中印章的处理装置,包括:
36、获取模块,用于获取待处理的文档图像,其中,所述文档图像中包含文本和印章;
37、提取模块,用于从所述文档图像中提取所述文档图像的图像特征;
38、解码模块,用于从所述图像特征中解码出所述文本对应的文本特征、从所述图像特征中解码出所述印章对应的印章掩膜特征、以及从所述图像特征中解码出所述印章对应的印章特征;
39、还原模块,用于基于所述文本特征、所述印章掩膜特征及所述印章特征,对所述印章进行还原,得到对应的印章图像。
40、在一可能的实施方式中,所述解码模块,具体用于:
41、利用第i个编码器对第i-1个编码特征进行特征提取处理,得到第i个编码特征,其中,所述i依次为1,2,…,m,所述m为编码器的数量,所述m为正整数,第0个编码特征为所述文档图像,所述第i个编码器的编码维度高于所述第i-1个编码器;
42、利用共享编码器对第m个编码特征进行特征提取处理,得到所述图像特征,其中,所述共享编码器的编码维度高于第m个编码器。
43、在一可能的实施方式中,所述解码模块,还用于:
44、利用共享解码器对所述图像特征进行解码处理,得到掩膜解码特征;
45、利用第j个印章掩膜解码器对第j-1个印章掩膜特征进行解码处理,得到第j个印章掩膜特征,其中,所述j依次为1,2,…,m,所述m为印章掩膜解码器的数量,第0个印章掩膜特征为所述掩膜解码特征;
46、将第m个印章掩膜特征确定为所述印章对应的印章掩膜特征。
47、在一可能的实施方式中,所述解码模块,还用于:
48、将第i个编码特征输入至第j个印章掩膜解码器,其中,i+j=m+1;
49、利用第j个印章掩膜解码器,基于第i个编码特征对第j-1个印章掩膜特征进行解码处理,得到第j个印章掩膜特征。
50、在一可能的实施方式中,所述解码模块,还用于:
51、利用所述共享解码器对所述图像特征进行解码处理,得到文本解码特征;
52、利用第k个文档解码器对第k-1个文本特征进行解码处理,得到第k个文本特征,其中,所述k依次为1,2,…,m,所述m为文档解码器的数量,第0个文本特征为所述文本解码特征;
53、将第m个文本特征确定为所述文本对应的文本特征。
54、在一可能的实施方式中,所述解码模块,还用于:
55、将所述第i个编码特征和所述第j个印章掩膜特征,输入至第k个文档解码器,其中,i+k=m+1,j=k;
56、利用第k个文档解码器,基于第i个编码特征和第j个印章掩膜特征,对第k-1个文本特征进行解码处理,得到所述第k个文本特征。
57、在一可能的实施方式中,所述解码模块,还用于:
58、利用所述共享解码器对所述图像特征进行解码处理,得到印章解码特征;
59、利用第n个印章重构解码器对第n-1个印章特征进行解码处理,得到第n个印章特征,其中,所述n依次为1,2,…,m,所述m为印章重构解码器的数量,第0个印章特征为所述印章解码特征;
60、将所述第m个印章特征确定为所述印章对应的印章特征。
61、在一可能的实施方式中,所述解码模块,还用于:
62、将所述第i个编码特征、所述第j个印章掩膜特征及所述第k个文本特征,输入至第n个印章重构解码器,其中,i+n=m+1,j=k=n;
63、利用第n个印章重构解码器,基于第i个编码特征、第j个印章掩膜特征及第k个文本特征,对第n-1个印章特征进行解码处理,得到第n个印章特征。
64、在一可能的实施方式中,所述装置还包括设置模块,用于:
65、基于所述印章掩膜特征,在所述印章图像中确定所述印章所在位置的印章像素;
66、将所述印章图像中除所述印章像素以外的像素确定为待处理像素;
67、将所述待处理像素的阿尔法通道的取值,设置为用于表示透明通道的取值。
68、第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的文档中印章的还原程序,以实现第一方面中任一项所述的文档中印章的处理方法。
69、第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的文档中印章的处理方法。
70、本发明实施例提供的技术方案,首先,通过获取待处理的文档图像,其中,文档图像中包含文本和印章,然后,从文档图像中提取文档图像的图像特征,并从图像特征中解码出文本对应的文本特征、印章对应的印章掩膜特征、以及印章对应的印章特征,最后,基于文本特征、印章掩膜特征及印章特征,对印章进行还原,得到对应的印章图像。
71、通过本技术,可以从文档图像中获取文本的文本特征、印章的印章掩膜特征以及印章的印章特征,并基于文本特征、印章掩膜特征及印章特征还原印章,由此,可以减少与印章重叠部分的文字对印章还原的影响,从而提高对文档中印章的还原效果。如图3所示,为利用本方案对如图1所示文档图像进行识别得到的印章图像,可见,相较于图2所示的通过现有技术还原得到的印章图像,通过本方案还原的印章图像更加清晰、准确,还原效果得到了很大提高。
1.一种文档中印章的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述从所述文档图像中提取所述文档图像的图像特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述从所述图像特征中解码出所述印章对应的印章掩膜特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述利用第j个印章掩膜解码器对第j-1个印章掩膜特征进行解码处理,得到第j个印章掩膜特征,包括:
5.根据权利要求4所述的方法,其特征在于,所述从所述图像特征中解码出所述文本对应的文本特征,包括:
6.根据权利要求5所述的方法,其特征在于,所述利用第k个文档解码器对第k-1个文本特征进行解码处理,得到第k个文本特征,包括:
7.根据权利要求5所述的方法,其特征在于,所述从所述图像特征中解码出所述印章对应的印章特征,包括:
8.根据权利要求7所述的方法,其特征在于,所述利用第n个印章重构解码器对第n-1个印章特征进行解码处理,得到第n个印章特征,包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.一种文档中印章的处理装置,其特征在于,包括:
