一种用于文档类图像可视水印的擦除方法
【技术领域】
[0001] 本发明涉及数字水印以及图像去噪、图像修复技术领域,具体是一种用于文档类 图像可视水印的擦除方法。
【背景技术】
[0002] 数字水印技术的主要思想是将诸如序列号、代码或者图标等标识信息嵌入图像、 音频或视频等数字载体中,达到版权保护的目的。这些标识信息就称为数字水印。然而,在 一些特殊情况下,需要一定的技术将数字媒介的水印擦除掉,例如,水印版权已过期,但嵌 有水印的产品依然具有存在和使用价值。此时水印设计单位已不再提供技术支持和对数字 水印擦除技术纯粹的科学研宄;又如,水印设计单位需要进行水印的鲁棒性测试。水印擦除 技术在这些应用背景下应运而生。
[0003] 在图像中嵌入水印信息可以认为是对原始图像人为的加入噪声,从而得到一幅 "含有噪声"的图片。可以借鉴在图像去噪领域的经典方法来擦除水印,将水印擦除后,图片 内容会受损丢失,需要采用图像修复技术来进行图像的修复。
[0004] 目前市面上对于自然图像可视水印擦除软件有很多,譬如光影魔术手、Photoshop 等图像处理软件。在可查询的方法中,有些采用视频作为载体,在发送端,改变可视水印的 每个DCT系数,然后将改变后的每个DCT系数图像加到视频数据的DCT系数上,含有水印的 视频数据通过广播网传输到接收端,供接收端预览;接收端与发送端交互;用户在接收端 利用接收到的水印密钥来擦除可视水印,恢复高质量的视频数据。
[0005]而现如今,在各种应用平台中,将word、pdf等文字文档信息拍摄成图片的场景广 泛可见,在这些文档类图像添加可视水印的场景也很多。市面上针对文档类图像的可视水 印的擦除软件却很少。相比于自然图像的水印擦除,文档类图像的水印擦除不仅需要视觉 上使得原可视水印不可见,同时需要高保真度地维持原水印区域背景文字的上下文语义可 读性。而以往针对自然图像和视频帧水印擦除的方法,不适合文档类图像处理。由此使得 研宄文档类图像可视水印擦除方法具有比较不错的产品转化空间和应用前景。
【发明内容】
[0006] 本发明的目的在于提供一种用于文档类图像可视水印的擦除方法,该方法能够应 用于word、pdf等文档类图像(非原word、pdf文档)上的可视水印擦除,譬如文档版权标 识、公司logo或单位公章类水印以及一些个性化的文档水印等的擦除,同时可以高保真度 地维持原水印区域背景文字的上下文语义可读性,能够最大程度上恢复原始背景文字。
[0007] 本发明的技术方案为:
[0008] 一种用于文档类图像可视水印的擦除方法,包括以下步骤:
[0009] (1)对目标图像进行二值化预处理,得到特征图像,所述目标图像为嵌入可视水印 的待修复文档类图像;
[0010] (2)确定目标图像和特征图像的水印区域和非水印区域;
[0011] (3)分别将目标图像和特征图像的非水印区域划分成若干个重叠的分块,并对每 个分块进行采样,得到目标图像非水印区域分块样本集Xb和特征图像非水印区域分块样本 集Yf:
[0012] Xb= [x !,i = 1,2,…,m]
[0013] Yf= [y p i = 1,2,…,m]
[0014] 其中,Xi表示由目标图像非水印区域每个分块的像素组成的列向量,
[0015] yi表示由特征图像非水印区域每个分块的像素组成的列向量;
[0016] (4)构建稀疏表不板型:
[0018] 其中,
Db表示目标图像非水印区域分块对应的字典,Df 表示特征图像非水印区域分块对应的字典,Z表示惩罚项,X表示正则参数,df:表示护中 的每个原子;
[0019] (5)利用字典学习的方法对构建的稀疏表示模型进行优化,得到压缩的Db和Df; [0020] (6)根据#与Df的相似匹配度,自适应地采用字典相似块擦除算法或局部擦除算 法来擦除目标图像中的可视水印。
[0021] 所述的用于文档类图像可视水印的擦除方法,所述步骤(2)还包括按照以下步骤 确定分块大小:
[0022] (21)采用形态学连通度方法检测特征图像的背景文字大小;
[0023] (22)按照背景文字大小确定分块大小。
[0024] 所述的用于文档类图像可视水印的擦除方法,所述步骤(6)包括:
[0025] (31)计算013与Df之间的欧氏距离;
[0026] (32)判断计算得到的欧氏距离是否小于预设阈值,若是,则采用字典相似块擦除 算法来擦除目标图像中的可视水印,若否,则采用局部擦除算法来擦除目标图像中的可视 水印。
[0027] 所述的用于文档类图像可视水印的擦除方法,所述步骤(6)中,采用字典相似块 擦除算法来擦除目标图像中的可视水印,包括:
[0028] (41)分别将目标图像和特征图像的水印区域划分成若干个非重叠的分块,并对每 个分块进行采样,得到目标图像水印区域分块样本集X'b和特征图像水印区域分块样本集 Yrf:
[0029] X'b=[x' j,j=l,2,...,n]
[0030] Y'f=[y1 j,j = l,2,...,n]
[0031] 其中,x'」表示由目标图像水印区域每个分块的像素组成的列向量,y'」表示由 特征图像水印区域每个分块的像素组成的列向量;
[0032] (42)对特征图像水印区域的各个分块求解如下优化方程,得到其对应的稀疏表示 系数:
[0033] min | | a』| | A | | e | |!,s. t. y ' 』=D f a j+e
[0034] 其中,a」表示y'」的稀疏表示系数,e表示高斯噪声;
[0035] (43)通过以下公式利用Db对目标图像水印区域的各个分块进行修复:
[0037] 其中,Xf表示x'」的修复值;
[0038] (44)用X/替换x'』,完成修复。
[0039] 所述的用于文档类图像可视水印的擦除方法,所述步骤(6)中,采用局部擦除算 法来擦除目标图像中的可视水印,包括:
[0040] (51)采用形态学连通度方法检测特征图像水印区域的连通区域,判断各个连通区 域的连通度是否大于门限,若是,则相应的连通区域属于实线水印区域,跳转步骤(52),若 否,则相应的连通区域属于虚线水印区域,对其采用形态学膨胀方法处理后,标记为待修复 区域,跳转步骤(53);
[0041] (52)对各个实线水印区域,判断其比特平面复杂度是否高于门限,若是,则不作处 理,若否,则将其标记为待修复区域;某个实线水印区域的比特平面复杂度定义为该实线水 印区域黑白边界点像素数与所有实线水印区域边界点像素数的比值;
[0042] (53)根据目标图像与特征图像的位置对应关系,确定目标图像水印区域中的各个 待修复区域;
[0043] (54)估计目标图像各个待修复区域的背景文字像素值;
[0044] (55)用估计的背景文字像素值填充相应的待修复区域。
[0045] 由上述技术方案可知,鉴于文档类图像的背景文字往往有一定的文档格式,不同 于一般的自然图像的纹理特性,本发明利用文档类图像本身有一定的自相似特性,采用形 态学方法和信号稀疏表示的优化模型,提出了一种自适应图像修复方法,该方法能够在不 同噪声情况下精确修复适应于字典的图像分块,较好地解决文本环境下的可视水印擦除问 题,极大地改进擦除效果,提高图像恢复质量。
【附图说明】
[0046] 图1是本发明的方法流程图;
[0047] 图2是本发明的训练分块示意图;
[0048]图3是本发明采用稀疏表示、字典相似块擦除算法的流程图;
[0049] 图4是本发明的效果示意例图。
【具体实施方式】
[0050] 下面,结合附图和具体实施例进一步说明本发明。
[0051] 如图1所示,一种用于文档类图像可视水印的擦除方法,包括以下步骤:
[0052]S1、对目标图像进行二值化预处理,然后对得到的二值图像再进行边界细化和梯 度计算得到特征图像。
[0053]这里,目标图像指的是嵌入可视水印的归一化的待修复文档类图像,对其进行二 值化预处理是为了避免归一化图像背景局部亮度不一致的情况,进一步对二值图像进行边 界细化和梯度计算是为了增强下述分块的鲁棒性。
[0054] S2、将目标图像划分为水印区域和非水印区域(人为观测设定),由于特征图像是 由目标图像经过预处理得到的,所以根据特征图像与目标图像的位置对应关系,特征图像 的水印区域和非水印区域也就确定了。采用形态学连通度方法检测特征图像的背景文字大 小,按照文字大小确定分块大小,一般分块大小比文字平均大小略大。采用这种分块方法, 可以减少无意义分块数目,训练分块如图2所示。
[0055] S3、按照步骤S2确定的分块大小,分别对目标图像和特征图像的非水印区域进行 重叠分块(即分别将目标图像和特征图像的非水印区域划分成若干个重叠的分块),基于 位置对应关系,目标图像和特征图像的分块划分轨迹完全一致。
[0056] 分别对目标图像和特征图像非水印区域的分块进行采样,处于两个图像上相同位 置的分块采样结果组成一个样本对(Xi,yi),其中,\表示由目标图像非水印区域第i个分 块的像素组成的列向量,71表示由特征图像非水印区域第i个分块的像素组成的列向量。
[0057] 假设有m组样本对:Xb=[x"i= 1,2,…,m] = [X!,x2,…,xm],Yf=[y"i= 1,2,…,,…,ym],定义训练样本集为:
[0058]Xc= {Xb,Yf}
[0059] 稀疏编码的目的就是通过对浐的学习来估计学习字典,并且将目标图像非水印区 域分块Xb和特征图像非水印区域分块Yf统一到一个稀疏编码框架中,使其具有相同的稀疏 表示,其目标函数为:
[0061] 上式可简化表示为:
[0063] 其中,Db表示目标图像非水印区域分块对应的字典,下面简称为目标图像分 块字典,Df表示特征图像非水印区域分块对应的字典,下面简称为特征图像分块字典,
De中每个原子(列向量)dG|的12范数归一化约束的目的是为 了避免原子的尺度歧义性,Z表示惩罚项,用于避免过拟合,X表示正则参数。
[0064]S4、利用字典学习的方法优化下式:
[0066] 得到压缩的原子集合字典Db和Df。
[0067]S5、采用欧氏距离度量计算目标图像分块字典Db和特征图像分块字典DMA相似匹 配度,若炉与Df之间的欧氏距离小于阈值T,则认为两者的相似匹配度高,转至步骤S6,采 用字典相似块擦除算法来擦除目标图像中的可视水印,若炉与〇{之间的欧氏距离大于等于 阈值T,则认为两者的相似匹配度低,转至步骤S7,采用局部擦除算法来擦除目标图像中的 可视水印。
[0068] S6、采用字典相似块擦除算法来擦除目标图像中的可视水印,如图3所示,包括以 下步骤:
[0069]S61、按照步骤S2确定的分块大小,分别对目标图像和特
征图像的水印区域进行 非重叠分块(即分别将目标图像和特征图像的水印区域划分成若干个非重叠的分块),基 于位置对应关系,目标图像和特征图像的分块划分轨迹完全一致。
[0070] 分别对目标图像和特征图像水印区域的分块进行采样,得到目标图像水印区域分 块样本集X'b和特征图像水印区域分块样本集Y' f:
[0071] X' b= [x' 』,j= 1,2,…,n] = [x' "x' 2,…,x' n]
[0072] Y' f= [y' j,j = 1,2,…,n] = [y' " y' 2,…,y' n]
[0073]其中,x'」表示由目标图像水印区域第j个分块的像素组成的列向量,y'』表示 由特征图像水印区域第j个分块的像素组成的列向量。
[0074] S62、对特征图像水印区域的各个分块求解如下优化方程,得到其对应的稀疏表示 系数:
[0075] min | | a j | | j | | e | |!,s. t. y ' 』=D f a j+e
[0076] 其中,%表示y'j勺稀疏表示系数,e表示高斯噪声。
[0077]S63、得到稀疏表示系数后,再利用目标图像分块字典Db对目标图像水印区域的各 个分块进行修复:
[0079] 其中,Jf表示x'』的修复值。
[0080] S64、用替换x'』,完成修复。
[0081] S65、为了得到更好的视觉效果,可以对修复后的分块利用其周围的亮度信息进行 直方图均衡处理。
[0082] S7、采用局部擦除算法来擦除目标图像中的可视水印,包括:
[0083]S71、采用形态学连通度方法检测特征图像水印区域的连通区域,判断各个连通区 域的连通度是否大于门限,若是,则相应的连通区域属于实线水印区域,转至步骤S72,若 否,则相应的连通区域属于虚线水印区域,对其采用形态学膨胀方法处理后,标记为待修复 区域,转至步骤S73;
[0084] S72、对各个实线水印区域,判断其比特平面复杂度是否高于门限,若是,则不作处 理,若否,则将其标记为待修复区域;某个实线水印区域的比特平面复杂度定义为:C=该 实线水印区域黑白边界点像素数/所有实线水印区域边界点像素数;
[0085] S73、根据目标图像与特征图像的位置对应关系,确定目标图像水印区域中的各个 待修复区域;
[0086]S74、估计目标图像各个待修复区域的背景文字像素值;
[0087]S75、用估计的背景文字像素值填充相应的待修复区域。
[0088] 综上,鉴于文档类图像的文字格式在一定程度上来说是一种结构性较强的特殊纹 理,本发明采用基于学习字典的稀疏表示修复方法,通过对嵌入水印的文档类图像进行预 处理,得到特征图像;将特征图像的数据分块和目标图像的数据分块统一进行稀疏编码,训 练目标图像完备字典和特征图像字典,使它们具有相同的稀疏表示。如果两种字典匹配度 高,则采用基于字典相似块擦除算法,擦除待修复区域的水印和维持上下文文字内容的可 读性,如果两种字典匹配度没有达到预期的阈值,则采用局部擦除算法来擦除当前水印,修 复文字。
[0089] 图4(a)是嵌入水印的文档类图像,可以选定水印区域;图4(b)是擦除水印后的文 档类图像。从结果来看,本发明不仅能有效擦除水印,而且能维持原水印区域背景文字的上 下文语义可读性,能够最大程度上恢复原始背景文字。
[0090] 本发明的技术原理:
[0091] 假设xeRm是一个一维信号,D=[d:,...,dp]e矿~是m维线性空间的一组归 一化的基向量集合,我们称其为字典。如果信号x能被字典D里面的少数基向量线性表示 (近似)的话,则说明对于x-类的信号,字典D是适应的。也就是说存在一个稀疏(非零 元个数少)的系数向量aeRp,使得Da,称a为信号x基于字典的稀疏表示。
[0092] 表示成矩阵的形式:
[0093] x= Da
[0094]其中,〇£矿'111<<1)通常是满秩的;向量叉£1^(1£1?。
[0095] 如果已知x,D,要求解a,由于上述线性方程组的方程个数小于未知数的个数,故 而这个方程组是欠定的,即满足方程组的解有无穷个。但是如果我们有关于系数向量〇的 先验知识,希望解a尽可能地稀疏,g卩| |a|Ua中非零元个数)尽可能的小,那么一定 条件下方程组的解就是唯一的,并且由下面的优化问题给出:
[0096] min | | a | |〇 s. t. D a = x
[0097] 而求解上述的优化问题实际上是一个组合数问题,是NP-hard的。TerrenceTao 在2006年证明了在一定条件(RIP)下,0范数的优化问题与以下的1范数问题具有相同的 解:
[0098] min | | a | | i s. t. D a = x
[0099] 其中RIP条件,即存在满足下列关系的常数yN
[0101] RIP条件是对于字典D的列向量正交性的一种衡量。而上述的1范数问题是一个 凸优化问题,必然有唯一解,而且可在多项式时间内求解。
[0102] 扩展到有噪声的情况,当观测信号是原始信号和噪声的叠加的时候:
[0103] y = x+e = D a +e
[0104] 若噪声e为高斯噪声,原始信号x可以通过以下优化问题得到:
[0106]其中e是高斯噪声的估计,或者采用正则化方法:
[0108] 其中A是正则参数,用来平衡信号的近似表示误差和其字典系数的稀疏程度。
[0109] 若信号噪声e非高斯噪声但相当于原始信号比较稀疏的时候,原始信号x可以通 过以下优化问题得到:
[0110] min | | a | | A | | e | | i s. t. y = D a +e
[0111] 上式更适用于原始信号有部分比例损毁但是损毁幅度任意的情况。
[0112] 以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范 围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方 案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
【主权项】
1. 一种用于文档类图像可视水印的擦除方法,其特征在于,包括以下步骤: (1) 对目标图像进行二值化预处理,得到特征图像,所述目标图像为嵌入可视水印的待 修复文档类图像; (2) 确定目标图像和特征图像的水印区域和非水印区域; (3) 分别将目标图像和特征图像的非水印区域划分成若干个重叠的分块,并对每个分 块进行采样,得到目标图像非水印区域分块样本集Xb和特征图像非水印区域分块样本集 Yf: Xb= [X i,i = 1,2,…,m] Yf= [y i,i = 1,2,…,m] 其中,Xi表示由目标图像非水印区域每个分块的像素组成的列向量, Yi表示由特征图像非水印区域每个分块的像素组成的列向量; (4) 构建稀疏表不t旲型:其中,,Db表示目标图像非水印区域分块对应的字典, 示特征图像非水印区域分块对应的字典,Z表示惩罚项,λ表示正则参数,dp表示De中的 每个原子; (5) 利用字典学习的方法对构建的稀疏表示模型进行优化,得到压缩的Db和D f; (6) 根据D1^Df的相似匹配度,自适应地采用字典相似块擦除算法或局部擦除算法来 擦除目标图像中的可视水印。2. 根据权利要求1所述的用于文档类图像可视水印的擦除方法,其特征在于,所述步 骤(2)还包括按照以下步骤确定分块大小: (21) 采用形态学连通度方法检测特征图像的背景文字大小; (22) 按照背景文字大小确定分块大小。3. 根据权利要求1所述的用于文档类图像可视水印的擦除方法,其特征在于,所述步 骤⑶包括: (31) 计算013与D f之间的欧氏距离; (32) 判断计算得到的欧氏距离是否小于预设阈值,若是,则采用字典相似块擦除算法 来擦除目标图像中的可视水印,若否,则采用局部擦除算法来擦除目标图像中的可视水印。4. 根据权利要求1所述的用于文档类图像可视水印的擦除方法,其特征在于,所述步 骤(6)中,采用字典相似块擦除算法来擦除目标图像中的可视水印,包括: (41)分别将目标图像和特征图像的水印区域划分成若干个非重叠的分块,并对每个 分块进行采样,得到目标图像水印区域分块样本集X' b和特征图像水印区域分块样本集 Yr f: X,b= [X,j,j = 1,2,…,η] Y' f= [y' 』,j = 1,2,…η] 其中,^表示由目标图像水印区域每个分块的像素组成的列向量,< ^表示由特征 图像水印区域每个分块的像素组成的列向量; (42) 对特征图像水印区域的各个分块求解如下优化方程,得到其对应的稀疏表示系 数: min| I a j| I1+! |e| I1, s. t. y' j= Df a j+e 其中,aj表不y' j的稀疏表不系数,e表不尚斯噪声; (43) 通过以下公式利用Db对目标图像水印区域的各个分块进行修复:其中,表示V j勺修复值; (44) 用Xf替换X'』,完成修复。5.根据权利要求1所述的用于文档类图像可视水印的擦除方法,其特征在于,所述步 骤(6)中,采用局部擦除算法来擦除目标图像中的可视水印,包括: (51) 采用形态学连通度方法检测特征图像水印区域的连通区域,判断各个连通区域的 连通度是否大于门限,若是,则相应的连通区域属于实线水印区域,跳转步骤(52),若否,则 相应的连通区域属于虚线水印区域,对其采用形态学膨胀方法处理后,标记为待修复区域, 跳转步骤(53); (52) 对各个实线水印区域,判断其比特平面复杂度是否高于门限,若是,则不作处理, 若否,则将其标记为待修复区域;某个实线水印区域的比特平面复杂度定义为该实线水印 区域黑白边界点像素数与所有实线水印区域边界点像素数的比值; (53) 根据目标图像与特征图像的位置对应关系,确定目标图像水印区域中的各个待修 复区域; (54) 估计目标图像各个待修复区域的背景文字像素值; (55) 用估计的背景文字像素值填充相应的待修复区域。
【专利摘要】本发明提供一种用于文档类图像可视水印的擦除方法,包括:对目标图像进行二值化预处理,得到特征图像;确定目标图像和特征图像的水印区域和非水印区域;分别将目标图像和特征图像的非水印区域划分成若干个重叠的分块,并对每个分块进行采样;构建稀疏表示模型;利用字典学习的方法对构建的稀疏表示模型进行优化,得到压缩的目标图像分块字典和特征图像分块字典;根据两种字典的相似匹配度,自适应地采用字典相似块擦除算法或局部擦除算法来擦除目标图像中的可视水印。本发明能够有效擦除文档类图像的可视水印,而且能维持原水印区域背景文字的上下文语义可读性,能够最大程度上恢复原始背景文字。
【IPC分类】G06T1/00
【公开号】CN104899821
【申请号】CN201510279620
【发明人】张卫明, 田辉, 郭玉刚, 胡校成, 王辉
【申请人】合肥高维数据技术有限公司
【公开日】2015年9月9日
【申请日】2015年5月27日