一种基于局部学习的信息隐藏检测方法
【技术领域】
[0001] 本发明涉及图像及视频被动盲取证领域,特别涉及针对图像、视频信息隐藏检测 进行的基于局部学习的信息隐藏检测方法。
【背景技术】
[0002] 信息隐藏利用人类感觉器官对数字信号的感觉冗余,将一组秘密信息(授权序列 号,消息或版权信息等)隐藏到载体信息中,在不影响宿主信号的感觉效果和使用价值的 情况下,使得可能的攻击者难以从中判断秘密信息是否存在,更加难以截获,从而保证信息 传递的安全性。信息隐藏已成为网络环境下安全、可靠地传递政治、军事、经济等信息的基 本通信方式之一。当前已经有充分的证据证明信息隐藏已经被恐怖组织、犯罪团伙以及谍 报人员应用利用。随着信息隐藏技术门槛的不断降低,越来越多的不法分子开始使用这种 技术。因此,开展信息隐藏检测方面的研宄具有重要的理论价值和现实意义。
[0003] 信息隐藏检测(Steganalysis,文献中也常称作隐写分析),则是信息隐藏的对抗 技术,主要研宄如何区分载密对象与非载密对象的技术。通过信息隐藏检测,可以发现隐蔽 通信信道,阻止敌方的隐蔽通信。目前,信息隐藏检测最常用的手段是使用基于模式识别的 方法,将信息隐藏检测看成载密对象与非载密对象两类的模式分类问题。主要方法步骤包 括特征提取和学习分类两部分:在每个对象上提取具有一定判别能力的特征,然后使用机 器学习的方法在训练集上学习出一个分类器作为信息隐藏检测器,对待检测样本进行检测 分类。
[0004] 本发明主要关注于特征提取后的分类器学习。在分类器学习上,当样本数量较少 时通常使用SVM(SupportVectorMachine),当样本量较大、特征维度较高的时候,目前最 流行的方法是采用集成分类器。在使用这些分类器时,现有方法通常是在所有训练样本上 学习一个全局的分类模型,问题是信息隐藏检测面临着类内散布大而类间差别小的难点, 学到的全局分类模型经常由于复杂度过高而导致泛化性能低下,很多现有方法仅在实验条 件下才能取得较好的检测效果。另外,现有全局学习方法通常需要对每一种信息隐藏算法、 每个嵌入率分别训练分类器,检测时需要预先知道待检测样本所使用的嵌入算法和嵌入 率,实用性很低。与全局学习不同,局部学习方法将整个全局问题分解成局部子问题,然后 在每个子问题上学习局部的分类规则。由于局部子问题的复杂度明显降低,学到的局部模 型在局部区域很容易达到较好的分类效果,因此本发明引入局部学习的方法,提出一种更 有效,更鲁棒,通用性更强的信息隐藏检测方法。
【发明内容】
[0005] 本发明的目的是提供一种基于局部学习的信息隐藏检测方法,实现高效、鲁棒的 信息隐藏检测。
[0006] 本发明提出的一种基于局部学习的信息隐藏检测方法,包括以下步骤:
[0007] 步骤S1,构建训练样本数据库:获取原始图像或视频作为负样本,对每个负样本 进行多种方法的信息隐藏并对应生成多个正样本,所有正负样本的合集构成训练样本数据 库;
[0008] 步骤S2,对每个样本提取可用于信息隐藏检测的且对于正负样本有区分能力的特 征,并将所述特征用向量形式表示作为每个样本的表达;
[0009] 步骤S3,对于一个待检测样本,通过近邻搜索算法在训练样本数据库中搜索与待 检测样本最相似的K个负样本;
[0010] 步骤S4,对所述步骤S3中得到每个负样本匹配对应的多个正样本,然后所述的正 样本中选择距离待检测样本最近的正样本,与对应负样本配对,获得K对正负样本对,构成 局部训练集;
[0011] 步骤S5,依据步骤S4中得到的局部训练集及正、负样本的配对关系,对分类器进 行训练学习,获得最优分类器;
[0012] 步骤S6 :使用所述步骤S5中得到的最优分类器对待检测样本进行判别分类,得到 所述待检测样本是否经过信息隐藏的检测结果;
[0013] 步骤S7:重复步骤S3-S6,直到对所有待检测样本完成检测。
[0014] 优选的,步骤S5中所述对分类器进行训练学习是针对每个待检测样本构建局部 训练集,在局部训练集上学习最优分类器。
[0015] 优选的,步骤S3中所述K个负样本的选取方法为:对于任意一个待检测样本\,计 算\与训练样本数据库中每个负样本的距离,然后按照距离大小对所有负样本进行升序排 序,前K个负样本即为所选负样本。
[0016] 优选的,步骤S5中对分类器进行训练学习过程中,在优化目标函数时加入正负样 本成对这一约束,使成对的样本在投影后尽量分得开些。
[0017] 优选的,所述优化目标函数具体为寻找投影方向a。
[0018] 优选的,步骤5中对分类器进行训练学习的过程为最大化如下目标函数:
[0022] (cuGBk (xt),i= 1, 2, ???,k.
[0023] 其中Xj为第j类样本的集合,Uj为其样本均值,SW为类内散布矩阵;SP为反映正负 样本对分离程度的矩阵;BK(xt)是由K对近邻正负样本对构成的局部训练集,(ci,Si) 为一对正负样本。
[0024] 优选的,K的取值为200。
[0025] 本发明方法可以用于鉴定图像或视频是否含有隐藏信息,监控重要数据是否出现 外流情况等。在基于模式识别的信息隐藏检测中,本发明方法侧重于机器学习与分类阶段, 可以与现有各种图像、视频信息隐藏检测特征提取算法结合使用,具有较高的通用性。
【附图说明】
[0026] 图1是本发明基于局部学习的信息隐藏检测方法流程示意图。
【具体实施方式】
[0027] 为了使本发明的技术方案和优点更加易于理解,以下结合具体实施案例和附图, 对本发明作进一步的详细说明。
[0028] 如图1所示,本发明提出的一种基于局部学习的信息隐藏检测方法包括以下步 骤:
[0029] 步骤S1,通过拍摄或从网络下载获得图像或视频作为负样本,然后对每个负样本 使用多种信息隐藏算法、每种算法使用多种不同嵌入率进行信息隐藏,因此每个负样本有 多个对应的正样本,所有正负样本的合集构成训练样本数据库;
[0030] 本发明构建训练样本数据库时使每个负样本有多个对应的正样本是为了使得到 的信息隐藏检测器能够具有更高的通用性,能够检测使用不同隐藏算法,不同嵌入率的待 检测对象。
[0031] 在本实施例中,从图片分享网站中下载10万张JPEG格式图片,使用F5, nsF5,J-UNIWARD三种JPEG域图像信息隐藏算法进行信息隐藏,每种算法采用4种不同的嵌 入率:〇?l,〇. 2,0. 3,0. 4bpnc(bitpernon-zeroACcoefficient);
[0032] 步骤S2,对每个样本提取可用于信息隐藏检测且对于正负样本有区分能力的特 征,并将所述特征用向量形式表示作为每个样本的表达。以特征作为样本表示的训练样本 数据库Atrain,定义式(1)所示:
[0034] 其中,q为第i个负样本的特征,#为与之对应的M个正样本的特征。下 述所有"样本"均指以特征向量形式表示的样本。
[0035] 在本实施例中,提取548维的CC-PEV特征,该特征提取方法是针对JPEG域信息隐 藏的常用检测特征。
[0036] 步骤S3,对于任意一个待检测样本xt,通过近邻搜索算法在训练样本数
据库中搜 索与待检测样本\最相似的K个负样本
[0037] 所述步骤S3中,搜索与相似的K个负样本的过程为:计算xt与每个负样本 Ci的距离,然后按照距离大小对所有负样本进行升序排序,选取前K个负样本。在计算距离 时,可以根据样本表达所使用的特征,使用不同的距离度量方式。
[0038] 在本实施例中,使用欧式距离作为距离的度量。
[0039] 步骤S4,对所述步骤S3中得到K个负样本中的每个负样本ck,在其对应的M个正 样本4,…,彳中寻找距离xt最近的正样本,与ck组成一对,总共可得到K对正负样本对, 构成xt的专属局部训练集BK(xt);
[0040] 由于待测样本所使用的信息隐藏算法和嵌入率不可能预先知道,本发明构造 BK(xt)的方法,能够最大可能的找到使用相似算法、相似嵌入率的样本,提高了针对性,减少 了噪声样本的影响。针对Xt构造的训练集BK(xt)相对较小,类内变化也较小,容易学到复 杂度低而精确度高的局部分类器。
[0041] 步骤S5,依据步骤S4中得到的局部训练集及正、负样本的配对关系,对分类器进 行训练学习,获得最优分类器Lt。
[0042] 在本实施例中,训练最优线性分类器,其训练过程即寻找最优线性判别函数的过 程,以采用Fisher判别准则为例,其学习过程是最大化如下目标函数,如式(2)、(3)、(4)所 示:
[0044]SB= (u「u2) (u「u2)t ⑶
[0046] 其中&为第j类样本的集合,h为其样本均值,SjPS¥分别为类间和类内散布矩 阵。该优化的实质是寻找投影方向a,使得投影后两类样本尽可能分得开些,同时同类样本 内部尽量密集。为了充分利用正负样本成对这一先验信息,本发明对上述优化目标进行了 修改,使得成对的样本在映射后尽量分得开些,修改后的优化目标如式(5)、(6)、(7)所示:
[0049] (Ci,Si)GBK(xt),i= 1,2,…,K(7)
[0050] SP为反映正负样本对分离程度的矩阵。
[0051] 该修改将投影后正负样本对的距离| |aTCi-aTSi| |2加入到优化目标函数中,从而 迫使投影后正负样本尽量分得开。在本发明一实施例中,K的取值为200。
[0052] 步骤S6 :使用所述步骤S5得到的最优分类器Lt对待检测样本x,进行判别分类, 得到xt是否经过信息隐藏的检测结果;
[0053] 步骤S7 :重复步骤S3-S6,直到对所有待检测样本完成检测。
[0054] 由于BK(xt)是由&的近邻样本构成,是一个局部的、相对较小训练集,本发明在局 部训练集BK(xt)上进行训练优化,得到局部分类器Lt并用它只对xt进行分类判别,因此是 一种基于局部学习的信息隐藏检测方法。
[0055] 本发明通过选择与待检测样本相似的样本,训练局部分类器,在一定程度上克服 了当前信息隐藏检测中训练全局分类器导致获得的分类器复杂,泛化性能差这一不足。使 用本发明得到的局部分类器复杂度较低,去除了无关样本的不良影响,针对性更强,从而提 高了信息隐藏检测的正确率。除了构建局部训练集,本发明还提出利用正负样本成对这一 先验信息对线性判别函数进行优化,提高了检测效果。本发明不需要提前知道待检测样本 所使用的信息隐藏算法及嵌入率,可以与多种信息隐藏检测特征提取算法相结合,具有较 高的通用性,可应用于各种基于模式识别的信息隐藏检测系统中。
[0056] 以上所述,仅为本发明中的【具体实施方式】,但本发明的保护范围并不局限于此,任 何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在 本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
【主权项】
1. 一种基于局部学习的信息隐藏检测方法,其特征在于,该方法包括以下步骤: 步骤S1,构建训练样本数据库:获取原始图像或视频作为负样本,对每个负样本进行 多种方法的信息隐藏并对应生成多个正样本,所有正负样本的合集构成训练样本数据库; 步骤S2,对每个样本提取可用于信息隐藏检测的且对于正负样本有区分能力的特征, 并将所述特征用向量形式表示作为每个样本的表达; 步骤S3,对于一个待检测样本,通过近邻搜索算法在训练样本数据库中搜索与待检测 样本最相似的K个负样本; 步骤S4,对所述步骤S3中得到每个负样本匹配对应的多个正样本,然后所述的正样本 中选择距离待检测样本最近的正样本,与对应负样本配对,获得K对正负样本对,构成局部 训练集; 步骤S5,依据步骤S4中得到的局部训练集及正、负样本的配对关系,对分类器进行训 练学习,获得最优分类器; 步骤S6 :使用所述步骤S5中得到的最优分类器对待检测样本进行判别分类,得到所述 待检测样本是否经过信息隐藏的检测结果; 步骤S7 :重复步骤S3-S6,直到对所有待检测样本完成检测。2. 根据权利要求1所述的一种基于局部学习的信息隐藏检测方法,其特征在于,步骤 S5中所述对分类器进行训练学习是针对每个待检测样本构建局部训练集,在局部训练集上 学习最优分类器。3. 根据权利要求2所述的一种基于局部学习的信息隐藏检测方法,其特征在于,步骤 S3中所述K个负样本的选取方法为:对于任意一个待检测样本xt,计算11与训练样本数据 库中每个负样本的距离,然后按照距离大小对所有负样本进行升序排序,前K个负样本即 为所选负样本。4. 根据权利要求3所述的一种基于局部学习的信息隐藏检测方法,其特征在于,步骤 S5中对分类器进行训练学习过程中,在优化目标函数时加入正负样本成对这一约束,使成 对的样本在投影后尽量分得开些。5. 根据权利要求4所述的一种基于局部学习的信息隐藏检测方法,其特征在于,所述 优化目标函数具体为寻找投影方向α。6. 根据权利要求5所述的一种基于局部学习的信息隐藏检测方法,其特征在于,步骤5 中对分类器进行训练学习的过程为最大化如下目标函数:(c" Si) e Bk (xt),i = 1,2,…,L 其中Xj为第j类样本的集合,Uj为其样本均值,Sw为类内散布矩阵;S p为反映正负样 本对分离程度的矩阵;BK (xt)是由K对近邻正负样本对构成的局部训练集,(c i,Si)为 一对正负样本。7.根据权利要求6所述的一种基于局部学习的信息隐藏检测方法,其特征在于,K的取 值为200。
【专利摘要】本发明公开了一种基于局部学习的信息隐藏检测方法,该方法包括:构建包含正负样本的训练样本数据库;对任一待检测样本,在样本数据库中搜索与其最相似的K个正负样本对,构成局部训练集;在局部训练集上,进行分类器的训练学习,在学习过程中,加入正负样本成对这一约束,使用优化算法获得最优分类器;用得到的分类器对待检测样本进行判别分类,得到所述待检测样本是否经过信息隐藏的检测结果。本发明充分利用局部学习能够较好地克服类内变化大、降低噪声影响以及较少需要先验知识等优势,提高了信息隐藏检测的效果,可应用于基于模式识别的信息隐藏检测算法分析系统中。
【IPC分类】G06K9/62, G06K9/66
【公开号】CN104899606
【申请号】CN201510338406
【发明人】谭铁牛, 董晶, 王伟, 许锡锴
【申请人】中国科学院自动化研究所
【公开日】2015年9月9日
【申请日】2015年6月17日