一种基于视觉词典的深度图生成方法

xiaoxiao2021-2-25  222

一种基于视觉词典的深度图生成方法
【技术领域】
[0001] 本发明涉及数字图像处理和计算机视觉领域,特别涉及一个基于视觉词典的深度 图生成方法。
【背景技术】
[0002] 随着3D电影、电视的兴起和普及,人们对于3D影视作品的需求日益增加。然而,现 有的3D电影制作过程复杂且成本较高,需要大量的人力物力,所生产的3D影视数量远远无 法满足人们的需求。因此,利用2D转3D技术,把现有的2D影视资源转化为3D,成为解决3D片 源不足的一个重要手段。
[0003] 2D转3D技术涉及的主要问题是如何从单幅图像中提取深度图。现有的深度图生成 算法主要分为三类:手动,半自动,全自动。人工生成深度图的方法虽然可以获得非常符合 人眼观感的深度图,但需要大量的人工成本;半自动的方法虽然可以减少人工的参与,但是 对比起海量的2D资源来说,过于耗费时间和人力。因此,全自动的深度图生成方法无疑是最 节省时间与人力成本的方式,受到研究人员的关注,成为近年来的研究热点。
[0004] 现阶段的全自动深度图生成方法通常可以分为两个类型:基于深度线索的方法和 基于机器学习的方法。其中,基于深度线索的深度图生成方法通常利用例如线性透视、聚焦 散焦等特性进行深度恢复,并产生具有一定效果的3D图,运用在了一些实际的产品当中。但 是,这些线索与深度没有必然的联系(如在高清相机下的图片聚焦散焦不明显),或者对场 景有较严格的要求(如线性透视要求目标图像存在明显的直线线索),所以这些方法的通用 性十分不理想,发展潜力有限。也有一些方法融合了几种深度线索,产生更好的3D效果,但 无法消除这些固有限制。另一全自动方法是基于机器学习的深度图生成方法,通常首先建 立机器学习模型,然后让模型利用一些已有的深度图库(包含图像-深度对)进行学习,学习 生成的模型可以用于2D转3D算法中。基于机器学习的深度图生成方法的通用性较高,对目 标场景没有太多限制,是开发通用深度图生成算法的一个重要思路。现阶段的基于机器学 习的深度图生成方法也存在转换时间较长的缺点,准确性也有待提高。本发明针对现有技 术的不足和限制,利用深度图像库和机器学习技术,训练出视觉词典,视觉词典生成后,即 可作为工具用于生成具有较高质量的深度图,对比已有的深度图生成方法,具有适用场景 广阔,用于2D到3D的转换,转换效果较符合人们观景感受等优点。

【发明内容】

[0005] 本发明针对现有深度图生成技术中存在的效果不理想,算法通用性不足等缺点, 提供一种基于视觉词典的深度图生成方案,该方法利用现有的深度图库,通过机器学习算 法,学习到视觉单词词典,使用词典对目标图像进行深度图恢复,所得深度图可用于3D转 换。
[0006] 本发明通过以下技术方案实现。
[0007] -种基于视觉词典的深度图生成方法,包括视觉词典训练阶段和深度图生成阶 段, 所述视觉词典训练阶段包括如下步骤: (1) 获得训练数据集,包括目标场景的图像集即目标图像集D,和负样本图像集N;目标 图像集D由图像-深度图对组成,负样本图像集N由不属于目标场景的图像组成; (2) 初始化步骤: (2.1) 把目标图像集D分为相等数量的两部分D1和D2,把负样本图像集N分为相等数量 的两部分N1和N2; (2.2) 对D1中的深度图进行随机块采样,采样方法如下:对D1中每一幅深度图,分别建 立高斯金字塔,然后在金字塔的每一层进行随机采样,采样数与该层的尺度成正比;所得的 样本集合表不为S; (2.3) 对(2.2)中得到的样本集合S进行数据整理,剔除高度重合的深度图块及不包含 结构信息的平坦深度图块,得到最终的样本集合S; (3) 对最终的样本集合S进行k均值(k-means)聚类,聚类的类数目设置为S中的数量的 1/2,去掉类内深度图块数目少于3的类后,所得类集合表示为的下标1表示该类集合来 自于D1中的深度图块; (4) 交叉训练阶段,对于L中的每一个类Ku,其中Ku的下标i表示类序号,采用交叉验 证的方式,分别执行如下训练步骤: (4.1) 训练分类器,用N1作为负样本集合,类Ku内的深度图块作为正样本,为类Ku训练 SVM线性分类器Cli; (4.2) 交叉验证,对D2中每一幅深度图,用Cu进行多尺度目标检测;得到正响应样本集 合K2l,其中下标2表示为该类是D2中深度块组成的,i为类序号;若K 2l内深度图块个数小于 2,则该类不是一个视觉单词,结束迭代;否则,继续步骤(4.3); (4.3) 训练分类器,用呢作为负样本集合,类1(21内的图像块为正样本,为1(21训练5¥1线 性分类器C2i ; (4.4) 交叉验证,对D1中每一幅深度图,用C2l进行多尺度目标检测;得到正响应样本集 合Ku,若Ku内深度图块个数小于2,则该类不是一个视觉单词,结束迭代;否则,继续步骤 (4.5); (4.5) 判断是否满足收敛条件:当满足收敛条件或迭代次数大于等于预设值,则结束迭 代,到步骤(4.6);否则,返回(4.1),继续迭代过程; (4.6) 合并Ku和K2i,得到具有相似结构的深度图块类Ki; (4.7) 获得视觉单词:在目标图像集D中,截取L中的每一个深度图块所对应的图像块, 构成1对应的图像块类GdPRGB图像块类,Gi即为一个视觉单词,其对应的深度由L的加权 平均得到,加权值为SVM分类权重; (4.8) 用N作为负样本集合,分别为G·练SVM线性分类器能用于对视觉单词 检测; (5) 获得视觉词典,经过(4)的迭代训练后,得到由多个视觉单词仏组成的词典G,G中的 每一个视觉单词包含了对应的深度图和分类器,应用视觉词典对2D图像进行视觉单词检 测,进而恢复深度图; 所述深度图生成阶段包括如下步骤: 对于给定的2D图像,使用以下步骤生成深度图: (a) 生成初始深度图De,De的分辨率与2D图像相同,坐标(i,j)处的深度值De由以下公 式给出:
式中,rows为De的行数,d表示深度图量化比特数; (b) 生成深度图,基于视觉词典,采用SVM检测器对2D图像进行检测,若检测出视觉单 词,则用该视觉单词的深度块取代De中的对应区域; (c) 深度图平滑,对(b)中得到的深度图进行双边滤波,得到最终的深度图。
[0008] 上述基于视觉词典的深度图生成方法中,步骤(a)所述深度图量化比特数d典型值 为8,即深度值的范围为0~255。
[0009] 上述基于视觉词典的深度图生成方法中,视觉词典中的视觉单词,定义为具有相 似深度结构的图像块集合。在步骤(2.2)中,通过对深度图建立图像金字塔,然后在图像金 字塔中以相应比例进行采样,即图像金字塔的底层的尺度越大,则采样越大数目的深度图 块;相应地,越往顶层,采样的数目就越少。
[0010] 上述基于视觉词典的深度图生成方法中,正、负样本集都分为相等数量的两部分, 并使用交叉迭代的训练方法,训练得到包含对应深度的视觉单词,组成视觉词典。采样过程 和交叉验证训练都在深度图内进行,保证了视觉单词是具有相似深度的图像块。每个视觉 单词的对应深度图块,是在训练阶段对类内深度图块通过SVM权值加权平均所得的。
[0011] 本发明与现有技术比较,具有如下优点和有益效果: 1、本发明利用现有的图像-深度图对库,训练出具有对应深度块的视觉单词,可用于2D 转3D中,所得深度图和3D图较符合人眼观感。
[0012] 2、本发明的深度图生成算法适用场景较广,对2D图像的属性没有特殊要求,只要 有足够的图像-深度图对训练数据,就可以训练出词汇量丰富的视觉词典,转换效果随词汇 量的丰富而提尚。
[0013] 3、本发明的视觉词典训练方法,也可根据相应的2D图像场景类型,选用训练数据 集,训练出具有特定作用的视觉词典,完成不同的任务。
[0014] 4、本发明的算法并行度较好,可以采用相应并行技术,加速词典训练过程。
[0015] 5、本发明的视觉词典训练和2D转3D过程都无需人工参与,可以节省人力成本。
【附图说明】
[0016] 图1是本发明的视觉词典训练过程的流程图; 图2是本发明用视觉单词词典进行2D转3D的流程图。
[0017] 具体实施方法 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式和保护不 限于此,需指出的是,以下若有未特别详细说明之过程或术语,均是本领域技术人员可参照 现有技术理解或实现的。
[0018] 如图1与图2,一种基于视觉词典的深度图生成方法详述如下。
[0019]视觉词典训练阶段: (1) 获得训练数据集,正样本图像集D由1449幅室内图像-深度图对组成,负样本图像集 N由3000幅室外图像组成; (2) 初始化步骤: (2.1) 将正样本集D分为相等数量两部分D1、D2,把负样本集分为相等数量的两部分N1, N2,如在本例中,D1包含72 4幅图像,D2包含725幅图像;而N1和N2则各包含1500幅室外图像; (2.2) 采样,首先对D1中每一幅深度图建立高斯金字塔,高斯方差σ=1.6,由两层组成, 层内深度图大小相同;第二层深度图为第一层深度图大小的1/2;然后,分别在金字塔的每 一层进行随机块采样,总采样为300个深度图块,每层的样本比例为1:0.5,得到的所有深度 图块集合表示为S; (2.3) 整理样本集合,采用像素余弦距离,阈值设为剔除S中高度重合的深度图块; 采用图像块方差,阈值设为|裏,剔除S中平坦的深度图块;整理后的S约包含10万个深度图 块; (3) 聚类,对S进行k均值(k-means)聚类,聚类的类数目设置为S的数量的1/2,去掉类内 图像块数目少于3的类后,所得类集合表示为h,(下标1表示该类集合来自D1中的图像块); (4) 交叉训练阶段,对于心中的每一个类Ku(下标i表示类序号),使用交叉验证的方式, 分别执行如下训练步骤: (4.1) 为Ku训练SVM线性分类器Cu:在N1随机采样6000个图像块,作为负样本,Ku中包 含的深度图块作为正样本,训练SVM线性分类器,得到Cu(下标1表示由D1中的样本训练所 得,i表示分类器编号); (4.2) 交叉验证,对D2中每一幅深度图,分别用Cu进行多尺度目标检测,得到正响应样 本集合K2l(下标2表示为该类由D2中图像块组成的,i为类序号),若K 2l中深度图块个数小于 2,则该类不是一个视觉单词,结束迭代;否则,继续步骤(4.3); (4.3) 为K2i训练SVM线性分类器C2i:在N2随机采样6000个图像块,作为负样本集合,K 2i 中包含的深度图块作为正样本,训练SVM线性分类器,得到C2l; (4.4) 交叉验证,对D1中每一幅深度图,用C2l进行多尺度目标检测,得到正响应样本集 合Ku,若Ku中深度图块个数小于2,则该类不是一个视觉单词,结束迭代;否则,继续步骤 (4.5); (4.5) 判断是否满足收敛条件:当满足收敛条件或迭代次数大于等于预设值时,结束迭 代,转到步骤(4.6);否则,返回(4-1),继续迭代过程; (4.6) 合并Ku和K2i,得到具有相似结构的深度图块类Ki; (4.7) 获得图像块类G1:截取1中的每一个深度图块所对应的图像块,可获得1对应的 图像块类仏,61即为一个视觉单词,其对应的深度由1的加权平均得到,加权值为SVM分类权 重; (4.8) 用对乍为负样本集合,分别为61训练5¥1线性分类器(:1,(:1可用于对视觉单词6 1的 检测; (5) 经过(4)的迭代训练步骤后,得到由多个视觉单词组成的词典G,G中的每一个视觉 单词分别包含了对应的深度图和检测器(分类器),用G可以对给定的2D图像进行视觉单词 检测的深度恢复。
[0020]深度图生成阶段: 对于给定的2D图像,使用以下步骤生成深度图: (1) 生成初始深度图De,De的分辨率与2D图像相同,坐标(i,j)处的深度值由以下公式 给出:
式中,rows为De的行数,d表示深度图量化比特数(典型值为8,即深度值的范围为0~ 255); (2) 生成深度图,基于视觉词典,采用其中的SVM检测器对2D图像进行检测,若检测出视 觉单词,则用该视觉单词的深度块取代De中的对应区域; (3) 深度图平滑,对(2)中得到的深度图进行双边滤波,得到最终的深度图。
[0021]上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的 限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化, 均应为等效的置换方式,都包含在本发明的保护范围之内。
【主权项】
1. 一种基于视觉词典的深度图生成方法,其特征在于包括视觉词典训练阶段和深度图 生成阶段, 所述视觉词典训练阶段包括如下步骤: (1) 获得训练数据集,包括目标场景的图像集即目标图像集D,和负样本图像集N;目标 图像集D由图像-深度图对组成,负样本图像集N由不属于目标场景的图像组成; (2) 初始化步骤: (2.1) 把目标图像集D分为相等数量的两部分D1和D2,把负样本图像集N分为相等数量 的两部分Nl和N2; (2.2) 对Dl中的深度图进行随机块采样,采样方法如下:对Dl中每一幅深度图,分别建 立高斯金字塔,然后在金字塔的每一层进行随机采样,采样数与该层的尺度成正比;所得的 样本集合表不为S; (2.3) 对(2.2)中得到的样本集合S进行数据整理,剔除高度重合的深度图块及不包含 结构信息的平坦深度图块,得到最终的样本集合S; (3) 对最终的样本集合S进行k均值(k-means)聚类,聚类的类数目设置为S中的数量的 1/2,去掉类内深度图块数目少于3的类后,所得类集合表示为K 1, K1的下标1表示该类集合来 自于Dl中的深度图块; (4) 交叉训练阶段,对于K1中的每一个类Ku,其中K11的下标i表示类序号,采用交叉验证 的方式,分别执行如下训练步骤: (4.1) 训练分类器,用Nl作为负样本集合,类K11内的深度图块作为正样本,为类K11训练 SVM线性分类器C li; (4.2) 交叉验证,对D2中每一幅深度图,用C11进行多尺度目标检测;得到正响应样本集 合K21,其中下标2表示为该类是D2中深度块组成的,i为类序号;若K 21内深度图块个数小于 2,则该类不是一个视觉单词,结束迭代;否则,继续步骤(4.3); (4.3) 训练分类器,用N2作为负样本集合,类K21内的图像块为正样本,为K21训练SVM线 性分类器C2i ; (4.4) 交叉验证,对Dl中每一幅深度图,用C21进行多尺度目标检测;得到正响应样本集 合Ku,若K11内深度图块个数小于2,则该类不是一个视觉单词,结束迭代;否则,继续步骤 (4.5); (4.5) 判断是否满足收敛条件:当满足收敛条件或迭代次数大于等于预设值,则结束迭 代,到步骤(4.6);否则,返回(4.1),继续迭代过程; (4.6) 合并Ku和K2i,得到具有相似结构的深度图块类Ki; (4.7) 获得视觉单词:在目标图像集D中,截取K1中的每一个深度图块所对应的图像块, 构成1对应的图像块类GdPRGB图像块类,G 1即为一个视觉单词,其对应的深度由K1的加权 平均得到,加权值为SVM分类权重; (4.8) 用N作为负样本集合,分别为仏训练SVM线性分类器C1,C1能用于对视觉单词G1的检 测; (5) 获得视觉词典,经过(4)的迭代训练后,得到由多个视觉单词61组成的词典G,G中的 每一个视觉单词包含了对应的深度图和分类器,应用视觉词典对2D图像进行视觉单词检 测,进而恢复深度图; 所述深度图生成阶段包括如下步骤: 对于给定的2D图像,使用以下步骤生成深度图: (a) 生成初始深度图De,De的分辨率与2D图像相同,坐标(i,j)处的深度值De由以下公 式给出:式中,rows为De的行数,d表示深度图量化比特数; (b) 生成深度图,基于视觉词典,采用其中的SVM分类器对2D图像进行检测,若检测出视 觉单词,则用该视觉单词的深度块取代De中的对应区域; (c) 深度图平滑,对(b)中得到的深度图进行双边滤波,得到最终的深度图。2. 根据权利要求1所述的基于视觉词典的深度图生成方法,其特征为:步骤(a)所述深 度图量化比特数d为8,即深度值的范围为0~255。3. 根据权利要求1所述的基于视觉词典的深度图生成方法,其特征为:视觉词典中的视 觉单词,定义为具有相似深度结构的图像块集合。4. 根据权利要求1中所述的基于视觉词典的深度图生成方法,其特征为:在步骤(2.2) 中,通过对深度图建立图像金字塔,然后在图像金字塔中以相应比例进行采样,即图像金字 塔的底层的尺度越大,则采样越大数目的深度图块;相应地,越往顶层,采样的数目就越少。
【专利摘要】本发明公开了一种基于视觉词典的深度图生成方法。该方法首先训练视觉词典,然后以视觉词典为工具,生成2D图像的深度图。视觉词典训练包括:1、采用图像-深度图对作为目标图像库;2、对目标图像库的深度图进行随机块采样,得到深度图块样本集;3、对样本集进行k均值聚类;4、对每一类,通过交叉验证训练,得到具有相似的深度图结构视觉单词;5、视觉词典由各个视觉单词组成。深度图生成步骤包括:1、生成初始深度图;2、基于视觉词典对2D图像进行检测,更新初始深度图;3、深度图平滑。本发明所得的深度图,可用于2D到3D的转换等,对比已有的深度图生成方法,本发明具有适用场景广阔,转换效果较符合人们观景感受等优点。
【IPC分类】G06K9/62, G06T7/00
【公开号】CN105488785
【申请号】CN201510820941
【发明人】刘杰平, 余朗衡, 韦岗
【申请人】华南理工大学
【公开日】2016年4月13日
【申请日】2015年11月23日

最新回复(0)