基于多模态自编码模型的单视角视频人体姿态恢复方法

xiaoxiao2020-10-23 17

基于多模态自编码模型的单视角视频人体姿态恢复方法
【技术领域】
[0001] 本发明涉及计算机视觉领域，尤其涉及单视角视频中人体三维姿态的恢复方法。
【背景技术】
[0002] 人体姿态恢复的目的是将单视角视频中人体的三维骨架精准的提取出来。利用普通单视角视频进行人体三维运动恢复在运动捕获、三维动画、智能视频监控以及人机交互等方面有广泛的应用。通常可形式化地用Yc 表示姿态矢量空间，用X(=IT表示图像特征空间，要求对任意给定xeX计算其对应的yeY。但这是很困难的，因为从X到Y的映射非常复杂且不是一对一的。常见的恢复从X到Y的映射的方法可分为两类：生成式模型方法和样例学习方法。虽然从X到Y的映射很复杂，但其反向映射Y-X具有完整的定义，即给定一个姿态，总能很好的找到对应的图像。因此，生成式模型方法将姿态恢复表达为优化问题argminyl(f(y)-x)。其中1是空间X的距离函数，即寻找一个最佳姿态，该姿态下植染出的图像和视频图像最匹配。Deutscher等采用粒子滤波框架进行快速优化，Chen 等采用马尔科夫网络和梯度算法进行基于概率的姿态估计，Zhao等采用PCA对解空间进行降维，并提出分层的模拟退火遗传算法进行优化搜索。生成式模型方法难以解决数值优化的计算复杂度高，以及局部最小值问题。
[0003] 样例学习方法则假定已知一些对应的图像和姿态样本，以此训练一个从X到Y的映射m。该映射可以是函数拟合，如神经网络、相关向量机、径向基函数、贝叶斯混合专家模型进行拟合，也可以是关系数据库查找表。总的来说，样例学习方法主要由三个步骤组成： 1)在图像上提取视觉特征；2)利用机器学习算法建立图像特征与三维姿态之间的映射挂系；3)依据已建立的映射关系，从图像中恢复三维姿态。当前的样例学习方法主要存在以下两个问题：难以有效建立二维图像到三维姿态之间的映射关系，难以有效描述图像与三维姿态的视觉特征。

【发明内容】

[0004] 本发明的目的在于针对现有技术的不足，提供一种基于多层感知器模型的三维姿态重建方法。本发明解决其技术问题所采用的技术方案包括以下步骤：
[0005] 步骤1、在提取视觉特征的过程中，针对图像的形状、颜色、边界等多种视觉特征，采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征；
[0006] 步骤2、在内在特征提取过程中，通过训练自编码模型分别获得图像与三维姿态的内在特征；
[0007] 步骤3、基于步骤2获得图像与三维姿态的内在特征，采用无监督流形对齐技术，将图像与三维姿态的内在特征投影到一个共享的低维空间中，获得低维特征；
[0008] 步骤4、在训练多层感知器网络的过程中，基于步骤3已获得的图像与三维姿态的低维特征，再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系；
[0009] 步骤5、在训练多层感知器网络的过程中，利用步骤2中的自编码模型，步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型，构建五层的全新感知器网络，以图像块作为输入，三维人体姿态作为输出，微调五层全新感知器网络的参数；
[0010] 步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建，以图像的多种视觉特征作为输入，得到的输出即为对应三维姿态。
[0011] 步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉特征，具体如下：
[0012] 1-1.提取训练图像的多种模态特征x(1)，X(2)，…，X(m)，其中m表示特征的类型和数量。
[0013] 1-2.给定一个矩阵特征向量Xu)，在该特征下的样本近邻矩阵通过求解以下目标函数获得：
[0015] s.t.X(J)=X(J)Q〇+E〇
[0016] 其中，|卜|L表示核函数，|卜|Ui是指L21范数，参数入>0则用于平衡两部分的影响，Xu)表示X的第j种特征。最优化得到的Q^自然的形成一个近邻矩阵。
[0017] 1-3.针对多种模态特征，采用多任务低秩近邻矩阵求解，其目标函数是：
[0019]s.t.X(J) =X(J)Q(J)+E(J),j= 1, -,m
[0020] 其中a>〇是给定的参数，Q是将多特征下的矩阵Q1，Q2,…，Qm连接起来获得
[0022] 1-4.依据得到的近邻矩阵Q，构建样本数据的流形空间，采用超图学习技术构建出流形矩阵L，并通过特征根矩阵分解得到图像数据的统一视觉特征表示)T。
[0023] 步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征，具体如下：
[0024] 2-1.提取训练库中的姿态数据yi，y2，…，yjP对应的图像的统一视觉特征
[0025] 2-2.为了得到姿态数据的内在特征表示，采用自编码模型，假设编码层的参数为和bf，而解码层的参数为1Wf和bf。自编码模型以原始数据ypy2，…，yn作为输入，通过训练使得输出的结果与原始的输入数据相同，其目标函数l3D如公式4所示：
[0027] 其中
为 sigmoid函数。
[0028] 2-3?利用Feedforward和Backpropagation算法对目标函数13D进行优化，得到目标参数^^与1)^，并计算得到hf为乃的内在特征。
[0029] 2-4.为了得到图像数据的内在特征表示，采用自编码模型，假设编码层的参数为1WiW和bf，而解码层的参数为。自编码模型是以统一表示特征数据 x^,x%2，...,x=作为输入，其目标函数i2D如公式5所示：
[0031] 其中，表示第j个输入数据，而g表示第j个输入数据<对应的输出数据。
[0032] 2-5?利用Feedforward和Backpropagation算法对目标函数121)进行优化，得到目标参数与bf，并计算得到hf5为&的内在特征。
[0033] 步骤3所述的采用无监督流形对齐技术，将图像与三维姿态的内在特征h2D与h3D 投影到一个共享的低维空间中，具体如下：
[0034]3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D。
[0035]3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D，则无监督流形对齐的目标函数是：
[0037] 其中D(t2D，t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离，第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系，Wg计算了图像样本X丨与 <的内在表示之间的距离，而1则计算了三维姿态样本7占 7」的内在表示之间的距离。
[0038] 3-3.采用一定的数学变换，公式（6)能表示为：Q(t) =tLtT，其中L是拉普拉斯 (laplacian)矩阵，具体计算如下：
[0040] 其中，L2D描述了图像内在特征的laplacian矩阵，L311描述了三维骨架姿态内在特征的laplacian矩阵，V2D，V2D3D，V3D211与V311则是对角线上元素非0的矩阵，这些矩阵的计算方式如下：
[0042] 其中V(g)用于统一表示矩阵V2D，V2D3D，V3D2D与V3D。
[0043] 3-4.采用线性投影技术和特征根分解技术，对laplacian矩阵L采用特征根分解，分别得到内在表示h2D与h3D的低维空间投影矩阵a与0。
[0044] 步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系，具体步骤是：
[0045] 构建一个神经网络模型，设其权重矩阵扩，偏移矩阵为bN，输入为低分辨率图像块的低维特征t2D，输出为t3D，其目标函数如公式8所示：
[0047] 其中
「为sigmoid函数。
[0048] 步骤5所述的生成一个五层的全新感知器网络，该网络以图像的统一视觉特征作为输入，得到的输出即为对应的三维姿态恢复结果，从而实现快速的图像姿态恢复，具体如下：
[0049] 5-1.构建五层的全新感知器网络，其第i层的权重矩阵为1，偏移矩阵为h，参数的初始化为
W2=a，b2= 0,W3=WN，b3=bN，W4= |3，b4= 0，
[0050] 5-2?用backpropogation算法优化目标函数，并得到以上参数。
[0051] 5-3.训练结束后，将数据库中的任意图像作为五层感知器网络的输入，得到的输出就是重建的三维姿态数据。
[0052] 本发明具有的有益的效果如下：
[0053] 通过学习提取图像和三维姿态的特征和学习图像和三维姿态之间的非线性映射关系，指导三维姿态的重建过程，不仅提高了重建结果的质量，而且使得重建的时间大大缩短，可以达到实时的要求。
【附图说明】
[0054] 图1是本发明流程图；
[0055] 图2是基于超图学习的多模态低秩矩阵表示获得图像的视觉特征示意图；
[0056] 图3是本发明基于多层感知网络的三维姿态恢复的训练过程框架示意图；
[0057] 图4是将图像与三维姿态的内在特征投影到一个共享的低维空间中示意图；
【具体实施方式】
[0058] 下面结合附图对本发明作进一步说明。
[0059] 如图1所示，基于多模态自编码模型的单视角视频人体姿态恢复方法，具体包括如下步骤：
[0060] 步骤1、在提取视觉特征的过程中，针对图像的形状、颜色、边界等多种视觉特征，采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征；
[0061] 步骤2、在内在特征提取过程中，通过训练自编码模型分别获得图像与三维姿态的内在特征；
[0062] 步骤3、基于步骤2获得图像与三维姿态的内在特征，采用无监督流形对齐技术，将图像与三维姿态的内在特征投影到一个共享的低维空间中，获得低维特征；
[0063] 步骤4、在训练多层感知器网络的过程中，基于步骤3已获得的图像与三维姿态的低维特征，再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系；
[0064] 步骤5、在训练多层感知器网络的过程中，利用步骤2中的自编码模型，步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型，构建五层的全新感知器网络，以图像块作为输入，三维人体姿态作为输出，微调五层全新感知器网络的参数；
[0065] 步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建，以图像的多种视觉特征作为输入，得到的输出即为对应三维姿态。
[0066] 如图2所示，步骤1所述的基于超图学习的多模态低秩矩阵表示获得图像的视觉特征，具体如下：
[0067] 1-1.提取训练图像的多种模态特征X(1)，X(2)，…，Xw，其中m表示特征的类型和数量。
[0068] 1-2.给定一个矩阵特征向量Xu)，在该特征下的样本近邻矩阵通过求解以下目标函数获得：
[0070] s.t.X(J)=X(J)Q〇+E〇
[0071] 其中，|卜|L表示核函数，|卜|Ui是指L21范数，参数入>0则用于平衡两部分的影响，Xu)表示X的第j种特征。最优化得到的Q^自然的形成一个近邻矩阵。
[0072] 1-3.针对多种模态特征，采用多任务低秩近邻矩阵求解，其目标函数是：
[0074] s.t.X(J) =X(J)Q(J)+E(J),j= 1, - ,m
[0075] 其中a>〇是给定的参数，Q是将多特征下的矩阵Q1，Q2,…，Qm连接起来获得
[0077] 1-4.依据得到的近邻矩阵Q，构建样本数据的流形空间，采用超图学习技术构建出流形矩阵L，并通过特征根矩阵分解得到图像数据的统一视觉特征表示)T。
[0078] 如图3所示，步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征，具体如下：
[0079] 2-1.提取训练库中的姿态数据yi，y2，…，yjP对应的图像的统一视觉特征
[0080] 2-2.为了得到姿态数据的内在特征表示，采用自编码模型，假设编码层的参数为 WfD和bf，而解码层的参数为1Wf5和1>=。自编码模型以原始数据yi，y2，…，yn作为输入，通过训练使得输出的结果与原始的输入数据相同，其目标函数13D如公式4所示：
sigmoid函数。
[0083] 2-3?利用Feedforward和Backpropagation算法对目标函数131)进行优化，得到目标参数Wf75与bf，并计算得到hf为乃的内在特征。
[0084] 2-4.为了得到图像数据的内在特征表示，采用自编码模型，假设编码层的参数为Wi215和bf，而解码层的参数为1Wf和bf。自编码模型是以统一表示特征数据，x;，…，x;作为输入，其目标函数i2D如公式5所示：
[0086] 其中，<表示第j个输入数据，而g表示第j个输入数据x丨对应的输出数据。
[0087] 2-5?利用Feedforward和Backpropagation算法对目标函数12D进行优化，得到目标参数Wf"5与bf，并计算得到hf5为&的内在特征。
[0088] 如图4所示，步骤3所述的采用无监督流形对齐技术，将图像与三维姿态的内在特征h2D与h3D投影到一个共享的低维空间中，具体如下：
[0089]3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D。 [0090] 3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D，则无监督流形对齐的目标函数是：
[0092] 其中D(t2D，t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离，第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系，1wg计算了图像样本 <与< 的内在表示之间的距离，而1wg则计算了三维姿态样本^与。的内在表示之间的距离。
[0093] 3-3.采用一定的数学变换，公式（6)能表示为：Q(t) =tLtT，其中L是拉普拉斯 (laplacian)矩阵，具体计算如下：
[0095] 其中，L2D描述了图像内在特征的laplacian矩阵，L311描述了三维骨架姿态内在特征的laplacian矩阵，V2D，V2D3D，V3D211与V311则是对角线上元素非0的矩阵，这些矩阵的计算方式如下：
[0097] 其中V(g)用于统一表示矩阵V2D，V2D3D，V3D211 与V3D。
[0098] 3-4.采用线性投影技术和特征根分解技术，对laplacian矩阵L采用特征根分解，分别得到内在表示h2D与h3D的低维空间投影矩阵a与0。
[0099] 如图2所示，步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系，具体步骤是：
[0100] 构建一个神经网络模型，设其权重矩阵扩，偏移矩阵为bN，输入为低分辨率图像块的低维特征t2D，输出为t3D，其目标函数如公式8所示：
[0102] 其中
为sigmoid函数。
[0103] 步骤5所述的生成一个五层的全新感知器网络，该网络以图像的统一视觉特征作为输入，得到的输出即为对应的三维姿态恢复结果，从而实现快速的图像姿态恢复，具体如下：
[0104] 5-1.构建五层的全新感知器网络，其第i层的权重矩阵为1，偏移矩阵为h，参数的初始化为
，W2=a，b2= 0,W3=WN，b3=bN，W4= |3，b4= 0，
[0105] 5-2?用backpropogation算法优化目标函数，并得到以上参数。
[0106] 5-3.训练结束后，将数据库中的任意图像作为五层感知器网络的输入，得到的输出就是重建的三维姿态数据。
【主权项】
1. 一种基于多层感知器模型的三维姿态重建方法，其特征在于包括以下步骤：步骤1、在提取视觉特征的过程中，针对图像的形状、颜色、边界等多种视觉特征，采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征；步骤2、在内在特征提取过程中，通过训练自编码模型分别获得图像与三维姿态的内在特征；步骤3、基于步骤2获得图像与三维姿态的内在特征，采用无监督流形对齐技术，将图像与三维姿态的内在特征投影到一个共享的低维空间中，获得低维特征；步骤4、在训练多层感知器网络的过程中，基于步骤3已获得的图像与三维姿态的低维特征，再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系；步骤5、在训练多层感知器网络的过程中，利用步骤2中的自编码模型，步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型，构建五层的全新感知器网络，以图像块作为输入，三维人体姿态作为输出，微调五层全新感知器网络的参数；步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建，以图像的多种视觉特征作为输入，得到的输出即为对应三维姿态。2. 如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法，其特征在于步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉特征，具体如下： 1-1.提取训练图像的多种模态特征X(1)，X(2)，...，Xw，其中m表示特征的类型和数量； 1-2.给定一个矩阵特征向量Χω，在该特征下的样本近邻矩阵通过求解以下目标函数获得：其中，M · I L表示核函数，M · I U1是指L21范数，参数λ>〇则用于平衡两部分的影响，Χω表示X的第j种特征；最优化得到的Q C1自然的形成一个近邻矩阵； 1-3.针对多种模态特征，采用多任务低秩近邻矩阵求解，其目标函数是：其中α >〇是给定的参数，Q是将多特征下的矩阵Q1，Q2, ...，Qm连接起来获得1-4.依据得到的近邻矩阵Q，构建样本数据的流形空间，采用超图学习技术构建出流形矩阵L，并通过特征根矩阵分解得到图像数据的统一视觉特征表示)Τ。3. 如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法，其特征在于步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征，具体如下： 2-1.提取训练库中的姿态数据yi，y2，...，yi^P对应的图像的统一视觉特征 2-2.为了得到姿态数据的内在特征表示，采用自编码模型，假设编码层的参数为W13" 3 和bf，而解码层的参数为1Wf5和bf;自编码模型以原始数据yi，y 2,...，7"作为输入，通过训练使得输出的结果与原始的输入数据相同，其目标函数I3d如公式4所示： sigmoid 凼数；2-3.利用Feedforward和Backpropagation算法对目标函数I3d进行优化，得到目标参数1W13z>与bf，并计算得到h3/为乃的内在特征； 2-4.为了得到图像数据的内在特征表示，采用自编码模型，假设编码层的参数为1W12^ 和bf，而解码层的参数为1;自编码模型是以统一表示特征数据<，<，..·，<作为输入，其目标函数I2d如公式5所示：其中，<表示第j个输入数据，而 < 表示第j个输入数据<对应的输出数据； 2- 5.利用Feedforward和Backpropagation算法对目标函数12D进行优化，得到目标参数与bf，并计算得到!!^为&的内在特征。4. 如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法，其特征在于步骤3所述的采用无监督流形对齐技术，将图像与三维姿态的内在特征h2D与h 3D投影到一个共享的低维空间中，具体如下： 3- 1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h 3D; 3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D，则无监督流形对齐的目标函数是：其中〇(t2D，t3D)的第一项统计了 h2D与h3D对应的低维表示在新空间中的距离，第二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系，计算了图像样本<与< 的内在表示之间的距离，而则计算了三维姿态样本y# y」的内在表示之间的距离； 3-3.采用一定的数学变换，公式（6)能表示为：Q(t) =tLtT，其中L是拉普拉斯 (Iaplacian)矩阵，具体计算如下：其中，L2d描述了图像内在特征的Iaplacian矩阵，L 3D描述了三维骨架姿态内在特征的 Iaplacian矩阵，V2D，V2D3D，V3d2d与V 311则是对角线上元素非O的矩阵，这些矩阵的计算方式如下：其中V(g)用于统一表示矩阵V 2D，V2D3D，V3d2d与V 3D; 3-4.采用线性投影技术和特征根分解技术，对Iaplacian矩阵L采用特征根分解，分别得到内在表示h2D与h3D的低维空间投影矩阵α与β。5. 如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法，其特征在于步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的非线性映射关系，具体步骤是：构建一个神经网络模型，设其权重矩阵Wn，偏移矩阵为bN，输入为低分辨率图像块的低维特征t2D，输出为t3D，其目标函数如公式8所示：% sigmoid 函数。6. 如权利要求1所述的一种基于多层感知器模型的三维姿态重建方法，其特征在于步骤5所述的生成一个五层的全新感知器网络，该网络以图像的统一视觉特征作为输入，得到的输出即为对应的三维姿态恢复结果，从而实现快速的图像姿态恢复，具体如下： 5-1.构建五层的全新感知器网络，其第i层的权重矩阵为Wi，偏移矩阵为Iv参数的初始化为：W1 = Wj2￡>，Ij1 =bf，W2= α，b 2= 0, W 3= W N，b3= b N，W4= β，b 4= 0， W5 = Wf, b5=bf ； 5-2.用backpropogation算法优化目标函数，并得到以上参数； 5-3.训练结束后，将数据库中的任意图像作为五层感知器网络的输入，得到的输出就是重建的三维姿态数据。
【专利摘要】本发明公开了一种基于多层感知网络的单视角视频人体三维姿态恢复的方法。本发明包括以下步骤：1、采用基于超图学习的多模态低秩矩阵表示获得图像的视觉特征；2、通过训练自编码模型获得图像与三维姿态的内在特征；3、采用无监督流形对齐技术，将图像与三维姿态的内在特征投影到一个共享的低维空间中；4、训练神经网络用于学习图像与三维姿态之间的映射关系；5、利用自编码模型，无监督流形对齐模型及神经网络模型，构建五层感知器网络，并微调五层网络的参数；6、以图像的多种视觉特征作为输入，得到的输出即为对应三维姿态。本发明不仅提高了三维姿态恢复的质量，而且缩短了姿态恢复的时间，可达到实时姿态恢复的要求。
【IPC分类】G06T7/00, G06T17/00
【公开号】CN104899921
【申请号】CN201510305802
【发明人】俞俊, 洪朝群
【申请人】杭州电子科技大学
【公开日】2015年9月9日
【申请日】2015年6月4日

2012-2014专利技术

最新回复(0)