一种基于视频尺度信息的视频分类方法

xiaoxiao2021-2-25 337

一种基于视频尺度信息的视频分类方法
【技术领域】
[0001] 本发明设及视频处理领域，尤其是设及一种基于视频尺度信息的视频分类方法。
【背景技术】
[0002] 随着科技的发展，越来越多的带有摄像功能的电子设备进入大众的家庭中，人们常常使用手机或者数码摄像机将身边有趣的人或事及时记录下来，上传到在网络中的视频分享网站或者直接发送给亲朋好友互相分享。视频分享网站每天都有数W万计的视频上传，因此自动化的管理就显得较为重要，其中基于视频特征向量的特征编码算法是其中较为重要的技术。
[0003] 基于视频特征向量的特征编码算法将特征向量与聚类中屯、的信息量如权重、均值、方差等，有效地编码进视频描述向量中，从而在主流的人体动作检测数据集中表现出了不错的结果。目前，该技术还存在W下问题：
[0004] 第一，只考虑了与特征向量与聚类中屯、的关系，而没有考虑特征向量在视频中所处的位置信息W及尺度信息。
[000引第二，虽然现有算法识别率较高，但是由于缺少位置信息及尺度信息，未能在有限的维度中发挥系统的识别能力。
[0006] 基于尺度信息的特征编码算法是将空间尺度信息和时间尺度信息编码进高斯混合模型中，从而得到具有尺度信息的费舍尔向量。运种算法能够更好的在有限维度中提升系统的识别准确率。

【发明内容】

[0007] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种新的，鲁棒性好，准确度更高的基于视频尺度信息的视频分类方法。
[0008] 本发明的目的可W通过W下技术方案来实现：
[0009] -种基于视频尺度信息的特征编码方法，包括步骤：
[0010] 1)将视频数据集划分为训练数据和测试数据，提取每个视频的特征点W及特征点的轨迹，并得到视频的空间尺度W及时间尺度；
[0011] 2)使用基于轨迹使用描述算法，通过计算特征点邻域的梯度直方图向量、光流直方图向量、X分量运动边界直方图向量和y分量运动边界直方图向量，得到特征描述向量；
[0012] 3)使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半；
[0013] 4)利用基于尺度空间的高斯混合模型对训练数据中的特征描述向量进行聚类，再生成视频数据集中每一个视频的费舍尔向量；
[0014] 5)使用训练数据中得到的费舍尔向量，训练得到线性支持向量机分类模型；
[0015] 6)使用线性支持向量机分类模型对测试数据中的视频进行分类。
[0016] 所述步骤1)中特征点W及特征点的轨迹的提取过程具体包括步骤：
[0017] 11)提取视频中的每一帖，W怎为缩放因子构建空间金字塔作为尺度空间，设任一尺度空间上当前帖为Icurrent，前一帖Icurrent-1，其中，所述空间金字塔的层数即为尺度空间的个数；
[0018] 12)提取出每一帖中的特征点；
[0019] 13)对于任一尺度空间，计算光流矩阵；
[0020] 14)在对应尺度空间上，计算从前一帖计算得到的特征点在当前帖中的位移之后的位置：
[0021 ] Xcurrent ( X , y ) = Xcurrent-l ( X , y ) +W
[002引其中：Xcurrent ( X，y )为特征点在当前帖中的位置，Xcurrent-l ( X，y )为特征点在前一帖中的位置，W为光流矩阵；
[0023] 15)在对应尺度空间上，通过稠密光流在15帖的时间范围内追踪特征点的位置，W 此形成运动轨迹，并将该尺度空间在空间金字塔中的层序定义空间尺度0,特征点在15帖的时间范围内运动的轨迹长度定义为时间尺度τ。
[0024] 所述步骤11)具体为:提取视频中的每一帖，W VI为缩放因子，将视频中每一帖的长宽按照廣的倍数的比例进行大小缩放，得到相同长宽比，但大小不同的一组图片，运组图片构建空间金字塔作为尺度空间，设任一尺度空间上当前帖为Icurrent，前一帖Icurrent-l。
[0025] 所述步骤2)具体包括步骤：
[0026] 21似每一个特征点为中屯、，在灰度图像矩阵的32 X 32 X 15像素区域内，计算该区域的梯度直方图向量，其维度为96维；
[0027] 22)在稠密光流矩阵的32X32X 15像素区域内，计算该区域的光流直方图向量，其维度为108维；
[0028] 23)使用Sobel算子计算光流矩阵X分量的梯度Mx和y分量的梯度My，W每一个特征点为中屯、，在矩阵Mx和My的32X32X 15像素区域内，分别计算上述区域的X分量运动边界直方图和y分量运动边界直方图向量，其维度分别为96维；
[0029] 24似每一个特征点为中屯、，在连续15帖的范围内，将运个特征点的X方向和y方向的位移连接起来，得到轨迹的特征描述向量，其维度为30维；
[0030] 25)用有符号平方根L1归一化方法对上述特征描述向量进行归一化操作。
[0031] 所述步骤4)具体包括步骤：
[0032] 41)构建高斯混合模型：
[0033]
[0034] 其中：p(yt，s〇为高斯混合模型，叫为第i个针对特征描述向量的高斯分量的权重，K为针对特征描述向量的高斯分量的数目，yt为第t个特征点对应的特征描述向量，μι 为的均值，Σι为巧^的协方差矩阵，、1为的高斯分量的第j个针对尺度信息的高斯分量妃?的权重，St为第t个特征点对应的尺度信息Λι为P边的均值，Zji为始4的协方差矩阵，N( ·)为高斯密度函数；
[0035] 42)对每一个高斯分量，计算其费舍尔向量值；
[0036]
[0037] 其中：FVi，FV2，FV3，FV4，FVs，FVs为费舍尔向量值，qi (t)为基于特征描述向量和的后验概率，rw(t)为基于尺度信息和的后验概率，diag( ·)为向量的对角阵表达式；
[003引 43)将向量FVi，FV2，FV3，FV4，FVs，FV6在每一个高斯分量上进行串联，得到该视频的费舍尔向量，该向量的维度是2D+1+J(2T+1)化，其中T为尺度信息的维度。
[0039] 所述基于特征描述向量和piw的后验概率具体为：
[0040]
[0041] 所述基于尺度信息和的后验概率具体为：
[0042]
[0043] 与现有技术相比，本发明具有W下优点：
[0044] 1)本方法通过修改高斯混合模型，使之能将尺度信息编码进高斯混合模型中，并通过计算费舍尔向量，将时空尺度信息编码进视频的描述向量中，与传统方法相比，此方法有更好的鲁棒性；
[004引2)本发明的识别准确率优于在化11 ywood2、HMDB51视频数据集上的主流算法，并且具有较高的计算效率。
【附图说明】
[0046] 图1为本发明的主要步骤流程示意图；
[0047] 图2为使用本方法进行训练W及测试的结果示意图。
【具体实施方式】
[0048] 下面结合附图和具体实施例对本发明进行详细说明。本实施例W本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。
[0049] -种基于视频尺度信息的视频分类方法，如图1所示，包括步骤：
[0050] 1)将视频数据集划分为训练数据和测试数据，提取每个视频的特征点W及特征点的轨迹，并得到视频的空间尺度W及时间尺度，其中特征点W及特征点的轨迹的提取过程具体包括步骤：
[0051] 11)提取视频中的每一帖，W 为缩放因子构建空间金字塔作为尺度空间，设任一尺度空间上当前帖为Icurrent，前一帖Icurrent-1，其中，空间金字塔的层数即为尺度空间的个数，具体为:提取视频中的每一帖，W怎为缩放因子，将视频中每一帖的长宽按照怎的倍数的比例进行大小缩放，得到相同长宽比，但大小不同的一组图片，运组图片构建空间金字塔作为尺度空间，设任一尺度空间上当前帖为Icurrent，前一帖Icurrent-1;
[0052] 12)提取出每一帖中的特征点；
[0053] 13)对于任一尺度空间，计算光流矩阵；
[0054] 14)在对应尺度空间上，计算从前一帖计算得到的特征点在当前帖中的位移之后的位置：
[00巧]Xcurrent ( X , y ) = Xcurrent-1 ( X , y ) +W
[0056] 其中：Xcurrent ( X，y )为特征点在当前帖中的位置，Xcurrent-l ( X，y )为特征点在前一帖中的位置，W为光流矩阵；
[0057] 15)在对应尺度空间上，通过稠密光流在15帖的时间范围内追踪特征点的位置，W 此形成运动轨迹，并将该尺度空间在空间金字塔中的层序定义空间尺度0,特征点在15帖的时间范围内运动的轨迹长度定义为时间尺度τ，首先，轨迹(光流)的意思是，一个特征点在连续15帖中运动的位置，把运些位置记录下来即为轨迹，所W-条轨迹将对应15个特征点 (每帖之中有一个特征点对应），计算轨迹的时候，是根据第一个特征点的某个空间尺度进行计算的。所W对于某一条轨迹的空间尺度是一定的。而时间尺度的定义为一条轨迹在15 帖之内运动的像素点的距离。所W对于一条轨迹来说，时间尺度也是一定的。
[0058] 2)使用基于轨迹使用描述算法，通过计算特征点邻域的梯度直方图向量、光流直方图向量、X分量运动边界直方图向量和y分量运动边界直方图向量，得到特征描述向量，具体包括步骤：
[0059] 21) W每一个特征点为中屯、，在灰度图像矩阵的32 X 32 X 15像素区域内，计算该区域的梯度直方图向量，其维度为96维；
[0060] 22)在稠密光流矩阵的32X32X 15像素区域内，计算该区域的光流直方图向量，其维度为108维；
[0061] 23)使用Sobel算子计算光流矩阵X分量的梯度Mx和y分量的梯度My，W每一个特征点为中屯、，在矩阵Mx和My的32X32X 15像素区域内，分别计算上述区域的X分量运动边界直方图和y分量运动边界直方图向量，其维度分别为96维；
[0062] 24) W每一个特征点为中屯、，在连续15帖的范围内，将运个特征点的X方向和y方向的位移连接起来，得到轨迹的特征描述向量，其维度为30维；
[0063] 25)用有符号平方根L1归一化方法对上述特征描述向量进行归一化操作。
[0064] 3)使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半；
[0065] 4)利用基于尺度空间的高斯混合模型对训练数据中的特征描述向量进行聚类，再生成视频数据集中每一个视频的费舍尔向量，具体包括步骤：
[0066] 41)构建高斯混合模型：
[0067]
[0068] 其中：p(yt，s〇为高斯混合模型，叫为第i个针对特征描述向量的高斯分量片W的权重，K为针对特征描述向量的高斯分量的数目，yt为第t个特征点对应的特征描述向量，μι 为的均值，Σι为片W的协方差矩阵，、1为拓y，p的高斯分量的第j个针对尺度信息的高斯分量的权重，St为第t个特征点对应的尺度信息，8^为法的均值，为P己，的协方差矩阵，N( ·)为高斯密度函数：
[0069]
[0070] 42)对每一个高斯分量，计算其费舍尔向量值；
[0071]
[007引其中：FVi，FV2，FV3，FV4，FVs，FV6为费舍尔向量值，qi (t)为基于特征描述向量和的后验概率，rji(t)为基于尺度信息和/4^。的后验概率，diag( ·)为向量的对角阵表达式；
[0073] 43)将向量FVi，FV2，FV3，FV4，FVs，FV6在每一个高斯分量上进行串联，得到该视频的费舍尔向量，该向量的维度是2D+1+J(2T+1)化，其中T为尺度信息的维度。
[0074] 基于特征描述向量和/4p的后验概率具体为：
[0075]
[0076] 其中：1为针对特征向量的高斯混合模型的序号，j为针对尺度信息的高斯混合模型的序号；
[0077] 基于尺度信息和pj法的后验概率具体为：
[007 引
[0079] 5)使用训练数据中得到的费舍尔向量，训练得到樂性支持向量机分类模型；
[0080] 6)使用线性支持向量机分类模型对测试数据中的视频进行分类。
[0081 ]为了验证本申请方法的性能，设计了 W下实验。
[0082] 如图2所示，在两个公开数据集上化ollywood2、HMDB51)使用本方法进行训练W及测试，其中使用稠密采样提取特征点，使用化rneback算法跟踪特征点形成光流，使用Traj、化GJoF、MMl四个描述算法进行特征描述。使用基于尺度信息的高斯混合模型进行聚类，聚类维度设置为256,使用基于尺度信息的费舍尔向量生成视频描述向量。在化llywood2和歷0851上分别获得66.53%^及60.56%。
【主权项】
1. 一种基于视频尺度信息的视频分类方法，其特征在于，包括步骤： 1) 将视频数据集划分为训练数据和测试数据，提取每个视频的特征点以及特征点的轨迹，并得到视频的空间尺度以及时间尺度； 2) 使用基于轨迹使用描述算法，通过计算特征点邻域的梯度直方图向量、光流直方图向量、X分量运动边界直方图向量和y分量运动边界直方图向量，得到特征描述向量； 3) 使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半； 4) 利用基于尺度空间的高斯混合模型对训练数据中的特征描述向量进行聚类，再生成视频数据集中每一个视频的费舍尔向量； 5) 使用训练数据中得到的费舍尔向量，训练得到线性支持向量机分类模型； 6) 使用线性支持向量机分类模型对测试数据中的视频进行分类。2. 根据权利要求1所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤1)中特征点以及特征点的轨迹的提取过程具体包括步骤： 11) 提取视频中的每一帧，以在为缩放因子构建空间金字塔作为尺度空间，设任一尺度空间上当前帧为I?nt，前一帧其中，所述空间金字塔的层数即为尺度空间的个数； 12) 提取出每一帧中的特征点； 13) 对于任一尺度空间，计算光流矩阵； 14) 在对应尺度空间上，计算从前一帧计算得到的特征点在当前帧中的位移之后的位置： Xcurrent ( X , y ) - Xcurrent-I ( X , y ) +W 其中：Xmnt ( X , y )为特征点在当前帧中的位置，Xcmrrent-1 ( X , y )为特征点在前一帧中的位置，W为光流矩阵； 15) 在对应尺度空间上，通过稠密光流在15帧的时间范围内追踪特征点的位置，以此形成运动轨迹，并将该尺度空间在空间金字塔中的层序定义空间尺度σ，特征点在15帧的时间范围内运动的轨迹长度定义为时间尺度τ。3. 根据权利要求2所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤11)具体为：提取视频中的每一帧，以万为缩放因子，将视频中每一帧的长宽按照在的倍数的比例进行大小缩放，得到相同长宽比，但大小不同的一组图片，这组图片构建空间金字塔作为尺度空间，设任一尺度空间上当前帧为Imnt，前一帧Imnt-I。4. 根据权利要求2所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤2)具体包括步骤： 21) 以每一个特征点为中心，在灰度图像矩阵的32 X 32 X 15像素区域内，计算该区域的梯度直方图向量，其维度为96维； 22) 在稠密光流矩阵的32X32 X 15像素区域内，计算该区域的光流直方图向量，其维度为108维； 23) 使用Sobel算子计算光流矩阵X分量的梯度Mx和y分量的梯度My，以每一个特征点为中心，在矩阵M x和My的32 X32X 15像素区域内，分别计算上述区域的X分量运动边界直方图和y分量运动边界直方图向量，其维度分别为96维； 24) 以每一个特征点为中心，在连续15帧的范围内，将这个特征点的X方向和y方向的位移连接起来，得到轨迹的特征描述向量，其维度为30维； 25) 用有符号平方根Ll归一化方法对上述特征描述向量进行归一化操作。5. 根据权利要求4所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述步骤4)具体包括步骤： 41) 构建高斯混合模型：其中:p(yt，St)为高斯混合模型，Jii为第i个针对特征描述向量的高斯分量的权重，K 为针对特征描述向量的高斯分量的数目，yt为第t个特征点对应的特征描述向量，的均值，Σ ,为的协方差矩阵，λ#为的高斯分量的第j个针对尺度信息的高斯分量 C的权重，St为第t个特征点对应的尺度信息，δ#为/^的均值，Zji为的协方差矩阵，N (·)为高斯密度函数； 42) 对每一个高斯分量，计算其费舍尔向量值；其中:FV1，FV2，FV3，FV4，FV 5，FV6为费舍尔向量值，qi⑴为基于特征描述向量和义p的后验概率，rjl(t)为基于尺度信息和的后验概率，diag( ·)为向量的对角阵表达式； 43) 将向量FV1，FV2，FV3，FV4，FV 5，FV6在每一个高斯分量上进行串联，得到该视频的费舍尔向量，该向量的维度是2D+1+J(2T+1))K，其中T为尺度信息的维度。6. 根据权利要求5所述的一种基于视频尺度信息的视频分类方法，其特征在于，所述基于特征描述向量和的后验概率具体为：所述基于尺度信息和的后验概率具体为：
【专利摘要】本发明涉及一种基于视频尺度信息的视频分类方法，包括步骤：1)将视频数据集划分为训练数据和测试数据，提取每个视频的特征点以及特征点的轨迹，并得到视频的空间尺度以及时间尺度；2)使用基于轨迹使用描述算法，通过计算特征点邻域的梯度直方图向量、光流直方图向量、x分量运动边界直方图向量和y分量运动边界直方图向量，得到特征描述向量；3)使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半；4)生成视频数据集中每一个视频的费舍尔向量；5)训练得到线性支持向量机分类模型；6)使用线性支持向量机分类模型对测试数据中的视频进行分类。与现有技术相比，本发明具有鲁棒性好，准确度更高等优点。
【IPC分类】G06K9/62, G06T7/20
【公开号】CN105488519
【申请号】CN201510780201
【发明人】王瀚漓, 张博文
【申请人】同济大学
【公开日】2016年4月13日
【申请日】2015年11月13日

2012-2014专利技术

最新回复(0)