本发明涉及动作行为识别,具体为一种基于时空特征增强的小样本动作识别方法及系统。
背景技术:
1、当代人工智能技术已经使计算机能够识别和理解人类行为的动作,这一技术被称为动作识别。动作识别技术在诸多领域具有广泛应用,包括智能监控、医疗保健、体育分析、虚拟现实和增强现实等。通过分析和识别人体动作,计算机可以从视频、传感器或其他数据源中提取有用信息,以支持各种应用场景。
2、小样本动作识别是计算机视觉和人工智能领域的一个重要研究方向,旨在从极少量的训练样本中学习并识别各种人类动作。与传统的大规模动作识别任务相比,小样本动作识别面临数据稀缺、样本不平衡、泛化能力差等挑战,因此研究具有一定复杂性和挑战性。
3、尽管面临诸多挑战,但随着深度学习等技术的发展,研究者们在小样本动作识别领域已取得一些进展。他们提出了新的模型架构、优化算法以及数据增强技术,逐步解决小样本动作识别中的关键问题,为实际应用场景提供更可靠高效的解决方案。
4、例如,有学者提出冗余度引导特征掩膜重构方法、基于预训练模型clip的方法、多模态融合方法、两阶段动作对齐网络、混合关系引导集匹配方法、跨模态对比学习网络等。这些方法通过设计各种训练策略来解决小样本动作识别中遇到的问题。然而,它们忽略了对动作视频进行精细时空特征提取的重要性,时空特征隐藏着有关动作识别的重要信息,这对于小样本动作识别至关重要。
技术实现思路
1、鉴于上述存在的问题,提出了本发明。
2、因此,为解决上述技术问题,本发明提供如下技术方案:一种基于时空特征增强的小样本动作识别方法,包括:采集小样本动作分类视频数据,并将小样本动作分类视频数据划分为图像帧,根据图像帧构建小样本动作识别数据集并划分数据集;
3、构建基于swin transformer的特征提取中心,将小样本动作识别数据集输入特征提取中心,得到对应帧数的特征向量;
4、构建空间维度上的外观特征增强中心和时间维度上的运动特征增强中心,对特征向量进行时空特征增强,得到增强特征向量;
5、构建相似性分类器,采用小样本动作识别数据集对相似性分类器进行训练并测试,将增强特征向量输入相似性分类器,得到分类结果,完成小样本动作识别。
6、作为本发明所述的基于时空特征增强的小样本动作识别方法的一种优选方案,其中:所述将小样本动作分类视频数据划分为图像帧的划分方式为每个视频划分为八个图像帧,且每帧图像之间的间隔时长相同;
7、采用5-way 5-shot方式将小样本动作识别数据集划分支持集和查询集。
8、作为本发明所述的基于时空特征增强的小样本动作识别方法的一种优选方案,其中:所述特征提取中心采用swin transformer的tiny版本作为特征提取中心,由四个stage组成;
9、所述得到对应帧数的特征向量的步骤包括,
10、将输入的h×w×3的图像编码为h/32×w/32×768的特征向量;
11、根据每次送入一个视频中拆分得到的八张图片,得到8×h/32×w/32×768的特征向量。
12、作为本发明所述的基于时空特征增强的小样本动作识别方法的一种优选方案,其中:所述空间维度上的外观特征增强中心采用swin transformer的block改进而来,将原block中的多头自注意力替换为帧间外观注意力进行计算,得到外观特征增强特征向量;
13、所述时间维度上的运动特征增强中心通过将帧与帧之间的特征差异作为权重矩阵进行注意力运算,捕捉帧间变化的运动信息,原始特征进行运动特征增强,得到运动特征增强向量;
14、所述时空特征增强包括,
15、将前七帧的特征向量通过帧间外观注意力和注意力差分注意特征进行外观特征增强和运动特征增强,第八帧的特征向量不变;
16、将第八帧的特征与得到特征增强的前七帧特征进行拼接,得到时空特征增强向量;
17、特征向量在经过时间运动特征增强后,维度仍为8×h/32×w/32×768。
18、作为本发明所述的基于时空特征增强的小样本动作识别方法的一种优选方案,其中:所述空间维度上的外观特征增强中心包括,
19、将第i帧的特征向量(i=1,2,…,7)经过线性层后作为查询向量,第i+1帧的特征向量经过线性层后作为键向量和值向量,经过帧间外观注意力运算,得到外观特征增强向量,外观特征增强的计算公式如下:
20、q=ln(fi)·wq
21、k=ln(fi+1)·wk
22、v=ln(fi+1)·wv
23、其中,fi表示第i帧的特征向量,fi+1表示第i+1帧的特征向量,ln(·)表示ln层,wq、wk、wv分别表示生成q、k、v的线性层参数,q表示查询向量,k表示键向量,v表示值向量。
24、作为本发明所述的基于时空特征增强的小样本动作识别方法的一种优选方案,其中:所述时间维度上的运动特征增强中心包括,
25、采用时间维度上的运动特征增强模块捕获帧与帧之间变化的运动特征;
26、将第i帧的特征向量与第i+1帧的特征向量作差,得到相邻两帧之间的特征差异;
27、将特征差异与第i帧的特征向量相乘,得到差分注意特征;
28、将差分注意特征与第i+1帧的特征向量的相加,将运动特征补充给第i帧的特征,得到运动特征增强后的特征向量,运动特征增强的计算公式如下:
29、di=f′i-f′i+1
30、
31、其中,表示元素相乘,di表示帧与帧之间的特征差异,f″i表示运动特征增强后的特征向量。
32、作为本发明所述的基于时空特征增强的小样本动作识别方法的一种优选方案,其中:所述相似性分类器通过计算查询集图片的特征向量与支持集图片的特征向量的相似性,对查询集图片的动作进行分类;
33、所述对查询集图片的动作进行分类包括,
34、对经过时空特征增强的特征向量进行压缩,然后计算压缩后的特征向量之间的相似性;
35、所述特征向量之间的相似性采用余弦相似性,将查询集图片划分为与支持集图片中相似性最高的那一类别;
36、将维度为8×h/32×w/32×768的特征向量重塑为h/32×w/32×6144大小的特征向量;
37、对重塑后的特征向量进行全局平均池化,得到维度为1×6144的特征向量;
38、将全局平均池化厚度特征向量经过全连接层得到大小为1×1024的特征向量,参与后续相似性的计算;
39、对整体网络模型进行小样本训练,将经过训练的整体网络模型部署在测试系统上,以小样本测试图像数据作为输入,得到分类结果,完成小样本动作识别。
40、本发明的另外一个目的是提供一种基于时空特征增强的小样本动作识别系统,为解决上述技术问题,本发明提供如下技术方案:一种基于时空特征增强的小样本动作识别系统,包括:数据预处理模块、特征提取模块、时空特征增强模块、相似性分类模块以及模型训练测试模块;
41、所述数据预处理模块用于采集小样本动作分类视频数据,将视频数据划分为图像帧并划分数据集为支持集和查询集;
42、所述特征提取模块用于构建基于swin transformer tiny版本的特征提取中心,将输入图像编码为特征向量;
43、所述时空特征增强模块用于对前7帧的特征向量进行外观特征增强和运动特征增强,得到运动特征增强向量,将外观和运动特征增强向量拼接,形成时空特征增强向量;
44、所述相似性分类模块用于构建相似性分类器,对时空特征增强向量进行压缩和重塑并计算查询集和支持集特征向量间的余弦相似性,将查询集图片划分到最相似的支持集类别;
45、所述模型训练测试模块用于对整个网络模型进行小样本训练,将训练好的模型部署到测试系统,以小样本测试图像数据作为输入,得到分类结果。
46、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述基于时空特征增强的小样本动作识别方法的步骤。
47、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述基于时空特征增强的小样本动作识别方法的步骤。
48、本发明的有益效果:针对小样本动作识别过程中仅提取动作视频的帧级特征,忽略帧间关系的情况,设计了时空特征增强模块,提取帧与帧之间不变的外观特征和变化的运动特征,以较少的模型设计代价和训练代价,帮助模型捕获动作视频中随时间推移的相关对象特征,进一步改善模型迭代更新效率,从而提高小样本动作识别任务的准确性。
1.一种基于时空特征增强的小样本动作识别方法,其特征在于,包括:
2.如权利要求1所述的基于时空特征增强的小样本动作识别方法,其特征在于:所述将小样本动作分类视频数据划分为图像帧的划分方式为每个视频划分为八个图像帧,且每帧图像之间的间隔时长相同;
3.如权利要求2所述的基于时空特征增强的小样本动作识别方法,其特征在于:所述特征提取中心采用swin transformer的tiny版本作为特征提取中心,由四个stage组成;
4.如权利要求3所述的基于时空特征增强的小样本动作识别方法,其特征在于:所述空间维度上的外观特征增强中心采用swin transformer的block改进而来,将原block中的多头自注意力替换为帧间外观注意力进行计算,得到外观特征增强特征向量;
5.如权利要求4所述的基于时空特征增强的小样本动作识别方法,其特征在于:所述空间维度上的外观特征增强中心包括,
6.如权利要求5所述的基于时空特征增强的小样本动作识别方法,其特征在于:所述时间维度上的运动特征增强中心包括,
7.如权利要求6所述的基于时空特征增强的小样本动作识别方法,其特征在于:所述相似性分类器通过计算查询集图片的特征向量与支持集图片的特征向量的相似性,对查询集图片的动作进行分类;
8.一种采用如权利要求1~7任一所述的基于时空特征增强的小样本动作识别方法的系统,其特征在于,包括:数据预处理模块、特征提取模块、时空特征增强模块、相似性分类模块以及模型训练测试模块;
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于时空特征增强的小样本动作识别方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于时空特征增强的小样本动作识别方法的步骤。