本发明涉及到目标跟踪,具体涉及到一种基于孪生网络的实时目标跟踪方法及嵌入式设备。
背景技术:
1、视觉目标跟踪是计算机视觉中一个重要研究方向,在军事无人飞行器、精确制导以及空中预警和民用视频监控,人机交互和无人驾驶等众多领域有着极其广泛的应用。然而,传统目标跟踪方法在处理复杂场景(如目标遮挡、尺度变化、快速移动等)时,往往面临精度下降和实时性不足的问题。因此,开发一种高效、准确且鲁棒的实时目标跟踪技术显得尤为重要。
2、以往的传统目标跟踪算法通常基于手工特征,包括边缘、纹理、颜色直方图等。这些算法利用手工设计模型,以及运动估计策略均值漂移(mean-shift)和卡尔曼滤波(kalman filtering)等预测目标在视频帧中的位置。kcf算法、stc算法以及dsst等基于相关滤波方法,实现工业应用中的目标跟踪器,但是手工特征在应对复杂场景、光照变化等问题时,性能会受到限制,且对目标边缘的预测不佳,无法应对复杂的尺度变化,且在视频目标跟踪长时间的误差累积下,会逐渐丢失目标。
3、近年来,随着深度学习技术的飞速发展,基于深度神经网络的目标跟踪方法已成为计算机视觉领域的研究热点。这类方法能够从大量的训练数据中自动学习并提取出丰富的特征表示,显著提高了目标跟踪的准确性和鲁棒性。在众多深度学习架构中,孪生网络(siamese network)因其独特的结构设计和高效的性能表现,在目标跟踪任务中脱颖而出。孪生网络通过构建两个共享参数的分支——模板分支和搜索分支,分别处理目标模板图像和搜索区域图像。这两个分支提取各自的特征后,通过计算特征之间的相似度来判定搜索区域中是否存在目标,并预测目标的具体位置。这种结构不仅简化了跟踪问题,将其转化为特征相似度匹配问题,还大大提高了目标跟踪的速度和精度。
4、然而,尽管孪生网络在目标跟踪领域取得了显著进展,但传统的孪生网络方法在处理复杂场景时仍存在一定的局限性。一方面,为了提高跟踪的准确性和鲁棒性,孪生网络往往需要构建较为复杂的网络结构,这导致算法参数量大、计算复杂度高,难以满足实时性要求。另一方面,随着目标外观、尺度和运动模式的变化,传统孪生网络在特征提取和相似度计算方面可能无法有效适应,导致跟踪性能下降。
5、此外,在工业界,深度神经网络(dnn)目标跟踪算法对计算性能要求极高,传统cpu、arm、dsp等平台难以满足实时处理需求。为此,智能处理芯片如gpu、fpga和npu成为关键。然而,高性能gpu市场被国外垄断,fpga虽强大但成本高、设计复杂且灵活性受限。相比之下,我国自主研发的npu在处理性能与功耗间取得良好平衡,适合嵌入式应用,能够高效部署深度神经网络,满足工业界对实时目标跟踪的需求。因此,市场需要一种基于npu的实时目标跟踪方法嵌入式部署方案。
技术实现思路
1、本发明的目的是针对现有技术存在的问题,提供一种基于孪生网络的实时目标跟踪方法及嵌入式设备,通过结合改进的特征提取、相似度计算以及多任务处理策略,实现了在复杂场景下的高效、准确目标跟踪,同时满足嵌入式设备对算法轻量化和高效性的要求。
2、为实现上述目的,本发明采用的技术方案是:
3、一种基于孪生网络的实时目标跟踪方法,包括:读取视频或图像序列的第一帧图像,并确定跟踪目标框;将第一帧图像的目标框作为模板输入模板特征主干网,进行特征提取,得到目标特征图;读取下一帧图像,根据前一帧中的目标框按比例构建搜索区域,利用搜索区域特征主干网对搜索区域进行特征提取,得到搜索区域特征图;采用深度可分离相关滤波以及逐点相关滤波计算所述目标特征图以及所述搜索区域特征图的相似度;基于相似度计算结果,进行目标中心位置分类分支以及目标坐标框回归分支的信息计算,以确定目标在当前帧中的位置;
4、采用mobilenet v3-small作为模板特征主干网以及搜索区域特征主干网;在特征提取过程中,采用三个特征提取层分别提取特征,并保存每个特征提取层的输出,得到第一层特征图、第二层特征图和第三层特征图;采用多尺度特征聚合方法,将三层特征图进行拼接,以增强特征提取的鲁棒性;
5、所述采用多尺度特征聚合方法,将第一层特征图、第二层特征图、第三层特征图进行拼接,包括:读取第一层特征图,执行两个卷积操作以获取初步深度特征;对初步深度特征进行信息重组,将特征空间划分并沿通道维度拼接,得到第一输出特征;读取第二层与第三层特征图,执行卷积操作以平滑特征并分别得到第二输出特征与第三输出特征;将三层输出特征按通道维度拼接得到融合特征;在融合特征后再接一卷积层,通过卷积操作减少通道数,提取并整合特征,得到最终特征图,用于后续目标跟踪任务;
6、所述对初步深度特征进行信息重组,将特征空间划分并沿通道维度拼接,得到第一输出特征,包括:将深度特征图中的单个特征空间均匀划分为n个更小的特征块;按照划分顺序,将这些更小的特征块在通道维度上进行拼接,形成通道数为原始特征通道数n倍的第一输出特征。
7、使用可视化工具对三个特征图进行可视化操作;其中,第一层特征图为浅层特征图,主要关注目标与全图背景的关联;第二层特征图为中层特征图,逐渐聚焦于目标本身,关注目标的轮廓和关键形状信息;第三层特征图更加专注于目标自身的建模;
8、所述采用深度可分离相关滤波以及逐点相关滤波进行相似度计算,包括:所述深度可分离相关滤波计算模板与搜索区域在空间上下文范围内的相似性,得到分类相似度分数;所述逐点相关滤波计算模板与搜索区域在通道维度上进行空间相似性计算,得到回归相似度分数;
9、所述基于相似度计算结果,进行目标中心位置分类分支以及目标坐标框回归分支的信息计算,包括:将所述分类相似度分数与所述回归相似度分数采用通道拼接的方式拼接;将拼接后的特征映射到目标中心位置分类分支和目标坐标框回归分支;在所述目标中心位置分类分支的置信图上找到最高点坐标,然后在所述目标坐标框回归分支中根据该坐标信息寻找并确定目标的精确坐标框;
10、在所述完成目标中心位置分类分支以及目标坐标框回归分支的信息计算之后,包括:根据当前帧计算得到的目标坐标框,重新按比例构建搜索区域,完成搜索区域的更新,重复执行下一帧图像目标定位,直到视频或图像序列跟踪完毕,实现对目标的连续跟踪。
11、一种轻量化嵌入式部署方法,包括:将训练好的孪生网络模型转换为onnx格式的.onnx模型;然后,使用瑞芯微平台提供的rknn toolkit工具,将.onnx模型进一步转换为rknn模型;将转换后的rknn模型传输到rk3588m设备上;调用npu接口加载孪生网络模型;将逻辑处理步骤加载到cpu上运行;将图像处理步骤加载到gpu上运行。
12、一种嵌入式设备,包括:第一npu模块,用于运行所述模板特征主干网;第二npu模块,用于运行所述搜索区域特征主干网;第三npu模块,用于采用深度可分离相关滤波以及逐点相关滤波计算所述目标特征图以及所述搜索区域特征图的相似度;cpu模块,用于读取图像并传递至对应的npu模块;还用于基于相似度计算结果,进行目标中心位置分类分支以及目标坐标框回归分支的信息计算,精确确定目标在当前帧中的位置;gpu模块,用于图像的预处理以及后处理。
13、与现有技术相比,本发明的有益效果是:
14、1、通过采用深度可分离相关滤波和逐点相关滤波技术,有效减少了计算量同时提高了目标定位的精度,使得跟踪算法能够在复杂场景下实现快速且准确的目标跟踪;
15、2、深度可分离相关滤波和逐点相关滤波的结合使用,不仅提高了空间位置信息的捕获能力,还增强了局部特征的耦合,提升了模型对小目标的表征能力;
16、3、采用mobilenet v3-small作为特征提取主干网,这是一个轻量级的卷积神经网络,能够在保持高性能的同时显著降低计算复杂度和模型大小,非常适合移动和嵌入式视觉应用;
17、4、多尺度特征聚合方法增强了特征提取的鲁棒性,通过拼接不同层次的特征图,整合了丰富的多尺度信息,使得模型能够捕捉到从低层到高层的不同抽象级别的信息,增强了模型对目标尺度变化、遮挡等复杂情况的应对能力;
18、5、提供了的轻量化嵌入式部署方法,包括模型格式转换、工具使用、模型加载和任务分配等步骤,使得训练好的模型能够高效地集成到rk3588m等嵌入式设备上;
19、6、通过将不同的处理任务分配到cpu、gpu和npu等不同的处理器上,实现了资源的最大化利用,提高了模型在嵌入式设备上的运行效率和稳定性;
20、7、提供了对特征图的可视化操作,帮助理解和分析不同层级特征图所关注的信息层次,验证了多尺度层级特征聚合模块的有效性。
1.一种基于孪生网络的实时目标跟踪方法,其特征在于,包括:
2.根据权利要求1所述的一种基于孪生网络的实时目标跟踪方法,其特征在于,
3.根据权利要求2所述的一种基于孪生网络的实时目标跟踪方法,其特征在于,所述采用多尺度特征聚合方法,将三层特征图进行拼接进行拼接,包括:
4.根据权利要求3所述的一种基于孪生网络的实时目标跟踪方法,其特征在于,所述对初步深度特征进行信息重组,将特征空间划分并沿通道维度拼接,得到第一输出特征,包括:
5.根据权利要求2所述的一种基于孪生网络的实时目标跟踪方法,其特征在于,
6.根据权利要求1所述的一种基于孪生网络的实时目标跟踪方法,其特征在于,所述采用深度可分离相关滤波以及逐点相关滤波进行相似度计算,包括:
7.根据权利要求6所述的一种基于孪生网络的实时目标跟踪方法,其特征在于,所述基于相似度计算结果,进行目标中心位置分类分支以及目标坐标框回归分支的信息计算,包括:
8.根据权利要求1所述的一种基于孪生网络的实时目标跟踪方法,其特征在于,在所述完成目标中心位置分类分支以及目标坐标框回归分支的信息计算之后,包括:
9.根据权利要求1至8任意一项所述目标跟踪方法的轻量化嵌入式部署方法,其特征在于,包括:
10.应用权利要求1至8任意一项所述目标跟踪方法的嵌入式设备,其特征在于,包括:
