本发明涉及图像处理,具体涉及一种基于参数轻量级动态聚合策略的小目标检测方法。
背景技术:
1、在图像处理中,很多时候需要识别由极少像元组成的目标,这些目标通常被定义为小目标。小目标检测(sod)是计算机视觉中的一项基础任务。其重点在于定位和识别小尺寸目标,现已广泛应用于各种场景,如无人机场景分析、自动驾驶和交通标志检测。目前,如何使用参数轻量级的结构获得准确的检测结果已成为sod中的一个关键挑战。
2、一方面,越来越多的复杂模型结构被引入以实现更高的检测精度。例如,注意力机制和额外的网络连接是两种常用的方法,用于从不同尺度提取和融合具有代表性的特征。最新的模型也使用聚合分发结构来进一步识别多尺度相关特征。然而,复杂的模型结构不可避免地导致参数的快速增长,增加计算成本,从而导致训练过程缓慢。另一方面,设计参数轻量级的检测器是sod中的另一个关键问题。大多数方法集中于设计轻量化的主干网络,如基于组卷积的shufflenet和基于深度可分离卷积的mobilenet。最近,稀疏卷积神经网络作为一种有前途的方法,通过生成卷积的像素级样本掩码来加速推理。虽然这些常用的轻量化技术在sod中已被证明是有效的,但简化检测器往往以牺牲检测精度为代价。
3、目前,大多数最先进的sod方法使用一个骨干网络来提取多层次特征。由于许多提取的最高层级特征与小目标的定位和识别没有密切关系,大量冗余特征在后续模块中被滤除。因此,一个自然的想法是完全删除最高层级特征提取模块,以简化模型结构,同时通过基于可能的小目标分布高效组织剩余特征来保持检测精度。小目标的尺寸分布是与有效组织所提取特征密切相关的。通常,小目标的尺寸分布特性会随着场景的变化而变化,因为待检测的目标不同,即使是同一类别的目标在不同场景中的尺寸也可能不同。一般来说,目标越小,所需的感受野越大,因为只有少数模糊的内在特征可供识别。一种自适应目标尺寸分布的检测器在突出相关邻近特征方面更为有效。
4、主流的基于卷积神经网络的小目标检测器由三个级联部分组成:骨干网络、颈部和头部。在骨干网络部分,通过五个阶段的卷积和下采样从原始图像中提取隐藏特征,形成五个多层次特征图用于后续处理。这些特征图包含识别小目标所需的浅层和语义信息。在大多数检测器中,颈部部分包含两个模块:fpn和pan。这两个模块分别以自顶向下和自底向上的顺序选择和融合来自五个特征图的信息。最后,pan中的前三个输出特征图连接到单独的检测头,每个检测头根据所连接的特征图从所有候选者中定位最可能的小目标位置。同时,softmax分类器用于标注所有被定位的小目标。
5、不同层次的特征图编码了小目标的不同特征,并对sod有着不同贡献。低层特征图包含小目标的丰富细节,如边缘、形状和纹理,而深层特征图包含语义信息,如小目标的邻域环境。在sod中,低层特征是必不可少的,因为它们在区分目标和背景中起重要作用。高层特征在根据邻域信息识别目标方面也具有指导作用。然而,与识别非小目标相关邻域区域相比,识别小目标的邻域区域要小得多。因此,目前大多数基于卷积神经网络检测器中的最高层级特征对小目标的识别贡献很小。同时,最高层级特征的提取、选择和融合需要复杂的网络结构。因此,放弃最高层级特征可能会对模型性能产生轻微影响,但能显著减少参数数量。
6、基于上述思想,为了减少参数数量,提高检测器的性能,并且能与大多数基于卷积神经网络的检测器结合,本发明提出了一种基于参数轻量级动态聚合策略的小目标检测方法。
技术实现思路
1、本发明的目的是面向复杂场景下难以识别出的小目标,解决现有的检测方法识别小目标困难、模型复杂度高等问题。
2、本发明在基于卷积神经网络模型的基础上提出了一种基于参数轻量级动态聚合策略的小目标检测方法(ldas):1)为了减少模型的参数量,首先从骨干网络中移除了最高层级的特征图;2)为了提升模型的检测精度,其次通过动态聚合机制(dam)重新组织剩余高层特征以充分利用其他高层信息;3)为了突出浅层特征,最后通过三向特征融合结构(tffs)进一步提取相邻的浅层特征图。
3、为实现上述目的,本发明采用的技术方案是:
4、一种基于参数轻量级动态聚合策略的小目标检测方法,所述方法具体包括以下步骤:
5、步骤a:获取复杂场景下的小目标图像,并划分为训练集与测试集,然后加载模型,并对参数进行初始化;
6、步骤b:对训练集样本中的每一幅图像进行预处理,并将预处理后的图像加载到模型中;
7、步骤c:在模型骨干网络中进行图像特征的提取,并将提取后的特征送入到特征融合部分进行多尺度融合;
8、步骤d:根据融合后的特征,计算出模型的损失函数,然后最小化损失函数,通过梯度下降算法更新模型的参数;
9、步骤e:训练完保存最优的模型权重参数,用于后续模型的测试;
10、步骤f:对测试集的图像进行预测,根据步骤e所述训练好的模型权重参数,预测出目标的位置与类别,然后通过非极大值抑制得到最终的预测结果。
11、进一步地,步骤b所述的对训练集样本中的每一幅图像进行预处理,具体为:
12、步骤b1、将四张图像通过随机缩放、随机裁剪、随机排布的方式拼接成一张图像,以此来增加训练集图像的数量;
13、步骤b2、使用k均值算法对训练集的边界框标签进行聚类,使得生成的锚框尺寸更加适合训练集图像;
14、步骤b3、将读入的图像缩放成640×640像元固定大小,统一为固定大小的尺寸,模型能一次性处理更多的图像。
15、进一步地,步骤c所述在模型骨干网络中进行图像特征的提取,并将提取后的特征送入到特征融合部分进行多尺度融合具体为:
16、步骤c1、将权利要求1中步骤b所述预处理后的样本图像作为骨干网络的输入,在模型骨干网络中进行图像特征的提取:参数轻量级动态聚合策略只使用从输入图像中提取的四层特征图,最高层级特征图及其连接的其他模块被移除;高层特征图ci依次在fpn部分与低层特征的融合如下:
17、
18、其中,pi是融合后的特征图,dam和tffs是将在接下来的两个步骤中讨论的两个新模块;pan部分将pi和pi-1的信息整合在一起,如下所示:
19、
20、其中,oi是pan部分的第i层输出,conv和concat分别是卷积和拼接操作;最后,o2、o3和o4直接连接到检测头,用于定位和识别小目标;
21、步骤c2、将动态聚合机制嵌入到骨干网络最终输出层的后面:输入是来自骨干网络第四层的特征图,经过卷积后,生成的特征图被同时送入顶部的最大池化部分和底部的残差部分;在最大池化部分,堆叠了多个最大池化层,并将所有层的输出与之前的卷积进行残差连接;最后,所有连接的特征图通过卷积被送入tffs模块;将物体的大小定义为其在特征图中的边界框的最短边长;当最短边长小于一个像素时,目标物体在特征图中几乎无法辨别,这些物体称为极小目标;对于特定场景收集的数据集中的图像,记j为在特征图中尺寸小于一个像素的极小目标的比例,即输入图像中最短边长小于八个像素的目标比例;最大池化层的数量n可以通过下式确定:
22、
23、其中,r是一个阈值,决定了极小目标比例超过多少时应增加最大池化层的数量,k是按比例增加n的系数;在实验中,r和k分别设置为0.15和30;max确保最大池化层的最小数量为三层;
24、步骤c3、将骨干网络逐级提取到的特征以及相邻高层和低层特征分别送入到三向特征融合结构,最后将三向特征融合结构获取的特征合并后送入到颈部网络进行多尺度融合:在fpn部分,高层特征通过上采样与当前层特征融合,以将高层信息编码到最低层;在pan部分,低层信息通过下采样逐步传递到高层;将相邻高层特征图pi+1或dam(c4)和相邻低层特征图ci-1分别通过上采样和下采样匹配ci的大小,然后与ci拼接生成特征图pi;这个过程可以表示为:
25、
26、其中,up和down分别表示上采样和下采样操作。
1.一种基于参数轻量级动态聚合策略的小目标检测方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤b所述的对训练集样本中的每一幅图像进行预处理,具体为:
3.根据权利要求1所述的方法,其特征在于,步骤c所述在模型骨干网络中进行图像特征的提取,并将提取后的特征送入到特征融合部分进行多尺度融合具体为:
