本发明涉及计算机视觉、图像处理等,具体涉及一种基于上采样注意力和逐层多头特征融合的交互式图像分割方法。
背景技术:
1、基于卷积神经网络的深度学习算法具有强大的图像特征提取和表示能力,在语义分割、实例分割等计算机视觉领域取得了非常显著的进步。然而深度学习算法需要大量的像素级别的图像标注数据进行网络训练才能达到一个较为理想的分割性能表现。当前的图像数据标注主要是通过标注者手动勾画出待分割图像中对象的边界而完成。这种数据标注方式完全依赖标注人员手动进行标注,要获取一个高质量的标注结果极其耗时耗力。
2、为提高图像标注的效率,基于深度学习算法的交互式图像分割方法开始广泛应用于图像标注。交互式图像分割方法允许标注者通过点击的方式简单定义待分割图像中的对象,然后再使用基于深度学习的神经网络模型进行图像分割,并且允许添加额外的点击信息以实现对分割结果中分割错误的区域进行进一步修正,直到最终图像的分割精度达到要求。
3、但当前的交互式图像分割方法所采用的基于卷积神经网络的交互式图像分割模型的图像特征提取和表示能力不强,在对象边界处以及对小目标的分割上的表现难以令人满意,标注者通常需要在这些地方提供大量的交互信息才能获得一个较为满意的分割精度,这严重影响了图像数据的标注效率。
技术实现思路
1、(一)要解决的技术问题
2、本发明的目的在于:提供一种基于上采样注意力和逐层多头特征融合的交互式图像分割方法,以提高图像数据的标注效率。
3、(二)技术方案
4、本发明采用的技术方案如下。
5、一种基于上采样注意力和逐层多头特征融合的交互式图像分割方法,包括以下步骤:
6、a:用户提供用于指导模型进行图像分割的先验信息;
7、b:编码用户提供的先验信息;
8、c:将带有用户先验信息的原始图像作为输入,输入进使用上采样注意力和逐层多头特征融合改进的交互式图像分割网络进行图像分割;
9、d:若模型输出结果的分割精度达到要求,则此次分割结束,否则转步骤a。
10、进一步地,步骤a中,用户以点击的形式提供先验信息。在本交互式图像分割方法中,用户需要提供一些正、负交互点指明图像中的待分割对象。其中,正交互点是位于待分割对象区域中的用户点击点,负交互点则是位于背景区域中的用户点击点。
11、进一步地,步骤b具体包括以下步骤:
12、b1:用户提供的正交互点、负交互点会被分别转换成和原始图像一样宽高的正交互点高斯距离图和负交互点高斯距离图,具体的计算方式为计算图像中每个像素点到正(负)交互点集合的高斯距离,设d表示正(负)交互点高斯距离图,其大小为h×w,其中h和w分别是输入图像的高和宽,则正(负)交互点高斯距离图可用公式(1)进行表示:
13、
14、其中,0≤i<h,0≤j<w,d(i,j)表示正(负)交互点高斯距离图中(i,j)下标处的取值,即在点p处的值,s表示正(负)交互点集合,公式d(p,ps)表示点p和点ps两点间的欧氏距离;
15、b2:将计算得到的正、负交互点高斯距离图会和原始rgb 3通道图像拼接在一起,得到一个5通道的拼接结果。
16、进一步地,步骤c具体包括以下步骤:
17、c1:将原始图像和正、负高斯距离图拼接得到的5通道的拼接结果会输入进使用上采样注意力和逐层多头特征融合改进的交互式图像分割网络中,通过编码器中的主干网络进行从低级到高级图像特征的提取,得到不同分辨率的特征图;
18、c2:在解码器中进行上采样的过程中,通过上采样注意力机制模块,利用高层特征图中包含的高级语义信息对低层特征图进行特征筛选;
19、c3:在解码器中进行上采样的过程中,在通过上采样注意力机制模块完成利用高层特征图中包含的高级语义信息对低层特征图进行特征筛选后,再通过多头特征融合模块,对经过特征筛选后的不同分辨率的特征图进行从高层到低层的逐层多头特征融合。
20、1.进一步地,步骤d中,若交互式图像分割模型输出的分割结果的分割精度达到标准,如miou达到0.95,则此次交互式分割结束,否则用户需要在分割结果中的面积最大的错误分割区域中提供相应的正交互点或负交互点以纠正模型的错误分割结果。具体地,若面积最大的错误分割区域是因为背景像素被分割成了对象而产生,此时用户需要在该错误分割区域的中心区域提供负交互点,以向交互式分割模型指明当前错误分割区域的像素属于背景类别;若面积最大的错误分割区域是由于前景像素(即属于对象区域的像素)被分割成背景而产生,此时用户需要在该错误分割区域的中心区域提供正交互点,以向网络指明当前错误分割区域中的像素属于前景类别。具体地,错误分割区域中点p距离区域中心的程度可使用公式(2)进行计算:
21、
22、其中,vp和vn分别表示最大错误分割区域内、外的所有像素点的集合,φ(p,vn)表示点p到集合vn的距离,θ(p)接近1,则说明点p越靠近区域中心。
23、进一步地,步骤c2中的上采样注意力机制包括以下步骤:
24、输入:维度为hl×wl×cl的低层特征图sl,
25、维度为hh×wh×ch的高层特征图sh
26、输出:维度为hl×wl×cl的筛选特征图
27、c21:特征压缩(squeeze):对高层特征图sh分别进行全局平均池化和全局最大池化操作,得到两个大小为1×1×ch的特征向量;
28、c22:特征激励(excitation):使用两个串行的全连接层对通过特征压缩得到的两个特征向量分别进行非线性变换,得到两个大小为1×1×cl的中间权重向量,接着将这两个中间权重向量进行矩阵加法、然后再输入进sigmoid函数进行归一化以得到最终的一个1×1×cl大小的权重向量,其每个值表示低层特征图对应通道的权重;
29、c23:特征筛选(scale):对通过特征激励得到的1×1×cl大小的权重向量和低层特征图sl进行矩阵点乘操作,以实现对低层特征图每个通道的加权,得到hl×wl×cl大小的、经过通道加权的输出特征图。
30、设p表示全局池化操作,包括全局平均池化和全局最大池化操作,v表示用于对特征向量进行计算以得到每通道权重的非线性变换操作,包括全连接层1、relu激活层、全连接层2,sigmoid激活层,q表示矩阵点乘操作,则上采样注意力机制的应用过程可用公式(3)(4)进行表示:
31、
32、v(x1,x2)=sigmoid(fc2(relu(fc1(x1)))⊕fc2(relu(fc1(x2)))) (4)
33、其中,fc1表示全连接层1,共包含ch/r个神经元,fc2分表示全连接层2,共包含cl个神经元,参数r用于控制上采样注意力模块的参数和计算复杂度,通常其取值为16,⊕表示矩阵加法操作。
34、进一步地,步骤c3中逐层多头特征融合方式包含逐层和多头特征融合两方面特点,逐层是指将编码器中的特征图从高层到低层逐层进行特征融合,多头特征融合方式负责对相邻的两个分辨率的特征图进行融合,其中多头特征融合模块具体包含以下步骤:
35、输入:维度为hl×wl×cl的低层特征图sl,
36、维度为hh×wh×ch的高层特征图sh
37、输出:维度为hl×wl×48的融合特征图
38、c31:对高层特征图sh使用48个3×3×ch的卷积核进行特征空间映射;
39、c32:对低层特征图sl使用48个3×3×cl的卷积核进行特征空间映射;
40、c33:将步骤c31到得到高层特征图上采样倍;
41、c34:将步骤c33中上采样倍得到的特征图和步骤c32得到的低层特征图进行拼接;
42、c35:使用48个3×3×96的卷积核对步骤c34中拼接得到的特征图进行通道调整和特征融合,得到hl×wl×48的融合特征图
43、将上述多头特征融合模块输出的融合特征图作为高层特征图,然后和sl下一级分辨率的低层特征图再次进行多头特征融合,重复这个过程直至编码器中所有分辨率的特征图都已经完成使用多头特征融合模块进行特征融合。
44、(三)有益效果
45、采用上述方案后,本发明的有益效果如下:
46、(1)本发明提出了上采样注意力机制模块,该模块会在图像上采样过程中,利用高级语义特征对低级语义特征进行加权筛选,使得交互式图像分割网络能够更加关注对最终分割结果贡献较大的特征的学习,而减少无关特征的干扰,进而使交互式图像分割网络具有更加强大的语义提取和特征表达能力,在被应用到图像标注任务时能够有效降低标注人员的工作量。
47、(2)本发明提出了逐层多头特征融合模块,该模块共分为逐层跳跃连接特征融合模块和多头特征融合模块两部分。其中,逐层跳跃连接特征融合模块会将主干网络中从高层到低层不同分辨率的特征图依次进行特征融合,充分利用了主干网络中的不同分辨率特征图包含的丰富的语义信息,能够较好地解决当前交互式图像分割网络分割结果中对象边缘处不够细致和小目标分割困难的问题;多头特征融合模块则先将原本属于不同特征空间的高层特征图和低层特征图映射到相同的特征空间然后再进行特征融合,使得特征融合网络能够更好的将低层特征图和高层特征图中包含的语义信息进行更好地融合;综上,逐层多头特征融合结构能够促进对象边界的细化以及小尺度目标分割,提高了图像整体分割精度,也能够进一步提高图像标注的效率。
48、(3)本发明提出的上采样注意力模块和逐层多头特征融合模块均为即插即用模块,因此可以插入到之前的各种基于卷积神经网络的交互式图像分割模型中以增强它们的图像特征提取和表示能力。
1.一种基于上采样注意力和多头特征融合的交互式图像分割方法,其特征在于包括以下步骤:
2.根据权利要求1所述的一种基于上采样注意力和多头特征融合的交互式图像分割方法,其特征在于在步骤a中,用户以点击的形式提供先验信息。在本交互式图像分割方法中,用户需要提供一些正、负交互点指明图像中的待分割对象。其中,正交互点是位于待分割对象区域中的用户点击点,负交互点则是位于背景区域中的用户点击点。
3.根据权利要求1所述的一种基于上采样注意力和多头特征融合的交互式图像分割方法,其特征在于步骤b具体包括以下步骤:
4.根据权利要求1所述的一种基于上采样注意力和多头特征融合的交互式图像分割方法,其特征在于步骤c具体包括以下步骤:
5.根据权利要求1所述的一种基于上采样注意力和多头特征融合的交互式图像分割方法,其特征在于在步骤d中,若交互式图像分割模型输出的分割结果的分割精度达到标准,如miou达到0.95,则此次交互式分割结束,否则用户需要在分割结果中的面积最大的错误分割区域中提供相应的正交互点或负交互点以纠正模型的错误分割结果。具体地,若面积最大的错误分割区域是因为背景像素被分割成了对象而产生,此时用户需要在该错误分割区域的中心区域提供负交互点,以向交互式分割模型指明当前错误分割区域的像素属于背景类别;若面积最大的错误分割区域是由于前景像素(即属于对象区域的像素)被分割成背景而产生,此时用户需要在该错误分割区域的中心区域提供正交互点,以向网络指明当前错误分割区域中的像素属于前景类别。具体地,错误分割区域中点p距离区域中心的程度可使用公式(2)进行计算:
6.根据权利要求4所述的一种基于上采样注意力和多头特征融合的交互式图像分割方法,其特征在于步骤c2中的上采样注意力机制的应用过程包括以下步骤:
7.根据权利要求4所述的一种基于上采样注意力和多头特征融合的交互式图像分割方法,其特征在于步骤c3中逐层多头特征融合方式包含逐层和多头特征融合两方面特点,逐层是指将编码器中的特征图从高层到低层逐层进行特征融合,多头特征融合方式负责对相邻的两个分辨率的特征图进行融合,其中多头特征融合模块的应用过程包括以下步骤: