一种基于语义边界约束的注意力引导视觉场景识别方法

xiaoxiao1月前 22

本发明涉及计算机视觉，尤其涉及一种基于语义边界约束的注意力引导视觉场景识别方法。

背景技术：

1、视觉场景识别指根据从环境中获取的视觉信息判断当前机器人当前所在的场景是否访问过，该技术在移动机器人定位任务中起到关键作用。例如，在视觉slam(simultaneous localization and mapping，即时定位与地图构建)过程中，精准的场景识别可以帮助机器人判断是否已处于之前访问过的环境区域，从而形成闭环检测并进行地图优化，这对于保证地图的一致性、减少累积误差是至关重要的。当前的研究中，视觉场景识别通常被视为一个图像检索任务，机器人通过从图像数据库中检索最相似的单个图像来解决场景识别问题，一般通过对场景中的目标进行检测分析，或者进行稳定的特征提取，来对当前所处场景进行分析和判断。

2、文献《ieee international conference on robotics and automation(icra),9271–9277,2020》提出了一种多光谱域不变框架，该框架通过在目标函数中引入新的约束条件，利用非成对图像变换方法生成具有语义和强区分性的不变图像，展现了在多光谱场景识别任务上有竞争力的性能。但该方法提取出的特征忽视了图像中的关键信息，这样会导致模型性能降低。文献《ieee transactions on neural networks and learningsystems,1278-1290,2021》提出了一种基于结构化信息特征解耦与知识迁移的方法，该方法利用结构信息学习深度解耦的特征表示用于场景识别，通过引入概率知识迁移的方法，实现了结构信息从canny边缘检测器到结构编码器的迁移，同时添加了一个外观教师模型，以帮助外观编码器生成更具体的特征。但该方法仅对于结构信息的利用不够充分，仅仅利用边缘信息在复杂的外观变化条件下容易失效。

技术实现思路

1、针对现有技术的不足，本发明提供一种基于语义边界约束的注意力引导视觉场景识别方法；

2、一种基于语义边界约束的注意力引导视觉场景识别方法，包括以下步骤：

3、步骤1：获取待查询的输入图像，并对输入图像进行预处理；

4、所述预处理包括归一化处理以及伽马变换；

5、所述对图像进行归一化处理如公式(1)所示：

6、

7、x代表输入图像，xnorm为归一化后的图像，其像素值被映射到0～1之间；

8、所述伽马校正操作如公式(2)所示：

9、x′＝(xnorm)γ (2)

10、γ为伽马系数；

11、步骤2：采用resnet-50网络提取输入图像的多尺度特征图f1,f2,f3,f4,f5；

12、所述采用resnet-50网络提取输入图像的多尺度特征图如公式(3)所示：

13、f1,f2,f3,f4,f5＝resnet(x′) (3)

14、resnet(·)为提取resnet-50网络5个不同卷积阶段特征的操作。

15、步骤3：采用局部信息分支从多尺度特征图中提取输入图像的局部描述子dl；

16、具体为：局部信息分支对多尺度特征图进行上采样处理，得到第一中间描述子；从多尺度特征图和第一中间描述子中提取输入图像的局部描述子；

17、所述局部信息分支包括语义边界解码器和语义边缘注意力模块；

18、其中所述语义边界解码器包括级联上采样模块和分组卷积模块；所述级联上采样模块包括32倍上采样层、4倍上采样层、2倍上采样层以及卷积层；所述分组卷积模块包括k组卷积层；

19、语义边界解码器对输入图像的多尺度特征图中提取语义边界图和边缘细节图；

20、所述语义边缘注意力模块包括特征拼接层、最大池化层、平均池化层以及1×1卷积层；

21、语义边缘注意力模块对语义边界图和边缘细节图中提取空间注意力图，将空间注意力图与上采样后第一中间描述子的乘积确定为输入图像的局部描述子；

22、步骤3.1：利用级联上采样模块对f1,f2,f3,f5进行空间上采样，计算过程表示为:

23、f5′＝u32(f5) (4)

24、f3′＝u4(u2(f3)) (5)

25、

26、其中f1′,f2′,f3′,f5′分别表示f1,f2,f3,f5的上采样结果，其特征分辨率被调整至与原图一样的尺寸；u32，u4，u2是不同层次特征的上采样操作，c3表示3×3卷积核，表示将特征图沿通道维度进行拼接。

27、步骤3.2：将f1′,f2′,f3′,f5′沿通道维度进行拼接，并通过分组卷积进行进一步处理，得到语义边界图sm；使用多标签二元交叉熵损失lsb对语义边界图进行监督，表示为：

28、

29、其中k，h，w分别表示语义类别数、输入图像的高和宽，是像素(i,j)上第k个语义类别的二进制标签，表示像素(i,j)处第k个类别的语义边缘预测值，λ是图像中属于非边缘区域的像素百分比。

30、步骤3.3：将f1′,f2′,f3′沿通道维度进行拼接，并输出，得到边缘细节图em；使用加权交叉熵损失对边缘细节图em进行训练，表示为：

31、

32、其中x表示解码器输入，ω代表解码器参数，yj为边缘真值，y+表示边缘区域，y-表示非边缘区域，β是图像中属于非边缘区域的像素百分比。

33、步骤3.4：将语义边界图sm与边缘细节图em送入语义边缘注意力模块，生成空间注意力图af，其计算过程如公式(10)所示

34、

35、其中，表示将特征图沿通道维度的拼接操作，poolmax与poolmean分别代表空间维度上的最大池化以及平均池化运算，c1是1×1卷积核，σ是激活函数，该函数将注意力图的特征值映射至0～1之间。

36、步骤3.5：基于多尺度特征图f4和空间注意力图af计算局部描述子；首先利用转置卷积对特征图f4进行空间上采样，表示为：

37、f4′＝deconv(f4,δ) (11)

38、其中，deconv表示转置卷积操作，δ为上采样的尺度因子。在本实施例中δ的大小设定为16。

39、将空间注意力图af与上采样后的特征图f4′进行逐点相乘，得到图像局部描述子dl，表示为：

40、

41、其中表示在空间维度上逐点相乘操作。

42、步骤4：采用全局信息分支从多尺度特征图中提取输入图像的全局描述子dg；

43、所述全局信息分支包括全局平均池化层和全连接层；

44、所述全局描述子dg表示为：

45、dg＝fc(poolgem(f5)) (13)

46、其中poolgem(·)表示全局平均池化操作，fc表示全连接层，dg为图像全局描述子，是一个高维特征向量，用于图像的全局表示。

47、使用三元组损失函数添加约束，定义如下：

48、

49、其中，||·||2表示l2距离，分别表示参考样本、正样本以及负样本的全局描述子，α是距离阈值；

50、步骤5：计算全局描述子之间的相似度，在待检索的图像数据库中全局检索出相似度最高的若干个图像；

51、具体为：计算全局描述子之间的余弦距离，将得到的余弦距离作为描述子之间的相似度；

52、步骤6：基于局部描述子采用ransac算法对步骤5获得的若干个图像进行重新排序，获得与输入图像最相似图像，即为目标图像。

53、采用上述技术方案所产生的有益效果在于：

54、本发明提供一种基于语义边界约束的注意力引导视觉场景识别方法，具备以下有益效果：

55、(1)本发明提出语义边界约束，通过语义边界解码器保留图像中的稳定的结构信息，可以有效应对场景外观变化；

56、(2)本发明提出语义边缘注意力模块，利用语义边界和纹理细节生成空间注意图，引导模型关注具有光照不变性的局部区域；

57、(3)本发明提出基于语义边界约束和注意力机制的描述子提取方法用于视觉场景识别，在统一框架内完成结构信息编码和外观不变描述子的提取。利用优化后的描述子计算图像之间的相似度，完成准确的视觉场景识别，提升了机器人在大尺度场景下的视觉定位准确性，有助于开展更智能化的视觉导航等工作。

技术特征：

1.一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，步骤1中所述预处理包括归一化处理以及伽马校正操作；

3.根据权利要求1所述的一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，步骤2中所述采用resnet-50网络提取输入图像的多尺度特征图如公式(3)所示：

4.根据权利要求1所述的一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，所述步骤3具体为：通过局部信息分支对多尺度特征图进行上采样处理，得到第一中间描述子；从多尺度特征图和第一中间描述子中提取输入图像的局部描述子；

5.根据权利要求4所述的一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，所述步骤3包括以下步骤：

6.根据权利要求1所述的一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，步骤4中所述全局信息分支包括全局平均池化层和全连接层。

7.根据权利要求1所述的一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，步骤4中所述全局描述子dg表示为：

8.根据权利要求1所述的一种基于语义边界约束的注意力引导视觉场景识别方法，其特征在于，所述步骤5具体为：计算全局描述子之间的余弦距离，将得到的余弦距离作为描述子之间的相似度。

技术总结
本发明提供一种基于语义边界约束的注意力引导视觉场景识别方法，涉及计算机视觉技术领域，本发明通过获取输入图像，提取所述输入图像的局部描述子；根据所述局部描述子和输入图像，提取所述图像的全局描述子；计算所述全局描述子之间的相似度，在数据库中得到相似度最接近的多个图像；基于所述局部描述子对所述多个图像进行重排序，得到最接近输入图像的目标图像。本方法在统一框架内完成结构信息编码和外观不变描述子的提取。利用优化后的描述子计算图像之间的相似度，完成准确的视觉场景识别，提升了机器人在大尺度场景下的视觉定位准确性，有助于开展更智能化的视觉导航等工作。

技术研发人员：张云洲,赵新歌,宁健,王卓,李坤模,邹德豪,王贵圆,刘伟
受保护的技术使用者：东北大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)