本发明涉及计算机视觉领域,具体涉及一种可学习深度位置编码引导的道路可行驶区域检测方法及系统。
背景技术:
1、近年来,随着自动驾驶和车辆辅助驾驶系统的普及,对复杂道路环境感知的需求愈加迫切。现有方法一般基于可见光摄像头、深度相机、激光雷达等车载传感器获取道路场景数据,并在此基础上深入分析场景和数据特征,通过构建二元语义分割算法实现道路可行驶区域检测。可行驶区域检测结果可以提供道路场景的关键信息,改善自动驾驶中与其相互关联或依赖的任务,如路径规划、轨迹预测和道路跟踪等。
2、早期的研究主要利用数字图像处理、几何与拓扑学、概率图模型等机器学习方法实施可行驶区域检测。自深度学习被提出以来,越来越多基于卷积神经网络、全卷积神经网络、unet等网络的方法被应用于可行驶区域语义分割工作中。然而,这些方法的应用会受到彩色图像输入本身的固有缺陷制约,甚至出现明显的分割错误。例如,道路环境在光照、天气条件变化下,输入图像可能产生纹理、尺度、视角,透视等变化,导致同质变异性问题或无视觉纹理线索。
3、激光雷达三维点云具有强大的空间信息表征能力,可以提供对环境的精确三维测量,弥补了彩色图像受限于纹理线索的缺陷。然而,三维点云本身存在数据量大、计算复杂的问题,无法适应多变的城市交通环境。而利用可表征三维空间信息的图像数据代替点云,大幅提升计算效率的同时保证该任务的检测精度。目前,以彩色图像和表征三维的图像构造数据融合网络,结合二维视觉纹理信息与三维的空间结构信息,已经成为了可行驶区域检测的主流方法。
4、为满足道路可行驶区域的检测任务,在全局建模之外还要求实现局部细节信息精确分割,以适应变化强度大的场景并对道路边缘和障碍物轮廓等精细结构进行有效建模。利用注意力机制和视觉transformer能够对图像进行全局归纳建模缺乏局部的归纳偏置造成细节丢失,同时不可学习的位置编码易引起注意力与语义的偏移和不对齐问题。
5、基于卷积神经网络的方法(convolutional neural networks,cnns)具有归纳偏置的特性优势,能弥补由transformer所带来的注意力偏移和语义不对齐等问题。在数据融合架构下,构造可学习位置编码辅助transformer对齐像素与实际空间场景,同时精细化细节分割是本发明考虑的关键问题。
技术实现思路
1、为了解决现有技术所存在的问题,本发明提供一种可学习深度位置编码引导的道路可行驶区域检测方法及系统,能够为汽车驾驶辅助系统的路径规划与轨迹预测等任务提供高精度的语义先验信息,实现高精度、稳健的可行驶区域检测。
2、本发明实施例中具体采用的方法技术方案为:一种可学习深度位置编码引导的道路可行驶区域检测方法,包括以下步骤:
3、s1、设置双分支金字塔transformer主干网络,所述主干网络包括依次连接的多个双分支注意力层,每个双分支注意力层均包括一个transformer计算层;
4、s2、在每个transformer计算层中设置dua l-transformer模块,用于获取图像中的全局特征和局部特征,在每个dua l-transformer模块中设置一个收缩注意力层,以聚合全局特征和局部特征;
5、s3、对于dua l-transformer模块中的收缩注意力层,合并头空间,驱动双分支金字塔transformer主干网络关注不同特征空间的信息;
6、s4、通过可学习深度位置编码辅助网络,获取深度图像特征,所获取到的每阶段深度图像特征与双分支金字塔transformer主干网络中的对应特征进行相加,为图像特征添加空间信息;
7、s5、采用多尺度特征级联融合的上采样模块,对添加空间信息后的图像特征进行分辨率恢复,实现图像特征的恢复。
8、本发明实施例中具体采用的系统图技术方案为:一种可学习深度位置编码引导的道路可行驶区域检测系统,包括以下模块:
9、主干网络构建模块,用于设置双分支金字塔transformer主干网络,所述主干网络包括依次连接的多个双分支注意力层,每个双分支注意力层均包括一个transformer计算层;
10、在每个transformer计算层中设置dua l-transformer模块,用于获取图像中的全局特征和局部特征,在每个dua l-transformer模块中设置一个收缩注意力层,以聚合全局特征和局部特征;
11、头空间合并模块,对于dua l-transformer模块中的收缩注意力层,合并头空间,驱动双分支金字塔transformer主干网络关注不同特征空间的信息;
12、空间信息添加模块,用于通过可学习深度位置编码辅助网络,获取深度图像特征,所获取到的每阶段深度图像特征与双分支金字塔transformer主干网络中的对应特征进行相加,为图像特征添加空间信息;
13、图像特征恢复模块,采用多尺度特征级联融合的上采样模块,对添加空间信息后的图像特征进行分辨率恢复,实现图像特征的恢复。
14、采用上述技术方案后,本发明与现有技术相比,具有如下优点:
15、1、本发明提出了一种用于道路可行驶区域检测的双分支金字塔transformer主干网络,以并行方式融合基于全局和窗口的收缩注意力,在全局感知的基础上顾及局部细节的精确分割,包括金字塔transformer主干网络、dual-transformer模块和收缩注意力模块。
16、2、本发明提出了一种可学习深度位置编码辅助网络,基于深度图像固有的空间位置信息,以其卷积特征构造辅助网络生成可学习的位置编码,建模彩色图像像素与实际场景的空间位置联系,消除注意力偏移。
17、3、本发明设计了一个多尺度特征融合模块,利用级联融合的上采样渐进式恢复特征分辨率,有效融合多尺度特征丰富的语义信息,并以加权深监督约束中间层特征,实现高精度、稳健的可行驶区域检测。
1.一种可学习深度位置编码引导的道路可行驶区域检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的道路可行驶区域检测方法,其特征在于,步骤s1将接收的彩色图像划分为一系列不重叠的窗口和patch块,彩色图像经过所述主干网络的多个双分支注意力层后,获得尺寸不同的多尺度金字塔特征。
3.根据权利要求1所述的道路可行驶区域检测方法,其特征在于,步骤s2包括:
4.根据权利要求3所述的道路可行驶区域检测方法,其特征在于,所述特征线性变换融合的公式为:
5.根据权利要求1所述的道路可行驶区域检测方法,其特征在于,步骤s3包括:
6.根据权利要求1所述的道路可行驶区域检测方法,其特征在于,步骤s4包括:
7.根据权利要求1所述的道路可行驶区域检测方法,其特征在于,步骤s5包括:
8.一种可学习深度位置编码引导的道路可行驶区域检测系统,其特征在于,包括以下模块:
9.根据权利要求8所述的道路可行驶区域检测系统,其特征在于,主干网络构建模块中:
10.根据权利要求8所述的道路可行驶区域检测系统,其特征在于,头空间合并模块中: