一种基于交叉注意力机制的驾驶员意图识别方法

xiaoxiao6月前  39


本发明涉及基于交叉注意力机制的驾驶员意图识别方法,属于计算机视觉、图像处理、人机交互等。


背景技术:

1、意图识别技术是人工智能和自然语言处理(nlp)领域中的重要分支,其主要目的是理解用户在自然语言表达中的意图,从而实现更智能和更自然的人机交互。深度学习中的神经网络,如卷积神经网络(cnn)和循环神经网络(rnn),尤其是长短期记忆网络(lstm)和双向lstm(bilstm),在意图识别中表现出色。驾驶员意图识别技术的目标是通过多种传感器和算法来实时监控和分析驾驶员的行为和环境,以预测驾驶员的下一步动作,如转向、变道、刹车等。对于驾驶员来说,车祸大都是由不当的驾驶操作引起的。如果事先检测到此类驾驶操作并相应地协助驾驶员,则可以避免严重伤害。近些年许多研究人员专注于检测驾驶员执行前的操纵意图,最常见的是利用高分辨率摄像机和雷达传感器来捕获驾驶员的行为状态和记录交通场景。brain4cars数据集不仅提供了汽车行驶过程中驾驶员的图像数据,还对车舱外源性的信息进行了记录。这些视频显示了驾驶员侧和道路交通的不同行为模式。图像传达了大量信息,许多研究表明,根据驾驶员的视频可以预测驾驶员的意图,因为驾驶员会转头看后视镜。

2、近年来resnet被广泛运用于图像的特征提取,其优势在于可以训练非常深的神经网络,避免了梯度消失问题,提高了模型的表达能力和性能,使用残差连接可以保留原始特征,使得网络的学习更加顺畅和稳定,进一步提高模型的精度和泛化能力;长短时记忆网络作为一种特殊的循环神经网络结构,在序列数据处理中具有明显的优势。通过引入门控机制和长期记忆机制,能够更好地捕捉序列数据中的长期依赖关系。而为了构建时空序列预测模型,需要同时掌握时间和空间信息,所以将长短时记忆网络中的全连接权重改为卷积。利用残差网络和卷积长短期记忆网络所提取到的特征,进一步使用交叉注意力机制融合空间和时序特征,可以通过计算注意力权重,学习时空特征中不同位置之间的相关性,可以更好地捕捉时空序列数据中的特征,提高模型性能和泛化能力,更精确的实现后续的分类或回归任务。

3、驾驶员操作预测领域大部分的研究数据均来自驾驶员的行为观察视频,尤其是眼部运动和头部姿势,可用于活动识别,还可用于视线映射,注意力检测,意图识别。同时部分研究表明,车内驾驶员的状态通常与车外的交通场景密切相关,外部场景的信息也会影响驾驶员的操作意图。基于此背景以及上述模块的优势,提出了一种基于交叉注意力机制的驾驶员意图识别方法。

4、(1)牛超;赵运;郑岳琦;马天发;全杰;孙德荣;王晋武.一种驾驶员意图识别方法,cn117485348a,2024.提出了一种驾驶员意图识别方法,根据采集到的驾驶员行为的数据以及驾驶环境的图像和视频数据,通过mtcnn神经网络对驾驶员的人脸检测,并通过facenet人脸识别算法获取驾驶员的身份信心,通过表情分析、手势识别、空间头部姿态以及驾驶场景分析提取信息,多种特征信息进行融合获得驾驶员意图识别结果。

5、(2)田彦涛;王凯歌;郝子绪;唱寰;黄兴;卢辉遒.一种基于注意力机制的驾驶员意图识别及车辆轨迹预测方法,cn114368387a,2022.提供了一种针对驾驶员的意图识别及自车车辆轨迹预测的方法,基于自车历史轨迹信息进行编码,并设置了注意力机制ι,基于周车历史轨迹信息进行编码,并设置了注意力机制π,基于自车历史轨迹信息编码器识别驾驶员意图,即计算左转、保持车道、右转的概率,并建立解码器预测获得自车车辆的未来位置。

6、目前的驾驶员意图识别方法主要根据传感器捕获的信息进行特征提取,并对多种特征进行融合实现最后的意图预测,但由于多种数据的相关性有限,所以需要寻求一种将多来源的数据实现关联的融合方法,在实现意图预测的同时提高其准确率。


技术实现思路

1、本发明的目的是提供一种基于交叉注意力机制的驾驶员意图识别方法。有效解决驾驶员意图识别精确度低的问题。技术方案如下:

2、本发明的目的是通过以下技术方案来实现的:一种基于交叉注意力机制的驾驶员意图识别方法,其包括以下步骤:

3、(1)在网上搜集整理现有公开的自然驾驶图像数据集。

4、(2)对输入的座舱驾驶员图像数据经过3dresnet-50模块进行特征提取,因为其在人类动作识别任务中表现出了高性能,为了防止过度拟合,在驾驶员侧添加了随机裁剪、缩放以增强空间数据,随机且均匀的在每秒中间切除16帧的片段作为模块的输入,目的是增强时间数据。同时,在最后一个fc层之前添加一个额外的dropout层,随机丢弃网络中的一部分神经元,迫使网络在每次训练时使用不同的子网络,从而减少对训练数据的过拟合。

5、(3)对输入的舱外场景数据,首先经过flownet从连续帧中提取光流图像,然后基于convlstm提出了一种以编码器-解码器方式训练的网络,用于运动预测和特征提取。由于其固有的卷积能力,该结构能够解决时空序列预测问题。输入是五个光流图像xi(i<5,i∈z)的剪辑。选择5作为输入长度,获得一秒(30帧)到五秒(150帧)的有着相同间隔l的均匀采样剪辑。编码器压缩了可用于未来运动预测的五帧输入的运动信息,被视为运动特征提取器,经过解码器输出是机动预测所需的3d维度特征。

6、(4)对于提取出的舱内和舱外的两部分特征,经过处理之后输入transformer注意力模块encoder中实现交叉注意力特征融合,最后经过fc层实现5种类别(直行、左转、右转、左变道、右变道)的概率预测。

7、进一步地,所述步骤(2)中采用3dresnet-50模块进行特征提取,把输入输出的映射从f(x)转换到了h(x)=f(x)+x上,这样在网络层数足够深的情况下,在接近网络输出端的层结构中,其上一层的输出很可能已经无限逼近于最优。

8、添加dropout层的神经网络前向传播计算公式,对于带有l层隐藏层的神经网络可以被描述为:相比于之前输出向量经过了伯努利分布,类似于经过一个门筛选了一下。

9、

10、y(l)=r(l)y(l),

11、

12、其中z代表输入向量,y代表输出向量,w代表权重,b代表偏差,f为激活函数。

13、进一步地,所述步骤(3)中,动作由空间和时间信息组成。众所周知,深度卷积神经网络可以捕获空间域中的特征,而循环神经网络架构和长短期记忆单元则以理解隐藏在时间序列中的逻辑而闻名。因此,在视频处理应用中,lstm和rnn技术通常与2dcnn结合使用,以处理空间和时间信息,模型使用convlstm网络进行运动预测和特征提取。其中lstm公式为:

14、ft=σ(wf[ht-1,xt]+bf)

15、it=σ(wi[ht-1,xt]+bi)

16、ct=ft⊙ct-1+it⊙tanh(wc[ht-1,xt]+bc)

17、ot=σ(wo[ht-1,xt]+bo)

18、ht=ot⊙tanh(ct)

19、其中ft是对上个状态的保存程度,it代表对一个输入的接纳程度,ct表示状态,由对上一时刻状态的忘记程度和当前输入的接纳程度共同决定,ot代表一个状态能够输出的程度,ht为最终的输出。

20、convlstm将抽取空间特征的卷积操作加到了lstm网络中,将lstm中的一部分连接操作替换为了卷积操作。即:

21、it=σ(conv(xt;wxi)+conv(ht-1;whi)+conv(ct-1;wci))

22、ft=σ(conv(xt;wxf)+conv(ht-1;whf)+conv(ct-1;wcf))

23、ot=σ(conv(xt;wxo)+conv(ht-1;who)+ct⊙wco)

24、gt=tanh(conv(xt;wxg)+conv(ht-1;whg))

25、ct=ft⊙ct-1+it⊙gt

26、ht=ot⊙tanh(ct)

27、其中下标t表示时间序列。xt是输入。it,gt,ft和ot是单元中的门。ct是单元状态,ht是隐藏状态。所有w都表示卷积运算中的权重。⊙表示逐元素乘法。σ和tanh分别是s形和双曲正切函数,它们也逐元素应用。视频分析的一个基本要素是运动理解。运动描述时间和空间的变化,通常基于光流在图像平面上进行估计。

28、对于外部运动特征的提取,在训练中添加了时间增强:随机均匀地剪切5帧剪辑,并将其作为网络的输入。目标是剪辑中最后一帧之后的第l帧。使用均方误差(mse)作为损失函数,使用随机梯度下降(sgd)作为优化器。

29、其中sgd的更新公式如下:

30、θt+1=θt-η▽fi(θt)

31、其中θ表示模型参数,t为迭代次数,η为学习率,fi是损失函数,表示在每次迭代中。计算当前参数下的梯度,然后沿梯度的反方向更新参数,以减少损失函数的值。

32、进一步地,所述步骤(4)条件提取舱内驾驶员通过3dresnet-50中最后一个fc层的输入,一个2048维的向量,并将外部运动特征利用卷积块处理其特征维度输入进交叉注意力模块进行融合,利用交叉注意力模块实现特征融合,允许模型关注输入车舱内外序列之间的关系,从而具有更高的关联性。相对于传统的自注意力机制,它能够更好地处理复杂和多变的输入序列结构。

33、令q=x1wq和k=v=x2wk,交叉注意力机制公式如下:

34、

35、其中是学习到的投影矩阵,dk为键值集合的维度。提取出的舱内和舱外的两部分特征经过交叉注意力实现从源特征到目标特征的潜在适应,以有效强化每个目标特征,强化目标特征通过密集层连接起来得到最终表示,引入具有意图识别任务的神经元数量的全连接层,公式如下:y=wx+b

36、其中w为权值参数,b为偏置参数。最终模型训练输出5种类别(直行、左转、右转、左变道、右变道)的概率预测。

37、与现有的驾驶员意图识别方法相比,本发明的优点:

38、(1)驾驶员的意图识别的主要问题是只通过驾驶员的部分行为特征所得到的准确度较低,该发明将舱外的环境特征融入,能够较好的提升意图识别的准确度,且该方法不需要额外考虑雷达等外部传感器所带来的额外特征信息,即可实现较好的驾驶员意图识别效果。

39、(2)该发明提出使用基于convlstm的自动编码器对交通场景运动进行编码,设置良好的sgd优化器,后续利用卷积块实现解码,这种以编码器-解码器方式训练的网络,用于运动预测和特征提取。由于其固有的卷积能力,该结构能够解决时空序列预测问题。

40、(3)该发明提出基于交叉注意力机制的驾驶员意图识别方法,将三维残差网络提取舱内驾驶员特征、卷积长短期记忆网络提取舱外环境特征、交叉注意力融合两部分特征实现意图识别整合成一个整体,提出了一个基于车舱内和舱外交通场景视频检测驾驶员意图的框架。


技术特征:

1.一种基于交叉注意力机制的驾驶员意图识别方法,其特征包括下列步骤:

2.根据权利要求1所述,步骤(2)中添加dropout层的神经网络前向传播计算公式,对于带有l层隐藏层的神经网络可以被描述为:相比于之前输出向量经过了伯努利分布,类似于经过一个门筛选了一下。

3.根据权利要求1,所述步骤(3)条件模型使用convlstm网络进行运动预测和特征提取。其中lstm公式为:

4.根据权利要求1,所述步骤(4)条件利用交叉注意力模块实现特征融合,提取舱内驾驶员通过3dresnet-50中最后一个fc层的输入,一个2048维的向量,并将外部运动特征利用卷积块处理其特征维度输入进交叉注意力模块进行融合。允许模型关注车舱内外序列之间的关系,从而具有更高的关联性。相对于传统的自注意力机制,它能够更好地处理复杂和多变的输入序列结构。


技术总结
本发明涉及一种基于交叉注意力机制的驾驶员意图识别方法,涉及计算机视觉、图像处理、人机交互等技术领域。对舱内驾驶员的图像数据使用3DResnet‑50模块进行特征提取,得到其特征向量,对舱外环境数据使用光流图像的处理,以及使用一种基于ConvLSTM的编码器‑解码器方式训练的网络进行运动预测和特征提取,由于其固有的卷积能力,该结构能够解决时空序列预测问题。对于提取出的舱内和舱外的两部分特征,输入Transformer注意力模块Encoder中实现交叉注意力特征融合,最后经过FC层实现5种类别(直行、左转、右转、左变道、右变道)的概率预测。本发明将车舱内外的特征先提取再关联,使用交叉注意力机制实现特征融合,增加了意图识别预测的准确度。

技术研发人员:陶洋,翟超磊
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)