本发明涉及基于跨域监督信号引导注意力生成的场景文本识别方法,属于场景文本识别领域。
背景技术:
1、场景文本识别是计算机视觉领域的一个重要课题,是众多下游视觉任务如场景理解、自动驾驶、视觉问答、关键信息提取等的基础。近年来,场景文本识别方法取得了重大进展。尽管基于时序连接序列(ctc)的方法和基于分割的方法各有优点,然而基于注意力的文本识别方法表现出明显的词汇学习能力和观察能力,已成为文本识别领域的主流。
2、随着视觉transformer(vit)的出现,基于注意力的方法对规则文本和不规则文本的识别能力都比以往的方法更强。一些研究者使用vit和resnet的结合来提取丰富的文本信息,随后使用注意力机制对特征编码序列进行解码。此外,为了充分利用vit特征编码序列的丰富信息进行文本序列预测,有研究者提出了定制的自适应寻址和聚合模块,选择有意义的token组合,并将其集成为一个对应特定字符的token。尽管如此,基于注意力的方法,无论是1d还是2d,都容易受到注意力漂移的影响,最终导致文本识别错误。
3、解码过程中的注意力漂移问题最近引起了学术界广泛的关注,一方面,研究者试图通过将对齐操作从解码过程中分离出来,避免使用历史解码信息来消除解码错误导致的注意力不对齐问题。另一方面,研究者将文本识别任务重新定义为字符级分割任务,通过对图像中的文本区域进行分割,并对分割结果进行翻译,得到最终的字符序列。
4、尽管研究者们采取了一些方法来缓解注意力漂移问题并取得了明显的成就,但他们忽视了编码过程中的注意力漂移问题。然而,在各大视觉任务中,编码器的作用越来越重要,被视为各类业务视觉大模型和通用视觉大模型的底座,在场景文本识别领域也不例外。随着编码过程中问题的积累,可能直接导致解码过程中的注意力漂移,并进一步导致文本识别错误。
技术实现思路
1、为了解决现有技术的不足,本发明提出了基于跨域监督信号引导注意力生成的场景文本识别方法。该方法通过提取文本的核心区域作为监督信号,递归地以跨域的方式使用cnn域提取的监督信号引导transformer域的注意力在特征编码过程中进行准确学习,并使用引导注意力对编码信息进行矫正,然后使用门控机制与原始的基于注意力的编码信息进行自适应融合,获得精准的文本特征编码。针对上述获取的文本特征编码信息,本发明采用了一种非注意力的自适应解码器对文本特征编码进行解码。该设计避免了由于使用错误的历史解码信息而引起的注意漂移问题,同时提高了解码速度。此外,文本核心区域的生成融合了人工引导和自适应学习的训练策略,使模型能够从自己的角度独立学习和理解对文本识别有益的文本核心区域,提升了模型对文本核心区域的学习能力,进一步促进文本识别效果。
2、为实现上述目的,本发明采用以下技术方案:
3、一种基于跨域监督信号引导注意力生成的场景文本识别方法,其特征在于:在编码阶段,通过提取文本的核心区域作为监督信号,递归地以跨域的方式使用cnn域提取的监督信号引导transformer域的注意力在特征编码过程中进行学习,缓解编码过程中注意力漂移,并使用引导注意力对编码信息进行矫正,然后使用门控机制与原始的基于注意力的编码信息进行自适应融合,获得最终的文本特征编码,在解码阶段,对上述获取的编码结果使用非注意力的自适应转换解码器来进行解码,缓解解码阶段的注意力偏移,该方法包括以下步骤:
4、s1、构建用于人工引导文本核心区域生成的真实值标签,它通过包围字符的最小矩形框(xmin,ymin,xmax,ymax)向中心缩放γ倍构成;
5、s2、构建特征提取器,该特征提取器用于文本特征提取以及文本核心区域生成,其中,文本核心区域是由构建的特征金字塔网络结构生成;
6、s3、在编码阶段,首先使用多个基础的vit块进行特征编码,将编码信息输入注意力引导模块,然后,将s2步骤中获取的文本核心区域作为监督信号来引导transformer中注意力生成,该引导过程使用跨域的方式递归的将cnn域中获取的监督信号引导transformer域的注意力生成,并使用引导后的注意力对vit块中输出的编码信息进行矫正,最后,将引导注意力生成的编码信息与无引导注意力生成的编码信息输入到特征融合模块,该模块使用门控机制将两种编码信息进行融合,以获取最终的编码信息;
7、s4、在解码阶段,使用一系列的1×1卷积块以及压缩和变换等常规的矩阵操作构建非注意力的自适应解码器,该解码器接受编码阶段的输出作为输入,并输出解码结果得到字符序列;
8、s5、在训练阶段,采用人工引导与模型自适应学习的融合训练策略学习方法,其中,人工引导方式为使用s1中构建的文本核心区域作为监督信息监督特征提取器中文本核心区域的学习,使模型能够具备提取文本核心区域的能力,模型自适应学习使用上述人工引导方式获得的模型作为基础,在没有文本核心区域作为监督,只有文本识别结果作为监督的情况下,自适应的学习模型自身理解的且对文本识别有作用的文本核心区域。
9、进一步地,步骤s1具体包括:
10、所述构建用于人工引导文本核心区域生成的真实值标签,它通过包围字符的最小矩形框(xmin,ymin,xmaxymax)向中心缩放γ倍构成,具体公式如下:
11、w=xmax-xmin
12、h=ymax-ymin
13、
14、其中,(xmin,ymin,xmax,ymax)中的四个变量分别是字符的左上点横坐标、左上点纵坐标、右下点横坐标、右下点纵坐标,为原始字符框的坐标,γ是缩放比,中的四个变量分别是用于人工引导的文本的核心区域的左上点横坐标、左上点纵坐标、右下点横坐标、右下点纵坐标。
15、进一步地,步骤s2具体包括:
16、所述构建特征提取器,该特征提取器由卷积网络组成,使用一个自下而上的链路进行文本特征提取,使用一个自上而下的特征金字塔结构生成文本核心区域;文本特征提取可以被表述如下:
17、
18、其中,xf表示文本特征图,表示自下而上的文本特征提取器,x表示文本图像,h表示文本图像的高度,w表示文本图像的宽度,c表示文本特征图的通道数。
19、进一步地,步骤s3具体包括:
20、在编码阶段,首先,使用m个基础的vit块进行特征编码,具体地,对s2步骤中的特征图xf进行卷积和矩阵变换操作,形成vit块的输入z0,并经过m个vit块进行特征编码;
21、其次,构建注意力引导模块,使用获取的文本核心区域生成文本引导向量vm,并结合类别向量vc生成最终的注意力引导向量va,公式如下:
22、
23、然后对vit的注意力ta进行引导,并使用引导后的注意力对vit的编码结果进行矫正,公式如下:
24、
25、其中,ta'是vit中每个头的注意力矩阵,ta是所有注意力头的注意力矩阵均值,h是vit中注意力头的数量,n是patch的个数,tga是使用注意力引导向量引导后的注意力,vts'是使用引导后注意力矫正的编码信息,vts是vit块编码结果,d是嵌入维度,sigmoid是激活函数,norm表示层归一化;
26、最后,构建特征融合模块,保持原始vit编码分支,输出无引导注意力生成的编码信息,然后使用s3中获取的引导注意力将此编码信息进行矫正,并与其进行初步融合,获取初步融合后的编码信息vf,最后使用门控机制自适应的将初步融合后的编码信息与无引导注意力生成的编码信息进行融合,得到最终融合后的编码信息f,具体方式如下:
27、
28、f=g⊙vts+(1-g)⊙vf
29、其中,wgated是可学习权重,g是门控权重,tga是使用注意力引导向量引导后的注意力,vts'是使用引导后注意力矫正的编码信息,vts是视觉vit块编码结果,n是patch的个数,d是嵌入维度,sigmoid是激活函数,norm表示层归一化。
30、进一步地,步骤s4具体为:
31、构建非基于注意力的自适应转换解码器,表示如下:
32、
33、其中,y是解码后的字符信息矩阵,可以通过后处理得到相应的字符序列,ψ是一系列1×1卷积块以及压缩和变换等常规的矩阵操作组成的自适应转换函数,t是解码器输出的最大字符序列长度,k是字符类别数。
34、进一步地,步骤s5具体为:
35、根据是否使用s1所述文本核心区域对特征提取器中文本核心区域的生成进行监督将训练过程分为两个阶段,分别为人工引导阶段和自适应学习阶段,在人工引导阶段使用字符序列和人为设定的文本核心区域对模型进行监督,在自适应学习阶段只使用字符序列对模型进行监督。
36、与现有技术相比,本发明具有如下优点:
37、1、与现有技术相比,本发明在编码阶段使用文本核心区域以跨域的方式引导编码过程中的注意力学习,并使用特征编码融合模块将引导注意力生成的编码信息与无引导注意力生成的编码进行融合,从而获得正确的编码信息,防止在编码过程中的注意力漂移导致的特征编码错误,提升了文本特征编码的质量,为后续获得正确的文本序列提供强有力的保障。
38、2、与现有技术相比,本发明采用了一种高效并行且非注意力的自适应解码器对文本特征编码进行解码,该设计避免了由于使用错误的历史解码信息而引起的注意漂移问题,同时提高了解码速度;此外,文本核心区域的生成融合了人工引导和自适应学习的训练策略,使模型能够从自己的角度独立学习和理解对文本识别有益的文本核心区域,提升了模型对文本核心区域的学习能力,进一步促进了文本识别效果。
1.一种基于跨域监督信号引导注意力生成的场景文本识别方法,其特征在于:在编码阶段,通过提取文本的核心区域作为监督信号,递归地以跨域的方式使用cnn域提取的监督信号引导transformer域的注意力在特征编码过程中进行学习,缓解编码过程中注意力漂移,并使用引导注意力对编码信息进行矫正,然后使用门控机制与原始的基于注意力的编码信息进行自适应融合,获得最终的文本特征编码,在解码阶段,对上述获取的编码结果使用非注意力的自适应转换解码器来进行解码,缓解解码阶段的注意力偏移,该方法包括以下步骤:
2.根据权利要求1所述的基于跨域监督信号引导注意力生成的场景文本识别方法,其特征在于:步骤s1具体包括:
3.根据权利要求1所述的基于跨域监督信号引导注意力生成的场景文本识别方法,其特征在于:步骤s2具体包括:
4.根据权利要求1所述的基于跨域监督信号引导注意力生成的场景文本识别方法,其特征在于:步骤s3具体包括:
5.根据权利要求1所述的基于跨域监督信号引导注意力生成的场景文本识别方法,其特征在于:步骤s4具体为:
6.根据权利要求1所述的基于跨域监督信号引导注意力生成的场景文本识别方法,其特征在于:步骤s5具体为: