基于单词-图片配对和交叉Transformer的多模态命名实体识别方法

xiaoxiao4月前 18

本技术涉及计算机科学和人工智能领域，特别是自然语言处理(nlp)中的多模态命名实体识别(mner)技术。

背景技术：

1、命名实体识别(ner)是nlp任务的重要部分，早期研究使用特征工程和线性分类器如svm、最大熵和crf解决ner任务。为减少特征设计的人工工作，已提出数十种深度学习方法，例如cnn、lstm和注意力机制。最近，预训练方法在学习实例表示方面表现更佳，对ner任务也有益。然而，这些方法在多模态数据上的性能并不令人满意。

2、统计显示，超过42％的twitter帖子包含了图像这样的多模态数据。图像数据能够为我们提供丰富的信息辅助处理标签推荐任务。往往，图像和文本数据能够相辅相成，提供更全面的信息来反映所研究的对象。因此，仅依靠文本数据来进行标签推荐是不够的。

3、多模态融合是提升ner等任务性能中必不可少的一部分，整合视觉信息到ner中有两种方法。第一种是将整个图像编码成一个全局特征向量，然后用它来增强每个单词的表示。第二种是使用从整个图像中提取的视觉单元，如特征表示、图像标题和对象标签。

4、然而，如社交媒体帖子所附图像与文本关联不显著、图像突出显示部分实体而忽略其他实体、或附图含有大量无关背景噪声等情况经常发生。上述两类方法在各种多模态模型中整合文本表示和相关图像信息取得了有希望的结果，但它们假设所有输入信息肯定对任务有贡献。然而实际上，并非所有视觉来源都发挥积极作用，尤其是在社交媒体数据上，对于图像中未明确显示的实体识别能力会显著降低。这导致输入信息的选择性偏差，从而忽略了图片未强调的其他关键实体信息。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种基于潜在单词-图片配对和改良transformer的多模态命名实体识别方法，以期能提高更多模态模型识别效率，提升命名实体识别的性能，从而使图文数据匹配率更高。

2、本发明为达到上述发明目的，采用如下技术方案：

3、本发明一种基于单词-图片配对和交叉transformer的多模态命名实体识别方法的特点在于，是按如下步骤进行：

4、步骤1、获取多模态的先置数据集，且所述先置数据集中包含有文本模态的英文数据集以及视觉模态的图像数据集；其中，所述英文数据集中的单词与图像数据集中图片存在对应关系；

5、步骤2、获取另一个包含文本模态的英文数据集以及视觉模态的图像数据集的多模态的目标数据集，并作为先置数据集的补充数据集，用于构建视觉-窗格拓展前缀匹配树extendtrie；令目标数据集的ner标签序列为a；

6、步骤3、对目标数据集中的任意一个文本-图片对进行处理，获取文本-图片对的编码特征表示sh,v；

7、步骤4、构建基于transformer的图像-文本交叉融合模型clt，并对文本-图片对的编码特征表示集合sh,v进行处理，得到最终的交叉融合特征f'；

8、步骤5、训练图像-文本交叉融合模型clt：

9、步骤5.1、利用式(18)构建损失函数

10、

11、式(18)中，pr(a'|f')表示在给定交叉融合特征f'下，输出标签序列为a'的条件概率；

12、步骤5.2、利用adam优化器对所述图像-文本交叉融合模型clt进行训练，并计算以更新网络参数，直至迭代次数达到最大迭代次数时或达到最小时，停止训练，从而得到训练后的最优命名实体识别网络模型，用于结合输入的图片对输入的英文句子进行命名实体识别。

13、本发明所述的一种基于单词-图片配对和交叉transformer的多模态命名实体识别方法的特点也在于，所述步骤3是按如下步骤进行：

14、步骤3.1、利用拓展前缀匹配树对目标数据集中的文本进行处理，其中，任意一个英文句子sw＝(w1,w2,...,wi,...,wn)所对应的文本-图片对集合由extendtrie匹配获得，并记为sw,p＝extendtrie(sw)＝[(w1,p1),(w2,p2),...,(wi,pi),...,(wn,pn)]，其中，wi表示英文句子sw中的第i个单词，pi表示第i个单词wi匹配到的图片，若wi没有匹配到图片，则令pi为空，n表示sw中的单词数；其中，第i个单词wi的ner标签为ai∈a；

15、步骤3.2、通过预训练bert-base-uncased模型作为文本编码器，并对wi进行处理，得到wi的编码特征表示hi，从而得到文本编码特征表示h＝h1,h2,...,hi,...,hn；

16、步骤3.3、通过预训练visiontransformer模型作为图片编码器，并对pi进行处理，得到pi的编码特征表示vi，从而得到图片编码特征表示v＝v1,v2,...,vi...,vn；进而得到sw,p的文本-图片对的编码特征表示集合sh,v＝[(h1,v1),(h2,v2),...,(hi,vi),...,(hn,vn)]，其中，(hi,vi)表示第i个文本-图片对的编码特征表示。

17、所述步骤4是按如下步骤进行：

18、步骤4.1、利用式(1)得到交叉融合后的视觉特征iup：

19、iup＝clt(h,v,v)＝layernorm(ffn(li)+li) (1)

20、式(1)中，layernorm是层归一化操作，ffn是前馈网络，li表示归一化后模型的视觉中间结果，并有：

21、li＝layernorm(oi(h,v,v)+v) (2)

22、ffn(li)＝max(oi(h,v,v)；liw1+b1)w2+b2 (3)

23、式(2)和式(3)中，oi表示视觉特征的多头注意力机制的输出，w1、w2表示前馈网络ffn中的2个训练权重，b1、b2是前馈网络ffn中的2个训练参数；并有：

24、oi(h,v,v)＝[αi1(h,v,v)；...；αiz(h,v,v)；...；αiz(h,v,v)]woi (4)

25、式(4)中，αiz表示多头注意力机制中第z个注意力头的视觉特征处理操作，表示视觉特征的训练权重，并有：

26、

27、式(5)中，表示第z个注意力头的2个训练权重，表示v的第z部分，包含视觉编码特征第z部分相对的位置信息，z是多头注意力的头数，t表示转置；d表示transformer隐藏层的维度，并有：

28、

29、式(6)中，ri-j表示vi对其他第j张图片编码特征表示vj的距离和方向的偏移项，j是vi前或后的某一张图片编码特征表示的索引，i≠j；表示两个训练权重，并有：

30、

31、式(7)中，δ表示超参数，m表示参数计算的中间结果，并有：

32、m＝(2b*z)/d (8)

33、式(8)中，b表示调整位置编码相位的系数，且b∈[0；d/(2*z)]；

34、步骤4.2、利用式(9)得到交叉融合后的文本特征tup：

35、tup＝clt(v,h,h)＝layernorm(ffn(lt)+lt) (9)

36、式(9)中，lt表示归一化后模型的文本中间结果，并有：

37、lt＝layernorm(ot(v,h,h)+h) (10)

38、ffn(lt)＝max(ot(v,h,h)；ltw3+b3)w4+b4 (11)

39、式(10)和式(11)中，ot表示文本特征的多头注意力机制的输出，w3、w4表示所述前馈网络ffn中的另2个训练权重，b3、b4是所述前馈网络ffn中的另2个训练参数；并有：

40、ot(v,h,h)＝[αt1(v,h,h)；...；αtz(v,h,h)；...；αtz(v,h,h)]wot (12)

41、式(12)中，αtz表示多头注意力机制中第z个注意力头的文本特征处理操作，表示文本特征的训练权重，并有：

42、

43、式(13)中，表示第z头注意力的另2个训练权重，表示h的第z部分，包含文本编码特征第z部分相对的位置信息，并有：

44、

45、式(14)中，ri-j表示wi对其他第j个文本编码特征表示wj的距离和方向的偏移项，j是wi前或后的某一个文本编码特征表示的索引，i≠j；表示另2个训练权重；

46、步骤4.3、利用式(15)得到图像-文本交叉融合特征拼接ti，从而利用式(16)输出最终的交叉融合特征f'：

47、ti＝[tup；iup] (15)

48、f′＝clt(ti,ti,ti) (16)

49、式(15)中，[；]表示特征拼接。

50、所述步骤5.1中是利用式(17)得到在给定交叉融合特征f'下，输出标签序列为a'的条件概率pr(a'|f')：

51、

52、式(17)中，ai-1表示第i-1个单词wi-1的ner标签，是第i个文本-图像对特征的评分函数，wi是第i个权重向量，bi是第i个偏差。

53、本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述多模态命名实体识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

54、本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行权利所述多模态命名实体识别方法的步骤。

55、与现有技术相比，本发明的有益效果在于：

56、1、本发明通过使用模态词典(视觉词典)提供更多高质量的图像信息，视觉词典可以匹配尽可能多的高质量对应图像来潜在实体，从而编码所有单词和潜在匹配图像，通过这种方式能更准确地匹配高质量的图像，使多模态模型足够高效，而不是依赖于仅在mner中起辅助作用的原始图像，避免了因图像分割错误引起的信息误传，提升了识别方法的性能。

57、2、本发明采用视觉-窗格结构能用来提供英文实体边界信息，有助于模型准确地识别实体的起始和结束位置，提高span f(跨度正确性)指标表现，帮助更准确地找到每个实体的开始和结束点，从而改善了实体识别的准确性。

58、3、本发明是在完成图像匹配，并进行基础特征提取后，最终采用词典启发的transformer来增强在实体分类方面的能力，编码单词和潜在匹配图像，能够以视觉信息与文本特征互补的方式，精细地增强文本的语义特征。从而实现了有效提升实体识别特别是复杂实体类型识别方面的目的。

技术特征：

1.一种基于单词-图片配对和交叉transformer的多模态命名实体识别方法，其特征在于，是按如下步骤进行：

2.根据权利要求1所述的一种基于单词-图片配对和交叉transformer的多模态命名实体识别方法，其特征在于，所述步骤3是按如下步骤进行：

3.根据权利要求2所述的一种基于单词-图片配对和交叉transformer的多模态命名实体识别方法，其特征在于，所述步骤4是按如下步骤进行：

4.根据权利要求3所述的一种基于单词-图片配对和交叉transformer的多模态命名实体识别方法，其特征在于，所述步骤5.1中是利用式(17)得到在给定交叉融合特征f'下，输出标签序列为a'的条件概率pr(a'|f')：

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述多模态命名实体识别方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述多模态命名实体识别方法的步骤。

技术总结
本发明公开了一种基于单词‑图片配对和交叉Transformer的多模态命名实体识别方法，包括：1、获取多模态的先置数据集；2、获取另一个包含文本模态的英文数据集以及视觉模态的图像数据集的多模态的目标数据集，并构建视觉‑窗格拓展前缀匹配树ExtendTrie；3、获取文本‑图片对的编码特征表示；4、构建基于Transformer的图像‑文本交叉融合模型CLT，得到最终的交叉融合特征F'；5、训练图像‑文本交叉融合模型CLT。本发明在处理多模态命名实体识别任务时，能够综合利用视觉‑窗格信息，提高文本‑图片对匹配度，并利用文本与视觉信息，以得到有效的数据特征表示，从而能提高命名实体识别任务的精度。

技术研发人员：赵山,郑振涛,马文涛,徐旺,闫帅
受保护的技术使用者：合肥工业大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)