本发明涉及命名实体识别的,尤其涉及一种基于依存句法和图神经网络的多模态命名实体识别方法。
背景技术:
1、在信息爆炸的时代,社交媒体和数字平台孕育了丰富且多模态的数据,包括文本和图像。这种多模态数据的出现为信息的全面理解带来了挑战,特别是在命名实体识别(ner)领域。传统的命名实体识别主要依赖于文本数据,忽视了其他模态中存在的关键信息。然而,随着社交媒体的全球流行,用户在发布内容时经常融合多种信息模态,这使得单一模态分析方法难以完全捕捉到丰富的内容。因此,多模态命名实体识别已成为命名实体识别领域内的一个关键研究领域。
2、多模态命名实体识别的任务在于如何有效地对齐和融合文本、视觉和其他数据,从而提高实体的准确识别和分类。这项任务的重要性对于视觉语言任务、社交媒体分析和其他需要深入分析多种模态信息以揭示数据中隐藏的复杂关系和模式的领域中尤为显著。例如,社交媒体上的多模态内容可能包括特定实体的文本描述和相关图像,文本描述和相关图像交织的信息为准确理解命名实体提供了丰富的线索。多模态命名实体识别不仅考虑文本内的信息,还纳入了来自图像的视觉特征,因此实现了对命名实体更全面和准确的识别。如图1所示,当提供一对文本和图像时,任务是识别文本中的实体并确定它们的类型,视觉信息可以辅助识别命名实体。
3、在过去几年中,深度学习技术的迅速进步为多模态命名实体识别开辟了新的可能性。卷积神经网络(cnn)、循环神经网络(rnn)和transformer模型的出现使研究人员能够更好地捕捉不同数据模态之间的复杂关系。预训练的语言模型和视觉模型也为整合多模态信息提供了坚实的基础。这些进步为开发更准确、更稳健和更高效的多模态命名实体识别系统创造了机会。例如,wang等人(根据文献wang p,chen x,shang z,et al.multimodalnamed entity recognition with bottleneck fusion and contrastive learning[j].ieice transactions on information and systems,2023.)提出了一种基于对比学习和瓶颈融合的多模态命名实体识别方法。这种方法的目标是通过无缝整合多模态表示来缩小不同模态之间的语义鸿沟,从而减轻来自视觉模态的噪声。zhai等人(根据文献zhai h,lvx,hou z,et al.mlnet:a multi-level multimodal named entity recognitionarchitecture.[j].frontiers in neurorobotics,2023,17:1181143.)引入了一种新型的层次化多模态命名实体识别架构,旨在提取有用的视觉信息以增强语义理解,并随后提高实体识别性能。尽管先前的方法取得了重大进展,但仍存在一些挑战。
4、早期方法普遍未能充分考虑句子内部的句法依赖性,大部分将文本简化为一维特征向量的集合,从而忽视了句子成分间的相互依存性。句子内部的元素是通过复杂的句法依赖链条相互链接的,这种句法依存关系对于解析句子的结构与含义至关重要。
5、现有模型通常以粗粒度方式处理视觉特征,这可能在视觉模态中引入噪声并带来不必要的信息。此外,社交媒体上的图像通常包含许多不规则形状的对象,使得像vgg和resnet这样的网络变得多余且在处理这些对象时灵活性不足。
技术实现思路
1、针对现有方法忽视了句子成分间的相互依存性,对视觉模态中存在的噪声带来不必要的信息的处理灵活性和有效性不足的技术问题,本发明提出一种基于依存句法和图神经网络的多模态命名实体识别方法,通过充分挖掘和利用语义信息和句法信息,显著提升了命名实体识别的准确性,引入了图像文本描述生成文本和图结构,通过细粒度图像信息提高多模态命名实体识别的有效性和灵活性。
2、为了达到上述目的,本发明的技术方案是这样实现的:
3、一种基于依存句法和图神经网络的多模态命名实体识别方法,包括以下步骤:
4、s1:获取文本及文本关联图像,利用预训练模型获取文本的上下文特征表示并分别构建文本语义图和文本句法图,然后利用图共享卷积网络对文本的上下文特征表示、文本语义图和文本句法图进行处理,获取最终文本特征表示;
5、s2:通过图像字幕生成模型将文本关联图像转换为图像标题,利用预训练模型获取图像标题的特征表示并分别构建图像标题语义图和图像标题句法图,然后利用图共享卷积网络对图像标题的特征表示、图像标题语义图和图像标题句法图进行处理,获取最终图像标题特征表示;
6、s3:利用视觉图神经网络对文本关联图像进行提取,获取图级视觉特征表示;
7、s4:利用跨模态transformer融合最终文本特征表示、最终图像标题特征表示和图级视觉特征表示,获得多模态特征表示,然后利用条件随机场对多模态特征表示进行处理,输出实体概率分布。
8、步骤s1所述利用预训练模型获取文本特征表示并构建文本语义图方法为:对于给定的多模态数据集d中文本ta,将文本ta表示为输入的单词序列(w1,w2…wi...wn),n为文本长度,wi为第i个单词;首先利用预训练模型roberta获取文本ta的词嵌入词嵌入et的获取公式为:其中为第i个单词的原始特征表示,roberta()表示预训练模型函数,然后利用多头注意力机制构建注意力矩阵mz,构建注意力矩阵公式为:其中,softmax()表示归一化函数,h表示多头注意力中的总头数,z表示多头注意力机制中第z个头,d表示的单词wi的嵌入维度,wiq和wik均为参数矩阵;随后,对注意力矩阵采用top-k选择策略,获取语义图语义图获取公式为:其中,top-k()表示top-k操作函数。
9、步骤s1所述利用预训练模型获取文本特征表示并构建文本句法图方法为:首先,利用预训练模型roberta计算单词wi对另一个单词wj的句法影响,wi和wj均表示文本ta中的单词,将单词wi映射单词wi的中间上下文特征表示eθ(w)i,随后使用扰动掩蔽对单词wi进行掩码,形成在没有单词wi的情况下单词wi的上下文特征表示eθ(w\{wi})i,接着,使用扰动掩蔽对单词wj进行掩码,得到在没有单词wi和单词wj的情况下单词wi的上下文特征表示eθ(w\{wi,wj})i,计算上下文特征表示eθ(w\{wi})i和上下文特征表示eθ(w\{wi,wj})i之间的欧氏距离bij=∥eθ(w\{wi})i-eθ(w\{wi,wj})i∥2,然后,通过对整个文本ta中每一对单词重复执行所述欧氏距离的计算,生成句法影响矩阵b∈rn×n,其中欧氏距离bij∈b表示单词wi对单词wj的句法影响,最后,采用树解码从句法影响矩阵b生成文本句法图
10、步骤s1所述利用图共享卷积网络对文本的上下文特征表示、语义图和句法图进行处理,获取最终文本特征表示的方法为:首先图共享卷积网络利用密集连接图卷积神经网络模型获取卷积层第l层的第j节点的特征表示表示节点j的原始特征表示,表示卷积层1层到l层生成的节点j的特征表示,然后将文本语义图文本句法图馈送到密集连接图卷积神经网络模型进行卷积处理,对文本语义图的处理操作为:其中,是基于文本语义图在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示,表示语义图中的一个元素;对文本句法图的处理操作为:其中,是基于文本句法图的在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示,表示文本句法图中的一个元素,ρ()表示卷积操作,wt(l)为卷积层第l层卷积层中两个密集连接图卷积神经网络模型之间的共享参数矩阵,充当密集连接图卷积神经网络模型的共享偏置;最后,经过所有卷积层的卷积操作,在最后一层卷积层分别得到基于文本语义图的文本语义特征表示ets和基于文本句法图的文本句法特征表示etf,用etc=(ets+etf)/2表示最终文本特征表示。
11、步骤s2所述通过图像字幕生成模型将图像转换为图像标题的实现方法为:图像字幕生成模型tfsgc通过编码获取输入图像的查询向量q、键向量k、值向量v,利用多头注意力设计图神经网络模型mh=mha(q,k,v),获取图嵌入mh,采用每个专家建立在mha上的基于专家混合的解码器,通过前馈神经网络fnn(mh)=ln(fc(relu(fc(mh)))+mh)生成不同类型的单词,ln表示层归一化操作,fc表示全连接层,relu为激活函数,从而获得图像标题。
12、步骤s2所述获取最终图像标题特征表示的方法为:利用预训练模型roberta获取图像标题的词嵌入m表示图像标题中有m个单词,然后利用预训练模型roberta获取图像标题的词嵌入ea的特征表示并构建图像标题语义图利用预训练模型roberta获取图像标题的词嵌入ea的特征表示并构建图像标题句法图随后,利用图共享卷积网络对词嵌入ea、图像标题语义图和图像标题句法图进行处理,获取最终图像标题特征表示eac。
13、步骤s3所述利用视觉图神经网络提取图级视觉特征的方法为:对于给定的多模态数据集d中文本关联图像ia,将文本关联图像ia分割成x个块,每个块经过卷积神经网络提取得到为一个特征向量vk,将特征向量vk视为无序节点,得到无序节点集v=v1,v2,…vk…vx,利用k-近邻算法计算并识别每个节点νk的最近邻居节点νp,p取值为[1,r],r表示需要识别的邻居节点个数,每个邻居节点νp∈o(νk),o(νk)为节点vk的邻居节点集;然后视觉图神经网络利用图卷积层处理图形数据得到输出特征和利用前馈网络增强输出特征的转换能力,得到转换能力增强后的特征表示。
14、所述利用图卷积层处理图形数据得到输出特征和利用前馈网络增强输出特征的转换能力的实现方法为:视觉图神经网络利用图卷积层聚合邻居节点的特征表示,促使每个节点vk之间的隐藏特征表示进行交换,具体过程公式为:其中,wa和wupdate是可学习的参数矩阵,是节点vk在第l层卷积层的隐藏特征表示,是节点νk在第l-1层卷积层的隐藏特征表示,o(νk)(l-1)表示隐藏特征表示的邻居节点;g()为节点聚合函数,h()为非线性函数,然后通过式实现最大相对图卷积,其中表示节点vk的邻居节点vp在第l层卷积层的隐藏特征表示,v'i表示通过最大相对图卷积得到的原始的高维特征向量,将原始的高维特征向量v‘k分割成h个独立的子表示headc,c=1,2,3...h,将每个子表示headc经过独立的参数矩阵wcupdate进行更新得到经过更新的子表示headcwcupdate,之后,进行整合多头更新操作,形成了输出特征最后,视觉图神经网络得到转换能力增强后的特征表示其中,w1和w2是权重矩阵,σ()表示的是非线性激活函数,综合x个块的增强后的特征表示,最终,获得图级视觉特征
15、步骤s4所述利用跨模态transformer融合多模态信息,获得多模态特征表示的方法为:首先,将最终文本特征表示etc和最终图像标题特征表示eac进行串联操作,生成文本综合表示elc,接着,将文本综合表示elc作为查询,将图级视觉特征vlg同时作为键和值,进行跨模态注意力计算,计算过程为:其中,u表示跨模态注意力机制中的头数,s取值为[1,u],是具有可学习参数的矩阵,cmas(ek,vlg,vlg)表示跨模态注意力的输出,然后,获取文本关联图像中不同区域的文本敏感的视觉特征wt为可学习参数的矩阵,随后,应用两个子层的堆叠layernorm,包括残差连接生成最终的多模态特征表示vi表示输入文本ta中第i个单词的多模态特征表示,具体公式为:其中,ffn()是前馈网络函数。
16、步骤s4所述利用条件随机场crf对多模态特征表示进行处理,输出实体概率分布的方法为:首先利用条件随机场crf获取特征得分然后,利用特征得分输出实体概率分布其中表示过度得分,表示发射得分,二者均为条件随机场crf模型参数,y表示所有可能的标签序列的集合,yˊ表示除了正确标签序列y之外的所有其他可能的标签序列集合,y是标签序列,yi是标签序列y中第i个位置的标签,wu是权重参数;在输出实体概率分布之后使用最大条件似然性来最大化对数似然,过程为:l(p(y|ta))=∑i(y|ta)。
17、本发明的有益效果:本发明引入了句法依存分析和图像文本描述生成,构建了文本和图像文本描述语句的语义图和句法图。通过充分挖掘和利用语义信息和句法信息,显著提升了命名实体识别的准确性。
18、本发明采用图结构来表示图像,有助于提取图级特征以有效捕捉图像中的不规则和复杂对象。将图像表示为图结构的方法有助于更深入地理解图像内容,为后续的命名实体识别任务提供更准确和全面的信息。
19、在两个广泛使用的命名实体识别数据集上进行的实验表明,本发明方法实现了最先进的性能。
1.一种基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s1所述利用预训练模型获取文本特征表示并构建文本语义图方法为:对于给定的多模态数据集d中文本ta,将文本ta表示为输入的单词序列(w1,w2…wi...wn),n为文本长度,wi为第i个单词;首先利用预训练模型roberta获取文本ta的词嵌入词嵌入et的获取公式为:其中为第i个单词的原始特征表示,roberta()表示预训练模型函数,然后利用多头注意力机制构建注意力矩阵mz,构建注意力矩阵公式为:其中,softmax()表示归一化函数,h表示多头注意力中的总头数,z表示多头注意力机制中第z个头,d表示的单词wi的嵌入维度,wiq和wik均为参数矩阵;随后,对注意力矩阵采用top-k选择策略,获取语义图语义图获取公式为:其中,top-k()表示top-k操作函数。
3.根据权利要求2所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s1所述利用预训练模型获取文本特征表示并构建文本句法图方法为:首先,利用预训练模型roberta计算单词wi对另一个单词wj的句法影响,wi和wj均表示文本ta中的单词,将单词wi映射单词wi的中间上下文特征表示eθ(w)i,随后使用扰动掩蔽对单词wi进行掩码,形成在没有单词wi的情况下单词wi的上下文特征表示eθ(w\{wi})i,接着,使用扰动掩蔽对单词wj进行掩码,得到在没有单词wi和单词wj的情况下单词wi的上下文特征表示eθ(w\{wi,wj})i,计算上下文特征表示eθ(w\{wi})i和上下文特征表示eθ(w\{wi,wj})i之间的欧氏距离bij=∥eθ(w\{wi})i-eθ(w\{wi,wj})i∥2,然后,通过对整个文本ta中每一对单词重复执行所述欧氏距离的计算,生成句法影响矩阵b∈rn×n,其中欧氏距离bij∈b表示单词wi对单词wj的句法影响,最后,采用树解码从句法影响矩阵b生成文本句法图
4.根据权利要求3所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s1所述利用图共享卷积网络对文本的上下文特征表示、语义图和句法图进行处理,获取最终文本特征表示的方法为:首先图共享卷积网络利用密集连接图卷积神经网络模型获取卷积层第l层的第j节点的特征表示表示节点j的原始特征表示,表示卷积层1层到l层生成的节点j的特征表示,然后将文本语义图文本句法图馈送到密集连接图卷积神经网络模型进行卷积处理,对文本语义图的处理操作为:其中,是基于文本语义图在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示,表示语义图中的一个元素;对文本句法图的处理操作为:其中,是基于文本句法图的在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示,表示文本句法图中的一个元素,ρ()表示卷积操作,wt(l)为卷积层第l层卷积层中两个密集连接图卷积神经网络模型之间的共享参数矩阵,充当密集连接图卷积神经网络模型的共享偏置;最后,经过所有卷积层的卷积操作,在最后一层卷积层分别得到基于文本语义图的文本语义特征表示ets和基于文本句法图的文本句法特征表示etf,用etc=(ets+etf)/2表示最终文本特征表示。
5.根据权利要求4所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s2所述通过图像字幕生成模型将图像转换为图像标题的实现方法为:图像字幕生成模型tfsgc通过编码获取输入图像的查询向量q、键向量k、值向量v,利用多头注意力设计图神经网络模型mh=mha(q,k,v),获取图嵌入mh,采用每个专家建立在mha上的基于专家混合的解码器,通过前馈神经网络fnn(mh)=ln(fc(relu(fc(mh)))+mh)生成不同类型的单词,ln表示层归一化操作,fc表示全连接层,relu为激活函数,从而获得图像标题。
6.根据权利要求4所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s2所述获取最终图像标题特征表示的方法为:利用预训练模型roberta获取图像标题的词嵌入m表示图像标题中有m个单词,然后利用预训练模型roberta获取图像标题的词嵌入ea的特征表示并构建图像标题语义图利用预训练模型roberta获取图像标题的词嵌入ea的特征表示并构建图像标题句法图随后,利用图共享卷积网络对词嵌入ea、图像标题语义图和图像标题句法图进行处理,获取最终图像标题特征表示eac。
7.根据权利要求1到6任一项所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s3所述利用视觉图神经网络提取图级视觉特征的方法为:对于给定的多模态数据集d中文本关联图像ia,将文本关联图像ia分割成x个块,每个块经过卷积神经网络提取得到为一个特征向量vk,将特征向量vk视为无序节点,得到无序节点集v=v1,v2,…vk…vx,利用k-近邻算法计算并识别每个节点vk的最近邻居节点vp,p取值为[1,r],r表示需要识别的邻居节点个数,每个邻居节点vp∈o(νk),o(νk)为节点νk的邻居节点集;然后视觉图神经网络利用图卷积层处理图形数据得到输出特征和利用前馈网络增强输出特征的转换能力,得到转换能力增强后的特征表示。
8.根据权利要求7所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,所述利用图卷积层处理图形数据得到输出特征和利用前馈网络增强输出特征的转换能力的实现方法为:视觉图神经网络利用图卷积层聚合邻居节点的特征表示,促使每个节点vk之间的隐藏特征表示进行交换,具体过程公式为:其中,wa和wupdate是可学习的参数矩阵,是节点vk在第l层卷积层的隐藏特征表示,是节点vk在第l-1层卷积层的隐藏特征表示,o(vk)(l-1)表示隐藏特征表示的邻居节点;g()为节点聚合函数,h()为非线性函数,然后通过式实现最大相对图卷积,其中表示节点vk的邻居节点vp在第l层卷积层的隐藏特征表示,v′i表示通过最大相对图卷积得到的原始的高维特征向量,将原始的高维特征向量v‘k分割成h个独立的子表示headc,c=1,2,3...h,将每个子表示headc经过独立的参数矩阵wcupdate进行更新得到经过更新的子表示headcwcupdate,之后,进行整合多头更新操作,形成了输出特征最后,视觉图神经网络得到转换能力增强后的特征表示其中,w1和w2是权重矩阵,σ()表示的是非线性激活函数,综合x个块的增强后的特征表示,最终,获得图级视觉特征
9.根据权利要求8所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s4所述利用跨模态transformer融合多模态信息,获得多模态特征表示的方法为:首先,将最终文本特征表示etc和最终图像标题特征表示eac进行串联操作,生成文本综合表示elc,接着,将文本综合表示elc作为查询,将图级视觉特征vlg同时作为键和值,进行跨模态注意力计算,计算过程为:其中,u表示跨模态注意力机制中的头数,s取值为[1,u],是具有可学习参数的矩阵,cmas(ek,vlg,vlg)表示跨模态注意力的输出,然后,获取文本关联图像中不同区域的文本敏感的视觉特征wt为可学习参数的矩阵,随后,应用两个子层的堆叠layernorm,包括残差连接生成最终的多模态特征表示(υ1,υ2,vi,,vn),vi表示输入文本ta中第i个单词的多模态特征表示,具体公式为:其中,ffn()是前馈网络函数。
10.根据权利要求9所述的基于依存句法和图神经网络的多模态命名实体识别方法,其特征在于,步骤s4所述利用条件随机场crf对多模态特征表示进行处理,输出实体概率分布的方法为:首先利用条件随机场crf获取特征得分然后,利用特征得分输出实体概率分布其中表示过度得分,表示发射得分,二者均为条件随机场crf模型参数,y表示所有可能的标签序列的集合,yˊ表示除了正确标签序列y之外的所有其他可能的标签序列集合,y是标签序列,yi是标签序列y中第i个位置的标签,wu是权重参数;在输出实体概率分布之后使用最大条件似然性来最大化对数似然,过程为:l(p(y|ta))=∑i(y|ta)。