本发明涉及用于多模态隐喻检测的模态表征分解方法,属于自然语言处理的。
背景技术:
1、隐喻涉及将一个概念或对象与另一个看似不相关的概念或对象相比较,是自然语言的固有组成部分,在交际、认知和决策等方面发挥着重要作用。随着互联网和智能终端的普及,用户在网络中越来越频繁地使用更加隐晦的多模态隐喻来表达他们的思想。
2、多模态隐喻研究目前仍处于起步阶段,主要集中于从预训练模型中提取通用模态编码用于分类。尽管已经成功证明利用视觉模态中的额外信息对隐喻检测有积极影响,但这些方法存在一个显著的限制,即它们忽略了模态异构性特征对隐喻的重要性,从而导致模态独有的隐喻特征丧失。在多模态隐喻中,模态一致性特征提供了表述者的共同动机,决定了整体语境状态,对于隐喻的解读至关重要。尽管如此,多模态隐喻中最具启发性的内容通常隐藏在模态之间存在不一致或矛盾的独有特征中。这是因为隐喻往往涌现于那些打破传统或挑战对立概念的独特场景,所引发的概念差异是隐喻中最具有挑战性和创新性的方面。这样的独特信息对于推测表述者的意图倾向和情感极性等特殊表达具有重要意义。然而,模态中独有的特殊细节通常与其他模态不相关,在进行特征挖掘时很容易被视为噪声。
3、视觉信息是多模态隐喻检测的重要指标,但现有的方法存在一定的局限性,即注重从图像和文本之间的一致性信息中寻找线索,忽略多模态隐喻中差异性特征的潜在作用,在寻找关键性隐喻线索时往往存在一些错误和泛化性差。
技术实现思路
1、为解决现有技术中存在的问题,本发明提供用于多模态隐喻检测的模态表征分解方法,强调了不同模态之间的共性,同时关注了模态间的差异性特征,以更全面地捕捉多模态隐喻的本质。这种综合性的方法可以弥补现有方法的局限性,提高隐喻检测的准确性和泛化性。本发明采用的技术方案为:用于多模态隐喻检测的模态表征分解方法,包括以下步骤:
2、给定一条包含文本内容t、配图p以及一个二元真值标签y的数据,其中y=0和y=1代表该多模态数据是否具有隐喻用法,该研究的目标是通过学习一个映射函数f:f(t,p)→(y^)去预测给定的图文内容是否包含隐喻信息(y^=0或y^=1);
3、s1.泛知识表征:为了从良好的文本和视觉嵌入开始训练模型,使用预训练的roberta和vit模型作为文本和图像泛知识表征提取器,定义如下:
4、
5、其中,nt表示文本的长度,表示roberta模型的参数;ni表示图像patch的个数,表示vit模型的参数;
6、s2.模态一致性和差异性表征:
7、给定模态m的特征编码sm,,使用不同的projector将其分解为一致性和差异性;每个projector由归一化层、tanh激活的线性层和dropout层组成;
8、
9、其中,m∈{t,v}是模态的类型,d∈{simi,spec}分别表示一致性和差异性,为每种模态分配单独的参数;
10、s3.跨模态融合
11、将每种模态的一致性特征和差异性特征连接起来,通过全连接层进行模态内部融合;
12、
13、其中,m∈{t,v},mlp表示全连接层,表示该层的参数;
14、通过并行连接两个跨模态注意力来实现多模态特征融合;给它们赋予不同的特征输入,分别计算q、k和v;该融合层通过交换输入模态的信息来模拟输入模态之间的密集交互;计算如下:
15、
16、其中,dh表示模态的特征维度,atts表示注意力分数;
17、通过模态间注意权重更新原始单模态嵌入向量以获得显式相关特征:
18、
19、最后将跨模态交互后的表征连接在一起输入全连接层得到融合表示:
20、sco=mlp(concat(st←v,sv←t);θco)
21、其中,sco是联合特征
22、s4.分类层
23、使用带有softmax激活的mlp层将向量sco映射到隐喻类别和非隐喻类别的目标空间中,并获得模型预测的概率:
24、
25、其中wmulti是将融合特征映射到类别的学习权重矩阵,bmulti是偏差项。进一步地,该方法的最终损失表示为:
26、
27、其中α和β是不同损失之间的权衡参数;
28、为多模态任务损失,其公式为:
29、
30、其中y是真实标签,1代表隐喻,0代表非隐喻,是模型预测的概率,表示样本属于隐喻的可能性;
31、为单模态任务损失,对于单峰预测任务,预测分布基于不同projector的输出,其目标是保留由单模态标签表示的模态特定信息,具体计算如下:
32、
33、其中表示单模态预测的真实标签,分解后的每个特征都被单独用于预测;作为一致性特征,其真实标签为多模态真实标签;作为模态差异性特征,其对应的真实标签为单模态标签;但倘若单模态的真实标签不可用时,可直接选择使用多模态真实标签;
34、为对比学习损失,在模态内特征和模态间进行互信息最大化,构建对比学习损失为:
35、
36、其中,p是正对集合,n是负对集合,(ra,rb)和(ra,rc)表示一对分解特征,如τ是温度超参数。
37、本发明的有益效果为:
38、本申请提供了一种特征分解框架,旨在更全面地理解多模态隐喻数据中的一致性和差异性特征,并在模态之间实现更有效的信息融合,以提高多模态隐喻检测的性能。具体而言,通过不同的projector将每个模态表征分解为一致性特征和差异性特征。然后,利用设计的对比学习框架为模态的一致性特征和差异性特征学习提供更为全面的视角。同时,为了保留与隐喻检测任务相关模态特异性信息,设计了多任务学习框架,该任务依赖于每个模态的分解表征,使模型能够从单模态预测中进行学习,减少特异性隐喻信息丢失。通过精心设计的对比学习和多任务学习框架,确保所有模态中的特征都能够在多个训练路径中得到充分的调整和优化。
39、(1)构建了一个多模态表征学习框架。该框架在设计时强调学习模态间的一致性和差异性特征,旨在从复杂多变的多模态数据中更精确地捕获并理解其深层内涵。
40、(2)为了进一步增强模型对不同模态数据的理解能力,设计了对比学习和多任务学习的联合学习策略。这种联合学习的方式不仅提升了模型的性能,还使其在多模态数据处理中表现出色。
41、(3)该方法是一个感知语义对比和意义转换的模型,在隐喻检测和反讽检测任务上都取得很好的效果。
1.用于多模态隐喻检测的模态表征分解方法,其特征在于,包括以下步骤:
2.用于多模态隐喻检测的模态表征分解方法,其特征在于:该方法的最终损失表示为: