本发明属于数据稀缺场景下的虚假新闻检测,具体涉及一种基于自监督学习与传播一致性的虚假新闻检测方法。
背景技术:
1、随着社交媒体的快速普及,虚假新闻在互联网上泛滥成灾,严重危害了社会主流意识的健康发展。虚假新闻检测作为一种利用机器学习自动识别虚假新闻的解决方案,越来越受到学术界和研究人员的关注。目前,主流的虚假新闻检测方法依赖于深度学习,主要涉及基于预训练语言模型(plms)的全监督微调范式,这类方法依赖于大量的标注数据。然而,在许多实际场景中,获取高质量的标注数据集既耗时又需要专家知识,成本高昂,从而限制了自动化虚假新闻检测系统的竞争力。因此,开发和增强面向数据稀缺场景的虚假新闻检测方法变得日益重要。
2、尽管目前主流的虚假新闻检测方法具有诸多优势,但实际应用中仍面临一些困难和挑战:
3、1、标注数据获取难度高:当前主流的虚假新闻检测方法依赖于大规模的标注数据集,然而获取这些高质量的标注语料库过程耗时且劳动密集,且需要专业知识,导致了在许多实际场景中难以获得足够的训练数据;
4、2、模型的泛化能力:传统的全监督学习方法在训练时完全依赖标注数据,导致模型在面对标签稀缺的条件下难以很好地泛化。尤其在新的事件或领域中,模型的性能可能大幅下降;
5、3、计算资源消耗大:基于深度学习的虚假新闻检测方法通常需要大量的计算资源进行训练和推理,尤其在处理大规模社交媒体数据时,计算资源的消耗成为一个瓶颈;
6、4、社会环境复杂性:虚假新闻的传播环境复杂多变,涉及多种媒介和平台,传统方法难以有效捕捉并利用这些复杂的社会上下文信息,从而影响检测的准确性;
7、5、传播一致性理论的利用不足:在虚假新闻的传播过程中,往往存在“新闻真实性传播一致性”的现象,即在同一社交群体内传播的新闻,其真实性通常具有一致性。传统的方法往往忽略了这一社会传播规律,未能充分利用这一信息提高检测性能。
技术实现思路
1、本发明的目的是在于提供一种基于自监督学习与传播一致性的虚假新闻检测方法,旨在提高虚假新闻检测的准确性和鲁棒性,特别是在数据稀缺的场景下。该方法通过自监督对比学习优化语句嵌入表示,结合对抗生成网络的对抗嵌入生成技术,并利用新闻传播一致性特征进行真伪验证,显著提升虚假新闻检测的性能。
2、为达到上述目的,本发明采用如下技术方案:
3、本发明所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,主要步骤包括:
4、(1)基于自监督对比学习的语句表示优化:首先,采用预训练语言模型(plm)作为该方法的检测模型;随后,利用自监督对比学习方法,对预训练语言模型生成的语句嵌入表示进行优化。通过构建正负对比样本对,增强模型对语句语义的理解和区分能力。具体操作如下:
5、1.构建正对比样本对,选取同一新闻文本在不同实例中的表示;
6、2.构建负对比样本对,选取不同新闻文本的表示;
7、3.通过对比学习损失函数优化语句嵌入表示,使正对比样本对的相似度最大化,负对比样本对的相似度最小化。
8、(2)基于对抗生成网络的样本级对抗学习:构建生成对抗网络(gan),利用随机噪声和负面虚假新闻样本作为输入,通过多层感知器(mlp)和独立的预训练语言模型编码器生成丰富的对抗嵌入表示,并结合对抗嵌入,进一步优化步骤一中的检测模型的输出嵌入表示。
9、具体操作如下:
10、1.负序列与语言编码器驱动引擎:输入随机单词序列、负面虚假新闻样本及语义改写的新闻文本,生成对抗嵌入表示;
11、2.噪声与多层感知器驱动引擎:输入随机噪声,生成文本扰动嵌入表示;
12、3.二元分类对比学习判别器:分类输入的嵌入表示是否为真实或生成,以增强模型对虚假样本的识别能力。
13、(3)基于新闻传播一致性特征的真伪验证:构建新闻传播一致性网络,基于邻接子图特征聚合算法,融合新闻节点的传播特征,将邻近新闻节点的真实性特征注入到当前新闻的真伪预测过程中,以进一步提高虚假新闻检测的准确性。具体操作如下:
14、1.构建新闻传播子图:基于新闻传播记录,计算并识别与当前新闻有直接或间接传播关系的邻近新闻节点;
15、2.计算邻近新闻节点的可信度:基于新闻传播频次和节点之间的传播权重,计算每个邻近新闻节点的可信度;
16、3.结合邻近新闻节点的真伪预测结果,优化当前新闻的真伪预测结果。
17、(4)基于伪提示学习的预训练语言模型调优:基于步骤一与步骤二优化后的检测模型,在上述模型的调优过程中,采用基于伪提示学习的掩码语言模型训练任务(mlm),通过构建任务导向的提示模板,将虚假新闻检测任务转换为文本填空问题,以充分利用预训练模型的语言学知识,并结合步骤三的后处理优化流程,提高模型在少样本场景下的表现。具体操作如下:
18、1.构建提示模板,将虚假新闻检测任务转换为文本填空问题;
19、2.利用预训练语言模型对提示模板进行处理,生成[mask]位置的词汇概率分布;
20、3.根据预定义的标签词集合,从词汇概率分布中选取最适合的标签词,完成虚假新闻的分类预测。
21、通过以上流程,本发明提出的基于自监督学习与传播一致性的虚假新闻检测方法,能够在少样本数据环境下,实现高效、准确的虚假新闻检测。
22、优选的,所述方法执行流程中的步骤一:基于自监督对比学习的语句表示优化的过程,所使用的自监督对比学习采用simcse框架,通过构建正负对比样本对优化语句嵌入表示。正对比样本对通过对相同新闻文本进行多次编码得到,负对比样本对则从不同新闻文本中选取。优化目标是最大化正对比样本对的相似度,同时最小化负对比样本对的相似度。该自监督对比学习所采用的公式如下:
23、
24、其中,lcontrast表示该对比学习的优化目标,即损失函数;sim(zi,zj)表示两个嵌入向量之间的余弦相似度,τ是温度系数;k表示参与对比的样本下标;n表示n个对比样本对;函数log(.)表示对数函数;exp(.)表示指数函数。
25、优选的,所述方法执行流程中的步骤二:基于对抗生成网络的样本级对抗学习的过程,具体包括:
26、首先,构建了一个包含两个生成器和一个判别器的对抗生成网络(gan)。生成器负责生成对抗样本,而判别器则用于区分这些样本是真实的还是生成的。通过这种方式,可以增强模型对虚假样本的识别能力。
27、对于第一个生成器的具体如下:该生成器即负序列与语言编码器驱动引擎,接收随机单词序列、负面虚假新闻样本及语义改写的新闻文本作为输入,生成对抗嵌入表示;对于第二个生成器的具体如下,即噪声与多层感知器驱动引擎,输入随机噪声,生成文本扰动嵌入表示。判别器则作为二元分类对比学习判别器,负责分类输入的嵌入表示,判断其是否为真实样本或生成样本。
28、随后,对抗学习的目标函数具体可等同于:对抗学习的优化目标即等同于定义生成器和判别器的优化目标。生成器的目标是生成尽可能真实的对抗样本,使得判别器无法区分其真假;判别器的目标是准确区分真实样本和生成样本。
29、最后,具体的对抗学习目标函数被定义为如下:
30、
31、其中,是gan的目标函数,d表示判别器,g表示生成器,pdata表示真实数据的分布,pz(z)表示噪声的分布;是判别器对真实数据x的期望值;是判别器对生成数据的期望值;生成器g生成的样本g(z)被输入到判别器d中进行评估。
32、总体来说,判别器d的目标是最大化公式中的两个期望值之和,以便在真实数据和生成数据之间做出最准确的分类。而生成器g的目标是最小化这个目标函数,使得生成的数据能够欺骗判别器,即使得d(g(z))输出接近1。
33、通过以上描述的对抗生成网络架构和优化目标,实现该方法模型的基于对抗生成网络的样本级对抗学习过程。
34、优选的,所述方法执行流程中的步骤三:基于新闻传播一致性特征的真伪验证,旨在构建新闻传播一致性网络,通过邻接子图特征聚合算法,融合新闻节点的传播特征,将邻近新闻节点的真实性特征注入到当前新闻的真伪预测过程中,以进一步提高虚假新闻检测的准确性。该基于新闻传播一致性特征的真伪验证的具体操作如下:
35、首先,构建新闻传播子图,基于新闻传播记录,计算并识别与当前新闻有直接或间接传播关系的邻近新闻节点。通过解析新闻在社交媒体平台上的传播路径,生成传播子图,该子图包括当前新闻和与其传播相关的新闻节点及其连接关系。
36、进而,计算邻近新闻节点的可信度,基于新闻传播频次和节点之间的传播权重,计算每个邻近新闻节点的可信度。传播频次反映了新闻在网络中的活跃度,而传播权重则体现了新闻节点之间的信任度和影响力。通过这两者的结合,可以量化每个新闻节点的可信度。
37、优选的,可信度的计算公式如下:
38、
39、其中,credibility(ni)表示节点ni的可信度;frequency(ni)表示节点ni的传播频次;weight(ni,nj)表示节点ni与其邻近节点nj之间的传播权重;neighbors(ni)表示与节点ni有直接传播关系的邻近节点集合;α和β是用于平衡频次和传播权重的参数。
40、最后,结合邻近新闻节点的真伪预测结果:通过聚合邻近新闻节点的真伪预测结果,优化当前新闻的真伪预测结果。具体步骤如下:
41、通过邻接子图特征聚合算法,汇总每个邻近新闻节点的传播特征。
42、2.使用传播一致性网络,对邻近新闻节点的特征进行融合,生成一个综合的传播一致性特征向量。
43、3.将该传播一致性特征向量与当前新闻的特征向量进行整合,利用机器学习模型进行最终的真伪预测。
44、优选的,特征向量之间的整合公式如下:
45、final_prediction=γ·current_news_feature+δ·propagation_consistency_feature
46、其中,current_news_feature表示当前新闻的特征向量,propagation_consistency_feature表示传播一致性特征向量,γ和δ是用于平衡当前新闻特征和传播一致性特征的参数。
47、该基于新闻传播一致性特征的真伪验证的步骤,充分利用了新闻在社交网络中的传播特性,通过传播路径和邻近节点的可信度分析,增强了虚假新闻检测的准确性和鲁棒性。
48、优选的,所述方法执行流程中的步骤四:基于伪提示学习的预训练语言模型调优,通过使用掩码语言模型(mlm),构建任务导向的提示模板,将虚假新闻检测任务转换为文本填空问题,利用预训练语言模型对提示模板进行处理,生成[mask]位置的词汇概率分布,并根据预定义的标签词集合,从词汇概率分布中选取最适合的标签词,完成虚假新闻的分类预测。
49、具体操作如下:
50、构建任务导向的提示模板:将虚假新闻检测任务转换为文本填空问题。通过设计合适的提示模板,将待检测的新闻文本嵌入到模板中,并在关键位置插入[mask]标记。例如,对于待检测的新闻文本"新闻x"可以设计如下模板:
51、"这条新闻的真实性是:[mask]。新闻内容:新闻x。"。
52、利用预训练语言模型处理提示模板:将构建好的提示模板输入预训练语言模型(如bert、gpt-3),生成[mask]位置的词汇概率分布。预训练语言模型基于上下文信息预测[mask]位置的词汇,并输出每个词汇的概率。
53、上述步骤的具体公式如下所示:
54、p(word|context)=mlm([mask]|提示模板)
55、选择最适合的标签词:根据预定义的标签词集合,从词汇概率分布中选取最适合的标签词,完成虚假新闻的分类预测。假设预定义的标签词集合为{“真”,“假”},根据概率分布,选择概率最高的词作为最终的分类结果。该概率标签词选择的具体步骤如下:
56、首先,将提示模板输入预训练语言模型,得到[mask]位置的词汇概率分布p(word∣context)p(word∣context);
57、其次,从概率分布中提取出预定义的标签词集合中每个词的概率p(真∣context)p(真∣context)和p(假∣context)p(假∣context);
58、最后,选择概率最高的词作为最终的分类结果。
59、对应的具体公式如下所示:
60、
61、综合评价与模型调优:通过多轮训练和评估,对提示模板和预训练模型进行调优,以提升模型在少样本场景下的分类准确性。具体包括:
62、首先,调整提示模板的结构和内容,以更好地引导模型理解虚假新闻检测任务;
63、其次,使用不同的预训练语言模型进行实验,比较其性能并选择最优模型;
64、最后,结合交叉验证和模型评估指标(如准确率、召回率、f1分数等),优化模型参数,确保在少样本数据下依然能够保持高效、准确的检测能力。
65、通过上述详细步骤,本发明实现了基于伪提示学习的预训练语言模型调优方法,有效提高了虚假新闻检测的准确性和鲁棒性,特别是在数据稀缺的场景下,依然能够保持高效、准确的检测性能。
66、本发明至少具有如下有益的技术效果:
67、1、自监督对比学习优化嵌入表示:通过引入自监督对比学习方法,优化预训练语言模型生成的语句嵌入表示,解决了在数据稀缺场景下模型泛化能力不足的问题。自监督对比学习利用无标签数据进行训练,提升了模型在不同领域和新的事件中的适应能力,显著减少了对大量标注数据的依赖;
68、2、对抗生成网络增强模型鲁棒性:构建了包含两个生成器和一个判别器的对抗生成网络(gan),通过生成对抗样本和区分真实样本与生成样本,增强了模型对虚假新闻样本的识别能力。对抗生成网络提高了模型在复杂和多变环境中的检测准确性,特别是对新型和变种虚假新闻的识别能力;
69、3、传播一致性特征提高检测准确性:基于新闻传播一致性理论,构建新闻传播一致性网络,利用邻接子图特征聚合算法,融合新闻节点的传播特征。通过引入新闻传播路径和邻近节点的可信度分析,增强了模型对虚假新闻的检测准确性。传播一致性特征的引入,使得模型能够有效利用社交网络中的传播信息,提升了整体检测性能;
70、4、伪提示学习提升少样本场景表现:采用基于伪提示学习的掩码语言模型(mlm),通过构建任务导向的提示模板,将虚假新闻检测任务转换为文本填空问题。利用预训练语言模型对提示模板进行处理,显著提高了在少样本场景下的检测表现。伪提示学习方法充分利用了预训练模型的语言学知识,增强了模型在数据稀缺条件下的分类能力;
71、5、综合检测性能优越:本发明在虚假新闻检测任务中,综合运用了自监督学习、对抗生成网络和传播一致性特征,提供了一个高效、准确且鲁棒的解决方案。无论在数据丰富还是稀缺的场景下,该方法均表现出优越的检测性能,为虚假新闻检测提供了强有力的技术支持。
72、当然,实施本发明在任一场景下的产品实例并不一定需要同时达到以上所述的所有优点和意义。
1.一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,步骤一中:基于自监督对比学习的语句表示优化,包括:
3.根据权利要求2所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,基于自监督对比学习的语句表示优化的过程,所使用的自监督对比学习采用simcse框架,通过构建正负对比样本对优化语句嵌入表示;正对比样本对通过对相同新闻文本进行多次编码得到,负对比样本对则从不同新闻文本中选取;优化目标是最大化正对比样本对的相似度,同时最小化负对比样本对的相似度;该自监督对比学习所采用的公式如下:
4.根据权利要求1所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,步骤二中:基于对抗生成网络的样本级对抗学习,包括:
5.根据权利要求4所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,基于对抗生成网络的样本级对抗学习的过程,具体包括:
6.根据权利要求1所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,步骤三中:基于新闻传播一致性特征的真伪验证,包括:
7.根据权利要求6所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,基于新闻传播一致性特征的真伪验证的具体操作如下:
8.根据权利要求1所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,步骤四中:基于伪提示学习的预训练语言模型调优,包括:
9.根据权利要求8所述的一种基于自监督学习与传播一致性的虚假新闻检测方法,其特征在于,步骤四的具体实现步骤如下: