一种基于双曲图卷积网络和层次聚类的主题分类方法

xiaoxiao9月前  68


本发明涉及一种神经网络文本分类方法,尤其涉及一种基于双曲图卷积网络和层次聚类方法,属于自然语言处理中的文本主题分类。


背景技术:

1、随着国家对信息化进程的不断推进,互联网已经成为了广大网民表达意见和意愿的一个重要平台,并逐渐形成了颇具影响力的网络信息。信息网络是典型的社会复杂网络,具有复杂系统的特征,所以需要通过对复杂网络的表示学习,由于现实世界的网络通常表现出非欧氏结构,有近似树状的层次结构,有的还满足幂律分布等,这就导致了在传统的欧氏空间嵌入会出现失真和维度爆炸的问题,微博上发布的内容可以根据主题或标签被组织成不同的层次,这种主题层次能够帮助理解微博内容,但现有的微博文本主题分类多是采用一种隐含狄利克雷分布模型和卷积神经网络等模型进行微博文本主题分类,这就存在层次结构挖掘深度不够,网络拓扑结构信息及节点属性信息学习单一的问题,因此提出一套基于双曲图卷积神经网络和层次聚类的微博文本主题分类方法。


技术实现思路

1、本发明的目的是提供一种基于双曲图卷积网络和层次聚类的主题分类方法,该方法对微博文本数据进行预处理,包括数据清洗、去除停用词和中文分词;使用tf-idf方法计算特征向量;通过余弦相似度建立欧氏空间的邻接矩阵,进一步利用双曲空间处理数据,映射到双曲空间并计算节点间的双曲距离,结合层次聚类算法,建立双曲空间的邻接矩阵,将两个矩阵融合作为图卷积的输入,本发明通过训练双曲图卷积网络捕捉微博文本数据的层次结构关系,实现高质量的主题分类。本发明特别适用于处理社会信息网络等复杂网络的主题分类和公共信息监控,解决传统方法在高维、非欧几里得结构数据空间中的分类困难,提高对网络数据中微博文本的表示和分类能力。

2、本发明的目的是通过下述技术方案实现的:

3、本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,将预处理后的文本数据映射到双曲空间,利用指数映射和对数映射在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的层次结构特征。计算节点间的双曲距离并结合层次聚类算法,捕捉层次结构数据中的关系。相似或相关的节点能够在双曲图卷积网络的信息聚合过程中获得更高的权重,挖掘文本数据的层次结构,通过训练双曲图卷积网络捕捉微博文本数据的层次结构关系,利用训练好的双曲图卷积网络实现高质量的主题分类。

4、本发明公开的一种基于双曲图卷积网络和层次聚类的微博文本主题分类方法,包括以下步骤:

5、步骤一:采集指定话题下的微博文本,对文本数据进行预处理,并对微博文本的主题类别进行标注,得到标注后的微博文本数据集,将微博文本数据集作为后续步骤二用于微博文本向量化的输入。所述预处理包括数据清洗、中文分词、去停用词。

6、步骤1.1:采集指定话题下的微博文本。

7、步骤1.2:通过预设规范信息清洗原则对步骤1.1采集的微博文本数据进行数据清洗,去除无关信息,得到规范信息的微博文本。通过预设规范信息清洗原则包括清洗滤除文本长度小于预设长度阈值的微博文本、只包含表情无文字信息的微博文本。

8、步骤1.3:对步骤1.2得到的规范信息的微博文本进行中文分词,中文文本不同于英文文本,英文文本由单词组成并且单词之间有空格隔开,中文文本连贯成一个句子,所以使用中文分词工具对中文文本进行分词,得到用于步骤1.4的中文分词后的微博文本。

9、步骤1.4:参考停用词表,将在分词后的微博文本中无意义的信息进行剔除,剔除的无意义的信息包括汉语助词和连词,汉语助词包括“的”、“是”、“在”,连词包括“而且”、“但是”。汉语助词和连词虽然在语句中扮演着语法结构的角色,但对于文本的主题分类任务来说,它们提供的信息价值较低。移除这些高频但信息量小的词汇,让双曲图卷积网络更加专注于那些对文本意义有实质性贡献的关键词,得到去停用词的微博文本,减少后续双曲图卷积网络处理的微博文本数据量,提高双曲图卷积网络分类的准确率和分类效率。

10、步骤1.5:对数据清洗、中文分词、去停用词预处理后的微博文本进行主题类别标注,得到标注后的微博文本数据集,将微博文本数据集作为后续步骤二用于微博文本向量化的输入。

11、步骤二:对于步骤一得到的微博文本数据集中的微博文本,在欧几里得空间e中通过tf-idf方法计算所述微博文本的特征向量,将微博文本转换为向量形式,向量每个维度对应一个词语的tf-idf值,即得到每条微博文本对应的特征向量xe。

12、步骤2.1:对于步骤一得到的微博文本数据集中的微博文本,在欧几里得空间e中,根据如式(1)所示的词频tf归一化公式对微博文本中词语出现的次数进行归一化处理,得到微博文本词语归一化后的的词频tf。tf归一化公式分子是该词在文档中的出现次数,分母是文档中所有字符的总数。

13、

14、其中,nt,d是词t在文档d中的出现次数,而分母则是文档d中所有词的出现次数之和。

15、步骤2.2:对于步骤一得到的微博文本数据集中的微博文本,在欧几里得空间e中,根据公式(2)计算逆文档频率idf。

16、idf称为逆文档频率,是文档频率的倒数,用于降低所有文档中常见却对文档影响不大的词语的作用。包含词t的文档越少,就越能够通过词t来区分文档。idf的公式如下:

17、

18、其中,|d|是语料库中的文档总数。分母是包含词t的文档数。

19、步骤2.3:根据步骤2.1得到的词频tf和步骤2.2得到的逆文档频率idf,根据如式(3)所示的tf-idf特征向量公式计算所述微博文本的欧几里得空间e中的特征向量xe,向量xe每个维度对应一个词语的tf-idf值。

20、通过两者的乘积得到tf-idf值,公式为:

21、tf-idf(t,d,d)=tf(t,d)×idf(t,d)#(3)

22、将文本转换为向量形式,每个维度对应一个词语的tf-idf值,即得到每条微博文本对应的特征向量xe,其中e表示欧几里得空间。

23、步骤三:根据步骤二得到的每条微博文本对应的特征向量xe,根据余弦相似度的公式计算词向量间的相似度,并建立用于双曲图卷积网络的邻接矩阵m。

24、通过得到的词向量间的相似度建立邻接矩阵m,所以采用余弦相似度计算它们的邻接关系,余弦相似度的公式为:

25、cosine-similarityi,j=(xi·xj)/(||xi||||xj||)#(4)

26、其中xi·xj是向量xi和xj的点积,||·||是向量的模长。

27、邻接矩阵m是代表n个微博文本间关系的n*n大小的矩阵,如果两条文博文本xi与xj间余弦相似度大于设定阈值,邻接矩阵m对应位置mi,j的值为1。

28、步骤四:利用指数映射将步骤二得到每条微博文本对应的特征向量xe映射到双曲空间,在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的双曲结构特征x0,h作为步骤五的输入。

29、将处理后的数据映射到双曲空间,利用指数映射在欧氏空间与双曲空间之间转换信息,同时保留了双曲空间的层次结构特征。

30、

31、其中,x0,e表示欧氏空间中的一个特征,hd,k是具有常数负曲率-1/k(k>0)的d维双曲球面,表示在hd,k中作为参考点使用的原点,用来执行切空间操作。

32、步骤五:以步骤四得到的双曲特征x0,h为输入,根据双曲空间的映射特征后计算节点间的双曲距离公式计算节点间的双曲距离;层次聚类算法根据双曲距离捕捉层次结构数据中的关系,得到代表在双曲空间中邻接矩阵,作为双曲图卷积网络的输入。

33、步骤5.1:以步骤四得到的双曲特征x0,h为输入,根据公式(6)计算节点间的双曲距离:

34、

35、其中与是双曲空间节点表示,||·||2是欧式范数。

36、步骤5.2:根据步骤5.1得到的节点间的双曲距离,进行双曲空间的层次聚类,得到代表在双曲空间中邻接矩阵,作为双曲图卷积网络的输入。

37、双曲空间的层次聚类基本步骤如下:

38、1)初始化:开始时,把每个数据点当做一个聚类,因此,如果有n个数据点,那么初始聚类的数量也是n。

39、2)计算距离:计算所有可能的聚类对之间的双曲距离。

40、3)合并聚类:找到距离最近的两个聚类,将它们合并为一个新的聚类。

41、4)更新距离:更新距离矩阵,反映合并后的聚类与其他聚类之间的距离。

42、5)重复步骤2)至4),直到所有的数据点都聚合到一个聚类中。

43、其中在层次聚类的每个合并步骤中,根据式(7)计算任意两个子聚类之间的距离为:

44、

45、公式中分别为子聚类ca、cb中的样本,na、nb分别为ca、cb中的样本个数。最接近的两个子簇将被分cb组在一起,成为一个新的子簇。

46、通过计算双曲空间的距离来实现层次聚类得到树状图,树状图中的每个合并操作都以一条连接线表示,线的高度表示合并的簇之间的距离。通过结果树状图对不同双曲距离尺度的划分来实现对数据的划分,得到对应的聚类结果。使用双曲空间层次聚类的聚类信息构建邻接矩阵x,矩阵x中各元素计算如公式(8)所示:

47、

48、如果节点xi与xj在双曲空间层次聚类中同时属于一类,则在矩阵g中i行j列的位置设置为1,否则为0。建立邻接矩阵g=x+m,将欧氏空间和双曲空间的邻接矩阵合并,作为双曲图卷积网络的输入。

49、步骤六:将双曲特征向量x0,h与邻接矩阵g输入到双曲图卷积网络中,在双曲图卷积网络完成层次信息提取。双曲图卷积网络通过特征转换、邻域聚合以及非线性激活三个步骤实现节点信息的更新。在主题分类层利用softmax函数将双曲图卷积网络输出的值转化为概率值,所述概率值代表不同主题类别的可能性,用于执行主题分类。选取概率最高的主题作为预测的分类结果。

50、步骤6.1:以步骤四得到的双曲特征x0,h为初始输入,在双曲图卷积神经网路中的进行特征转换得到双曲特征特征转换公式如式(10)。

51、

52、其中l为对应的层数,wl与bl是可训练的参数,k是曲率。

53、步骤6.2:输入步骤6.1的双曲特征和由步骤五得到的邻接矩阵g对节点进行信息聚合,在聚合操作中,每个节点将自己的信息与其邻居节点的信息进行聚合,从而更新自己的表示,得到信息聚合后的节点信息聚合表示双曲空间的信息聚合公式如式(11)。

54、

55、wi,j计算如公式(11)所示。

56、

57、步骤6.3:对聚合后得到的特征进行非线性激活,引入非线性变换以增强双曲神经网络模型的学习能力,提高双曲神经网络模型的表达能力的同时改善模型的收敛速度。在双曲空间中进行非线性激活时,双曲图卷积网络通过双曲空间与切线空间之间的映射操作,使双曲图卷积网络能够在保持双曲几何性质的同时,实现对图数据的非线性处理,双曲空间下的非线性激活公式如式(12)所示。

58、

59、步骤6.4:通过利用softmax函数,主题分类层将双曲图卷积网络输出的xl+1'转化为位于[0,1]范围内的概率值,所述概率值代表不同主题类别的可能性,用于执行主题分类。选取概率最高的主题作为预测的分类结果。

60、

61、其中,x为双曲神经网络步骤6.3输出的双曲向量,wa为参数矩阵,ba为偏置项。

62、步骤七:结合损失函数训练步骤六构建的双曲图卷积网络,得到训练好的双曲图卷积网络。

63、损失函数采用交叉熵函数,公式如式(15)。

64、

65、在其中c是类别总数,代表着主题的类别,n是文本的总数量,yi,c是一个指示器函数,当样本i属于类别c时为1,否则为0;是模型预测样本i属于类别c的概率。

66、步骤八:将待分类的微博文本输入到训练好的双曲图卷积网络,得到待分类的微博文本主题分类结果,即基于双曲图卷积网络和层次聚类实现微博文本的主题分类。

67、还包括步骤九:将步骤八得到的微博文本的主题分类结果应用于自然语言处理与机器学习领域,解决相关技术问题。

68、所述相关技术问题包括智能文本挖掘与服务、社交网络信息挖掘、信息监控。

69、将训练好的双曲图卷积网络应用于网络信息监控,通过对微博文本进行主题分类,监测到与预定事件、话题相关的信息信息,实现信息的实时监控和预警。根据主题分类结果,针对不同的信息主题采取不同的应对策略,处置负面信息,加强正面信息的传播,提高信息监控系统的准确性和效率,提升信息监控工作的效果,维持网络信息积极向上和社会稳定。

70、有益效果:

71、1.本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,通过余弦相似度建立欧氏空间的邻接矩阵,再将数据映射到双曲空间并计算节点间的双曲距离,结合层次聚类算法,建立双曲空间的邻接矩阵,将两个矩阵融合作为图卷积的输入,该方法能够有效捕捉微博文本数据的层次结构关系,实现高准确度的主题分类。

72、2.本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,使用双曲图卷积网络对数据进行特征提取,挖掘数据层次特征,适用于处理社会信息网络等复杂网络的主题分类,解决传统方法在高维、非欧几里得结构数据空间中的分类困难,提高网络数据中微博文本的表示和分类能力。

73、3.本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,结合有益效果1、2,将预处理后的文本数据映射到双曲空间,利用指数映射和对数映射在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的层次结构特征。计算节点间的双曲距离并结合层次聚类算法,捕捉层次结构数据中的关系。相似或相关的节点能够在双曲图卷积网络的信息聚合过程中获得更高的权重,挖掘文本数据的层次结构,通过捕捉微博文本数据的层次结构关系,实现高质量的主题分类。

74、4.本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,采集指定话题下的微博文本,对文本数据进行预处理,并对微博文本的主题类别进行标注,得到标注后的微博文本数据集,将微博文本数据集作为微博文本向量化的输入。所述预处理包括数据清洗、中文分词、去停用词。通过预处理让双曲图卷积网络更加专注于那些对文本意义有实质性贡献的关键词,得到去停用词的微博文本,减少后续双曲图卷积网络处理的微博文本数据量,提高双曲图卷积网络分类的准确率和分类效率。

75、5.本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,将微博文本的主题分类结果应用于自然语言处理与机器学习领域,解决相关技术问题。例如智能文本挖掘与服务、社交网络信息挖掘、信息监控等技术问题。


技术特征:

1.一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:包括以下步骤,

2.如权利要求1所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:还包括步骤九:将步骤八得到的微博文本的主题分类结果应用于自然语言处理与机器学习领域,解决相关技术问题;

3.如权利要求1或2所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:步骤一实现方法为,

4.如权利要求3所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:步骤二实现方法为,

5.如权利要求4所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:步骤三中,

6.如权利要求5所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:步骤四中,

7.如权利要求6所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:步骤五实现方法为,

8.如权利要求7所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:步骤六实现方法为,

9.如权利要求8所述的一种基于双曲图卷积网络和层次聚类的主题分类方法,其特征在于:步骤七中,


技术总结
本发明公开的一种基于双曲图卷积网络和层次聚类的主题分类方法,属于自然语言处理中的文本主题分类技术领域。本发明实现方法为:对微博文本数据进行预处理,包括数据清洗、中文分词和去除停用词;使用TF‑IDF方法计算特征向量。将预处理后的文本数据映射到双曲空间,利用指数映射和对数映射在欧氏空间与双曲空间之间转换信息,同时保留双曲空间的层次结构特征。计算节点间的双曲距离并结合层次聚类算法,捕捉层次结构数据中的关系。相似或相关的节点能够在双曲图卷积网络的信息聚合过程中获得更高的权重,挖掘文本数据的层次结构,通过训练双曲图卷积神经网络捕捉微博文本数据的层次结构关系,利用训练好的双曲图卷积神经网络实现高质量的主题分类。

技术研发人员:郭欣锐,阮歆池,于国鑫,郝志伟,徐冠宇,胡晗,郇鑫焘
受保护的技术使用者:北京理工大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)