【专利交易】【专利代理】【商标和版权申请】【高新技术企业认定】Tel:18215660330

一种从单个中文文本中提取多主题词的方法

xiaoxiao2020-07-22  1

【专利交易】【专利代理】【商标和版权申请】【高新技术企业认定】Tel:18215660330

一种从单个中文文本中提取多主题词的方法
【专利摘要】本发明提供了一种从单个中文文本中自动提取多主题词的方法,包含以下步骤:首先使用传统方法对文档进行预处理后初步得到由特征词组成的向量;其次利用《知网》词义与概念间的对应关系对同义词进行归并,根据语义类与上下文语境的相关性对多义词进行排歧,构造概念向量模型表示该文档;再利用《知网》中概念的相关语义信息计算概念相似度,通过“预设种子”的方法改进K-means算法对概念进行聚类,形成多个主题概念簇;最后根据概念和词的对应关系,得到多个子主题词集。该方法考虑了语义信息,克服K-means算法对初始中心的敏感性和时空开销不稳定等缺陷,提高了提取主题的质量。
【专利说明】一种从单个中文文本中提取多主题词的方法
【技术领域】
[0001]本发明涉及文本信息提取【技术领域】,特别是涉及一种从单个中文文本中提取多主题词的方法。
【背景技术】
[0002]自人类社会进入信息时代以来,各种电子文本大量涌现,这些海量文本中存在着大量多主题文本,包含着多方面丰富的主题信息,例如:一篇关于李克强总理访问欧洲的报道,既属于政治类新闻,又属于经济类新闻。随着科学技术的发展,学科之间融合度越来越高,大多数研究都跨越多个学科领域,许多科技文本内容都从不同侧面包含了多个主题,如一篇关于生物基因信息挖掘的文本,既包含计算机科学方面的主题又包含生物医学领域主题。因此,现实世界中存在大量多主题文本,如何从这些文本中提取有价值的反映不同方面的多个子主题信息,在信息检索、图书情报和信息安全等领域有着非常广泛的应用。
[0003]国外对文本主题提取研究起于上世纪50年代,目前比较成熟的主题提取方法是基于统计模型的方法,该方法主要是利用词频统计信息提取主题,后来研究人员加入了对标题、位置、句法结构和线索词等要素的考虑,能够从英文文本中提取高质量的主题。国内对主题提取的研究起于上世纪80年代后期,然而,由于汉语言的复杂性,许多成功的英文主题提取方法不适用于中文。
[0004]目前,国内应用广泛的还是基于统计的方法,该方法在向量空间模型(VSM)下,前提假设是向量之间两两正交,即构成文本的词汇之间毫无联系,这显然与文本中词汇语义与上下文相关的现实不符,又由于中文词汇量很大,在VSM下,必然存在向量高维、稀疏、忽略词汇语义及上下文背景等问题,同时提取过程受到同义词和多义词的干扰,因而在质量和效率上表现欠佳。目前关于主题提取的研究热点集中在如何增加语义信息上,虽然有很多学者提出了各种基于语义的主题提取方法,但仍然没有达到应用级别的突破性进展。另夕卜,提取多主题和单主题提取在算法上有很大差别,从一篇文本中识别多个子主题词,仅使用传统基于词频统计的方法无法实现。廖涛等人提出的复杂网络中的社区划分算法能够提取多主题,但未涉及词的语义信息,是一个纯粹的统计方法,提取的多主题质量不高。
[0005]因此,针对现有的以词频统计为依据的传统文本处理技术,一篇文本只能提出单个主题的问题,同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题,需要提供一种从单个中文文本中提取多主题词的方法。

【发明内容】

[0006]本发明要解决的技术问题是,为了解决传统文本处理技术以词频统计为依据,一篇文本只能提出单个主题的问题,同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题,提供了一种从单个中文文本中提取多主题词的方法,该方法利用《知网》语义知识库,对表示文本的特征词进行一一映射,把该文本表示成概念模型,并且在映射过程中同义词自动归并到了同一概念中,实现了向量降维;根据语义类与上下文语境的相关性对文中出现的多义词进行排歧。
[0007]本发明的目的在于提供一种从单个中文文本中提取多主题词的方法,包括以下步骤:
[0008]Stepl:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量;
[0009]Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型;
[0010]Step3:多主题词提取:使用改进的K-means算法对所述经过归并和排歧后的文本概念空间模型中的概念进行聚类,形成多个主题概念簇,根据形成的多个主题概念簇,利用概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。
[0011]进一步地,所述步骤Stepl可以包括如下步骤:
[0012]Stepl-1:使用分词系统对待处理文本T进行分词,接着,进行去停、去噪,之后,得到所述文本的初级向量空间模型T = {C1; C2,…,CJ,其中C1, C2,…,Cn表示η个由特征词组成的向量,所述 去停是指过滤文本中出现的停用词,所述去噪是指过滤文本中出现的无实际意义的词汇;
[0013]Stepl-2:从初级向量空间模型中进一步提取特征向量,以得到该文本的高级向量空间模型 T = IC1, C2,..., Cj ,其中 m〈 = η。
[0014]进一步地,所述步骤Step2可以包括如下步骤:
[0015]文本中所包含词汇含义分三种情况:单义词、同义词和多义词;
[0016]概念映射过程通过查询所述语义知识库实现,其中:
[0017]查询知识库,判断当文本中所包含的词汇是单义词时,直接得到其唯一对应的概念;
[0018]查询知识库,判断当文本中所包含的词汇是同义词时,直接得到其唯一对应的概念,在这个过程中,通过将该文本中出现的同义词自动归并到同一个概念中,以实现向量降维;
[0019]查询知识库,判断当文本中所包含的词汇是多义词时,该多义词对应多个概念,概念与语义类一一对应,根据语义类成员词在该文本中的信息量计算语义类权值,选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧。
[0020]进一步地,所述查询知识库,判断当文本中所包含的词汇是多义词时,该多义词对应多个概念,概念与语义类一一对应,根据语义类成员词在该文本中信息量计算语义类权值,选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧,包括如下步骤:[0021]在所述语义知识库中,概念的语义主要由基本义原集描述,基本义原集又由一组语义相关的词来描述,描述某概念基本义原集的词构成了一个语义类;
[0022]判断多义词对应多个概念,计算所述概念对应语义类的所有成员词在所述处理文本中的信息量,加权计算得到每一个语义类的权值;
[0023] 选择权值最大的语义类对应的概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧。
[0024]进一步地,所述步骤Step2可以包括如下步骤:
[0025]St印2-1:对待处理文本T中所有特征词依次查询语义知识库,进行概念映射;
[0026]St印2-1-1:查询知识库,若T的特征词Cm对应唯一的概念,则Cm为单义词或同义词,直接获取Cm的概念,转至步骤Setp2-2 ;
[0027]Step2-1-2:查询知识库,若T的特征词(;对应多个概念,则特征词Cm为多义词,则需对多义词Cm进行词义排歧,选择出适合该文上下文语境的概念;
[0028]St印2-2:得到文本 T 对应概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)};
[0029]St印2-3:进一步按照概念进行整理输出文本T对应概念向量T= {(Gl,(C1,...,Ci)), (G2, (C2,...,Cj)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,(;)为概念 Gq 在文中对应出现的词。
[0030]进一步地,所述步骤Step2_l_2可以包括如下步骤:
[0031]Step2-1-2-l:查询知识库,多义词Cm对应多个概念,描述概念语义的基本义原集够成了一个语义类,因而多义词Cm对应多个语义类,从而可获得描述基本义原集的词组,所述词组成为一组反映语义类语义相关的词组;
[0032]Step2-1-2-2:计算多义词Cm每一个语义类成员词在该文中的信息量,所述成员词Wi在该文中所含的信息量H(Wi)计算公式如下:
[0033]H(Wi) = -TF (Wi, ST) X log [p (Wi)],
[0034]其中,TF (Wi, ST)表示词Wi在文本中出现的频率,ST表示文本,P(Wi)为词Wi的概率分布;
[0035]St印2-1-2-3:计算多义词Cm每一个语义类的权值,它的第i个语义类Li权值为:
【权利要求】
1.一种从单个中文文本中提取多主题词的方法,其特征在于,包括以下步骤: Stepl:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量; Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型; Step3:多主题词提取:使用改进的K-means算法对所述经过归并和排歧后的文本概念空间模型中的概念进行聚类,形成多个主题概念簇,根据形成的多个主题概念簇,利用概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题
2.根据权利要求1所述的从单个中文文本中提取多主题词的方法,其特征在于,所述步骤Stepl进一步包括如下步骤: Stepl-1:使用分词系统对待处理文本T进行分词,接着,进行去停、去噪,之后,得到所述文本的初级向量空间模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η个由特征词组成的向量,所述去停是指过滤文本中出现的停用词,所述去噪是指过滤文本中出现的无实际意义的词汇; Stepl-2:从初级向量空间模型中进一步提取特征向量,以得到该文本的高级向量空间模型 T =IC1, C2,..., Cj ,其中 m〈 = η。
3.根据权利要求1所述的从单个中文文本中提取多主题词的方法,其特征在于,所述步骤Step2进一步包括如下步骤: 文本中所包含词汇含义分三种情况:单义词、同义词和多义词; 概念映射过程通过查询所述语义知识库实现,其中: 查询知识库,判断当文本中所包含的词汇是单义词时,直接得到其唯一对应的概念; 查询知识库,判断当文本中所包含的词汇是同义词时,直接得到其唯一对应的概念,在这个过程中,通过将该文本中出现的同义词自动归并到同一个概念中,以实现向量降维; 查询知识库,判断当文本中所包含的词汇是多义词时,该多义词对应多个概念,概念与语义类一一对应,根据语义类成员词在该文本中的信息量计算语义类权值,选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧。
4.根据权利要求3所述的从单个中文文本中提取多主题词的方法,其特征在于,所述查询知识库,判断当文本中所包含的词汇是多义词时,该多义词对应多个概念,概念与语义类一一对应,根据语义类成员词在该文本中信息量计算语义类权值,选取权值最大的语义类对应概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧,进一步包括如下步骤: 在所述语义知识库中,概念的语义主要由基本义原集描述,基本义原集又由一组语义相关的词来描述,描述某概念基本义原集的词构成了一个语义类; 判断多义词对应多个概念,计算所述概念对应语义类的所有成员词在所述处理文本中的信息量,加权计算得 到每一个语义类的权值;选择权值最大的语义类对应的概念作为所述多义词适合本文上下文语境的概念,从而实现多义词排歧。
5.根据权利要求1所述的从单个中文文本中提取多主题词的方法,其特征在于,所述改进的K-means算法进一步包括如下步骤: 通过对待处理文本中的向量概念进行聚类,形成多个主题概念簇; 选用经典K-means聚类算法,通过预设种子方法对其进行改进。
6.根据权利要求1所述的从单个中文文本中提取多主题词的方法,其特征在于,所述选用经典K-means聚类算法,通过预设种子方法对其进行改进,进一步包括如下步骤: 根据统计的主题提取思想方法,检测到文本中的某个主题由一组同义词围绕而产生同义词共现语言现象; 基于检测到的同义词共现语言现象,判断文本中的同义词所围绕的同一个主题,同义词在概念向量模型中表现为同一个概念; 在所述概念向量映射过程中,同义词归并到同一个概念中,一个概念可能对应属于该文本的多个词汇,在多主题词提取过程中,选取包含待处理文本词个数最多的前K个概念作为K-means聚类的初始中心的预设种子。
7.根据权利要求1所述的 从单个中文文本中提取多主题词的方法,其特征在于,所述计算概念与概念之间的相似度和计算概念与概念集之间的相似度,进一步包括如下步骤: 所述语义知识库通过多个义原来描述概念,并且义原根据上下位关系构成了一个树状的义原层次体系; 通过计算义原在树状层次体系中的距离得到义原之间的相似度; 概念的语义由一组义原描述,由义原的相似度可计算概念之间的相似度; 通过计算某概念与概念集中所有概念的相似度,选取和该概念相似度最大的值,作为该概念与概念集的相似度。
【文档编号】G06F17/27GK103970730SQ201410179275
【公开日】2014年8月6日 申请日期:2014年4月29日 优先权日:2014年4月29日
【发明者】马甲林, 王志坚 申请人:河海大学

【专利交易】【专利代理】【商标和版权申请】【高新技术企业认定】Tel:18215660330

最新回复(0)