关联计算的预处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域,具体的涉及一种关联计算的预处理方法及装 置。
【背景技术】
[0002] 随着互联网的快速发展,每天都有海量新闻资讯产生,人们对信息的高效检索和 获取的需求日益强烈,各种搜索引擎与推荐系统等应用的出现提供了有效的途径。这些应 用的基础是计算关键词与网页内容之间的关联关系,但在计算的过程中经常由于常用词 (如应用)或关键词的多义性导致一些噪声与检索关键词简历关联,影响检索与进一步分析 的效果。因此需要在关联计算之前进行预处理,将与新闻主题内容没有关联或关联不大的 词语过滤,以提高关联的准确度。
[0003] 目前在关联计算中通常采用TF-IDF(词频-逆向文件频率)值作为关键词的度量, 对TF-IDF值小于一定阈值的词语直接过滤。但这种方法只能过滤常用词,而对词的多义性 使用特别是引申使用场景效果不好,例如下面这篇新闻
[0004]人民网北京12月19日电(付雁南、白真智、魏晞)近一个月前的11月21日,中央政治 局常委、国务院副总理李克强在全国综合配套改革试点工作座谈会上首次提出"改革是中 国最大的红利"的观点,被部分网友评为年内"最令人鼓舞的语录"。
[0005] ................
[0006]打破约束民营投资的"玻璃门"
[0007] ................
[0008] 他说:"现在看来,民营投资受到的约束仍然很大。如果把这些所谓的'弹簧门'卸 掉,把'玻璃门'打碎,那投资的潜力还是相当巨大的。"
[0009] ................
[0010] 其中"玻璃门"仅仅是一种比喻,不应与新闻直接建立关联,只采用TF-IDF测度,则 无法将这种引申词过滤。
【发明内容】
[0011] 本发明的目的在于提供一种关联计算的预处理方法及装置,该发明解决了现有技 术中TF-IDF测度法无法将文中具有引申意义的非相关词排除的技术问题。
[0012] 本发明提供一种关联计算的预处理方法,包括以下步骤:
[0013] 步骤S100:对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文 档词频矩阵F,通过对文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布ρ(θ)和主 题-词概率分布
[0014] 步骤S200:通过文档-主题概率分布ρ (Θ)计算出待处理文本的非相关主题集合ΝΡ, 通过主题-词概率分布和非相关主题集合ΝΡ,得到待处理文本的非相关词集合NT;
[0015] 步骤S300:遍历待处理文本的分词列表,判断当前词是否包含于非相关词集合NT 中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
[0016] 进一步地,基于所述词典的文档词频矩阵F的构建包括以下步骤:
[0017] 步骤S110:统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词, 构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引映射集合TM以键对值形 式存储;
[0018] 步骤S120:基于词典构建形式如下的文档词频矩阵F:
[0020]其中,m为文档数量,η为词典词数,表示词典T中第j个词在第i个文本中的词 频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,l fi,2 ... fi,j ... fi,n-l fi,n)。
[0021] 进一步地,步骤S200包括以下步骤:
[0022] 步骤S210:对文档-主题概率分布ρ(θ)按概率值从大到小对主题的索引号进行排 序得到排序列表pl ist,并对排序列表pi ist进行遍历,累加每个主题对应的文档-主题概率 分布ρ(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后的主 题作为非相关主题,并加入非相关主题集合ΝΡ中;
[0023] 步骤S220:遍历文档词频矩阵F中的词频向量h,若f^M)则取主题-词概率分布 P⑷中第j列向量A⑷概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW 和属于相关主题的权重PW,若NW>PW则将i加入到非相关词集合NT。
[0024] 进一步地,NW和所述PW的计算方式为:假设主题索引号为s,所述NW和所述PW的初 始化为〇,若S e所述非相关主题集合NP,则NW = NW+ps (Θ);否则PW=PW+ps (Θ),其中,Ps (Θ)为 第s个主题的文档-主题概率值。
[0025]本发明的另一方面还提供了一种如上述方法用关联计算的预处理装置,包括: [0026] LDA聚类计算模块,用于对待处理文本进行分词标注词性后,构建词典,得到基于 所述词典的文档词频矩阵F,通过对文档词频矩阵F进行LDA聚类计算,得到文档-主题概率 分布和主题-词概率分布;
[0027]非相关词集合NT计算模块,用于通过文档-主题概率分布ρ(θ)计算出待处理文本 的非相关主题集合ΝΡ,通过主题-词概率分布和非相关主题集合ΝΡ,得到待处理文本的非相 关词集合NT;
[0028]过滤文本模块,用于遍历待处理文本的分词列表,判断当前词是否包含于非相关 词集合NT中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
[0029]进一步地,LDA聚类计算模块包括:
[0030]构建词典索引映射集合模块,用于统计分词后列表中各名词的词频,过滤其中词 频小于预设阈值的名词,构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引 映射集合TM以键对值形式存储;
[0031]构建文档词频矩阵F模块,用于基于词典构建形式如下的文档词频矩阵F:
[0033]其中,m为文档数量,η为词典词数,flu表示词典T中第j个词在第i个文本中的词 频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,l fi,2 ... fi,j ... fi,n-l fi,n)。
[0034] 进一步地,非相关词集合NT计算模块包括:
[0035] 非相关主题集合构建模块,用于对文档-主题概率分布ρ(θ)按概率值从大到小对 主题的索引号进行排序得到排序列表piist,并对排序列表piist进行遍历,累加每个主题 对应的文档-主题概率分布Ρ(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作 为相关主题,之后的主题作为非相关主题,并加入非相关主题集合ΝΡ中;
[0036] 非相关词集合构建模块,用于遍历文档词频矩阵F中的词频向量h,若fu>0则取 主题-词概率分布Μ的中第j列向量A(的概率值最大的前S个主题,计算这S个主题属于非 相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将j加入到非相关词集合NT。
[0037] 本发明的技术效果:
[0038] 本发明提供的关联计算的预处理方法,采用潜在狄利克雷分布模型(简称LDA)对 新闻等文本进行主题聚类,进一步识别提取出与文本主题不相关的词(如"玻璃门",称为非 相关词)并过滤,通过这种预处理方式,可有效提高后续关联计算的准确度。
[0039] 本发明提供的关联计算的预处理装置能够识别并过滤文本的非相关词,提高关联 计算的准确度。
[0040] 具体请参考根据本发明的关联计算的预处理方法及装置提出的各种实施例的如 下描述,将使得本发明的上述和其他方面显而易见。
【附图说明】
[0041] 图1是本发明提供的关联计算的预处理方法的优选实施例流程示意图;
[0042] 图2是本发明提供的关联计算的预处理装置的优选实施例结构示意图。
【具体实施方式】
[0043]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0044] 参见图1,本发明提供的关联计算的预处理方法,包括以下步骤:
[0045] 步骤S100:对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文 档词频矩阵F,通过对文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布ρ(θ)和主 题-词概率分布
[0046] 步骤S200:通过文档-主题概率分布ρ( Θ)计算出待处理文本的非相关主题集合ΝΡ, 通过主题-词概率分布和非相关主题集合ΝΡ,得到待处理文本的非相关词集合NT;
[0047] 步骤S300:遍历待处理文本的分词列表,判断当前词是否包含于非相关词集合NT 中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
[0048] 通过上述步骤取得文本不相关词集合后,对文本的分词结果进行过滤并用于进一 步的文档关联计算即可。后续的文档关联计算可以采用各类常用的关联计算即可。该方法 可以将引申词等非相关词
识别出来,通过过滤非相关词可以提升关联计算的精度。
[0049] 步骤S100中对于待处理文本中的批量文本,需进行编号文本编号索引及分词处 理。这些步骤可以按常规方法步骤进行即可。构建词典可以按常规方法进行。
[0050] 优选的,基于所述词典的文档词频矩阵F的构建包括以下步骤:
[0051] 步骤S110:统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词, 构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引映射集合TM以键对值形 式存储;
[0052] 步骤S120:基于词典构建形式如下的文档词频矩阵F:
[0054] 其中,m为文档数量,η为词典词数,表示词典T中第j个词在第i个文本中的词 频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,l fi,2 ... fi,j ... fi,n-l fi,n)。
[0055] 预设阈值根据文本的规模以及计算速度的要求选取,在实施中阈值取3。通过对词 典中的非名词词语进行过滤,能降低词典的大小加快后续计算的速度。词典索引映射集合 TM的存储形式为key-value形式存储,其中key为词,value为词对应于T中的位置索引。上述 步骤为预处理步骤,主要用于将文档转换成可用于LDA计算的文档词频矩阵F,以及将词典 进行索引以便后续通过索引进行词查询操作。
[0056] 对所得文档词频矩阵F进行LDA聚类,得到每个文档的文档-主题概率分布ρ(θ)(ρ (Θ)为k维的向量,k为主题数)和整个文档集的主题-词概率分布f"(p) ( 为k*n大小的矩 阵,其中k为主题数,η为词典词数)。此处所用LDA聚类算法可以按常规方法进行,例如在实 施中LDA聚类算法时,可采用Blei、Ng与Jordan发表于《journal of machine learning research》,2003年的论文《Latent Dirichlet A1 location》(Journal of Machine Learning Re search ,2003,3:993-1022)和Asuncion Wei 1 ing、Smyth和Teh 的论文《On Smoothing and Inference for Topic Models》(Twenty-fifth Conference on Uncertainty in Artificial Intelligence,2012:27_34)实现,主题数k选择 100〇
[0057] 优选的,步骤S200包括以下步骤:
[0058]步骤S210:对于文档i,对其文档-主题概率分布ρ(θ)按概率值从大到小对主题的 索引号进行排序得到排序列表piist,并对排序列表piist进行遍历,累加每个主题对应的 文档-主题概率分布Ρ(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关 主题,之后的主题作为非相关主题,并加入非相关主题集合ΝΡ中;
[0059] 步骤S220:从档词频矩阵F中取其对应的词频向量6进行遍历,若f^>0则取主题-词概率分布Μ的中第j列向量概率值最大的前S个主题,计算这S个主题属于非相关主 题的权重NW和属于相关主题的权重PW,若NW>PW则将i加入到非相关词集合NT。
[0060]该步骤是为了将文档的非相关词提取出来。
[0061 ] 优选的,NW和PW的计算方式为:NW和PW初始化为0,假设主题索引号为s,若s e非相 关主题集合NP,则NW=NW+ps(Θ);否则PW=PW+ps(Θ),其中,Ps(Θ)为第 s个主题的文档-主题 概率值。该步骤能计算出当前词是相关词的概率和是非相关词的概率。
[0062] 取文本的文档-主题概率分布ρ(θ)计算文本的非相关主题集合。对文档-主题概率 分布ρ(θ)按概率值从大到小对主题的索引号进行排序得到排序列表pi ist,排序列表pi ist 的内容为主题的索引编号,例如文档-主题概率分布Ρ(θ)为(0.2,0.4,0.1,0.3),则排序列 表pi ist为(2,4,1,3)。由此可知,例如文档-主题概率分布ρ(Θ)为〇. 4时,为所有文档-主题 概率分布Ρ(θ)中最大值,在排序列表plist中排序为4,且排序列表plist中同一文档-主题 概率分布ρ(θ)的位置不变。
[0063] 得到排序列表plist后,对其从第一个元素开始遍历,累加每个主题对应的文档-主题概率分布ρ( Θ),当文档-主题概率分布ρ( Θ)的累加值大于预设阈值时,该位置以及该位 置之前所有遍历的主题记为该文档的相关主题。余下的未经遍历的所有主题记为该文档的 非相关主题,全部加入到非相关主题集合NP中。NP是文章的非相关主题集合,是一个隐含抽 象的概念。
[0064] 按此处理,能有效的将文档表示为相关主题和非相关主题的集合,将文档的非相 关主题识别出来,用于后续非相关词的识别。
[0065] 计算文本的非相关词集合NT。对于文档i,从档词频矩阵F中取其对应的词频向量 心进行遍历,对于第j个词,若fu>〇则取主题-词概率分布P(的的第j列向量巧化),取第j列 向量A (妁概率值最大的前S个主题,计算这S个主题属于非相关主题的权重NW和属于相关 主题的权重PW,NW和PW的计算方式为:NW和PW初始化为0,假设主题索引号为s,若s e非相关 主题集合NP,则NW = NW+ps(Θ);否则PW = PW+ps(Θ),其中,Ps(Θ)为第s个主题的文档-主题概 率值。若NW>PW则将j加入到非相关词集合NT。
[0066] 该步骤能准确识别出文档词频矩阵F中的哪些词是文章主题的非相关词,以便后 续续在分词列表中将相应的词过滤掉。
[0067]得到非相关主题集合NP和非相关词集合NT后,遍历待处理文本的分词列表,判断 当前词是否包含于词典索引映射集合TM中,如果包含于词典索引映射集合TM中则取其索 弓丨,并继续判断该当前词的索引是否包含于非相关词集合NT中,如果包含于非相关词集合 NT中则将该当前词直接过滤。NT是文章的非相关词集合,是在NP的基础上计算选取出来的 文章中非相关词的集合。对待处理文本的分词结果进行非相关词过滤,
[0068]将过滤后的分词结果用于关联计算。该关联计算方法可以为各类现有方法,例如 可以为TF-IDF值法,该方法包括以下步骤:计算过滤文本中每个名词的TF-IDF值,对TF-IDF 值大于预设阈值的名词建立与文本的关联关系,输出词-文本关联结果。此处预设阈值的设 置可以过滤掉一些常用词,例如"应用",该阈值设置为所有词的TF-IDF值均值,乘以小于1 的系数,例如0.6。
[0069] 以下结合具体实例对前述方法进行描述。为描述的便利,假设主题数为4(真实实 施中远大于该值),以【背景技术】中的实例为对象进行说明并假设实例为语料库中的第50个 文档。S100步骤:对语料库构建词典T及其映射TM和文档词频矩阵F,假设词典词数为1000, 并假设"玻璃门"一词在词典中的索引为10即T[10] = "玻璃门"且TM("玻璃门")=10^的第 i = 50行为实例对应的文档词频向量f5〇;对F进行LDA计算得到整个文档集的主题-词概率分 布Μ妁(其为4*1000大小的矩阵)和第50个文档的文档-主题概率分布p(0) = (0.2,0.4, 0.1,0.3)。S210步骤:对第50个文档,对其ρ(Θ)进行索引号排序得到p 1 ist = (2,4,1,3);假 设文档的主题阈值为0.6,遍历plist,其1、2元素对应的主题2和主题4的概率值之和为0.6, 则可将3、4元素对应的主题1和主题3判定为非相关主题并将它们放入NP中,NP={1,3}。 S200步骤:对f5Q向量进行遍历,对于第10列f5Q, 1Q( 8卩"玻璃门"对应的词频)有f5Q, 1Q>0,因而 从主题-词概率分布中取其第10列向量Ao化),并假设/?(的=((〕.5,〇 UO.3,0.1)其表示 "玻璃门"属于主题1的概率为〇. 5属于主题2的概率为0.1以此类推;假设以词所属概率最大 的两个主题来计算词的归属,则内。(勿概率最大的主题为主题1和主题3;初始化NW=0和PW =〇,由于主题1和主题3都属于陬,则1^=〇,丽=〇+?1(0)+?3(0)=〇.2+〇.1=〇.3>?¥,故"玻 璃门"一词属于文档的非相关词,将其索引10加入加入到文档的非相关词集合NT中。S300步 骤:遍历第50个文档的分词列表,对于"玻璃门"一词,其TM("玻璃门")= 10,索引10属于文 档的非相关词集合NT,因此直接将"玻璃门"从分词列表中过滤去除;遍历完毕后即可将过 滤后的分词结果用于关联计算。
[0070] 参见图2,本发明的另一方面还提供了一种如上述方法用的关联计算的预处理装 置,包括:
[0071 ] LDA聚类计算模块100,用于对待处理文本进行分词标注词性后,构建词典,得到基 于所述词典的文档词频矩阵F,通过
对文档词频矩阵F进行LDA聚类计算,得到文档-主题概 率分布和主题-词概率分布;
[0072]非相关词集合NT计算模块200,用于通过文档-主题概率分布ρ(θ)计算出待处理文 本的非相关主题集合ΝΡ,通过主题-词概率分布和非相关主题集合ΝΡ,得到待处理文本的非 相关词集合NT;
[0073] 过滤文本模块300,用于遍历待处理文本的分词列表,判断当前词是否包含于非相 关词集合NT中,如果包含于非相关词集合NT中则将该当前词直接过滤,输出过滤文本。
[0074] 该装置通过利用LDA聚类计算得到的结果,进行文本过滤,能将待处理文本中所含 的与主题不相干的词去除,减少后续关联计算的误差。
[0075]优选的,LDA聚类计算模块100包括:
[0076]构建词典索引映射集合模块,用于统计分词后列表中各名词的词频,过滤其中词 频小于预设阈值的名词,构建词典T,对词典T进行索引得到词典索引映射集合TM,词典索引 映射集合TM以键对值形式存储;
[0077]构建文档词频矩阵F模块,用于基于词典构建形式如下的文档词频矩阵F:
[0079] 其中,m为文档数量,η为词典词数,表示词典T中第j个词在第i个文本中的词 频。fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,l fi,2 ... fi,j ... fi,n-l fi,n)。
[0080] 该方法能构建出适合于LDA模型计算所需的文档词频矩阵F。
[0081 ]优选的,非相关词集合NT计算模块200包括:
[0082] 非相关主题集合构建模块,用于对文档-主题概率分布ρ(θ)按概率值从大到小对 主题的索引号进行排序得到排序列表piist,并对排序列表piist进行遍历,累加每个主题 对应的文档-主题概率分布Ρ(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作 为相关主题,之后的主题作为非相关主题,并加入非相关主题集合ΝΡ中;
[0083] 非相关词集合构建模块,用于遍历文档词频矩阵F中的词频向量h,若fu>0则取 主题-词概率分布/H炉)中第j列向量巧(供)概率值最大的前S个主题,计算这S个主题属于非 相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将j加入到非相关词集合NT。
[0084] 采用该装置,能有效构建出准确性较高的非相关词集合,避免后续后续关联计算 收到非相关词的干扰。
[0085] 本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行 若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明 书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。 本发明并不限于所公开的实施例。
[0086] 通过对附图,说明书和权利要求书的研究,在实施本发明时本领域技术人员可以 理解和实现所公开的实施例的变形。在权利要求书中,术语"包括"不排除其他步骤或元素, 而不定冠词"一个"或"一种"不排除多个。在彼此不同的从属权利要求中引用的某些措施的 事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对 本发明的范围的限制。
【主权项】
1. 一种关联计算的预处理方法,其特征在于,包括以下步骤: 步骤SlOO:对待处理文本进行分词标注词性后,构建词典,得到基于所述词典的文档词 频矩阵F,通过对所述文档词频矩阵F进行LDA聚类计算,得到文档-主题概率分布Ρ(θ)和主 题-词概率分布/小/^ 步骤S200:通过所述文档-主题概率分布ρ(θ)计算出待处理文本的非相关主题集合ΝΡ, 通过所述主题-词概率分布P(F)和所述非相关主题集合ΝΡ,得到所述待处理文本的非相关 词集合NT; 步骤S300:遍历待处理文本的分词列表,判断当前词是否包含于所述非相关词集合NT 中,如果包含于所述非相关词集合NT中则将该当前词直接过滤,输出过滤文本。2. 根据权利要求1所述的关联计算的预处理方法,其特征在于,所述文档词频矩阵F的 构建包括以下步骤: 步骤S110:统计分词后列表中各名词的词频,过滤其中词频小于预设阈值的名词,构建 所述词典,对所述词典进行索引得到所述词典索引映射集合TM,所述词典索引映射集合TM 以键对值形式存储; 步骤S120:基于词典构建形式如下的所述文档词频矩阵F:其中,m为所述待处理文本中所含文档的数量,η为词典词数,表示所述词典T中第j 个词在第i个文本中的词频; fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,l fi,2 ... fi,j ... fi,n-l fi,n)。3. 根据权利要求2所述的关联计算的预处理方法,其特征在于,所述步骤S200包括以下 步骤: 步骤S210:对所述文档-主题概率分布ρ(θ)按概率值从大到小对主题的索引号进行排 序得到排序列表pl ist,并对排序列表pi ist进行遍历,累加每个主题对应的所述文档-主题 概率分布ρ(θ)至其累加值大于预设阈值时,将该位置及其之前的主题作为相关主题,之后 的主题作为非相关主题,并加入所述非相关主题集合NP中; 步骤S220:遍历所述文档词频矩阵F中的词频向量h,若fu>0则取所述主题-词概率分 布P(的中第j列向量巧⑷)概率值最大的前S个主题,计算这S个主题属于非相关主题的权重 NW和属于相关主题的权重PW,若NW>PW则将j加入到所述非相关词集合NT。4. 根据权利要求3所述的关联计算的预处理方法,其特征在于,所述NW和所述PW的计算 方式为:假设主题索引号为s,所述NW和所述PW的初始化为0,若s e所述非相关主题集合NP, 则 NW=NW+ps(9); 否则PW=PW+ps(0),其中,Ps(0)为第s个主题的文档-主题概率值。5. -种如权利要求1~4中任一项所述方法用关联计算的预处理装置,其特征在于,包 括: LDA聚类计算模块,用于对待处理文本进行分词标注词性后,构建词典,得到基于所述 词典的文档词频矩阵F,通过对所述文档词频矩阵F进行LDA聚类计算,得到所述文档-主题 概率分布p (Θ)和主题-词概率分布; 非相关词集合NT计算模块200,用于通过所述文档-主题概率分布ρ(θ)计算出待处理文 本的非相关主题集合NP,通过所述主题-词概率分布妁和非相关主题集合NP,得到待处理 文本的所述非相关词集合NT; 过滤文本模块,用于遍历待处理文本的分词列表,判断当前词是否包含于所述非相关 词集合NT中,如果包含于所述非相关词集合NT中则将该当前词直接过滤,输出过滤文本。6. 根据权利要求5所述的关联计算的预处理装置,其特征在于,所述LDA聚类计算模块 包括: 构建词典索引映射集合模块,用于统计分词后列表中各名词的词频,过滤其中词频小 于预设阈值的名词,构建词典T,对词典T进行索引得到所述词典索引映射集合TM,所述词典 索引映射集合TM以键对值形式存储; 构建所述文档词频矩阵F模块,用于基于词典构建形式如下的所述文档词频矩阵F:其中,m为文档数量,η为词典词数,fy表示词典T中第j个词在第i个文本中的词频; fi表示矩阵中的第i行对应的文本词频向量,fi=(fi,l fi,2 ... fi,j ... fi,n-l fi,n)。7. 根据权利要求5所述的关联计算的预处理装置,其特征在于,所述非相关词集合NT计 算模块包括: 非相关主题集合构建模块,用于对所述文档-主题概率分布Ρ(θ)按概率值从大到小对 主题的索引号进行排序得到排序列表piist,并对排序列表piist进行遍历,累加每个主题 对应的所述文档-主题概率分布Ρ(θ)至其累加值大于预设阈值时,将该位置及其之前的主 题作为相关主题,之后的主题作为非相关主题,并加入非相关主题集合NP中; 非相关词集合构建模块,用于遍历所述文档词频矩阵F中的词频向量A,若fu>0则取所 述主题-词概率分布M的中第j列向量約概率值最大的前S个主题,计算这S个主题属于 非相关主题的权重NW和属于相关主题的权重PW,若NW>PW则将j加入到所述非相关词集合 NT0
【专利摘要】本发明提供一种关联计算的预处理方法及装置,该方法在对文本分词的基础上,使用LDA模型算法对文本进行主题聚类计算得到文档-主题概率分布以及主题-词概率分布。然后通过文档-主题概率分布计算出文本的非相关主题集合,通过主题-词概率分布计算出文本的非相关词,从而将与文档主题内容不相关的词识别提取出来。将过滤结果用于进一步的关联计算。从而降低了非相关词对关联计算的干扰。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105488033
【申请号】CN201610050952
【发明人】修保新, 陈发君, 刘忠, 黄金才, 朱承, 程光权, 陈超, 冯旸赫, 杨文辉, 龙开亮
【申请人】中国人民解放军国防科学技术大学, 长沙市源本信息科技有限公司
【公开日】2016年4月13日
【申请日】2016年1月26日