舆情热点自动监测系统的制作方法

xiaoxiao2020-10-23  27

舆情热点自动监测系统的制作方法
【技术领域】
[0001] 本发明涉及互联网舆情信息获取和利用,尤其涉及舆情热点自动监测系统。
【背景技术】
[0002] 目前,我们在互联网舆情信息获取和利用方面,与工作要求仍存在着较大的差距, 主要表现在:
[0003] 1、互联网信息的获取能力不足。面对复杂庞大、类型多样、数据量巨大的互联网数 据,还不能全面、快速、有效地找到并获取满足实际需要的信息。通过传统方法获取的数据 总量少、覆盖面窄、来源单一,极大地限制了工作有效开展;
[0004] 2、互联网信息的挖掘处理能力不足。对于已经获取的互联网数据,不能按照实际 工作需要,开展数据挖掘处理,从中找出事件背景和原因,查明主体之间的内在关系,及时 发现社会热点问题,预测事件发展趋势等;
[0005] 3、缺乏适用的互联网舆情监测分析系统。还没建立满足工作需要的互联网舆情监 测分析应用系统,不能对海量互联网数据进行处理,不能及时发现网络舆情热点,不能做好 处置准备工作。
[0006] 为了维护社会政治稳定,加强互联网管理、组织力量展开互联网舆情监测分析成 为目前主要政府部门急需解决的现实问题。要解决这一问题,需要有智能的舆情监测分析 系统,用来实现针对互联网海量舆情自动实时的监测分析,从而有效地解决政府部门以传 统的人工方式对网络舆情监测的实施难题。舆情监测分析系统需要整合互联网技术及信息 智能处理技术,对境内、境外互联网海量信息进行自动抓取和分析,实现网络舆情热点监测 和分析的信息需求,为政府全面掌握群众思想动态提供分析依据。
[0007] 及时开展政府部门互联网网舆情监测分析系统研究,建设为实际工作服务的互联 网信息挖掘应用系统,具有极高的重要性和紧迫性。
[0008] 综上所述,针对现有技术存在的不足,特别需要舆情热点自动监测系统,以解决现 有技术的不足。

【发明内容】

[0009] 本发明的目的是提供自行车防盗物联网监控系统,解决校园中自行车随意停放和 自行车经常被盗的现象。
[0010] 本发明为解决其技术问题所采用的技术方案是,
[0011] 舆情热点自动监测系统,该系统包括有汉语自动分词模块、特征提取模块;
[0012] 汉语自动分词模块包括有自动分词的基本算法单元、未登陆词的识别单元、汉语 自动分词的切分歧义及其消除单元;
[0013] 特提提取模块包括有特征表示单元、向量空间模型单元;
[0014] 该系统的自动监测方法的步骤如下:
[0015] 1、从数据源读入一篇报道,对多个网络新闻数据源进行不间断地监测,从网络中 自动抓取新闻报道,解析出新闻报道的时间、标题和正文信息等,如果没有从报道中找到时 间,则以抓取时间为准;
[0016] 由于多个数据源之间存在相当的重复,对新抓取的新闻报道,根据报道的文本内 容进行消重处理;如果新报道和之前已经处理的新闻报道重复度大于重复阈值9d,则认 为是重复的新闻报道,本实施例中设定的重复阈值0d为0. 9 ;
[0017] 由于新闻报道的范围过于宽泛,采用基于来源的规则分类以及基于内容的自动分 类相结合的方法,对新闻报道进行分类,规则分类根据新闻来源以及作者等进行分类,基于 内容的自动分类采用向量空间模型(VSM)和支持向量机算法(SVM),根据报道内容和标题 对新闻报道进行自动分类;并且按照所属类别c进行步骤2 -步骤7的处理;
[0018] 2、采用质心比较策略,将报道与所属类别c内现有监测到的新闻主题进行比较, 同时考虑时间特征和内容特征,计算报道和主题间的相似度,并记录最大相似度Smax以及 相似度最大的主题Es,确定与当前报道最相近的主题;主题本身通过主题内部所有新闻中 综合权重最高的若干个特征词来表达;新闻报道和主题之间的相似度基于向量空间模型, 通过两者的夹角余弦值(cosine)来计算,同时新闻报道的标题赋予较高权重;
[0019] 3、根据步骤2计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道 采取如下措施:
[0020] A.如果Smax小于创新阈值0n(本实施例中为0. 25):在该报道所属类别内创建 一个新主题;
[0021] B.如果Smax大于0n而小于聚类阈值0c(本实施例中为0.30):不作处理,返回 步骤1);
[0022] C.如果Smax大于0c而小于贡献阈值0t(本实施例中为0. 35):归入当前主题;
[0023] D.如果Smax大于0t:归入主题Es,并调整Es;
[0024] 上述的Smax、0n、0c、0t的取值范围均大于0而小于等于1 ;
[0025] 4、当一个类处理用户确定的固定数量的新增报道之后,对该类别内新闻主题两两 比较;如果两个主题的相似度大于合并阈值0u,则将其合并,主题之间的相似度计算公式 可以采用传统聚类算法中计算两个聚类相似度的方法,综合考虑两个主题中所有新闻报道 之间的两两相似度,采用如下公式:
[0027] 其中,El,E2是两个监测到的新闻主题,di,dj分别为El,E2中的新闻报道,Sim (El,E2)是两个新闻报道之间的相似度,|E」,|E2|分别为两个主题中包含的新闻报道数 目;
[0028] 5、当一个类处理用户确定的固定数量的新增报道之后,对各主题内的新闻报道进 行淘汰:重新计算新闻报道和该主题的相似度,对相似度低于聚类阈值9c、或者不满足限 制条件的新闻报道进行淘汰;然后再重新计算主题内部表示及其权重;
[0029] 6、若当前类别内的主题数量超过主题窗口大小,对类别内的所有新闻主题进行排 序:结合新闻主题的时间特性和数量特性,计算新闻主题的得分值并排序;计算得分值时 同时考虑多个不同的排序,同时考虑最近12个小时、1天、3天、7天、30天等,只有当主题在 任何排序中都不在主题窗口内时,才将该主题淘汰;这样,多重排序就给用户提供了不同粒 度的信息参考,系统将不在主题窗中的新闻主题淘汰,用于提高系统处理的效率;
[0030] 7、根据用户要求,对外输出监测结果:对于类别内的当前所有主题,计算其描述; 同时,结合主题的时间特性和主题内的新闻报道数量特性,从所有类别中选择出得分最高 的若干个新闻主题,作为该类别最热点的新闻主题,输出主题描述和包含的新闻报道列表, 其中,主题描述的生成过程如下:
[0031]A.读取主题内部权重最高的若干个特征词;
[0032]B.在与主题相似度大于主题阈值0e的主题内新闻报道中,选择时间最近的一篇 新闻报道的标题;主题阈值还可以采取按照比例的方式;
[0033] C.综合A和B,输出该主题的描述。
[0034] 进一步,所述的自动分词的基本算法单元包括有最大匹配法、全切分算法、概率乘 算法;
[0035] 最大匹配法是机械分词的算法不考虑任何词与词之间的连接可能性,只按照长度 在词典中寻找句子里出现的字符串:算法比较成熟,以最大匹配法(MaximumMatching,简 称MM)最具有代表性;
[0036] 最大匹配法的思想是:从输入流中取最大长度(本系统中取6)字符串,在词典中 进行查找,匹配则输出,继续取,否则,回溯,继续查找,直到长度为1,此时需在输入流中前 进一格,此过程进行到取完输入流;
[0037] 全切分算法是一种不存在切分盲点的算法;所谓全切分算法,就是求出形式上所 有符合词典的切分形式;采用此算法,涉及到一个选取最优切分式的问题;
[0038] 概率乘算法是基于统计的方法利用字与字间、词与词间的同现频率作为分词的依 据;这种方法的优点在于它不受应用领域的限制,而且也不局限于实现建立的分词词典; 该方法需要大规模的训练文本,用以训练模型参数;
[0039] 训练文本的选择也将对分词的结果产生明显的影响;
[0040] 设S=sl,s,…,sm是待切分的汉字串,假设S有n个切分式,W=wl,w2,…,wk,是 第i个切分式,i=l~n;
[0041] 设P(W/S)是汉字串S切分为W的概率,则基于统计的分词方法就是从S的n 个切分式中找到概率最大的切分式,
[0042]即P(W/S)=MAX(P(W1/S),P(W2/S)...,P(Wn/S)),P(W/S)称为评价函数;
[0043] 根据贝叶斯公式,有:P(W/S)=P(W)P(S/W) /P(S)对于S的多种切分方 式,P(S)为一常数,而P(S/W)是在给定词串的条件下出现句子S的概率,故P(S/W) =1,所以P(W/S)~P(W)。
[0044] 进一步,所述的未登陆词的识别单元包含有两个性能指标:
[0045] 1.召回率(Recall):指识别出来的某种类型的未登录词的数量和文本中属于该类 型的未登录词总数之比,
[0046] 2.精确率(Accuracy):指在识别出来的未登录词中,属于该类型未登录词的数目 和辨识出来的未登录词的总数之比。
[0047] 进一步,所述的汉语自动分词的切分歧义及其消除单元:汉语的分词是一个理解 的过程,这个过程综合了司法、语法、语义等各种信息,汉语自动分词与这些信息的运用是 既相互联系又相互制约的一种相辅相成的关系,纯粹的机械切分必然会带来切分歧义;
[0048] 切分歧义是指汉语句子中的某些字段,如果纯粹根据词表做简单的字符串匹配, 则它可能存在多种切分形式,含有切分歧义的汉字串称为歧义字段,切分歧义是汉语自动 分词研究中的一个难点,切分歧义的基本类型有三种:
[0049] 1.交叉歧义:也称交集型切分歧义,即汉字串ABC既可以切分成AB/C形式,也 可切分成A/BC形式,即AB是词,BC也是词;
[0050] 2.组合歧义:汉字串 AB既可以切分成AB,又可切分成A/B,即AB是词,A、B也 是词;
[0051] 3.混合歧义:是前两种歧义形式的自身嵌套或者由两者交叉组合而产生的;
[0052] 主要解决切分歧义的方法有两种:基于规则的方法,基于统计的方法。
[0053] 进一步,所述的特征表示单元一般设置3个词典,主词典,同义词词典,蕴含词词 典,同时进行词频统计,进行词频统计和特征提取时,以主词典中的主词条为表示词条进行 处理,其词条频数统计公式为:
[0055] 即表示词条在文档中的出现频数是由主词条、同义词词条、蕴含词词条3部分的 词频数加权累计得到;
[0056] 其中:
[0057] Tf:主词条f的词频
[0058] TMf:主词条f的词频权值
[0059]TTfi:同义词条&的词频权值,共有叫个同义词 [0060] TIA:蕴含词条&的词频权值,共有m2个蕴含词
[0061] e:加权值
[0062] 在VSM中,将文本文档视为由一组词条(Tl,T2,….Tn)构成,每一词条都赋以一 定的权值wi,从而每一篇文档都被映射为由一组词条矢量构成的向量空间中的一个向量, 文本的匹配问题便可转化为向量空间中的向量匹配问题处理。
[0063] 进一步,所述的向量空间模型单元的基本思想是以向量来表示文本:(wl,w2,…, wn),其中Wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词 组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向 量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最初的 向量表示完全是〇、1形式,即,如果文本中出现了该词,那么文本向量的该维为1,否则为〇, 这种方法无法体现这个词在文本中的作用程度,所以逐渐〇、1被更精确的词频代替,词频 分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为 归一化的词频,其计算方法主要运用TFIDF公式,目前存在多种TFIDF公式,我们在系统中 采用了一种比较普遍的TFIDF公式:
[0065] 其中,WYtidY为词t在文本d中的权重,而tfYtidY为词t在文本d中的词频,N 为训练文本的总数,h为训练文本集中出现t的文本数,分母为归一化因子;
[0066] 另外还存在其他的TFIDF公式,例如:
[0067] ff(t,d)=(l+log2tf(t,d))Xlog2 (N/ni)tGd(l+log2tf(t,d))Xlog2 (N/ni) 2
[0068] 该公式中参数的含义与上式相同;
[0069]TFIDF向量反映了训练文档集的单字空间,它的每个向量分量对应一个单字,分量 的大小刻画了这个单字区分文档内容属性的能力,一个单字在文档集中出现的范围越广, 说明它区分文档属性的能力越低,另一方面,它在一个特定的文档中出现的频度越高,说明 它在区分该文档内容属性方面的能力越强,它属于以文档的词集表示法,即所有的词从文 档中抽取出来,而放弃考虑词间的次序以及文本的结构。
[0070] 本发明的优点在于,该系统热点自动监测技术是关键环节。舆情热点的自动发现 可以使得政府用户对互联网上的当前热点有及时快捷的了解和掌握,为全面掌握网络舆情 都将起到了很大的推动作用,信息监测分析包括两种:一是根据用户设置的关注内容产生 的"关注信息";二是根据用户设置的关键词、网络浏览数量变化、论坛回帖数量变化等指 标,系统分别进行热点监测,再综合各个类别热点选择出的"新闻热点"。每个关注信息和热 点信息会给出原文标题、来源、时间、点击数量、内容摘要等,舆情监测分析系统根据用户实 际需要的形式,生成热点报警。
【附图说明】
[0071] 下面结合附图和【具体实施方式】来详细说明本发明:
[0072] 图1是本发明提出舆情热点自动监测流程图;
【具体实施方式】
[0073] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结 合图示与具体实施例,进一步阐述本发明。
[0074]本发明提出的舆情热点自动监测系统,该系统包括有汉语自动分词模块、特征提 取丰吴块;
[0075] 文本挖掘的前提就是进行汉语自动分词。汉语的书面表达方式是以汉字作为最小 单位的,但是在自然语言理解当中词是有意义的最小处理单位。把没有分割标志即没有词 的边界的汉字串转换到符合语言实际的词串,即在书面汉语中建立词的边界,这就是汉语 自动分词。这样,包括汉-外机器翻译在内的汉语自然语言理解,首先遇到的是不能逾越 的汉语自动分词阶段。汉语自动分词不仅是机器翻译的必要环节,也是各种汉语信息处理 包括语音处理、词频统计、主题词标引、文摘生成、情报检索、汉语句法分析等工作的基础工 程。
[0076]现代汉语文本自动分词是中文信息处理的基础。中文文本没有类似英文空格之类 的显式标示词的边界标志。汉语自动分词的任务就是要由机器在中文文本中词与词之间自 动加上空格。
[0077]汉语自动分词研究的主要内容包括:
[0078] 1.分词规范问题:确定什么是词、哪些可以作为分词单位。
[0079] 2.切分算法问题:如何进行词的切分,以建立符合实际涵义的词的边界。
[0080] 3.歧义消除问题:采取什么样的方法消除切分歧义。
[0081] 4.未登录词识别:如何进行词典中未登录词的识别,如地名、人名和译名。
[0082] 汉语自动分词模块包括有自动分词的基本算法单元、未登陆词的识别单元、汉语 自动分词的切分歧义及其消除单元;
[0083] 特提提取模块包括有特征表示单元、向量空间模型单元;
[0084] 该系统的自动监测方法的步骤如下:
[0085] 1、从数据源读入一篇报道,对多个网络新闻数据源进行不间断地监测,从网络中 自动抓取新闻报道,解析出新闻报道的时间、标题和正文信息等,如果没有从报道中找到时 间,则以抓取时间为准;
[0086] 由于多个数据源之间存在相当的重复,对新抓取的新闻报道,根据报道的文本内 容进行消重处理;如果新报道和之前已经处理的新闻报道重复度大于重复阈值ed,则认 为是重复的新闻报道,本实施例中设定的重复阈值0d为0. 9 ;
[0087] 由于新闻报道的范围过于宽泛,采用基于来源的规则分类以及基于内容的自动分 类相结合的方法,对新闻报道进行分类,规则分类根据新闻来源以及作者等进行分类,基于 内容的自动分类采用向量空间模型(VSM)和支持向量机算法(SVM),根据报道内容和标题 对新闻报道进行自动分类;并且按照所属类别c进行步骤2 -步骤7的处理;
[0088] 2、采用质心比较策略,将报道与所属类别c内现有监测到的新闻主题进行比较, 同时考虑时间特征和内容特征,计算报道和主题间的相似度,并记录最大相似度Smax以及 相似度最大的主题Es,确定与当前报道最相近的主题;主题本身通过主题内部所有新闻中 综合权重最高的若干个特征词来表达;新闻报道和主题之间的相似度基于向量空间模型, 通过两者的夹角余弦值(cosine)来计算,同时新闻报道的标题赋予较高权重;
[0089] 3、根据步骤2计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道 采取如下措施:
[0090]E.如果Smax小于创新阈值0n(本实施例中为0.25):在该报道所属类别内创建 一个新主题;
[0091]F.如果Smax大于0n而小于聚类阈值0c(本实施例中为0. 30):不作处理,返回 步骤1);
[0092] G.如果Smax大于0c而小于贡献阈值0t(本实施例中为0. 35):归入当前主题;
[0093]H.如果Smax大于0t:归入主题Es,并调整Es;
[0094] 上述的Smax、0n、0c、0t的取值范围均大于0而小于等于1;
[0095] 4、当一个类处理用户确定的固定数量的新增报道之后,对该类别内新闻主题两两 比较;如果两个主题的相似度大于合并阈值0u,则将其合并,主题之间的相似度计算公式 可以采用传统聚类算法中计算两个聚类相似度的方法,综合考虑两个主题中所有新闻报道 之间的两两相似度,采用如下公式:
[0097]其中,El,E2是两个监测到的新闻主题,di,dj分别为El,E2中的新闻报道,Sim (El,E2)是两个新闻报道之间的相似度,|E」,|E2|分别为两个主题中包含的新闻报道数目;
[0098] 5、当一个类处理用户确定的固定数量的新增报道之后,对各主题内的新闻报道进 行淘汰:重新计算新闻报道和该主题的相似度,对相似度低于聚类阈值9c、或者不满足限 制条件的新闻报道进行淘汰;然后再重新计算主题内部表示及其权重;
[0099] 6、若当前类别内的主题数量超过主题窗口大小,对类别内的所有新闻主题进行排 序:结合新闻主题的时间特性和数量特性,计算新闻主题的得分值并排序;计算得分值时 同时考虑多个不同的排序,同时考虑最近12个小时、1天、3天、7天、30天等,只有当主题在 任何排序中都不在主题窗口内时,才将该主题淘汰;这样,多重排序就给用户提供了不同粒 度的信息参考,系统将不在主题窗中的新闻主题淘汰,用于提高系统处理的效率;
[0100] 7、根据用户要求,对外输出监测结果:对于类别内的当前所有主题,计算其描述; 同时,结合主题的时间特性和主题内的新闻报道数量特性,从所有类别中选择出得分最高 的若干个新闻主题,作为该类别最热点的新闻主题,输出主题描述和包含的新闻报道列表, 其中,主题描述的生成过程如下:
[0101] D.读取主题内部权重最高的若干个特征词;
[0102] E.在与主题相似度大于主题阈值0e的主题内新闻报 道中,选择时间最近的一篇 新闻报道的标题;主题阈值还可以采取按照比例的方式;
[0103] F.综合A和B,输出该主题的描述。
[0104] 进一步,汉语自动分词的方法可以根据不同的标准加以分类。根据是否具有分词 词典可以分为有词典和无词典分词;根据分词过程中所使用的知识资源又可分为基于规则 的方法和基于统计的方法等。有词典分词是汉语自动分词的主流,分词的基本算法是最大 匹配法。越来越多的研究以统计数据为主,并与基于规则的方法相结合。本文系统即采用 统计与规则相结合的方法。
[0105] 基于规则的方法一般都需要事先有人工建立好的分词词典。分词时对切分文本进 行逐个匹配,与分词词典中的词匹配得上的字串就是分词结果。主要有正向最大匹配法,逆 向最大匹配法,双向扫描法,逐词遍历匹配法,设立切分标志法,以及正向最佳匹配和逆向 最佳匹配法等。
[0106] 基于统计的方法是利用字与字间、词与词间的同现频率作为分词的依据,可以没 有事先建立好的分词词典。基于统计的方法需要大规模的训练文本,用以训练模型参数,而 且无论是训练文本还是实际切分,一般都需要较大的计算量。
[0107] 所述的自动分词的基本算法单元包括有最大匹配法、全切分算法、概率乘算法;
[0108] 最大匹配法是机械分词的算法不考虑任何词与词之间的连接可能性,只按照长度 在词典中寻找句子里出现的字符串:算法比较成熟,以最大匹配法(MaximumMatching,简 称MM)最具有代表性;
[0109] 最大匹配法的思想是:从输入流中取最大长度(本系统中取6)字符串,在词典中 进行查找,匹配则输出,继续取,否则,回溯,继续查找,直到长度为1,此时需在输入流中前 进一格,此过程进行到取完输入流;
[0110] 全切分算法是一种不存在切分盲点的算法;所谓全切分算法,就是求出形式上所 有符合词典的切分形式;采用此算法,涉及到一个选取最优切分式的问题;
[0111] 概率乘算法是基于统计的方法利用字与字间、词与词间的同现频率作为分词的依 据;这种方法的优点在于它不受应用领域的限制,而且也不局限于实现建立的分词词典; 该方法需要大规模的训练文本,用以训练模型参数;训练文本的选择也将对分词的结果产 生明显的影响;
[0112] 设S=sl,s,…,sm是待切分的汉字串,假设S有n个切分式,W=wl,w2,…,wk,是 第i个切分式,i=l~n;
[0113] 设P(W/S)是汉字串S切分为W的概率,则基于统计的分词方法就是从S的n 个切分式中找到概率最大的切分式,
[0114]即P(W/S)=MAX(P(W1/S),P(W2/S)…,P(Wn/S)),P(W/S)称为评价函数;
[0115] 根据贝叶斯公式,有:P(W/S)=P(W)P(S/W) /P(S)对于S的多种切分方 式,P(S)为一常数,而P(S/W)是在给定词串的条件下出现句子S的概率,故P(S/W) =1,所以P(W/S)~P(W)。
[0116] 进一步,所述的未登陆词的识别单元包含有两个性能指标:
[0117] 3.召回率(Recall):指识别出来的某种类型的未登录词的数量和文本中属于该类 型的未登录词总数之比,
[0118] 4.精确率(Accuracy):指在识别出来的未登录词中,属于该类型未登录词的数目 和辨识出来的未登录词的总数之比。
[0119] 进一步,所述的汉语自动分词的切分歧义及其消除单元:汉语的分词是一个理解 的过程,这个过程综合了司法、语法、语义等各种信息,汉语自动分词与这些信息的运用是 既相互联系又相互制约的一种相辅相成的关系,纯粹的机械切分必然会带来切分歧义;
[0120] 切分歧义是指汉语句子中的某些字段,如果纯粹根据词表做简单的字符串匹配, 则它可能存在多种切分形式,含有切分歧义的汉字串称为歧义字段,切分歧义是汉语自动 分词研究中的一个难点,切分歧义的基本类型有三种:
[0121] 1.交叉歧义:也称交集型切分歧义,即汉字串ABC既可以切分成AB/C形式,也 可切分成A/BC形式,即AB是词,BC也是词;
[0122] 2.组合歧义:汉字串AB既可以切分成AB,又可切分成A/B,即AB是词,A、B也 是词;
[0123] 3.混合歧义:是前两种歧义形式的自身嵌套或者由两者交叉组合而产生的;
[0124] 主要解决切分歧义的方法有两种:基于规则的方法,基于统计的方法。
[0125] 进一步,特征表示是指以一定特征项(如词条或描述)来代表文档,在文本分类或 聚类时只需对这些特征项进行处理,从而实现对非结构化的文本的处理,这是一个非结构 化向结构化转化的处理步骤。特征表示是文档类共性与规则的归纳过程,是分类或聚类系 统的核心,特征提取算法的优劣直接影响到文档分类或聚类的效果。
[0126] 特征表示模型有多种,常用的有布尔逻辑型、概率型、向量空间型等。文中采用应 用较多的向量空间模型(Vector Space Model,VSM)。
[0127] 它的优点是将文本内容转换成易为数学处理的向量方式,使得各种相似运算和排 序成为可能。因此,在文本检索、文本过滤和文本摘要等方面获得广泛应用,取得了良好效 果。
[0128] 但是,向量空间模型关于词间关系相互独立的基本假设(正交假设)在实际环境中 很难满足,文中所出现的词往往存在一定的相关性,即出现"斜交"情况。出现这种情况的 原因在于自然语言的多样性。如"计算机"、"电脑"、"电子计算机"这二个词表述的就是同 一个概念,若不注意这点,分别进行提取,就会造成特征不明显和特征集过于庞大。为了解 决语言多样性问题,在词典的设置上给予了考虑。
[0129]所述的特征表示单元一般设置3个词典,主词典,同义词词典,蕴含词词典,同时 进行词频统计,进行词频统计和特征提取时,以主词典中的主词条为表示词条进行处理,其 词条频数统计公式为:
[0131] 即表示词条在文档中的出现频数是由主词条、同义词词条、蕴含词词条3部分的 词频数加权累计得到;
[0132]其中:
[0133] Tf:主词条f的词频
[0134] TMf:主词条f的词频权值
[0135]TTfi:同义词条&的词频权值,共有叫个同义词
[0136]TIfi:蕴含词条&的词频权值,共有m2个蕴含词
[0137]e:加权值
[0138] 在VSM中,将文本文档视为由一组词条(Tl,T2,….Tn)构成,每一词条都赋以一 定的权值Wi,从而每一篇文档都被映射为由一组词条矢量构成的向量空间中的一个向量, 文本的匹配问题便可转化为向量空间中的向量匹配问题处理。
[0139]词、词组和短语是组成文档的基本元素,并且在文档中的出现频率有一定的规律 性,适合作为文档的特征项。不同的词条在文档中的作用是不同的:
[0140] >常用词和稀有词:常用词(例如的、和等虚词)在所有文档中都有很高的出现频 数,而稀有词则在全部训练文档中出现的次数都很少,这两类词的词频统计特定很难确定, 不适合作为特征项,应予以滤除。
[0141] >有一些词在所有文档中出现的频率都基本相同,区分性差,不能作为特征项也 应滤除。
[0142] >词组和短语:与简单的词汇相比,词组和短语的表达能力强,更能表现文档内 容,因此应尽量多的采用词组和短语作为特征项,提高特征项的表示能力。
[0143] 进一步,所述的向量空间模型单元的基本思想是以向量来表示文本:(wl,w2,…, wn),其中Wi为第i个特征项的权重,那么选取什么作为特征项呢,一般可以选择字、词或词 组,根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向 量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最初的 向量表示完全是〇、1形式,即,如果文本中出现了该词,那么文本向量的该维为1,否则为〇, 这种方法无法体现这个词在文本中的作用程度,所以逐渐〇、1被更精确的词频代替,词频 分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为 归一化的词频,其计算方法主要运用TFIDF公式,目前存在多种TFIDF公式,我们在系统中 采用了一种比较普遍的TFIDF公式:
[0145] 其中,WYtidY为词t在文本d中的权重,而tfYtidY为词t在文本d中的词频,N 为训练文本的总数,%为训练文本集中出现t的文本数,分母为归一化因子;
[0146] 另外还存在其他的TFIDF公式,例如:
[0147] ff(t,d) = (l+log2tf(t,d))Xlog2 (N/ni)tGd(l+log2tf(t,d))Xlog2 (N/ni) 2
[0148]该公式中参数的含义与上式相同;
[0149] TFIDF向量反映了训练文档集的单字空间,它的每个向量分量对应一个单字,分量 的大小刻画了这个单字区分文档内容属性的能力,一个单字在文档集中出现的范围越广, 说明它区分文档属性的能力越低,另一方面,它在一个特定的文档中出现的频度越高,说明 它在区分该文档内容属性方面的能力越强,它属于以文档的词集表示法,即所有的词从文 档中抽取出来,而放弃考虑词间的次序以及文本的结构。
[0150] 流程描述:
[0151] 首先,算法消除了那些出现在停用词表中的单字选做特征的可能性;
[0152] 然后,又排除那些在文档集中出现频度很低的单字作为特征,这一点可以通过对 文档集进行单字频度统计并选择一个合适的阈值来做到,例如选取特征词串的最小出现次 数=5。这个特征抽取过程要对文档集进行多遍的扫描,扫描的遍数由人设定,其值可以由特 征的最大词串长度来 决定。第一遍扫描是所有不存在于停用词表中且拥有足够出现频度的 单字被收入到特征词串表集中。对于长度为2到最大词串长度的词串利用多个筛选标准来 抽取。在每一遍扫描中,所有的文档均利用一个窗口队列来逐个单字地进行检查以便获得 一个个的词串,每个文档中的符号若要进入该窗口,必须满足它是一个正确的单字(而非一 个数字或特殊的符号),它不存在于停用词表中且属于当前的字串集;否则该窗口被清空复 位。
[0153]文本经过分词程序分词后,首先去除停用词,合并数字和人名等词汇,然后统计词 频,最终表示为上面描述的向量。
[0154] 特征提取:
[0155]经过以上步骤得到的特征向量的维数是非常高的,如此高维的特征对即将进行的 分类学习未必全是重要、有益的,而且高维的特征将会大大增加机器的学习时间,而产生与 小得多的特征子集的学习分类结果。这便是特征提取所要完成的工作,特征提取一般是构 造一个评价函数,对每个特征进行评估,选取评估分值高的,预定数目的最佳特征作为特征 子集。经实验证明,前30项(按权值从高到底排序)的模值一般占特征项模值的80%以上, 第80项以后的项对整个向量的影响很小,因此,考虑到运行效率,在系统中简单地选取了 权值前50位的特征项组成最终的特征向量。
[0156] 特征抽取在文本分类中起着重要的作用,能够起到降低向量空间维数、简化计算、 防止过分拟合等作用。由于特征子集的数量和特征数量之间是指数的关系,枚举几乎是不 可能的,因此我们假设特征之间是独立的,这样特征子集的抽取就转化为特征项的抽取,及 根据某个特征评估函数计算各个特征的评分值,然后按评分值排序,选取若干个评分最高 的作为特征词。这就是特征提取。
[0157] 特征选择的主要功能是在不损伤分类精度的情况下尽量减少要处理的单词数,以 此来降低向量空间维数,从而提高分类工作的速度和效率。因此,特征选择对提高分类精度 来说,即使是有帮助,对不同的分类器所起的效果不同。
[0158] 在文本处理中,一些常用于特征提取的评估函数有文档频数(Document Frequency)、信息增益(informationGain)、期望交叉熵(ExpectedCrossEntropy)、互 信息(MutualInformation)、x2 统计(CHI)、文本证据权(TheWeightOfevidenceFor Text)和几率比(OddRatio)等。
[0159] 1、文档频数DF
[0160] 它是最简单的评估函数,其值为训练集合中该单词发生的文本数。DF评估函数的 理论假设稀有单词可能不含有用信息,也可能太少而不足以对分类产生影响,也可能是噪 音,因此可以删去。显然它在计算量上比其它评估函数小得多,但在实际运用中它的效果却 很好。DF的缺点是稀有单词可能在某一类文本中并不稀有,也可能包含着重要的判断信息, 简单地舍弃,可能影响分类器的精度。因此,在实际运用中一般并不直接使用DF。
[0161] 2、信息增益IG
[0162] 信息增益常被应用于机器学习领域中,它通过文本特征在文本中出现与不出现的 情况来推算该特征的信息量。定义为某一特征在文本中出现前后的信息熵之差。
[0163] 3、文本中单词t的期望交叉熵
[0164] 它与信息增益唯一的不同之处在于没有考虑单词未发生的情况。
[0165] 4、互信息MI
[0166] 在统计学中,互信息用于表征两个变量的相关性,常被用来作为文本特征相关的 统计模型及其相关应用的标准。
[0167] 5、乂2估计(011)
[0168] 与互信息相同,x2估计也用于表征两个变量的相关性。对特征进行打分时,计算 的是特征t与类c之间的依赖关系。x2估计对文本特征的测度比互信息要好,因为它同时 考虑了特征存在与不存在的情况。
[0169] 如果t与c之间相互独立,那么文本特征t的X2估计值为零。X2估计与互信息 的主要区别是X2为标准值,因此同类中的特征的x2值是可比的。但x2估计对于低频特 征的打分是不够准确的,所以,采用X2估计进行文本特征抽取时,应先根据特征的文本频 数排除一部分低频词,再对剩下的特征进行打分,这样会获得比较好的效果。
[0170] 6、文本证据权(WeightOfEvidTxt)
[0171] 这是一种较新的评估函数,它衡量类的概率和给定特征时类的条件概率之间的差 另IJ。文本处理中,不需要计算t的所有可能值,而只考虑t在文本中出现的情况。
[0172] 7、优势率(OddsRatio)
[0173] 优势率只适用于二元分类的情况,其特点只是关心文本特征对于目标类的分值。 公式中,pos表示目标类,neg表示非目标类。
[0174] 经过对几种评估函数进行比较,本文系统选择了效果较好的CHI方法进行文本特 征提取。
[0175] 由于现有主题监测技术主要考虑在固定的小数据集合上的错检率和漏检率,在实 际应用于舆情热点的自动监测时,存在着主题排序、主题相似性、报道淘汰和主题描述等缺 陷。针对这些问题,本文提出了 一种新的舆情热点监测方法,该方法利用舆情热点本身的特 点,通过引入主题排序、主题合并与调整、报道淘汰以及主题描述等步骤,实现对持续新闻 流进行动态、高效的热点监测,如流程图1。
[0176] 系统要维护主题信息列表和新闻报道信息列表:
[0177] 主题信息列表维护一定数量的新闻主题信息,每一个主题信息的结构如下:
[0178]typedefstructstruTopicInfo{
[0179]intsequence;// 主题序号;
[0180]intparent;// 所属专题序号;
[0181]intfirstDoc;// 第一篇报道序号;
[0182]intlastDoc;//最后一篇报道序号;
[0183]intdocsCount;//报道数目;
[0184]DocumentFeaturefeature[FeatureWordsNum] ;// 主题特征向量;
[0185]Chartitle[TopicTitleLength] ;//标题;
[0186]Charsummary[TopicSummaryLength] ;// 摘要;
[0187] }TDTTopicInfo;
[0188] 此外,系统要设定主题窗口和文档窗口的大小以及聚类阈值和创新阈值,其中聚 类阈值要大于创新阈值。
[0189]constRecentTopicsNnm=25 ;//加窗策略中主题窗口大小;
[0190]constWindowSize=1000 ;//加窗策略中窗口的大小,S卩窗口中文档的数目;
[0191]constdoubleTDTClusterThreshold=0. 10 ;// 聚类阈值;
[0192]constdoubleTDTNoveltyThreshold=0. 095 ;//创新阈值;
[0193] 新闻报道信息列表则维护最近的若干报道信息,每一篇报道信息的结构如下:
[0194]typedefstructstruDocumentlnfo{
[0195]intsequence;// 报道序号;
[0196]intparent;// 所属主题序号;
[0197]floatscore;// 得分值;
[0198]charURI[URI_Length] ;// 具体文件存放路径;
[0199]DocumentFeaturefeature[featureWordsNum] ;//词特征向量;
[0200] intnextDoc;//同主题中下一篇报道序号;
[0201] 丨TDTDocumentlnfo;
[0202] 系统初始化读取已有的主题信息的报道信息,建立主题信息列表和报道信息列 表,最后将主题信息列表和报道信息列表的所有内容与到文件中。
[0203] 系统还能够将监测结果导出,形成XML文件。主题信息的DTD为:
[0204]
[0205] 基于上述,本发明的优点为:该系统热点自动监测技术是关键环节。舆情热点的自 动发现可以使得政府用户对互联网上的当前热点有及时快捷的了解和掌握,为全面掌握网 络舆情都将起到了很大的推动作用。
[0206] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术 人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本 发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变 化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其 等同物界定。
【主权项】
1.舆情热点自动监测系统,其特征在于,该系统包括有汉语自动分词模块、特征提取模 块; 汉语自动分词模块包括有自动分词的基本算法单元、未登陆词的识别单元、汉语自动 分词的切分歧义及其消除单元; 特提提取模块包括有特征表示单元、向量空间模型单元; 该系统的自动监测方法的步骤如下: 1) 、从数据源读入一篇报道,对多个网络新闻数据源进行不间断地监测,从网络中自动 抓取新闻报道,解析出新闻报道的时间、标题和正文信息等,如果没有从报道中找到时间, 则以抓取时间为准; 由于多个数据源之间存在相当的重复,对新抓取的新闻报道,根据报道的文本内容进 行消重处理;如果新报道和之前已经处理的新闻报道重复度大于重复阈值Θ d,则认为是 重复的新闻报道,本实施例中设定的重复阈值Θ d为0. 9 ; 由于新闻报道的范围过于宽泛,采用基于来源的规则分类以及基于内容的自动分类相 结合的方法,对新闻报道进行分类, 规则分类根据新闻来源以及作者等进行分类,基于内容 的自动分类采用向量空间模型(VSM)和支持向量机算法(SVM),根据报道内容和标题对新 闻报道进行自动分类;并且按照所属类别c进行步骤2 -步骤7的处理; 2) 、采用质心比较策略,将报道与所属类别c内现有监测到的新闻主题进行比较,同时 考虑时间特征和内容特征,计算报道和主题间的相似度,并记录最大相似度Smax以及相似 度最大的主题Es,确定与当前报道最相近的主题;主题本身通过主题内部所有新闻中综合 权重最高的若干个特征词来表达;新闻报道和主题之间的相似度基于向量空间模型,通过 两者的夹角余弦值(cosine)来计算,同时新闻报道的标题赋予较高权重; 3) 、根据步骤2计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采 取如下措施: A.如果Smax小于创新阈值θ η (本实施例中为0. 25):在该报道所属类别内创建一个 新主题; Β.如果Smax大于θ η而小于聚类阈值Θ c (本实施例中为0.30):不作处理,返回步骤 O ; C. 如果Smax大于Θ C而小于贡献阈值0t (本实施例中为0.35):归入当前主题; D. 如果Smax大于0t:归入主题Es,并调整Es;上述的Smax、θη、0c、Qt的取值范 围均大于0而小于等于1 ; 4) 、当一个类处理用户确定的固定数量的新增报道之后,对该类别内新闻主题两两比 较;如果两个主题的相似度大于合并阈值Θ u,则将其合并,主题之间的相似度计算公式可 以采用传统聚类算法中计算两个聚类相似度的方法,综合考虑两个主题中所有新闻报道之 间的两两相似度,采用如下公式:其中,El,E2是两个监测到的新闻主题,di,dj分别为El,E2中的新闻报道,Sim (E1, E2)是两个新闻报道之间的相似度,Ie1I, |e2|分别为两个主题中包含的新闻报道数目; 5) 、当一个类处理用户确定的固定数量的新增报道之后,对各主题内的新闻报道进行 淘汰:重新计算新闻报道和该主题的相似度,对相似度低于聚类阈值θ c、或者不满足限制 条件的新闻报道进行淘汰;然后再重新计算主题内部表示及其权重; 6) 、若当前类别内的主题数量超过主题窗口大小,对类别内的所有新闻主题进行排序: 结合新闻主题的时间特性和数量特性,计算新闻主题的得分值并排序;计算得分值时同时 考虑多个不同的排序,同时考虑最近12个小时、1天、3天、7天、30天等,只有当主题在任何 排序中都不在主题窗口内时,才将该主题淘汰;这样,多重排序就给用户提供了不同粒度的 信息参考,系统将不在主题窗中的新闻主题淘汰,用于提高系统处理的效率; 7) 、根据用户要求,对外输出监测结果:对于类别内的当前所有主题,计算其描述;同 时,结合主题的时间特性和主题内的新闻报道数量特性,从所有类别中选择出得分最高的 若干个新闻主题,作为该类别最热点的新闻主题,输出主题描述和包含的新闻报道列表,其 中,主题描述的生成过程如下: A. 读取主题内部权重最高的若干个特征词; B. 在与主题相似度大于主题阈值0e的主题内新闻报道中,选择时间最近的一篇新闻 报道的标题;主题阈值还可以采取按照比例的方式; C. 综合A和B,输出该主题的描述。2.根据权利要求1所述的舆情热点自动监测系统,其特征在于,所述的自动分词的基 本算法单元包括有最大匹配法、全切分算法、概率乘算法; 最大匹配法是机械分词的算法不考虑任何词与词之间的连接可能性,只按照长度在 词典中寻找句子里出现的字符串:算法比较成熟,以最大匹配法(Maximum Matching,简称 MM)最具有代表性; 最大匹配法的思想是:从输入流中取最大长度(本系统中取6)字符串,在词典中进行 查找,匹配则输出,继续取,否则,回溯,继续查找,直到长度为1,此时需在输入流中前进一 格,此过程进行到取完输入流; 全切分算法是一种不存在切分盲点的算法;所谓全切分算法,就是求出形式上所有符 合词典的切分形式;采用此算法,涉及到一个选取最优切分式的问题; 概率乘算法是基于统计的方法利用字与字间、词与词间的同现频率作为分词的依据; 这种方法的优点在于它不受应用领域的限制,而且也不局限于实现建立的分词词典;该方 法需要大规模的训练文本,用以训练模型参数;训练文本的选择也将对分词的结果产生明 显的影响; 设S=sl,s, ???,sm是待切分的汉字串,假设S有η个切分式,W=wl,w2,…,wk,是第i 个切分式,i=l~η ; 设P (W / S)是汉字串S切分为W的概率,则基于统计的分词方法就是从S的η个切 分式中找到概率最大的切分式, 即 P (W/S)=MAX (Ρ (W1/S),P (W2/S) ...,P (Wn/S)),P (W / S)称为评价函数; 根据贝叶斯公式,有:P (W / S)=P (W)P (S / W) / P (S)对于S的多种切分方式,P (S)为一常数,而P (S / W)是在给定词串的条件下出现句子S的概率,故P (S / W)=l,所 以 P (W / S)~P (W)。3. 根据权利要求1所述的舆情热点自动监测系统,其特征在于,所述的未登陆词的识 别单元包含有两个性能指标: 1) .召回率(Recall):指识别出来的某种类型的未登录词的数量和文本中属于该类型 的未登录词总数之比, 2) .精确率(Accuracy):指在识别出来的未登录词中,属于该类型未登录词的数目和辨 识出来的未登录词的总数之比。4. 根据权利要求1所述的舆情热点自动监测系统,其特征在于,所述的汉语自动分词 的切分歧义及其消除单元:汉语的分词是一个理解的过程,这个过程综合了司法、语法、语 义等各种信息,汉语自动分词与这些信息的运用是既相互联系又相互制约的一种相辅相成 的关系,纯粹的机械切分必然会带来切分歧义; 切分歧义是指汉语句子中的某些字段,如果纯粹根据词表做简单的字符串匹配,则它 可能存在多种切分形式,含有切分歧义的汉字串称为歧义字段,切分歧义是汉语自动分词 研究中的一个难点,切分歧义的基本类型有三种: 1) .交叉歧义:也称交集型切分歧义,即汉字串ABC既可以切分成AB / C形式,也可切 分成A / BC形式,即AB是词,BC也是词; 2) .组合歧义:汉字串AB既可以切分成AB,又可切分成A / B,即AB是词,A、B也是词; 3) .混合歧义:是前两种歧义形式的自身嵌套或者由两者交叉组合而产生的; 主要解决切分歧义的方法有两种:基于规则的方法,基于统计的方法。5. 根据权利要求1所述的舆情热点自动监测系统,其特征在于,所述的特征表示单元 一般设置3个词典,主词典,同义词词典,蕴含词词典,同时进行词频统计,进行词频统计和 特征提取时,以主词典中的主词条为表示词条进行处理,其词条频数统计公式为:即表示词条在文档中的出现频数是由主词条、同义词词条、蕴含词词条3部分的词频 数加权累计得到; 其中: Tf :主词条f的词频 TMf :主词条f的词频权值 TTfi :同义词条&的词频权值,共有Hli个同义词 TIfi :蕴含词条A的词频权值,共有m2个蕴含词 e :加权值 在VSM中,将文本文档视为由一组词条(Tl, T2,….Tn)构成,每一词条都赋以一定的 权值Wi,从而每一篇文档都被映射为由一组词条矢量构成的向量空间中的一个向量,文本 的匹配问题便可转化为向量空间中的向量匹配问题处理。6. 根据权利要求1所述的舆情热点自动监测系统,其特征在于,进一步,所述的向量空 间模型单元的基本思想是以向量来表示文本:(wl,w2,"^wn),其中Wi为第i个特征项的 权重,那么选取什么作为特征项呢,一般可以选择字、词或词组,根据实验结果,普遍认为选 取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要 将文本分词,由这些词作为向量的维数来表示文本,最初的向量表示完全是〇、1形式,即, 如果文本中出现了该词,那么文本向量的该维为1,否则为0,这种方法无法体现这个词在 文本中的作用程度,所以逐渐〇、1被更精确的词频代替,词频分为绝对词频和相对词频,绝 对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主 要运用TFIDF公式,目前存在多种TFIDF公式,我们在系统中采用了一种比较普遍的TFIDF 公式:其中,WYtidY为词t在文本d中的权重,而tfYtidY为词t在文本d中的词频,N为训 练文本的总数,Iii为训练文本集中出现t的文本数,分母为归一化因子; 另外还存在其他的TFIDF公式,例如: W(t, d) = (l+log2tf(t, d))Xlog2(N/ni)t e d(l+log2tf(t, d)) Xlog2(N/ni)2 该公式中参数的含义与上式相同; TFIDF向量反映了训练文档集的单字空间,它的每个向量分量对应一个单字,分量的大 小刻画了这个单字区分文档内容属性的能力,一个单字在文档集中出现的范围越广,说明 它区分文档属性的能力越低,另一方面,它在一个特定的文档中出现的频度越高,说明它在 区分该文档内容属性方面的能力越强,它属于以文档的词集表示法,即所有的词从文档中 抽取出来,而放弃考虑词间的次序以及文本的结构。
【专利摘要】本发明提出舆情热点自动监测系统,该系统包括有汉语自动分词模块、特征提取模块;汉语自动分词模块包括有自动分词的基本算法单元、未登陆词的识别单元、汉语自动分词的切分歧义及其消除单元;特提提取模块包括有特征表示单元、向量空间模型单元;该系统热点自动监测技术是关键环节。舆情热点的自动发现可以使得政府用户对互联网上的当前热点有及时快捷的了解和掌握,为全面掌握网络舆情都将起到了很大的推动作用。
【IPC分类】G06F17/30
【公开号】CN104899230
【申请号】CN201410084317
【发明人】李臻, 纪敏
【申请人】上海市玻森数据科技有限公司
【公开日】2015年9月9日
【申请日】2014年3月7日

最新回复(0)