一种生成多文档摘要的方法和装置的制造方法

xiaoxiao2021-2-28  185

一种生成多文档摘要的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理领域,尤其涉及一种生成多文档摘要的方法和装置。
【背景技术】
[0002] 信息爆炸时代中,人们面对海量信息,越来越迫切需要迅速、有效的信息处理手 段。作为资讯的获取渠道之一,新闻阅读占据了人们生活中相当部分时间。而新闻的海量 性、冗余性给人们的阅读带来很大不便。多文档摘要(Multi-Document Summarization, MDS)技术,以同一主题下的多篇文档作为输入,按照需要自动地生成特定长度摘要文本,供 用户阅读。从而提高信息阅读、资讯获取的效率。
[0003] 目前可以将来自多文档的句子聚类,然后利用的依存关系树dependency tree/依 存图dependency graph进行子句融合,从而生成新句子。
[0004] 然而采用这种方式对多文档生成摘要,聚类中以句子为单位,粒度过粗,导致相似 度计算容易受句子内冗长且非重要部分误导,造成生成的多文档摘要对重要信息的判断不 够准确且冗余度较高。

【发明内容】

[0005] 本发明实施例提供了 一种生成多文档摘要的方法和装置,用于使得生成的多文档 摘要在保证对多文档重要信息的高覆盖率的同时降低冗余度。
[0006] 本发明实施例第一方面提供了一种生成多文档摘要的方法,包括:
[0007] 摘要生成装置将多篇文档的句子集合解构为短语池;
[0008] 所述摘要生成装置获取所述短语池中各个短语的特征和关系,所述特征用于表示 所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系;
[0009] 所述摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置 约束条件的短语集合作为摘要短语集合;
[0010] 所述摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成 所述多篇文档的摘要。
[0011] 结合本发明实施例的第一方面,本发明实施例第一方面的第一种实现方式中,所 述摘要生成装置获取所述短语池中各个短语的特征和关系具体包括:
[0012] 所述摘要生成装置获取所述短语池中各短语的重要度以及各短语之间的兼容度 和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程 度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于 衡量短语之间语义相似的程度。
[0013] 结合本发明实施例第一方面的第一种实现方式,本发明实施例第一方面的第二种 实现方式中,所述摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足 预置约束条件的短语集合作为摘要短语集合具体包括:
[0014] 所述摘要生成装置应用求解规划问题的方法,在最大程度满足所述预置约束条件 构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条 件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相 似度的约束。
[0015] 结合本发明实施例第一方面的第二种实现方式,本发明实施例第一方面的第三种 实现方式中,所述预置约束条件还包括对短语候选权重的约束;
[0016] 所述方法还包括:
[0017] 所述摘要生成装置根据所述短语池中各个短语的重要度以及各个短语之间的兼 容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重, 其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合 构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最 大而冗余度最小。
[0018] 结合本发明实施例的第一方面至第一方面的第三种实现方式中任一种实现方式, 本发明实施例第一方面的第四种实现方式中,所述将多篇文档的句子集合解构为短语池具 体包括:
[0019] 将所述多篇文档的句子集合利用语义分析工具构建语法树;
[0020] 抽取所述语法树上全部短语组成短语池。
[0021] 结合本发明实施例的第一方面至第一方面的第三种实现方式中任一种实现方式, 本发明实施例第一方面的第五种实现方式中,所述摘要生成装置按照预置组合方式将所述 摘要短语集合组合为摘要句子,生成所述多篇文档的摘要具体包括:
[0022] 所述摘要生成装置按照所述摘要短语集合中各摘要短语在所述多篇文档的句子 中的顺序,对所述摘要短语进行排列,得到摘要句子;
[0023] 将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所 述多篇文档的摘要。
[0024] 结合本发明实施例第一方面的第五种实现方式,本发明实施例第一方面的第六种 实现方式中,所述将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排 列,得到所述多篇文档的摘要的步骤之前还包括:
[0025] 对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
[0026] 本发明实施例第二方面提供了一种摘要生成装置,包括:
[0027] 解构模块,用于将多篇文档的句子集合解构为短语池;
[0028] 第一获取模块,用于获取所述解构模块解构得到的短语池中各个短语的特征和关 系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语 之间的关系;
[0029] 选取模块,用于根据所述第一获取模块获取的各个短语的特征和关系,从所述短 语池选取满足预置约束条件的短语集合作为摘要短语集合;
[0030] 组合模块,用于按照预置组合方式将所述选取模块选取出的摘要短语集合组合为 摘要句子,生成所述多篇文档的摘要。
[0031] 结合本发明实施例的第二方面,本发明实施例第二方面的第一种实现方式中,所 述第一获取模块具体用于,获取所述短语池中各短语的重要度以及各短语之间的兼容度 和相似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程 度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于 衡量短语之间语义相似的程度。
[0032] 结合本发明实施例第二方面的第一种实现方式,本发明实施例第二方面的第二种 实现方式中,所述选取模块具体用于,应用求解规划问题的方法,在最大程度满足所述预置 约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预 置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及 对短语相似度的约束。
[0033] 结合本发明实施例第二方面的第二种实现方式,本发明实施例第二方面的第三种 实现方式中,所述预置约束条件还包括对短语候选权重的约束;
[0034] 所述摘要生成装置还包括:
[0035] 第二获取模块,用于根据所述短语池中各个短语的重要度以及各个短语之间的兼 容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重, 其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合 构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最 大而冗余度最小。
[0036] 结合本发明实施例的第二方面至第二方面的第三种实现方式中任一种实现方式, 本发明实施例第二方面的第四种实现方式中,所述解构模块具体包括:
[0037] 构建单元,用于将所述多篇文档的句子集合利用语义分析工具构建语法树;
[0038] 抽取单元,用于抽取所述构建单元构建的语法树上全部短语组成短语池。
[0039] 结合本发明实施例的第二方面至第二方面的第三种实现方式中任一种实现方式, 本发明实施例第二方面的第五种实现方式中,所述组合模块具体包括:
[0040] 短语排列单元,用于按照所述选取模块选取出的摘要短语集合中各摘要短语在所 述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
[0041] 句子排列模块,用于将所述短语排列单元排列得到的摘要句子按照所述多篇文档 中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要。
[0042] 结合本发明实施例第二方面的第五种实现方式,本发明实施例第二方面的第六种 实现方式中,所述组合模块中还包括:
[0043] 添加单元,用于对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间 添加连词。
[0044] 从以上技术方案可以看出,本发明实施例具有以下优点:本发明实施例中先将多 篇文档的句子集合解构为短语池,获取短语池中各个短语的特征和关系,根据该特征和关 系选取短语池中满足预置约束条件的短语集合作为摘要短语集合,再按照预置组合方式将 选出的摘要短语集合组合为摘要句子,生成多文档摘要,这样根据短语的特征和关系选取 短语,采用短语作为重要性以及冗余度判断的基本单位,判断更加精细化,通过对短语的选 取与组合,使得生成的多文档摘要在保证对多文档重要 信息的高覆盖率的同时降低了冗余 度。
【附图说明】
[0045] 图1为本发明实施例中生成多文档摘要的方法一个流程示意图;
[0046] 图2为本发明实施例中生成多文档摘要的方法另一个流程示意图;
[0047] 图3为本发明实施例中构建兼容性关系一个实例示意图;
[0048] 图4为本发明实施例中摘要生成装置一个结构示意图;
[0049] 图5为本发明实施例中摘要生成装置另一个结构示意图;
[0050] 图6为本发明实施例中摘要生成装置另一个结构示意图。
【具体实施方式】
[0051] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
[0052] 请参阅图1,本发明实施例中生成多文档摘要的方法一个实施例包括:
[0053] 101、摘要生成装置将多篇文档的句子集合解构为短语池;
[0054] 若需要对多篇文档生成一个多文档摘要,摘要生成装置将多篇文档的句子集合解 构为短语池。
[0055] 该短语池中可以包含有名词短语,动词短语,还可以包括其他词性的短语,例如形 容词短语,数词短语等等,具体依多篇文档中含有的短语而定,此处不做限定。可以理解的 是,在自然语言处理中,名词短语实际上包含代词,代词被认为是名词的一种。
[0056] 102、摘要生成装置获取所述短语池中各个短语的特征和关系;
[0057] 摘要生成装置将句子集合解构为短语池后,获取该短语池中各个短语的特征和关 系,其中,特征表示各个短语自身的特性,例如重要度等,关系用于表示各短语与其他短语 之间的关系,例如兼容性或相似性等。
[0058] 103、摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置 约束条件的短语集合作为摘要短语集合;
[0059] 摘要生成装置获取到各个短语的特征和关系后,根据该特征和关系,从短语池中 选取满足预置约束条件的短语集合作为摘要短语集合。
[0060] 可以理解的是,预置约束条件中包含了对短语的特征和关系的约束,不符合预置 约束条件的短语都会被剔除掉,至保留满足预置约束条件的短语集合构成摘要短语集合, 用来组成摘要。
[0061] 可以理解的是,短语的特征可以用来表示短语的在文档中的重要性,短语的关系 可以用来表示在文档中的冗余度,预置约束条件通过对特征和关系的约束可以对短语的重 要性和冗余度进行筛选。
[0062] 104、摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成 所述多篇文档的摘要。
[0063] 摘要生成装置得到摘要短语集合后,按照预置组合方式将该摘要短语集合组合为 摘要句子,生成该多篇文档的多文档摘要。
[0064] 本发明实施例中先将多篇文档的句子集合解构为短语池,获取短语池中各个短语 的特征和关系,根据该特征和关系选取短语池中满足预置约束条件的短语集合作为摘要短 语集合,再按照预置组合方式将选出的摘要短语集合组合摘要句子,生成多文档摘要,这样 根据短语的特征和关系选取短语,采用短语作为重要性以及冗余度判断的基本单位,判断 更加精细化,通过对短语的选取与组合,使得生成的多文档摘要在保证对多文档重要信息 的高覆盖率的同时降低了冗余度。
[0065] 下面对本发明实施例中生成多文档摘要的方法进行具体描述,请参阅图2,本发明 实施例中生成多文档摘要的方法包括:
[0066] 201、摘要生成装置将所述多篇文档的句子集合利用语义分析工具构建语法树;
[0067] 在本步骤中,语义分析工具可以通过对多篇文档中各句子的语义分析,构建语法 树将各句子分解为各个短语,分解出的各个短语成为语法树的分支。
[0068] 可以理解的是,该语义分析工具可以是由摘要生成装置自身包含的,也可以是摘 要生成装置通过网络请求的语义分析工具,此处不作限定。
[0069] 202、摘要生成装置抽取所述语法树上全部短语组成短语池;
[0070] 摘要生成装置对多篇文档的句子集合构建语法树后,抽取语法树上全部短语组成 短语池。
[0071] 该短语池中可以包含有名词短语,动词短语,还可以包括其他词性的短语,例如形 容词短语,数词短语等等,具体依多篇文档中含有的短语而定,此处不做限定。可以理解的 是,在自然语言处理中,名词短语实际上包含代词,代词被认为是名词的一种。
[0072] 可以理解的是,步骤201至步骤202是将多篇文档的句子集合中分解成短语的过 程,在实际应用中,除了采用构建语法树的方式将句子分解成短语,还可以采用很多其他的 方式,只要是能将多篇文档的句子集合分解成短语即可,此处不作具体限定。
[0073] 203、摘要生成装置获取所述短语池中各个短语的重要度以及各短语之间的兼容 度和相似度;
[0074] 摘要生成装置得到包含有多篇文档的句子集合分解成的全部短语的短语池后,获 取短语池中各个短语的重要度以及各短语之间的兼容度和相似度,其中,重要度用于衡量 短语所代表的概念或信息在表述文献语义中体现的重要程度,兼容度用于衡量短语之间形 成搭配出现在同一句子中的可能性,相似度用于衡量短语之间语义相似的程度。
[0075] 可以理解的是,各短语的重要度体现了各短语的特征,各短语之间的兼容度和相 似度体现了各短语之间的关系。
[0076] 其中,对于重要度,相似度,以及兼容度的具体计算方式,可以采用多种方式,下面 以其中一种来进行说明:
[0077] -、对短语重要度的计算,可以采用附加位置权重的概念频率统计,具体过程为:
[0078] 1、构建概念集合,概念包括:unigram(单词)、bigram(双词)、named entity (实 体名)。
[0079] 2、统计附加位置权重的概念频率:对于某一概念,统计其在多篇文档中的出现次 数,同时根据出现的位置,对每次出现进行加权,出现越靠前权重越大。
[0080] 3、短语的重要度为其所包含的全部概念的频率之和。
[0081] 二、对短语相似度的计算可以通过cosine similarity (余弦相似度)或jaccard index(指数函数)计算动词短语的两两相似度、名词短语的两两相似度。
[0082] 三、短语兼容度是对各短语的之间的兼容性的数值体现,兼容性具体指一个名词 短语和一个动词短语,是否可以共同构成一个句子,对兼容性的具体判断方法如下:
[0083] 1、对每一个名词或动词短语,找其若干个最近邻居,每一个最近邻居被视为替换 当前短语的候选。
[0084] 2、构建兼容性关系,如图3所示为构建兼容性关系一个实例示意图,其中NP表示 名词短语,VP表示动词短语,角标相同表示来自同一个句子,角标不同表示来自不同的句子 中。NP。和VP。来自同一个句子,即 1和即。是最近邻。其中虚线为新添加的兼容的NP与VP 对,实线为原来存在的兼容关系。
[0085] 3、根据构建的兼容关系,即可将其数值化为各短语之间的兼容度,兼容性好的兼 容度数值高,兼容性差的兼容度数值低。
[0086] 可以理解的是,上述重要度,相似度,兼容度的计算方式仅仅只是一个示例,还可 以有更多其他的计算重要度,相似度,兼容度的方式,此处不做限定。
[0087] 204、摘要生成装置根据短语池中各个短语的重要度以及各个短语之间的兼容度 和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的候选权重。
[0088] 其中,目标函数由各个短语的重要度,以及各个短语之间的兼容度和相似度组合 构成,该目标函数用于描述组合的信息量和冗余度,当目标函数取极值时,信息量最大而冗 余度最小。
[0089] 可以理解的是,短语的重要度与信息量相关,短语的相似度与冗余度相关,则为了 使目标函数取极值时,信息量最大而冗余度最小,需要在目标函数中,对重要度相关参数进 行奖励,对相似度相关参数进行惩罚。
[0090] 可选的,一个目标函数如下所示:
[0092] 将短语池中名词短语和动词短语分别编号,其中S为短语的重要度参数,与重要 度相关。下标i为选取的短语的序号为i,下标j表示选取的短语的序号为j,上标η表示 选取的是名词短语,上标ν表示选取的是动词短语,则表示序号为i的名词短语的重要 度参数,表示序号为i的动词短语的重要度参数,S/表示序号为j的名词短语的重要度 参数,S/表示序号为j的动词短语的重要度参数。R表示短语的冗余度参数,与相似度相 关。由于相似度是短语之间的关系,则R的下标是两个名词短语或两个动词短语的序号,表 示这选取的这两个短语之前的冗余度,RJ表示序号为i和序号为j的名词短语之间的冗余 度,RJ表示序号为i和序号为j 的动词短语之间的冗余度。目标函数的第一项和第三项对 短语的重要度参数进行奖励,将各个短语的重要度权重之和相加得到目标函数的重要度之 和部分,目标函数的第二项和第四项对短语的冗余度参数进行惩罚,减去各个短语的冗余 度参数权重之和。a i表示序号为i的名词短语的候选权重,β i表示序号为i的动词短语 的候选权重,ct ^表示序号为i和j的名词短语之间的联系权重,β ^表示序号为i和j的 动词短语之间的联系权重。
[0093] 通过对上述目标函数求解极值,即可解出使得信息量最大冗余度最小时的短语池 中各短语的候选权重和各短语间的联系权重。
[0094] 可以理解的是,上述只是目标函数一个实例,还可以有其他各种形式的目标函数, 可以得到各短语的候选权重或联系权重,只要在目标函数中对重要度进行奖励,对冗余度 进行惩罚,目标函数的具体形式此处不作限定。
[0095] 可以理解的是,若在后续步骤中不需要用到目标函数解出的候选权重或联系权 重,也可以不执行步骤204,此处不作限定。
[0096] 205、摘要生成装置应用求解规划问题的方法,在最大程度满足预置约束条件构成 的情况下,从所述短语池中选取摘要短语集合。
[0097] 其中,该规划问题有预置约束条件给出,该预置约束条件可以包括对短语重要度 的约束,对短语兼容度的约束,对短语相似度的约束。
[0098] 可选的,该预置约束条件还可以包括更多的其他的约束,例如对短语数量和摘要 总长度的约束等。进一步的,该预置约束条件还可以包括对短语的候选权重的约束,也可以 包括对短语之间的联系权重的约束等,此处步骤限定。
[0099] 可以理解的是,预置约束条件是将对摘要短语的要求采用数学的方式来表示出 来,在实际应用中,预置约束条件可以表现为一系列的不等式的集合,用于限定短语的重要 度,兼容度,相似度、候选权重等的取值范围,选取出满足要求的摘要短语集合。
[0100] 以下选取几种约束条件为例:
[0101] 队,t表示序号为i的名词短语和序号为i的动词短语;
[0102] Ct i表示序号为i的名词短语的候选权重,β i表示序号为i的动词短语的候选权 重,ct 表示序号为i和j的名词短语之间的联系权重,β ^表示序号为i和j的动词短语 之间的联系权重;
[0103] 表示序号为i的名词短语的重要度参数,表示序号为i的动词短语的重要 度参数;
[0104] RJ表示序号为i和序号为j的名词短语之间的冗余度,RJ表示序号为i和序号 为j的动词短语之间的冗余度;
[0105] Y U表示用于衡量序号为i的名词短语队和序号为j的动词短语Vj之间的兼容 性的兼容度参数;
[0106] 如下公式(1)为一个约束条件,可以用于对名词有效性限制进行约束:
[0108] 如下公式(2)为另一个约束条件,可以用于对动词有效性限制进行约束:
[0110] 如下公式(3)为另一个约束条件,可以用于对短语包含规避进行约束:
[0111]
[0112] 如下公式(4)为另一个约束条件,可以用于对单句长度限制进行约束:
[0114] 如下公式(5)为另一个约束条件,可以用于对摘要总长进行约束:
[0116] α ιΓα χ ^ 〇,
[0117] (6)
[0118] α ιΓα j ^ 〇,
[0119] α ;+ α j- α < 1.
[0120] β ιΓβ , ^ 0,
[0121] (7)
[0122] βιΓβ j ^ Ο,
[0123] β,+ β ^ 1.
[0124] 如下公式(6)或(7)为另一个约束条件,可以用于对词语重复限制进行约束:
[0125] 如下公式(8)为另一个约束条件,可以用于对代词规避进行约束:
[0126] if 队 is pronoun,then α ; = 〇· (8)
[0127] 如下公式(9)为另一个约束条件,可以用于对超短句规避进行约束:
[0128] if 1 (S) <M,Yi ^ S, then β ; = 0, (9)
[0129] 可以理解的是,以上这些约束条件仅仅只是预置约束条件的一些例子,还可以有 另外更多的约束条件,根据实际应用的需求,这些约束条件可以单独使用,也可以多个组合 使用,此处不作限定。
[0130] 206、摘要生成装置按照所述摘要短语集合中各摘要短语在所述多篇文档的句子 中的顺序,对所述摘要短语进行排列,得到摘要句子;
[0131] 摘要生成装置得到摘要短语集合后,按照各摘要短语在多篇文档的句子中的顺 序,对摘要短语进行排序,得到摘要句子。
[0132] 需要说明的是,在将摘要短语排列成摘要句子的过程中,名词短语和动词短语形 成短语组,该短语组中名词短语和动词短语之间的顺序由该名词短语和动词短语在文档中 出现的顺序决定;多个短语组之间的相互顺序由每个短语组中的动词短语在文档中出现的 顺序决定,具体的:1)来自同一文档的动词短语,按在该文档中的自然顺序排序。2)来自不 同文档的动词短语,根据各动词短语所在的原文档的时间戳排序。
[0133] 207、对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词;
[0134] 摘要生成装置得到摘要句子后,对包含多个动词短语的摘要句子,在该摘要句子 的各动词短语间添加连词,以增强摘要句子的可读性和平滑度。
[0135] 208、将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得 到所述多篇文档的摘要。
[0136] 摘要生成装置将摘要句子按照多篇文档中动词短语出现的最早时间进行排列,得 到多篇文档的摘要。
[0137] 其中,将摘要句子按照多篇文档中动词短语出现的最早时间进行排列,具体过程 可以为:
[0138] 1、将各摘要句子的时间戳定义为句子中最早出现的动词短语的时间戳;
[0139] 2、按照各摘要句子的时间戳对各摘要句子进行排序。
[0140] 可以理解的是,步骤206至步骤208中,主要按照动词短语在原多篇文档句子中的 顺序以及出现的时间顺序对摘要短语集合中的短语进行排列,在实际应用中,除了采用这 种排列方式,还可以采用其他的排列方式,例如其他的基于统计的排列方式或基于组合规 则或组合模板的排列方式等,此处不做限定。
[0141] 本发明实施例中,摘要生成装置通过预置约束条件对短语重要度和候选权重的约 束,保证了多文档摘要对重要信息的覆盖率,通过对相似度,兼容性或联系权重的约束,降 低了多文档摘要中摘要句子的冗余度,进一步的,在含有多个动词短语的摘要句子中添加 连词,保证了组合成的新句子的平滑性。
[0142] 下面对本发明实施例中以短语为粒度形成多文档摘要的效果与现有技术中以句 子为粒度形成多文档摘要的效果进行说明:
[0143] 为了评价本发明的重要信息覆盖能力,我们采用Pyramid method测试方法进行测 评,评测结果如下表1所示:
[0144] 表 1
[0145]
[0146] 其中,Pyramid method 是由 Ani Nenkova 和 Rebecca J. Passonneau 于 2004 年在 "Evaluating content selection in summarization"这篇论文中提出的一种评价摘要结 果的评价方法,被业界普遍使用,TAC比赛是一个业界权威的评价摘要结果的比赛。上表1 为对选取的在2011年TAC比赛中排名前三的队伍的摘要结果与采用本发明实施例的方法 得到的摘要结果,采用Pyramid method对摘要结果的重要度覆盖率得到的测评分数的对 t匕。表1的第一列为在TAC比赛中队伍的编号,得到前三名的队伍的编号分别为22号、43 号和17号,本发明表τκ米用本发明实施例中的方案;表1的第二列和第三列分别为Pyramid method测评模型中基准线取值为0. 6和0. 625时对各队伍摘要结果的重要信息覆盖率进行 自动测评获得的分数,表1第三列为在2011年TAC比赛中各队伍获取的名次。从表1中可 见,采用本发明实施例中的方案得到的摘要结果在重要信息覆盖率上明显高于其他队伍采 取的方案得到的摘要结果,即使他们是在TAC比赛中获取前三名的队伍。
[0147] 在完成了以上高覆盖度的同时,本发明的冗余度更低。具体地,摘要长度对比如下 表2所示:
[0148] 表 2
[0149]
[0150] 从上表2中可见,采用本发明实施例的方案得到的摘要结果在冗余度上也明显低 于在TAC比赛中取得前三名的队伍得到的的摘要结果的冗余度。
[0151] 本发明生成的摘要中,三类句子,即新句子、压缩的句子、原句子,的比例如下表3 所示:
[0152] 表 3
[0154] 由 表3可知,采用本发明实施例的方案得到的摘要结果中既有新句子,又有压缩 的句子,也有原多篇文档中的原句子。因此,本发明与现有方法部分的兼容,同时提供了新 的选择。
[0155] 同时,我们对句子可读性进行了人工评测,首先句子分值定义如下:
[0156] 3分表示:新生成的句子恰当地融合了同一个NP的相关事实,并且具有较好的流 畅性和可读性。
[0157] 2分表示:新生成的句子正确地融合了同一个NP的相关事实,并且可读性较好。但 流畅性一般。
[0158] 1分表示:新生成的句子正确地融合了同一个NP的相关事实,但是读者需要付出 一定的努力来阅读和理解。
[0159] 0分表示:由于短语融合,导致新生成的句子包含错误的事实。
[0160] 我们选取20个新生成的摘要句子进行评测,得到的平均分值为2. 65,因此新句子 的可读性足够好。
[0161] 下面对本发明实施例中的摘要生成装置进行描述,请参阅图4,本发明实施例中摘 要生成装置包括:
[0162] 解构模块401,用于将多篇文档的句子集合解构为短语池;
[0163] 第一获取模块402,用于获取所述解构模块401解构得到的短语池中各个短语的 特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与 其他短语之间的关系;
[0164] 选取模块403,用于根据所述第一获取模块402获取的各个短语的特征和关系,从 所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
[0165] 组合模块404,用于按照预置组合方式将所述选取模块403选取出的摘要短语集 合组合为摘要句子,生成所述多篇文档的摘要。
[0166] 本发明实施例中解构模块401先将多篇文档的句子集合解构为短语池,第一获取 模块402获取短语池中各个短语的特征和关系,选取模块403根据该特征和关系选取短语 池中满足预置约束条件的短语集合作为摘要短语集合,组合模块404再按照预置组合方式 将选出的摘要短语集合组合摘要句子,生成多文档摘要,这样根据短语的特征和关系选取 短语,采用短语作为重要性以及冗余度判断的基本单位,判断更加精细化,通过对短语的选 取与组合,使得生成的多文档摘要在保证对多文档重要信息的高覆盖率的同时降低了冗余 度。
[0167] 下面对本发明实施例中摘要生成装置进行具体描述,请参阅图5,本发明实施例中 摘要生成装置具体包括:
[0168] 解构模块501,用于将多篇文档的句子集合解构为短语池;
[0169] 第一获取模块502,用于获取所述解构模块501解构得到的短语池中各个短语的 特征和关系,所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与 其他短语之间的关系;
[0170] 选取模块503,用于根据所述第一获取模块502获取的各个短语的特征和关系,从 所述短语池选取满足预置约束条件的短语集合作为摘要短语集合;
[0171] 组合模块504,用于按照预置组合方式将所述选取模块403选取出的摘要短语集 合组合为摘要句子,生成所述多篇文档的摘要;
[0172] 本实施例中,该第一获取模块502具体用于,获取所述短语池中各短语的重要度 以及各短语之间的兼容度和相似度,所述重要度用于衡量短语所代表的概念或信息在表述 文献语义中体现的重要程度,所述兼容度用于衡量短语之间形成搭配出现在同一句子中的 可能性,所述相似度用于衡量短语之间语义相似的程度;
[0173] 该选取模块503具体用于,应用求解规划问题的方法,在最大程度满足所述预置 约束条件构成的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预 置约束条件给出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及 对短语相似度的约束;
[0174] 可选的,该预置约束条件中还可以包括对候选权重的约束;
[0175] 该摘要生成装置还可以包括:
[0176] 第二获取模块505,用于根据所述短语池中各个短语的重要度以及各个短语之间 的兼容度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选 权重,其中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度 组合构成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息 量最大而冗余度最小;
[0177] 可选的,该解构模块501具体可以包括:
[0178] 构建单元5011,用于将所述多篇文档的句子集合利用语义分析工具构建语法树;
[0179] 抽取单元5012,用于抽取所述构建单元5011构建的语法树上全部短语组成短语 池;
[0180] 可选的,该组合模块504具体可以包括:
[0181] 短语排列单元5041,用于按照所述选取模块503选取出的摘要短语集合中各摘要 短语在所述多篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子;
[0182] 句子排列单元5042,用于将所述短语排列单元5041排列得到的摘要句子按照所 述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要;
[0183] 可选的,该组合模块504还可以包括:
[0184] 添加单元5043,用于对包含多个动词短语的摘要句子,在该摘要句子的各动词短 语间添加连词。
[0185] 本发明实施例中,选取模块503通过预置约束条件对短语重要度和候选权重的约 束,保证了多文档摘要对重要信息的覆盖率,通过对相似度,兼容性或联系权重的约束,降 低了多文档摘要中摘要句子的冗余度,进一步的,添加单元5043在含有多个动词短语的摘 要句子中添加连词,保证了组合成的新句子的平滑性。
[0186] 上面从单元化功能实体的角度对本发明实施例中的摘要生成装置进行了描述,下 面从硬件处理的角度对本发明实施例中的摘要生成装置进行描述,请参阅图6,本发明实施 例中的摘要生成装置600另一实施例包括:
[0187] 输入装置601、输出装置602、处理器603和存储器604 (其中摘要生成装置600中 的处理器603的数量可以一个或多个,图6中以一个处理器603为例)。在本发明的一些 实施例中,输入装置601、输出装置602、处理器603和存储器604可通过总线或其它方式连 接,其中,图6中以通过总线连接为例。
[0188] 其中,通过调用存储器604存储的操作指令,处理器603,用于执行如下步骤:
[0189] 将多篇文档的句子集合解构为短语池;
[0190] 获取所述短语池中各个短语的特征和关系,所述特征用于表示所述各短语自身的 特性,所述关系用于表示所述各短语与其他短语之间的关系;
[0191] 根据所述各个短语的特征和关系,从所述短语池选取满足预置约束条件的短语集 合作为摘要短语集合;
[0192] 按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘 要;
[0193] 本发明的一些实施例中,该处理器603具体执行如下步骤:
[0194] 获取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要 度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于 衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相 似的程度;
[0195] 本发明的一些实施例中,该处理器603具体执行如下步骤:
[0196] 应用求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从 所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置 约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束;
[0197] 本发明的一些实施例中,该预置约束条件还包括对短语候选权重的约束,则该处 理器603还执行如下步骤:
[0198] 根据所述短语池中各个短语的重要度以及各个短语之间的兼容度和相似度,求解 给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其中,所述目标函数 由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构成,所述目标函数 用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大而冗余度最小;
[0199] 本发明的一些实施例中,该处理器603具体执行如下步骤:
[0200] 将所述多篇文档的句子集合利用语义分析工具构建语法树;
[0201] 抽取所述语法树上全部短语组成短语池;
[0202] 本发明的一些实施例中,该处理器603具体执行如下步骤:
[0203] 按照所述摘要短语集合中各摘要短语在所述多篇文档的句子中的顺序,对所述摘 要短语进行排列,得到摘要句子;
[0204] 按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多篇文档的摘 要;
[0205] 本发明的一些实施例中,该处 理器603还执行如下步骤:
[0206] 对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。
[0207] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统, 装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0208] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以 通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的 划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或 讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦 合或通信连接,可以是电性,机械或其它的形式。
[0209] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0210] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0211] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质 上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形 式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算 机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法 的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程 序代码的介质。
[0212] 以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前 述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前 述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些 修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1. 一种生成多文档摘要的方法,其特征在于,包括: 摘要生成装置将多篇文档的句子集合解构为短语池; 所述摘要生成装置获取所述短语池中各个短语的特征和关系,所述特征用于表示所述 各短语自身的特性,所述关系用于表示所述各短语与其他短语之间的关系; 所述摘要生成装置根据所述各个短语的特征和关系,从所述短语池选取满足预置约束 条件的短语集合作为摘要短语集合; 所述摘要生成装置按照预置组合方式将所述摘要短语集合组合为摘要句子,生成所述 多篇文档的摘要。2. 根据权利要求1所述的方法,其特征在于,所述摘要生成装置获取所述短语池中各 个短语的特征和关系具体包括: 所述摘要生成装置获取所述短语池中各短语的重要度以及各短语之间的兼容度和相 似度,所述重要度用于衡量短语所代表的概念或信息在表述文献语义中体现的重要程度, 所述兼容度用于衡量短语之间形成搭配出现在同一句子中的可能性,所述相似度用于衡量 短语之间语义相似的程度。3. 根据权利要求2所述的方法,其特征在于,所述摘要生成装置根据所述各个短语的 特征和关系,从所述短语池选取满足预置约束条件的短语集合作为摘要短语集合具体包 括: 所述摘要生成装置应用求解规划问题的方法,在最大程度满足所述预置约束条件构成 的情况下,从所述短语池中选取所述摘要短语集合,所述规划问题由所述预置约束条件给 出,所述预置约束条件包括对短语重要度的约束,对短语兼容度的约束以及对短语相似度 的约束。4. 根据权利要求3所述的方法,其特征在于, 所述预置约束条件还包括对短语候选权重的约束; 所述方法还包括: 所述摘要生成装置根据所述短语池中各个短语的重要度以及各个短语之间的兼容度 和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其 中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构 成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大 而冗余度最小。5. 根据权利要求1至4中任一项所述的方法,其特征在于,所述将多篇文档的句子集合 解构为短语池具体包括: 将所述多篇文档的句子集合利用语义分析工具构建语法树; 抽取所述语法树上全部短语组成短语池。6. 根据权利要求1至4中任一项所述的方法,其特征在于,所述摘要生成装置按照预置 组合方式将所述摘要短语集合组合为摘要句子,生成所述多篇文档的摘要具体包括: 所述摘要生成装置按照所述摘要短语集合中各摘要短语在所述多篇文档的句子中的 顺序,对所述摘要短语进行排列,得到摘要句子; 将所述摘要句子按照所述多篇文档中动词短语出现的最早时间进行排列,得到所述多 篇文档的摘要。7. 根据权利要求6所述的方法,其特征在于,所述将所述摘要句子按照所述多篇文档 中动词短语出现的最早时间进行排列,得到所述多篇文档的摘要的步骤之前还包括: 对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加连词。8. -种摘要生成装置,其特征在于,包括: 解构模块,用于将多篇文档的句子集合解构为短语池; 第一获取模块,用于获取所述解构模块解构得到的短语池中各个短语的特征和关系, 所述特征用于表示所述各短语自身的特性,所述关系用于表示所述各短语与其他短语之间 的关系; 选取模块,用于根据所述第一获取模块获取的各个短语的特征和关系,从所述短语池 选取满足预置约束条件的短语集合作为摘要短语集合; 组合模块,用于按照预置组合方式将所述选取模块选取出的摘要短语集合组合为摘要 句子,生成所述多篇文档的摘要。9. 根据权利要去8所述的摘要生成装置,其特征在于,所述第一获取模块具体用于,获 取所述短语池中各短语的重要度以及各短语之间的兼容度和相似度,所述重要度用于衡量 短语所代表的概念或信息在表述文献语义中体现的重要程度,所述兼容度用于衡量短语之 间形成搭配出现在同一句子中的可能性,所述相似度用于衡量短语之间语义相似的程度。10. 根据权利要求9所述的摘要生成装置,其特征在于,所述选取模块具体用于,应用 求解规划问题的方法,在最大程度满足所述预置约束条件构成的情况下,从所述短语池中 选取所述摘要短语集合,所述规划问题由所述预置约束条件给出,所述预置约束条件包括 对短语重要度的约束,对短语兼容度的约束以及对短语相似度的约束。11. 根据权利要求10所述的摘要生成装置,其特征在于,所述预置约束条件还包括对 短语候选权重的约束; 所述摘要生成装置还包括: 第二获取模块,用于根据所述短语池中各个短语的重要度以及各个短语之间的兼容 度和相似度,求解给定的目标函数的极值,获取所述短语池中各个短语的所述候选权重,其 中,所述目标函数由所述各个短语的重要度,以及各个短语之间的兼容度和相似度组合构 成,所述目标函数用于描述组合的信息量和冗余度,当所述目标函数取极值时,信息量最大 而冗余度最小。12. 根据权利要求8至11中任一项所述的摘要生成装置,其特征在于,所述解构模块具 体包括: 构建单元,用于将所述多篇文档的句子集合利用语义分析工具构建语法树; 抽取单元,用于抽取所述构建单元构建的语法树上全部短语组成短语池。13. 根据权利要求8至11中任一项所述的摘要生成装置,其特征在于,所述组合模块具 体包括: 短语排列单元,用于按照所述选取模块选取出的摘要短语集合中各摘要短语在所述多 篇文档的句子中的顺序,对所述摘要短语进行排列,得到摘要句子; 句子排列模块,用于将所述短语排列单元排列得到的摘要句子按照所述多篇文档中动 词短语出现的最早时间进行排列,得到所述多篇文档的摘要。14. 根据权利要求13所述的摘要生成装置,其特征在于,所述组合模块中还包括: 添加单元,用于对包含多个动词短语的摘要句子,在该摘要句子的各动词短语间添加 连词。
【专利摘要】本发明实施例公开了一种生成多文档摘要的方法和装置,用于使得生成的多文档摘要在保证对多文档重要信息的高覆盖率的同时降低冗余度。本发明实施例方法包括:先将多篇文档的句子集合解构为短语池,获取短语池中各个短语的特征和关系,根据该特征和关系选取短语池中满足预置约束条件的短语集合作为摘要短语集合,再按照预置组合方式将选出的摘要短语集合组合为摘要句子,生成多文档摘要。
【IPC分类】G06F17/27
【公开号】CN105488021
【申请号】CN201410469449
【发明人】邴立东, 林伟, 张轶博
【申请人】华为技术有限公司
【公开日】2016年4月13日
【申请日】2014年9月15日

最新回复(0)