本发明涉及文本摘要,具体而言,涉及一种基于bert向量化和依存句法的生成式摘要方法及系统。
背景技术:
1、文本摘要技术使用机器学习和深度学习算法,将长篇文本自动提炼成简洁明了、易于理解的摘要。其中生成式摘要能够更深入地理解文本内容,并且能够学习从原始文本到摘要的复杂映射关系,因此生成的摘要更能准确地概括原文的主旨,同时保留关键细节,生成的摘要具有更高的质量。
2、但是现有技术中生成式摘要也面临着模型复杂度较高、难以捕捉关键信息等问题。
3、有鉴于此,特提出本发明。
技术实现思路
1、有鉴于此,本发明公开了一种基于bert向量化和依存句法的生成式摘要方法及系统,以提升文本摘要任务的摘要质量。
2、具体地,本发明是通过以下技术方案实现的:
3、本发明提供了一种基于bert向量化和依存句法的生成式摘要方法,包括如下步骤:
4、将原文文本和摘要文本接入bert预训练模型,获取句子特征向量;
5、将原文文本和摘要文本采用ltp模型进行句法依存分析,构建依存类型矩阵和邻接矩阵;
6、将依存类型矩阵和邻接矩阵进行注意力权重计算,与所述获取的句子特征向量融合得到多粒度特征语义中间向量;
7、以句子特征向量作为输入序列,采用网络结构为bilstm模型的编码器编码得到输出序列;
8、将所述多粒度特征语义中间向量与所述输出序列拼接输入bilstm模型的解码器生成结果序列,采用集束搜索生成最终的文本摘要。
9、具体地,本发明的技术方案主要包括以下步骤:
10、(1)将原文文本和摘要文本接入中文bert预训练模型,模型会在每个句子的开始位置插入[cls]标记,并在句子的末尾添加一个[sep]标记。对于一个训练批次的原文文本q1=(q11,q12,...q1n)和摘要文本q2=(q21,q22,...q2n),经过bert模型得到相应向量化结果为e1=(e11,e12,...e1n)和e2=(e21,e22,...e2n);
11、(2)将原文文本和摘要文本进行句法特征构造。具体而言,首先,使用ltp进行句法依存分析,根据句子中每个单词之间的依存关系获得依存句法树。然后,对句法依存树进行解析生成关联矩阵m和依存类型矩阵m_type。随后,将m和m_type输入gcn中进行注意力权重计算。第l层gcn中节点i和j之间注意力权重公式为其中,mi,j是关联矩阵中对应i、j的值,“·”表示向量内积。由节点i、j依存类型矩阵和gcn向量计算得到,公式为其中表示依存类型矩阵中对应的向量表示,表示节点i在第l-1层gcn的向量表示。接下来,使用l层图卷积神经网络结合获得的注意力权重对图结构数据进行处理,公式为其中,σ表示relu激活函数,w(l)和b(l)分别表示第l层的可训练矩阵和偏执项,由第l-1层的gcn输出与依存类型矩阵的向量表示计算而来。为了进一步整合字词特征和句法信息,将图卷积神经网络输出与(1)中的句子向量特征e以向量拼接的方式进行融合。最后得到了一个融合了多粒度特征语义向量h;
12、(3)编码器网络结构为bilstm模型,正向传播lstm层和反向传播lstm层接受向量化结果e为输入序列,得到bilstm在t时刻的正向和反向的隐藏状态ht和ht′,然后对其进行向量融合,公式为st=g(w1ht+w2ht′),w表示每一层的权重参数。最后得到编码器输出序列c;
13、(4)模型的解码器采用bilstm网络结构,同时为了使解码器生成预测结果时能够合理利用编码器生成的中间语义信息,引入了attention机制。把(2)中得到的多粒度特征语义向量h和(3)中的编码器输出序列c进行向量拼接后输入解码器。解码器首先根据模型输入隐藏层状态hj计算注意力机制,公式为其中,st-1表示解码器t-1时刻的隐藏层状态,hj表示编码器全部时刻的隐藏层状态,α(·)是一个基于非线性函数的对齐模型。在计算得到注意力权重的基础上,通过将编码器的隐藏层向量(h1,h2,...,hn)和注意力权重αij加权求和得到了语义向量ci。最后,基于语义向量ci,通过注意力机制实现了信息交互并以此预测得到了第n个字的结果序列,公式为其中,g(·)表示lstm预测函数,hf和hb分别表示l2r解码器和r2l解码器生成的结果序列。表示解码器的第n个字的预测结果。当在解码时使用注意力机制作为特征来组合hf和hb来预测第n个单词时,公式为在解码器中满足q=hf,k=v=hb;
14、(5)最后,使用集束搜索生成最终的文本摘要。集束搜索以双向解码器的输出预测结果作为输入,该算法能够记录每个时刻两个方向预测概率最高的top-k个结果,最后选取概率最大的结果作为摘要。
15、除此之外,本发明还提供了基于bert向量化和依存句法的生成式摘要系统,具体包括:
16、获取模块:用于将原文文本和摘要文本接入bert预训练模型,获取句子特征向量;
17、构建模块:用于将原文文本和摘要文本采用ltp模型进行句法依存分析,构建依存类型矩阵和邻接矩阵;
18、融合模块:用于将依存类型矩阵和邻接矩阵进行注意力权重计算,与所述获取的句子特征向量融合得到多粒度特征语义中间向量;
19、输出模块:用于以句子特征向量作为输入序列,采用网络结构为bilstm模型的编码器编码得到输出序列;
20、生成模块:用于将所述多粒度特征语义中间向量与所述输出序列拼接输入bilstm模型的解码器生成结果序列,采用集束搜索生成最终的文本摘要。
21、本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序执行时实现所述生成式摘要方法的步骤。
22、本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述生成式摘要方法的步骤。
23、总之,本发明所提供的生成式摘要方法以及系统,首先在模型的特征构建阶段,利用bert模型捕获文本的全局语义特征,并通过依存句法分析技术提取句法结构信息。进一步地,模型整合了注意力机制和图卷积神经网络,以实现句法特征与bert特征的有效融合,从而提升模型对文本深层语义的表征能力和对文本全局信息的深入理解。此外,在解码阶段使用双向解码结构进行前向和后向语义分析,有效地缓解单向解码结构在理解全文时的偏差累计问题,从而提升摘要的连贯性和对全文的概括性,最终达到提升文本摘要任务的摘要质量的目的。
1.一种基于bert向量化和依存句法的生成式摘要方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的生成式摘要方法,其特征在于,获取句子特征向量的方法包括如下步骤:
3.根据权利要求1所述的生成式摘要方法,其特征在于,进行句法依存分析是根据句子中每个单词之间的依存关系获得依存句法树,对句法依存树进行解析生成依存类型矩阵和邻接矩阵。
4.根据权利要求1所述的生成式摘要方法,其特征在于,所述注意力权重计算的方法包括如下步骤:
5.根据权利要求4所述的生成式摘要方法,其特征在于,所述输出序列得到的方法包括如下步骤:
6.根据权利要求5所述的生成式摘要方法,其特征在于,所述多粒度特征语义中间向量与所述输出序列拼接输入bilstm模型的解码器生成结果序列的方法包括如下步骤:
7.根据权利要求1所述的生成式摘要方法,其特征在于,所述集束搜索的方法包括如下步骤:以解码器生成的结果序列作为输入,记录每个时刻两个方向预测概率最高的top-k个结果,最后选取概率最大的结果作为摘要。
8.权利要求1-7任一项所述的生成式摘要方法所对应的系统,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序执行时实现权利要求1-7任一项所述生成式摘要方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述生成式摘要方法的步骤。
