一种融合段落和文档特征的金融公告事件抽取方法

xiaoxiao1天前  11


本发明涉及金融领域与信息抽取,特别是一种融合段落和文档特征的金融公告事件抽取方法。


背景技术:

1、金融公告是公司和企业向社会公开地告知其重要事项的一种文书,其内容通常是人民群众极为关注的企业重大金融事项。金融公告中披露的金融事项对于企业以及金融行业从业者在进行收购、投资等金融决策时起到重要的辅助作用。将金融公告中的事件及时而准确地抽取出来,能够对企业以及金融行业从业者产生很大的帮助,具有很好的应用价值。

2、金融公告事件的要素包括事件类型和事件论元。以股权减持事件为例,其对应的论元分别为股权持有人、股票交易数、开始时间、结束时间、交易平均价格以及减持后持有的股票数量6类论元。因此金融公告事件抽取任务又可以区分为事件类型检测和事件论元识别两个子任务,前者的实质为文本分类任务,后者的实质为实体命名识别任务。

3、由于金融公告通常没有明显的结构化特点,因此如何借用信息抽取技术,从金融公告中自动化地抽取出结构化的金融事件信息是业界以及学术界都在一直关注的重要问题。早期的金融领域事件抽取任务,主要是基于模式匹配的方式实现,这种方式需要领域专家去编写模板,泛化能力较差;而基于深度学习的方法目前集中在句子级别的事件抽取。从文本数据的特点角度而言,金融公告作为文档级别的数据,对于事件的表述是更加复杂的,往往由多个句子描述一个或多个事件。所以在进行文档级事件抽取任务中,需要去全文进行综合考虑,句子级别的事件抽取方法不再适用。除此之外,面向金融公告文本,事件抽取任务存在着事件论元专业性较强、识别准确度要求较高的领域需求特点,故而需要更具针对性的事件抽取技术。


技术实现思路

1、本发明所要解决的技术问题是克服现有技术的不足而提供一种融合段落和文档特征的金融公告事件抽取方法,针对金融公告文本事件论元专业性强、分散度高等特点,达到了较好的事件抽取性能,具有较高的准确率、泛化能力以及商业应用价值。

2、本发明为解决上述技术问题采用以下技术方案:

3、根据本发明提出的一种融合段落和文档特征的金融公告事件抽取方法,包括以下步骤:

4、步骤1、对金融公开数据集chfinann中的金融公告文本进行数据预处理工作,将金融公告文本划分为段落;

5、步骤2、利用fin-bert预训练模型、第一卷积神经网络以及自注意力机制,对金融公告文本的段落进行段落分类向量与段落特征向量的提取;

6、步骤3、利用word2vec模型和双向长短期记忆网络对金融公告文本进行文档特征向量的提取;

7、步骤4、将经过fin-bert预训练模型得到的段落分类向量送入第二卷积神经网络,对金融公告文本中的事件进行事件类型抽取;

8、步骤5、将步骤2提取到的段落特征向量与步骤3提取到的文档特征向量融合后,通过双向长短期记忆网络与条件随机场对金融公告文本中的事件进行事件论元识别抽取。

9、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,步骤1具体如下:

10、将每篇金融公告文本定义为多个句子组成的集合,每个句子定义为多个字符组成的集合,设金融公告文本中的句子个数为num,第i个句子si={w1,w2,…,wn},i∈[1,num],wb为句子序列中的第b个字符,1≤b≤n且b为整数,n为句子序列中的字符个数,整个金融公告文本d={s1,s2,…,snum};

11、将所有金融公告文本均分为三部分,每个部分定义为一个段落,令num_paragraph=num/3,num_paragraph表示为每个段落的句子个数,如果num不能被3整除,多余的语句划分为最后一个段落,则金融公告文本的第k个段落pk={s’1,s’2,…,s’num_paragraph},s’d为第k个段落中的第d个句子,num_paragraph≥d≥1,将段落中的句子用字符表示,则第k个段落pk表示为pk={w1,w2,…,wn},k∈[1,3],we表示为分段后的句子序列中的第e个字符,1≤e≤n,n为段落中的字符个数;

12、将段落长度和金融公告文本长度对齐,段落长度为n,金融公告文本长度设定为3n,整个金融公告文本表示为d={w1,w2,…,w3n},wf为金融公告文本中的第f个字符,1≤f≤3n;如果段落实际长度大于n,截取前n个字符作为段落;如果段落实际长度小于n,则利用特殊字符<pad>进行填充。

13、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,步骤2具体如下:

14、首先使用fin-bert预训练模型对段落进行编码,得到段落p,则第k个段落pk={w1,w2,…,wn},其中,ws为段落中第s个编码后的字符,1≤s≤n;取fin-bert预训练模型输出后[cls]位的向量作为段落分类向量,[cls]为输出后第一个位置的向量,第k个段落的段落分类向量用ck进行表示;

15、在段落经过编码后,采用卷积神经网络分别提取三个段落的局部特征;将pk的初始向量送入cnn模型,分别设立不同大小的卷积核对段落进行卷积操作,提取段落在不同窗口下的关键特征表示,对卷积核的大小进行填充操作;设卷积核的长、宽和数量分别为r、m和u,提取出pk的局部特征,最终得到第v段落的局部特征集合cv,v∈(1,u),所有的局部特征集合构成了局部特征矩阵hk={c1,c2,…,cu},hk为第k个段落的局部特征矩阵;最后将三个段落的局部特征矩阵拼接,即h={h1,h2,h3},h为整个金融公告文本的局部特征矩阵;

16、采用自注意力机制对段落局部特征进行计算,将三个段落中的任意两个局部特征联系起来,对文档的段落局部特征进行信息交互;self-attention层首先通过线性变换得到三组向量:

17、q=wq*h

18、k=wk*h

19、v=wv*h

20、其中,q、k、v分别为查询向量序列、键向量序列和值向量序列;wq、wk、wv是待训练的参数矩阵,得到融合后的段落特征向量hc。

21、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,提取出pk的局部特征为:

22、cv(j)=relu(wv·x(j:j+r-1)+bv)

23、其中,v∈(1,u)表示卷积核的序号;wv表示第v个r×m的卷积核,bv表示偏置项;x(j:j+r-1)表示pk中从j到j+r-1行向量,j∈[1,n];cv(j)表示第v个卷积核提取出的局部特征;

24、cv={cv(1),cv(2),…,c(v(n-r+1))};

25、段落p是维度为768的段落p。

26、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,融合后的段落特征向量hc为:

27、

28、其中,softmax()为激活函数,dk为网络隐藏层神经元的数目,上标t为转置。

29、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,步骤3具体如下:

30、利用word2vec对金融公告文本进行编码,编码后整个金融公告文本为d={x1,x2,…,x3n},其中,xf表示为金融公告文本中的第f个字符向量,1≤f≤3n;

31、将d={x1,x2,…,x3n}送入bi-lstm层学习前向和后向两个方向上的文档序列特征,最终得到公告的文档特征向量hd;

32、前向序列和后向序列的具体计算过程如下:

33、

34、

35、其中,分别为lstm的前向学习与后向学习过程,为计算得到的前向序列,为计算后得到的后向序列,xt为第t个字符向量,为前向学习后的第t个字符向量,为后向学习后的第t个字符向量,1≤t≤3n;

36、得到前向序列和后向序列的向量表示后,将对应位置的隐层表示拼接;xt的对应隐层表示如下:

37、

38、其中,ht为第t个位置的向量表示,作为第t个位置前向的隐层表示,作为第t个位置后向的隐层表示。

39、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,利用word2vec对金融公告文本进行编码,维度同样设为768维。

40、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,步骤4中对金融公告中的事件进行事件类型抽取的方法具体如下:

41、首先,将经过fin-bert层后得到的段落分类向量ck送入cnn层进行语义学习,并对其结果进行最大池化操作,得到事件分类向量cd,计算过程如下式所示;

42、c=cnn(c1,c2,c3)

43、cd=max_pooling(c)

44、其中,c为经过卷积神经网络后的隐层向量,c1、c2、c3分别为3个段落的分类向量,cnn(*)为卷积神经网络,max_pooling(*)为最大池化操作;

45、然后,使用交叉熵损失来表示当前预测的结果与真实结果间的差距,设真实分布为q1,预测的结果分布为pdoc,将这两个分布的交叉熵定义为对事件的分类损失loss1;

46、pdoc=softmax(cd)

47、loss1=h(pdoc,q1)=-∑q1log2pdoc;

48、其中,softmax(*)为softmax函数,h(pdoc,q1)为pdoc与q1的交叉熵。

49、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,步骤5中对金融公告文本中事件进行事件论元识别抽取,具体如下:

50、首先,将段落特征向量hc和文档特征向量hd通过拼接操作以更新语义信息,得到最终的特征向量表示r;

51、r=[hc,hd]

52、将特征向量r送入bi-lstm中学习金融公告文本中每个字符对应标签的得分,以此得到文档序列与论元标签的关系,再利用条件随机场进行解码,最终得到预测标签结果;

53、具体为:将r输入解码层,输出预测标签序列y={y1,y2,…,y3n},yi’为金融公告文本第i’个位置的预测值,1≤i’≤3n;设bi-lstm的输出为概率矩阵z,z的维度为3n×ntag,ntag为标签的类别数;则预测得分计算公式如下式所示;

54、

55、其中,s(r,y)表示为预测得分,crf层的转移矩阵设为a,a中第i’行第i’+1列的元素为预测标签序列y中的第i’向量yi’到预测标签序列y中的第i’+1向量yi’+1的转移概率,为第i个字的最终隐层向量预测为标签yi’的非归一化概率;

56、通过softmax函数对预测得分进行归一化,以此作为正确的标签序列y的概率值,yr为预测到的所有可能的标签序列;

57、

58、其中,p(y|r)表示为归一化之后的概率值,e为自然底数;

59、在训练过程中,优化目标为预测正确标签最大似然,将其定义为事件论元识别任务的损失函数loss2,而预测阶段,通过维特比解码得到文本的最终预测标签;

60、

61、作为本发明所述的一种融合段落和文档特征的金融公告事件抽取方法进一步优化方案,在训练过程中,采用任务联合的方式进行训练,对loss1、loss2进行加权求和构成总体的损失函数loss,loss=αloss1+βloss2,其中α、β表示为权重。

62、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

63、本发明可以自动化地对金融公告中披露出的金融事件完成事件类型的判断以及事件论元的抽取工作,针对金融公告文本事件论元专业性强、分散度高等特点,达到了较好的事件抽取性能,具有较高的准确率、泛化能力以及商业应用价值。


技术特征:

1.一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,步骤1具体如下:

3.根据权利要求2所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,步骤2具体如下:

4.根据权利要求3所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,提取出pk的局部特征为:

5.根据权利要求3所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,融合后的段落特征向量hc为:

6.根据权利要求1所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,步骤3具体如下:

7.根据权利要求1所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,利用word2vec对金融公告文本进行编码,维度同样设为768维。

8.根据权利要求3所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,步骤4中对金融公告中的事件进行事件类型抽取的方法具体如下:

9.根据权利要求8所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,步骤5中对金融公告文本中事件进行事件论元识别抽取,具体如下:

10.根据权利要求9所述的一种融合段落和文档特征的金融公告事件抽取方法,其特征在于,在训练过程中,采用任务联合的方式进行训练,对loss1、loss2进行加权求和构成总体的损失函数loss,loss=αloss1+βloss2,其中α、β表示为权重。


技术总结
本发明公开了一种融合段落和文档特征的金融公告事件抽取方法,涉及金融领域与信息抽取技术领域,具体如下:步骤1.对金融公开数据集ChFinAnn中的金融公告文本进行数据预处理工作,将金融公告划分为段落;步骤2.利用Fin‑BERT预训练模型、卷积神经网络以及自注意力机制对金融公告进行段落特征的提取;步骤3.利用word2vec模型和双向长短期记忆网络对金融公告进行文档特征的提取;步骤4.将经过Fin‑BERT预训练模型得到的段落分类向量送入卷积神经网络,对金融公告中的事件进行分类判断;步骤5.将提取到的段落特征与文档特征融合后,通过双向长短期记忆网络与条件随机场对金融公告中的事件进行事件论元识别抽取。本发明达到了较好的事件抽取性能,具有较高的准确率。

技术研发人员:董泽信,李佳静,李小龙,李盛,孟涛,罗小清
受保护的技术使用者:中国矿业大学(北京)
技术研发日:
技术公布日:2024/9/23

最新回复(0)