本申请涉及人工智能领域,尤其涉及一种长文本序列的处理方法、装置、计算机设备及存储介质。
背景技术:
1、自注意力模型(例如bert模型)能够有效地对文本进行分析,然而,由于自注意力模型通常需要针对序列中的每一个位置分别计算注意力得分,导致自注意力模型的计算量较大,尤其是在处理较长的文本序列的情况下,需要进行大量的计算,并且难以捕捉到长距离的依赖关系。因此,现有技术中亟需一种能够降低计算量的长文本处理方法。
技术实现思路
1、本申请的主要目的在于提供一种长文本序列的处理方法、装置、设备及计算机存储介质,旨在减小自注意力模型在进行长文本处理时的计算量。
2、第一方面,本申请提供一种长文本序列的处理方法,所述长文本序列的处理方法包括以下步骤:
3、获取待执行编码操作的长文本序列,并对所述长文本序列进行分割,得到至少一段子文本序列;
4、基于预设的自注意力模型,确定目标子文本序列中各个目标位置的段内注意力,以及所述目标子文本序列的子文本特征;
5、基于所述自注意力模型,根据所述子文本特征,计算所述目标位置与各候选子文本序列之间的段间注意力,其中,所述候选子文本序列为除所述目标子文本序列之外的所述子文本序列;
6、对所述段内注意力和所述段间注意力进行拼接,得到所述目标子文本序列中所述目标位置的目标注意力。
7、第二方面,本申请还提供一种长文本序列的处理装置,所述长文本序列的处理装置包括:
8、序列分割模块,用于获取待执行编码操作的长文本序列,并对所述长文本序列进行分割,得到至少一段子文本序列;
9、段内注意力确定模块,用于基于预设的自注意力模型,确定目标子文本序列中各个目标位置的段内注意力,以及所述目标子文本序列的子文本特征;
10、段间注意力确定模块,用于基于所述自注意力模型,根据所述子文本特征,计算所述目标位置与各候选子文本序列之间的段间注意力,其中,所述候选子文本序列为除所述目标子文本序列之外的子文本序列;
11、注意力拼接模块,用于对所述段内注意力和所述段间注意力进行拼接,得到所述目标子文本序列中的目标位置的目标注意力。
12、第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的长文本序列的处理方法。
13、第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的长文本序列的处理方法。
14、本申请提供一种长文本序列的处理方法、装置、设备及计算机存储介质,本申请通过获取待执行编码操作的长文本序列,并对所述长文本序列进行分割,得到至少一段子文本序列;基于预设的自注意力模型,确定目标子文本序列中各个目标位置的段内注意力,以及所述目标子文本序列的子文本特征;基于所述自注意力模型,根据所述子文本特征,计算所述目标位置与各候选子文本序列之间的段间注意力,其中,所述候选子文本序列为除所述目标子文本序列之外的所述子文本序列;对所述段内注意力和所述段间注意力进行拼接,得到所述目标子文本序列中所述目标位置的目标注意力。由于将长文本序列分割为多个子文本序列并分别计算子文本序列的段内注意力和段间注意力,减小了自注意力模型在进行长文本处理时的计算量,提高了自注意力模型的长文本处理效率。
1.一种长文本序列的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的长文本序列的处理方法,其特征在于,所述基于预设的自注意力模型,确定目标子文本序列中各个目标位置的段内注意力,以及所述目标子文本序列的子文本特征,包括:
3.根据权利要求2所述的长文本序列的处理方法,其特征在于,所述计算所述目标子文本序列中所述目标位置与所述目标子文本序列中各个候选位置之间的注意力得分,包括:
4.根据权利要求1所述的长文本序列的处理方法,其特征在于,所述基于预设的自注意力模型,确定目标子文本序列中各个目标位置的段内注意力,以及所述目标子文本序列的子文本特征,包括:
5.根据权利要求1所述的长文本序列的处理方法,其特征在于,所述基于所述自注意力模型,根据所述子文本特征,计算所述目标位置与各候选子文本序列之间的段间注意力,包括:
6.根据权利要求5所述的长文本序列的处理方法,其特征在于,所述基于所述自注意力模型,计算所述目标子文本序列中所述目标位置与所述候选子文本序列之间的注意力得分,包括:
7.根据权利要求1-6任一项所述的长文本序列的处理方法,其特征在于,所述获取待执行编码操作的长文本序列,并对所述长文本序列进行分割,得到至少一段子文本序列,包括:
8.一种长文本序列的处理装置,其特征在于,所述长文本序列的处理装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的长文本序列的处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的长文本序列的处理方法的步骤。
