本发明涉及人工智能,具体涉及一种受限域动态类别文本分类方法。
背景技术:
1、文本分类就是把一段文本分类成我们事先定义好的类别。文本分类当前主要有两种方法:一是基于bert的方法,预先定义好标签类别,基于标签类别标注样本训练最后得到训练模型,此种方法存在的问题是标注周期一般较长,标注代价很高,且在标签数量和名称变化频繁的场景无法使用。二是基于大模型的方法,通过设计prompt,在prompt包含待分类文本和文本类别标签,基于大模型的通用能力输出文本的类别标签。此种方法避免了大量样本的标注及训练,但由于是生成方法,大模型的输出存在幻觉问题,有时会输出与预定义类别无关的标签,有时会输出不可预知内容。
技术实现思路
1、本发明为了克服以上技术的不足,提供了一种规避大模型存在的幻觉问题,提升分类准确率的受限域动态类别文本分类方法。
2、本发明克服其技术问题所采用的技术方案是:
3、一种受限域动态类别文本分类方法,包括:
4、s1.获取文本数据及该文本数据对应的标签类别集c,根据标签类别集c构建大模型token集tc;
5、s2.将大模型token集tc进行预处理,得到最终token集合t;
6、s3.将待处理的文本q构建增强型文本qe;
7、s4.基于增强型文本qe构建大模型分类描述prompt;
8、s5.对大模型进行前向推理,得到前向推理概率矩阵mf*l;
9、s6.通过前向推理概率矩阵mf*l获取每个类别的token概率值集合;
10、s7.根据每个类别的token概率值集合计算概率值,得到标签类别集c的概率值集合p。
11、进一步的,步骤s1包括如下步骤:
12、s1-1.标签类别集c={c1,c2,...,ci,...,cm},其中ci为第i个类别标签,i∈{1,...,m},m为类别数;
13、s1-2.将第i个类别标签ci按字token进行拆分,得到第i个类别标签ci的token集ci={ti1,ti2,...,tij,...,tin},tij为第i个类别标签ci中的第j个token,j∈{1,...,n},n为第i个类别ci中token数;
14、s1-3.将所有m个类别的token集进行拼接,得到大模型token集tc。
15、进一步的,步骤s2中去除大模型token集tc中的重复的token,得到最终token集合t,t={t1,t2,...,ti,...,tf},ti为最终token集合t中第i个token,i∈{1,...,f},f为受限空间的大小。
16、进一步的,步骤s3包括如下步骤:
17、s3-1.将待处理的文本q通过prompt构造文本增强;
18、s3-2.将构造后的文本增强输入到大模型中,提取得到待处理的文本q的关键描述qk;
19、s3-3.将关键描述qk与待处理的文本q进行拼接操作,得到增强型文本qe。上述大模型为qwen模型或glm模型。
20、进一步的,步骤s4中将增强型文本qe与标签类别集c进行拼接操作,得到大模型分类描述prompt。
21、进一步的,步骤s5包括如下步骤:
22、s5-1.计算标签类别集c所有类别的最大长度l作为大模型前向推理的最大次数;s5-2.按最大次数l对大模型进行前向推理,得到前向推理概率矩阵mf*l,前向推理概率矩阵mf*l中每个元素取值在[0,1]之间。
23、进一步的,步骤s6中基于第i个类别标签ci的token集ci={ti1,ti2,...,tij,...,tin}及最终token集合t={t1,t2,...,ti,...,tf}对前向推理概率矩阵mf*l逐列进行寻址,获取第i个类别标签ci的token概率值集合si,si={si1,si2,...,sij,...,sin},sij为第i个类别标签ci中的第j个token的概率值。
24、进一步的,步骤s7包括如下步骤:
25、s7-1.通过公式pi=sum(si)/len(si)计算得到第i个类别标签ci的概率值pi,式中sum(si)为对第i个类别标签ci的token概率值集合si中的每个元素求和操作,len(si)为第i个类别标签ci的token概率值集合si中的元素个数;
26、s7-2.所有m个类别的token概率值集合构成标签类别集c的概率值集合p,p={p1,p2,...,pi,...,pm}。
27、本发明的有益效果是:通过动态定义的类别标签,构建字符级别的token有限空间域,在大模型输出时输出token有限空间域的token路径,最后计算概率最大的token路径作为最终标签。充分利用大模型的先验知识,避免海量训练样本的标注,同时规避大模型存在的幻觉问题,提升分类准确率。
1.一种受限域动态类别文本分类方法,其特征在于,包括:
2.根据权利要求1所述的受限域动态类别文本分类方法,其特征在于,步骤s1包括如下步骤:
3.根据权利要求2所述的受限域动态类别文本分类方法,其特征在于:步骤s2中去除大模型token集tc中的重复的token,得到最终token集合t,t={t1,t2,...,ti,...,tf},ti为最终token集合t中第i个token,i∈{1,...,f},f为受限空间的大小。
4.根据权利要求1所述的受限域动态类别文本分类方法,其特征在于,步骤s3包括如下步骤:
5.根据权利要求4所述的受限域动态类别文本分类方法,其特征在于:所述大模型为qwen模型或glm模型。
6.根据权利要求1所述的受限域动态类别文本分类方法,其特征在于:步骤s4中将增强型文本qe与标签类别集c进行拼接操作,得到大模型分类描述prompt。
7.根据权利要求3所述的受限域动态类别文本分类方法,其特征在于,步骤s5包括如下步骤:
8.根据权利要求7所述的受限域动态类别文本分类方法,其特征在于:步骤s6中基于第i个类别标签ci的token集ci={ti1,ti2,...,tij,...,tin}及最终token集合t={t1,t2,...,ti,...,tf}对前向推理概率矩阵mf*l逐列进行寻址,获取第i个类别标签ci的token概率值集合si,si={si1,si2,...,sij,...,sin},sij为第i个类别标签ci中的第j个token的概率值。
9.根据权利要求8所述的受限域动态类别文本分类方法,其特征在于,步骤s7包括如下步骤:
