一种受限域动态类别文本分类方法与流程

xiaoxiao6天前  12

本发明涉及人工智能,具体涉及一种受限域动态类别文本分类方法。


背景技术:

1、文本分类就是把一段文本分类成我们事先定义好的类别。文本分类当前主要有两种方法:一是基于bert的方法,预先定义好标签类别,基于标签类别标注样本训练最后得到训练模型,此种方法存在的问题是标注周期一般较长,标注代价很高,且在标签数量和名称变化频繁的场景无法使用。二是基于大模型的方法,通过设计prompt,在prompt包含待分类文本和文本类别标签,基于大模型的通用能力输出文本的类别标签。此种方法避免了大量样本的标注及训练,但由于是生成方法,大模型的输出存在幻觉问题,有时会输出与预定义类别无关的标签,有时会输出不可预知内容。


技术实现思路

1、本发明为了克服以上技术的不足,提供了一种规避大模型存在的幻觉问题,提升分类准确率的受限域动态类别文本分类方法。

2、本发明克服其技术问题所采用的技术方案是:

3、一种受限域动态类别文本分类方法,包括:

4、s1.获取文本数据及该文本数据对应的标签类别集c,根据标签类别集c构建大模型token集tc;

5、s2.将大模型token集tc进行预处理,得到最终token集合t;

6、s3.将待处理的文本q构建增强型文本qe;

7、s4.基于增强型文本qe构建大模型分类描述prompt;

8、s5.对大模型进行前向推理,得到前向推理概率矩阵mf*l;

9、s6.通过前向推理概率矩阵mf*l获取每个类别的token概率值集合;

10、s7.根据每个类别的token概率值集合计算概率值,得到标签类别集c的概率值集合p。

11、进一步的,步骤s1包括如下步骤:

12、s1-1.标签类别集c={c1,c2,...,ci,...,cm},其中ci为第i个类别标签,i∈{1,...,m},m为类别数;

13、s1-2.将第i个类别标签ci按字token进行拆分,得到第i个类别标签ci的token集ci={ti1,ti2,...,tij,...,tin},tij为第i个类别标签ci中的第j个token,j∈{1,...,n},n为第i个类别ci中token数;

14、s1-3.将所有m个类别的token集进行拼接,得到大模型token集tc。

15、进一步的,步骤s2中去除大模型token集tc中的重复的token,得到最终token集合t,t={t1,t2,...,ti,...,tf},ti为最终token集合t中第i个token,i∈{1,...,f},f为受限空间的大小。

16、进一步的,步骤s3包括如下步骤:

17、s3-1.将待处理的文本q通过prompt构造文本增强;

18、s3-2.将构造后的文本增强输入到大模型中,提取得到待处理的文本q的关键描述qk;

19、s3-3.将关键描述qk与待处理的文本q进行拼接操作,得到增强型文本qe。上述大模型为qwen模型或glm模型。

20、进一步的,步骤s4中将增强型文本qe与标签类别集c进行拼接操作,得到大模型分类描述prompt。

21、进一步的,步骤s5包括如下步骤:

22、s5-1.计算标签类别集c所有类别的最大长度l作为大模型前向推理的最大次数;s5-2.按最大次数l对大模型进行前向推理,得到前向推理概率矩阵mf*l,前向推理概率矩阵mf*l中每个元素取值在[0,1]之间。

23、进一步的,步骤s6中基于第i个类别标签ci的token集ci={ti1,ti2,...,tij,...,tin}及最终token集合t={t1,t2,...,ti,...,tf}对前向推理概率矩阵mf*l逐列进行寻址,获取第i个类别标签ci的token概率值集合si,si={si1,si2,...,sij,...,sin},sij为第i个类别标签ci中的第j个token的概率值。

24、进一步的,步骤s7包括如下步骤:

25、s7-1.通过公式pi=sum(si)/len(si)计算得到第i个类别标签ci的概率值pi,式中sum(si)为对第i个类别标签ci的token概率值集合si中的每个元素求和操作,len(si)为第i个类别标签ci的token概率值集合si中的元素个数;

26、s7-2.所有m个类别的token概率值集合构成标签类别集c的概率值集合p,p={p1,p2,...,pi,...,pm}。

27、本发明的有益效果是:通过动态定义的类别标签,构建字符级别的token有限空间域,在大模型输出时输出token有限空间域的token路径,最后计算概率最大的token路径作为最终标签。充分利用大模型的先验知识,避免海量训练样本的标注,同时规避大模型存在的幻觉问题,提升分类准确率。



技术特征:

1.一种受限域动态类别文本分类方法,其特征在于,包括:

2.根据权利要求1所述的受限域动态类别文本分类方法,其特征在于,步骤s1包括如下步骤:

3.根据权利要求2所述的受限域动态类别文本分类方法,其特征在于:步骤s2中去除大模型token集tc中的重复的token,得到最终token集合t,t={t1,t2,...,ti,...,tf},ti为最终token集合t中第i个token,i∈{1,...,f},f为受限空间的大小。

4.根据权利要求1所述的受限域动态类别文本分类方法,其特征在于,步骤s3包括如下步骤:

5.根据权利要求4所述的受限域动态类别文本分类方法,其特征在于:所述大模型为qwen模型或glm模型。

6.根据权利要求1所述的受限域动态类别文本分类方法,其特征在于:步骤s4中将增强型文本qe与标签类别集c进行拼接操作,得到大模型分类描述prompt。

7.根据权利要求3所述的受限域动态类别文本分类方法,其特征在于,步骤s5包括如下步骤:

8.根据权利要求7所述的受限域动态类别文本分类方法,其特征在于:步骤s6中基于第i个类别标签ci的token集ci={ti1,ti2,...,tij,...,tin}及最终token集合t={t1,t2,...,ti,...,tf}对前向推理概率矩阵mf*l逐列进行寻址,获取第i个类别标签ci的token概率值集合si,si={si1,si2,...,sij,...,sin},sij为第i个类别标签ci中的第j个token的概率值。

9.根据权利要求8所述的受限域动态类别文本分类方法,其特征在于,步骤s7包括如下步骤:


技术总结
一种受限域动态类别文本分类方法,涉及人工智能技术领域,通过动态定义的类别标签,构建字符级别的token有限空间域,在大模型输出时输出token有限空间域的token路径,最后计算概率最大的token路径作为最终标签。充分利用大模型的先验知识,避免海量训练样本的标注,同时规避大模型存在的幻觉问题,提升分类准确率。

技术研发人员:张传锋,闵万里,朱锦雷,张琨,张鑫
受保护的技术使用者:神思电子技术股份有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)