一种受限域动态类别文本分类方法与流程

xiaoxiao6天前 12

本发明涉及人工智能，具体涉及一种受限域动态类别文本分类方法。

背景技术：

1、文本分类就是把一段文本分类成我们事先定义好的类别。文本分类当前主要有两种方法：一是基于bert的方法，预先定义好标签类别，基于标签类别标注样本训练最后得到训练模型，此种方法存在的问题是标注周期一般较长，标注代价很高，且在标签数量和名称变化频繁的场景无法使用。二是基于大模型的方法，通过设计prompt，在prompt包含待分类文本和文本类别标签，基于大模型的通用能力输出文本的类别标签。此种方法避免了大量样本的标注及训练，但由于是生成方法，大模型的输出存在幻觉问题，有时会输出与预定义类别无关的标签，有时会输出不可预知内容。

技术实现思路

1、本发明为了克服以上技术的不足，提供了一种规避大模型存在的幻觉问题，提升分类准确率的受限域动态类别文本分类方法。

2、本发明克服其技术问题所采用的技术方案是：

3、一种受限域动态类别文本分类方法，包括：

4、s1.获取文本数据及该文本数据对应的标签类别集c，根据标签类别集c构建大模型token集tc；

5、s2.将大模型token集tc进行预处理，得到最终token集合t；

6、s3.将待处理的文本q构建增强型文本qe；

7、s4.基于增强型文本qe构建大模型分类描述prompt；

8、s5.对大模型进行前向推理，得到前向推理概率矩阵mf*l；

9、s6.通过前向推理概率矩阵mf*l获取每个类别的token概率值集合；

10、s7.根据每个类别的token概率值集合计算概率值，得到标签类别集c的概率值集合p。

11、进一步的，步骤s1包括如下步骤：

12、s1-1.标签类别集c＝{c1,c2,...,ci,...,cm}，其中ci为第i个类别标签，i∈{1,...,m}，m为类别数；

13、s1-2.将第i个类别标签ci按字token进行拆分，得到第i个类别标签ci的token集ci＝{ti1,ti2,...,tij,...,tin}，tij为第i个类别标签ci中的第j个token，j∈{1,...,n}，n为第i个类别ci中token数；

14、s1-3.将所有m个类别的token集进行拼接，得到大模型token集tc。

15、进一步的，步骤s2中去除大模型token集tc中的重复的token，得到最终token集合t，t＝{t1,t2,...,ti,...,tf}，ti为最终token集合t中第i个token，i∈{1,...,f}，f为受限空间的大小。

16、进一步的，步骤s3包括如下步骤：

17、s3-1.将待处理的文本q通过prompt构造文本增强；

18、s3-2.将构造后的文本增强输入到大模型中，提取得到待处理的文本q的关键描述qk；

19、s3-3.将关键描述qk与待处理的文本q进行拼接操作，得到增强型文本qe。上述大模型为qwen模型或glm模型。

20、进一步的，步骤s4中将增强型文本qe与标签类别集c进行拼接操作，得到大模型分类描述prompt。

21、进一步的，步骤s5包括如下步骤：

22、s5-1.计算标签类别集c所有类别的最大长度l作为大模型前向推理的最大次数；s5-2.按最大次数l对大模型进行前向推理，得到前向推理概率矩阵mf*l，前向推理概率矩阵mf*l中每个元素取值在[0,1]之间。

23、进一步的，步骤s6中基于第i个类别标签ci的token集ci＝{ti1,ti2,...,tij,...,tin}及最终token集合t＝{t1,t2,...,ti,...,tf}对前向推理概率矩阵mf*l逐列进行寻址，获取第i个类别标签ci的token概率值集合si，si＝{si1,si2,...,sij,...,sin}，sij为第i个类别标签ci中的第j个token的概率值。

24、进一步的，步骤s7包括如下步骤：

25、s7-1.通过公式pi＝sum(si)/len(si)计算得到第i个类别标签ci的概率值pi，式中sum(si)为对第i个类别标签ci的token概率值集合si中的每个元素求和操作，len(si)为第i个类别标签ci的token概率值集合si中的元素个数；

26、s7-2.所有m个类别的token概率值集合构成标签类别集c的概率值集合p，p＝{p1,p2,...,pi,...,pm}。

27、本发明的有益效果是：通过动态定义的类别标签，构建字符级别的token有限空间域，在大模型输出时输出token有限空间域的token路径，最后计算概率最大的token路径作为最终标签。充分利用大模型的先验知识，避免海量训练样本的标注，同时规避大模型存在的幻觉问题，提升分类准确率。

技术特征：

1.一种受限域动态类别文本分类方法，其特征在于，包括：

2.根据权利要求1所述的受限域动态类别文本分类方法，其特征在于，步骤s1包括如下步骤：

3.根据权利要求2所述的受限域动态类别文本分类方法，其特征在于：步骤s2中去除大模型token集tc中的重复的token，得到最终token集合t，t＝{t1,t2,...,ti,...,tf}，ti为最终token集合t中第i个token，i∈{1,...,f}，f为受限空间的大小。

4.根据权利要求1所述的受限域动态类别文本分类方法，其特征在于，步骤s3包括如下步骤：

5.根据权利要求4所述的受限域动态类别文本分类方法，其特征在于：所述大模型为qwen模型或glm模型。

6.根据权利要求1所述的受限域动态类别文本分类方法，其特征在于：步骤s4中将增强型文本qe与标签类别集c进行拼接操作，得到大模型分类描述prompt。

7.根据权利要求3所述的受限域动态类别文本分类方法，其特征在于，步骤s5包括如下步骤：

8.根据权利要求7所述的受限域动态类别文本分类方法，其特征在于：步骤s6中基于第i个类别标签ci的token集ci＝{ti1,ti2,...,tij,...,tin}及最终token集合t＝{t1,t2,...,ti,...,tf}对前向推理概率矩阵mf*l逐列进行寻址，获取第i个类别标签ci的token概率值集合si，si＝{si1,si2,...,sij,...,sin}，sij为第i个类别标签ci中的第j个token的概率值。

9.根据权利要求8所述的受限域动态类别文本分类方法，其特征在于，步骤s7包括如下步骤：

技术总结
一种受限域动态类别文本分类方法，涉及人工智能技术领域，通过动态定义的类别标签，构建字符级别的token有限空间域，在大模型输出时输出token有限空间域的token路径，最后计算概率最大的token路径作为最终标签。充分利用大模型的先验知识，避免海量训练样本的标注，同时规避大模型存在的幻觉问题，提升分类准确率。

技术研发人员：张传锋,闵万里,朱锦雷,张琨,张鑫
受保护的技术使用者：神思电子技术股份有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)