电销AI意图数据增强的方法以及相关装置与流程

xiaoxiao17天前  12


电销ai意图数据增强的方法以及相关装置
技术领域
1.本技术属于信息处理技术领域,主要涉及了一种电销ai意图数据增强的方法以及相关装置。


背景技术:

2.目前,随着电销场景不断增加,ai在电销业务中的应用占比不断上升,在庞大的外呼量基础上,准确识别客户意图和收集客户答复样本,加强ai交互体验成为当前研究的热点。
3.现有技术中,在电销ai场景中,使用算法模型对样本进行意图标签识别,然而部分意图标签样本量少,会使得模型在训练的过程中,对低频标签样本的学习程度较低,使得低频的意图标签识别效率低。


技术实现要素:

4.本技术的一个目的在于提供了一种电销ai意图数据增强的方法以及相关装置,其优势在于,大幅度提升样本库扩增速度。
5.为实现上述目的,第一方面,本技术实施例提供一种电销ai意图数据增强的方法,其中包括:
6.获取文本数据;
7.对所述文本数据进行标注,生成第一意图文本数据;
8.对所述第一意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库;
9.使用意图模型基于所述第二意图文本数据库进行训练;
10.将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本。
11.可以理解,获取文本数据,对所述文本数据进行标注,生成第一意图文本数据,对所述第一意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库,使用意图模型基于所述第二意图文本数据库进行训练,将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本,提升样本库扩增速度。
12.在一个可能的示例中,所述对所述文本数据进行标注,生成第一意图文本数据,包括以下步骤:
13.优先对表示意图的名词、表示意图近义词的名词、表示意图的动词和表示意图近义词的动词进行标注。
14.可以理解,优先对表示意图的名词、表示意图近义词的名词、表示意图的动词和表示意图近义词的动词进行标注,能够提升标注文本数据的效率。
15.在一个可能的示例中,所述对所述文本数据进行标注,生成第一意图文本数据,包括以下步骤:
16.对所述文本数据按照层次递进关系进行标注;
17.所述层次递进关系包含多层标注,下一层的类别范围小于上一层。
18.可以理解,对所述文本数据按照层次递进关系进行标注,所述层次递进关系包含多层标注,下一层的类别范围小于上一层,能够优化标注文本数据的效率。
19.在一个可能的示例中,所述对所述意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库,包括以下步骤:
20.使用预训练语料对所述第一意图文本数据进行处理,得到调整意图文本数据库,所述预训练语料包括疑问类相似句和通用类相似句;
21.结合人工精校和标注的电销ai语料,对所述调整意图文本数据库进行处理,得到第二意图文本数据库。
22.可以理解,使用预训练语料对所述第一意图文本数据进行处理,得到调整意图文本数据库,所述预训练语料包括疑问类相似句和通用类相似句,结合人工精校和标注的电销ai语料,对所述调整意图文本数据库进行处理,得到第二意图文本数据库,提升了意图文本数据库的构建效率。
23.在一个可能的示例中,所述使用意图模型基于所述意图文本数据库进行训练,包括以下步骤:
24.将预设练习数据与对应预设第二意图文本数据输入到所述意图模型中,进行计算训练;
25.根据所述计算训练的结果,调整所述意图模型的参数;
26.当所述计算训练的结果正确率大于预设数值时,停止训练。
27.可以理解,将预设练习数据与对应预设第二意图文本数据输入到所述意图模型中,进行计算训练,根据所述计算训练的结果,调整所述意图模型的参数,当所述计算训练的结果正确率大于预设数值时,停止训练,能够优化意图模型的训练效率。
28.在一个可能的示例中,所述根据所述计算训练的结果,调整所述意图模型的参数,包括以下步骤:
29.根据训练的结果,调整所述意图模型的泛化指数、高维指数和非线性指数中的至少一项。
30.可以理解,根据训练的结果,调整所述意图模型的泛化指数、高维指数和非线性指数中的至少一项,能够优化意图模型的调整效率。
31.在一个可能的示例中,所述将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本,包括以下步骤:
32.当所述人工质检和所述辅助模型同时寻找到新样本时,使用所述人工质检得到的所述新样本生成待新增样本。
33.可以理解,当所述人工质检和所述辅助模型同时寻找到新样本时,使用所述人工质检得到的所述新样本生成待新增样本,能够提升待新增样本的扩增速度。
34.第二方面,一种电销ai意图数据增强的装置,包括用于执行第一方面或者第一方面任一实施方式提供的方法的模块。
35.第三方面,一种电销ai意图数据增强的设备,包括处理器、存储器以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行第一方面或者第一方面任一实施方式提供的方法的指令。
36.第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现第一方面或者第一方面任一实施方式提供的方法。
37.实施本技术实施例,将具有如下有益效果:
38.获取文本数据,对所述文本数据进行标注,生成第一意图文本数据,对所述第一意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库,使用意图模型基于所述第二意图文本数据库进行训练,将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本,从而大幅度提升样本库扩增速度。
附图说明
39.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。其中:
40.图1为本技术实施例提供的一种电销ai意图数据增强的应用场景图;
41.图2为本技术实施例提供的一种电销ai意图数据增强应用的示意图;
42.图3为本技术实施例提供的一种电销ai意图数据增强过程的示意图;
43.图4为本技术实施例提供的一种电销ai意图数据增强主界面的场景示意图;
44.图5为本技术实施例提供的一种电销ai意图数据增强的流程示意图;
45.图6为本技术实施例提供的一种电销ai意图数据增强装置的结构示意图;
46.图7为本技术实施例提供的一种电销ai意图数据增强设备的结构图。
具体实施方式
47.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
48.本技术中的术语“1”和“2”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
49.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
50.请参见图1,图1为本技术实施例提供的一种电销ai意图数据增强的应用场景图。如图1所示,该应用场景图包括用户101、电子设备102、服务器103。需要说明的是,图1所示的系统中的各个设备的数量、各个设备的形态和用户的数量用于举例,并不构成对本技术实施例的限定,一个用户可以使用多个电子设备。
51.其中,用户101是实际操作电子设备102的用户,以控制电子设备102执行相应的操作。电子设备102可以是图1所示的智能手机,还可以是个人计算机(personal computer,pc)、一体机、掌上电脑、平板电脑(pad)、笔记本电脑、智能电视播放终端和便捷式设备等。pc端的电子设备,例如一体机等,其操作系统可以包括但不限于linux系统、unix系统、windows系列系统(例如windows xp、windows 7等)等操作系统。移动端的电子设备,例如智能手机等,其操作系统可以包括但不限于安卓系统、ios(苹果手机的操作系统)、window系统等操作系统。
52.下面介绍本技术实施例提供的电销ai意图数据增强的方法,该方法可以由电销ai意图数据增强装置执行,该装置可由软件和/或硬件实现,一般可集成在电子设备或服务器中。
53.请参见图2,图2为本技术实施例提供的一种电销ai意图数据增强应用的示意图。第一电子设备201可以安装如图2所示的电销ai意图数据增强应用202,第一电子设备201的使用者为用户,当用户对第一电子设备201中所安装的电销ai意图数据增强应用202执行触发操作(例如,点击电销ai意图数据增强应用202的图标)时,第一电子设备201可以启动所安装的电销ai意图数据增强应用202,并进入电销ai意图数据增强应用202之中,当用户使用完该应用以后,也可以点击首页203回到第一电子设备201的初始界面。
54.请参见图3,图3为本技术实施例提供的一种电销ai意图数据增强过程的示意图。具体而言,第二电子设备301获取文本数据,用户可以在第二电子设备301查看电销ai意图数据增强过程。此时,第二电子设备301的弹框302显示“请稍等,电销ai意图数据增强中”,第二电子设备301的弹框303显示增强图标。
55.请参照图4,图4为本技术实施例提供的一种电销ai意图数据增强主界面的场景示意图。用户通过第三电子设备401查看电销ai意图数据增强主界面405,并显示以下内容:时间402,日期403,待新增样本404。
56.请参照图5,图5为本技术实施例提供的一种电销ai意图数据增强的流程示意图。以该方法用作电销ai意图数据增强过程进行举例说明,该电销ai意图数据增强装置可以包括服务器或电子设备。该方法包括如下步骤s501-s505,其中,
57.s501:获取文本数据。
58.s502:对所述文本数据进行标注,生成第一意图文本数据。
59.在一种可能的示例中,步骤s502包括以下步骤:
60.优先对表示意图的名词、表示意图近义词的名词、表示意图的动词和表示意图近义词的动词进行标注。
61.在一种可能的示例中,步骤s502包括以下步骤a1-a2:
62.a1:对所述文本数据按照层次递进关系进行标注。
63.a2:所述层次递进关系包含多层标注,下一层的类别范围小于上一层。
64.举例而言,意图识别是通过分类的办法将句子分到相应的意图种类,在此过程中,基于客户轨文本,识别会产生大量的标签。举一个例子,小李想听小王的歌,这个意图便是属于音乐意图,小赵听小白的电台便是属于电台意图。做好了意图识别以后,可以使用意图识别来获取与用户的意图最相关的信息。再举个例子,用户小钱在查询“生化某城”时,“生化某城”有游戏、电影和歌曲等,如果通过意图识别发现该用户小钱是想玩“生化某城”的游
戏时,那系统直接将游戏的查询结果返回给用户小钱,就会节省用户的精力,缩短搜索时间,大幅提高用户的体验。
65.s503:对所述第一意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库。
66.举例而言,数据增强是扩充数据样本规模的一种有效地且非常有用的方法。数据的规模越大,并且质量越高越好,模型才能够有着更好的泛化能力。对于不同类型的数据,其数据增强方法有着很大的区别。对于图像类的数据,将其进行简单的旋转或转为灰度,并不会改变其语义,而语义不变的增强方法是计算机视觉领域研究中的一个重要工具。对于文本类数据的扩增,相似句带噪生成是一个有效的方法。具体而言,通过在文本中引入噪声来生成新的文本语料,使得所训练的模型对扰动具有鲁棒性,这是该方法的优点。该方法有多种实行措施,举例而言,拼写错误注入是通过随机将一些单词拼写错误,如“am”转换成“as”,类似于中文的形近字替换;空白噪声则是利用占位符随机替换单词;随机插入则是在文本的句子中随机选择一个非停用词,然后找到其对应的同义词,最后将同义词随机插入文本的句子中(位置不固定);随机交换和随机删除是分别交换两个单词的顺序,和以一定的概率随机删除句子中的单词。
67.在一种可能的示例中,步骤s503包括以下步骤b1-b2:
68.b1:使用预训练语料对所述第一意图文本数据进行处理,得到调整意图文本数据库,所述预训练语料包括疑问类相似句和通用类相似句。
69.举例而言,疑问类相似句是基于“同一个问题的答案是相似的”思想,假如系统有现成的问答语料,该语料对于同一个问题有多个答案,那么系统可以将每个答案分句,然后用一个现成的相似度函数,来比较答案之间的相似度,挑出相似度超过某个阈值的句子对作为相似句对使用。通用类相似句是基于“同一篇章的句子是相似的”思想,它更加简单直接一点,就是将每个篇章分句,然后用一个现成的相似度函数两两计算相似度,挑出相似度超过某个阈值的句对作为相似句对使用,该方案的合理性更弱,所以它的阈值也更高。相似度函数只需要一个规则的和字符级别的相似度即可,语义上的关联,则通过篇章内部的关联以及预训练模型本身的泛化能力来获得。在采集句子时,举例而言,从几个阅读理解数据集中构建了约500万个(伪)相似句对,而问句则达到了约4000万个相似句组(一组可以构成多对)。从这个角度看来,问句的数目是远超于一般句式的,所以在采样时,系统按照1:1的方式进行采样,使得每种句式的样本都均衡。
70.b2:结合人工精校和标注的电销ai语料,对所述调整意图文本数据库进行处理,得到第二意图文本数据库。
71.s504:使用意图模型基于所述第二意图文本数据库进行训练。
72.在一种可能的示例中,步骤s504包括以下步骤c1-c3:
73.c1:将预设练习数据与对应预设第二意图文本数据输入到所述意图模型中,进行计算训练。
74.c2:根据所述计算训练的结果,调整所述意图模型的参数。
75.c3:当所述计算训练的结果正确率大于预设数值时,停止训练。
76.举例而言,当预设数值为98.5%,计算训练的结果正确率为95.5%时,此时95.5%小于98.5%,则继续对所述意图模型进行训练;当预设数值为98.5%,计算训练的结果正确
率为99.1%时,此时99.1%大于98.5%,则停止对所述意图模型进行训练。
77.在一种可能的示例中,步骤c2包括以下步骤:
78.根据训练的结果,调整所述意图模型的泛化指数、高维指数和非线性指数中的至少一项。
79.举例而言,泛化指数表示模型经过训练后,应用到新数据并做出准确预测的能力。一个模型在训练数据上经常被训练得太好即过拟合,会影响泛化能力。调整意图模型的泛化指数可以防止意图模型仅在已知数据集的表现较好,在未知数据集上的表现较差。
80.s505:将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本。
81.在一种可能的示例中,步骤s505包括以下步骤:
82.当所述人工质检和所述辅助模型同时寻找到新样本时,使用所述人工质检得到的所述新样本生成待新增样本。
83.举例而言,当人工质检找到新样本a,辅助模型找到新样本b时,则以人工质检找到的样本a生成待新增样本。
84.请参见图6,图6为本技术实施例提供的一种电销ai意图数据增强装置的结构示意图。基于上述的系统架构,该电销ai意图数据增强装置600可以为服务器,也可以为服务器中的模块。该装置600,至少包括:获取模块601、处理模块602和生成模块603,其中,
85.获取模块601用于文本数据;
86.处理模块602用于使用意图模型基于所述第二意图文本数据库进行训练;将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本;
87.生成模块603用于生成第一意图文本数据;对所述第一意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库。
88.在一个可能的示例中,所述处理模块602优先对表示意图的名词、表示意图近义词的名词、表示意图的动词和表示意图近义词的动词进行标注。
89.在一个可能的示例中,在所述对所述文本数据进行标注,生成第一意图文本数据方面,所述处理模块602对所述文本数据按照层次递进关系进行标注;所述层次递进关系包含多层标注,下一层的类别范围小于上一层。
90.在一个可能的示例中,在所述对所述意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库方面,所述处理模块602使用预训练语料对所述第一意图文本数据进行处理,得到调整意图文本数据库,所述预训练语料包括疑问类相似句和通用类相似句;结合人工精校和标注的电销ai语料,对所述调整意图文本数据库进行处理,得到第二意图文本数据库。
91.在一个可能的示例中,在所述使用意图模型基于所述意图文本数据库进行训练方面,所述处理模块602将预设练习数据与对应预设第二意图文本数据输入到所述意图模型中,进行计算训练;根据所述计算训练的结果,调整所述意图模型的参数;当所述计算训练的结果正确率大于预设数值时,停止训练。
92.在一个可能的示例中,在所述根据所述计算训练的结果,调整所述意图模型的参数方面,所述处理模块602根据训练的结果,调整所述意图模型的泛化指数、高维指数和非线性指数中的至少一项。
unit,简称cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现成可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器还可以采用通用的微处理器、图形处理器(graphics processing unit,gpu)或者一个或多个集成电路,用于执行相关程序,以实现本技术实施例所需执行的功能。
118.处理器701还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本技术的各个步骤可以通过处理器701中硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存和只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成本技术实施例的方法、装置及存储介质包括的单元所需执行的功能。
119.还应理解,本技术实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称rom)、可编程只读存储器(programmable rom,简称prom)、可擦除可编程只读存储器(erasable prom,简称eprom)、电可擦除可编程只读存储器(electrically eprom,简称eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,简称ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,简称sram)、动态随机存取存储器(dynamic ram,简称dram)、同步动态随机存取存储器(synchronous dram,简称sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,简称ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,简称esdram)、同步连接动态随机存取存储器(synchlink dram,简称sldram)和直接内存总线随机存取存储器(direct rambus ram,简称dr ram)。该存储器还可以是只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在的,通过总线与处理器相连接。存储器也可以和处理器集成在一起,存储器可以存储程序,当存储器中存储的程序被处理器执行时,处理器用于执行本技术上述实施例中的各个步骤。
120.需要说明的是,当处理器为通用处理器、dsp、asic、fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
121.应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
122.在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器
执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤,为避免重复,这里不再详细描述。
123.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block,简称ilb)和步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
124.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机编程的程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在处理器上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输,也可以从一个网站站点、计算机、服务器或数据中心通过有线方式向手机处理器进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘)等。
125.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。

技术特征:
1.一种电销ai意图数据增强的方法,其特征在于,包括以下步骤:获取文本数据;对所述文本数据进行标注,生成第一意图文本数据;对所述第一意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库;使用意图模型基于所述第二意图文本数据库进行训练;将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行标注,生成第一意图文本数据,包括以下步骤:优先对表示意图的名词、表示意图近义词的名词、表示意图的动词和表示意图近义词的动词进行标注。3.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行标注,生成第一意图文本数据,包括以下步骤:对所述文本数据按照层次递进关系进行标注;所述层次递进关系包含多层标注,下一层的类别范围小于上一层。4.根据权利要求1所述的方法,其特征在于,所述对所述意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库,包括以下步骤:使用预训练语料对所述第一意图文本数据进行处理,得到调整意图文本数据库,所述预训练语料包括疑问类相似句和通用类相似句;结合人工精校和标注的电销ai语料,对所述调整意图文本数据库进行处理,得到第二意图文本数据库。5.根据权利要求1所述的方法,其特征在于,所述使用意图模型基于所述意图文本数据库进行训练,包括以下步骤:将预设练习数据与对应预设第二意图文本数据输入到所述意图模型中,进行计算训练;根据所述计算训练的结果,调整所述意图模型的参数;当所述计算训练的结果正确率大于预设数值时,停止训练。6.根据权利要求5所述的方法,其特征在于,所述根据所述计算训练的结果,调整所述意图模型的参数,包括以下步骤:根据训练的结果,调整所述意图模型的泛化指数、高维指数和非线性指数中的至少一项。7.根据权利要求1所述的方法,其特征在于,所述将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本,包括以下步骤:当所述人工质检和所述辅助模型同时寻找到新样本时,使用所述人工质检得到的所述新样本生成待新增样本。8.一种电销ai意图数据增强的装置,其特征在于,用于执行如权利要求1-7中任一项所述的方法。9.一种电销ai意图数据增强的设备,其特征在于,包括处理器、存储器以及一个或至少一个程序,其中,所述一个或至少一个程序被存储在所述存储器中,并且被配置由所述处理
器执行,所述程序包括用于执行如权利要求1-7中任一项所述方法的指令。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序使得计算机执行以实现如权利要求1-7中任一项所述的方法。

技术总结
本申请实施例公开了一种电销AI意图数据增强的方法以及相关装置。所述方法包括以下步骤:获取文本数据;对所述文本数据进行标注,生成第一意图文本数据;对所述第一意图文本数据进行相似句带噪生成,得到第二意图文本数据和第二意图文本数据库;使用意图模型基于所述第二意图文本数据库进行训练;将所述意图模型投产,经由人工质检或搭载辅助模型进行辅助寻找待新增样本。采用本申请,大幅度提升样本库扩增速度。增速度。增速度。


技术研发人员:魏志辉 张云云 何剑涛 周倚文 邓文强 纳颖泉
受保护的技术使用者:招联消费金融有限公司
技术研发日:2022.09.28
技术公布日:2023/1/6

最新回复(0)