所属的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一发明构思,本技术实施例中还提供了一种电子设备。参阅图14所示,其为应用本技术实施例的一种电子设备的硬件组成结构示意图,在一种实施例中,该电子设备可以是图1所示的处理设备120。在该实施例中,电子设备的结构可以如图14所示,包括第一存储器1401,通讯模块1403以及一个或多个第一处理器1402。第一存储器1401,用于存储第一处理器1402执行的计算机程序。第一存储器1401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。第一存储器1401可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);第一存储器1401也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);或者第一存储器1401是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。第一存储器1401可以是上述存储器的组合。第一处理器1402,可以包括一个或多个中央处理单元(central processingunit, cpu)或者为数字处理单元等等。第一处理器1402,用于调用第一存储器1401中存储的计算机程序时实现上述训练样本的构建方法。通讯模块1403用于与客户端设备和其他处理设备进行通信。本技术实施例中不限定上述第一存储器1401、通讯模块1403和第一处理器1402之间的具体连接介质。本技术实施例在图14中以第一存储器1401和第一处理器1402之间通过总线1404连接,总线1404在图14中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1404可以分为地址总线、数据总线、控制总线等。为便于描述,图14中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。第一存储器1401中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本技术实施例的训练样本的构建方法。第一处理器1402用于执行上述的训练样本的构建方法,如图2和8所示。在另一种实施例中,电子设备也可以是其他电子设备,参阅图15所示,其为应用本技术实施例的另一种电子设备的硬件组成结构示意图,该电子设备具体可以是图1所示的客户端设备110。在该实施例中,电子设备的结构可以如图15所示,包括:通信组件1510、第二存储器1520、显示单元1530、摄像头1540、传感器1550、音频电路1560、蓝牙模块1570、第二处理器1580等部件。通信组件1510用于与处理设备进行通信。在一些实施例中,可以包括电路无线保真(wireless fidelity,wifi)模块,wifi模块属于短距离无线传输技术,电子设备通过wifi模块可以帮助用户收发信息。第二存储器1520可用于存储软件程序及数据。第二处理器1580通过运行存储在第二存储器1520的软件程序或数据,从而执行客户端设备110的各种功能以及数据处理。本技术中第二存储器1520可以存储操作系统及各种应用程序,还可以存储执行本技术实施例训练样本的构建方法相关的计算机程序。显示单元1530还可用于显示由用户输入的信息或提供给用户的信息以及客户端设备110的各种菜单的图形用户界面(graphical user interface,gui)。具体地,显示单元1530可以包括设置在客户端设备110正面的显示屏1532。显示单元1530可以用于显示本技术实施例中评论文本的输入页面等。显示单元1530还可用于接收输入的数字或字符信息,产生与客户端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元1530可以包括设置在客户端设备110正面的触摸屏1531,可收集用户在其上或附近的触摸操作。其中,触摸屏1531可以覆盖在显示屏1532之上,也可以将触摸屏1531与显示屏1532集成而实现客户端设备110的输入和输出功能,集成后可以简称触摸显示屏。本技术中显示单元1530可以显示应用程序以及对应的操作步骤。摄像头1540可用于捕获静态图像,用户可以将摄像头1540拍摄的图像通过应用发布评论。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给第二处理器1580转换成数字图像信号。客户端设备还可以包括至少一种传感器1550,比如加速度传感器1551、距离传感器1552、指纹传感器1553、温度传感器1554。客户端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。音频电路1560、扬声器1561、传声器1562可提供用户与客户端设备110之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出。另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出至通信组件1510以发送给比如另一客户端设备110,或者将音频数据输出至第二存储器1520以便进一步处理。蓝牙模块1570用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。第二处理器1580是客户端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在第二存储器1520内的软件程序,以及调用存储在第二存储器1520内的数据,执行客户端设备的各种功能和处理数据。在一些实施例中,第二处理器1580可包括至少一个处理单元;第二处理器1580还可以集成应用处理器和基带处理器。本技术中第二处理器1580可以运行操作系统、应用程序、用户界面显示及触控响应,以及本技术实施例的训练样本的构建相关的处理。另外,第二处理器1580与显示单元1530耦接。在一些可能的实施方式中,本技术提供的训练样本的构建方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本技术各种示例性实施方式的训练样本的构建方法中的步骤,例如,电子设备可以执行如图2和8中所示的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。本技术的实施方式的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括计算机程序,并可以在电子设备上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的计算机程序,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。此外,尽管在附图中以特定顺序描述了本技术方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
背景技术:
1、现有技术下,通常依据相关对象在指定业务场景下的对象评论文本,识别确定对应的内容标签,使得依据得到的内容标签,能够分析相关对象在指定业务场景下的使用体验。
2、目前,在分析对象评论文本得到内容标签的过程中,通常依据构建的各训练样本,训练得到文本分类模型,使得依据文本分类模型,能够实现在指定标签范围下的标签分类,其中,一条训练样本中包括:一个样本评论文本以及对应的样本标签。
3、然而,在采用上述方式实现内容标签的分类时,需要耗费大量的时间成本和标注成本,人工标注得到各训练样本,而且,由于标注的样本标签依赖于相关标注人员的主观判断,故无法保障训练样本的标注效果。
技术实现思路
1、本技术实施例提供一种训练样本的生成方法、装置、电子设备及存储介质,用以高效地生成合适的训练样本。
2、第一方面,提出一种训练样本的生成方法,包括:
3、针对目标业务,获取标注有内容标签的各参考评论文本,以及获取未标注的各候选评论文本;
4、分别将所述各参考评论文本,与针对所述目标业务确定的基础提示内容相结合,生成相应的基础提示文本,并调用第一语言模型,分别输出各基础提示文本对应的预测标签,以及基于各预测标签及对应的内容标签,获得所述第一语言模型在所述目标业务下的评估结果;
5、在所述评估结果未满足达标条件时,将预设的各逻辑引导文本分别添加至所述基础提示内容中,生成相应的候选提示内容,并在各候选提示内容中,选取使所述第一语言模型的评估结果达到所述达标条件的目标提示内容;
6、分别将各候选评论文本,与所述目标提示内容相结合,生成相应的样本提示文本,并调用所述第一语言模型,分别输出各样本提示文本对应的样本标签,以及基于所述各样本提示文本及对应的样本标签,构建训练样本集。
7、第二方面,提出一种训练样本的生成装置,包括:
8、获取单元,用于针对目标业务,获取标注有内容标签的各参考评论文本,以及获取未标注的各候选评论文本;
9、生成单元,用于分别将所述各参考评论文本,与针对所述目标业务确定的基础提示内容相结合,生成相应的基础提示文本,并调用第一语言模型,分别输出各基础提示文本对应的预测标签,以及基于各预测标签及对应的内容标签,获得所述第一语言模型在所述目标业务下的评估结果;
10、选取单元,用于在所述评估结果未满足达标条件时,将预设的各逻辑引导文本分别添加至所述基础提示内容中,生成相应的候选提示内容,并在各候选提示内容中,选取使所述第一语言模型的评估结果达到所述达标条件的目标提示内容;
11、构建单元,用于分别将各候选评论文本,与所述目标提示内容相结合,生成相应的样本提示文本,并调用所述第一语言模型,分别输出各样本提示文本对应的样本标签,以及基于所述各样本提示文本及对应的样本标签,构建训练样本集。
12、可选的,所述获取未标注的各候选评论文本时,所述获取单元用于:
13、获取未标注的各原始评论文本;
14、根据每两个原始评论文本之间的相似度,聚类满足相似条件的原始评论文本,得到各原始评论文本组,并分别在所述各原始评论文本组中随机选取一个原始评论文本,作为候选评论文本。
15、可选的,所述分别输出各样本提示文本对应的样本标签之后,所述基于所述各样本提示文本及对应的样本标签,构建训练样本集之前,所述获取单元还用于:
16、针对每个候选评论文本,分别执行以下操作:
17、确定归属的原始评论文本组中,存在除一个候选评论文本外的各其他原始评论文本时,分别将所述各其他原始评论文本,与所述目标提示内容相结合,生成相应的样本提示文本,并将对应所述一个候选评论文本确定的样本标签,分别作为对应所述原始评论文本组生成的各样本提示文本的样本标签。
18、可选的,所述获取未标注的各候选评论文本时,所述获取单元用于:
19、获取未标注的各初始评论文本,并获取各关键词及关联的词语同义关系;一个关键词关联的词语同义关系用于指示所述一个关键词对应的同义词;
20、采用以同义词替换对应的关键词的方式,分别对包含关键词的初始评论文本进行调整,得到处理后的各扩展评论文本;
21、将所述各初始评论文本和所述各扩展评论文本,确定为各候选评论文本。
22、可选的,所述采用以同义词替换对应的关键词的方式,分别对包含关键词的初始评论文本进行调整,得到处理后的各扩展评论文本时,所述获取单元用于:
23、针对每条初始评论文本,分别执行以下操作:
24、依据所述各关键词,在一条初始评论文本中进行命中检测;
25、在依据检测结果确定命中目标关键词时,依据所述目标关键词关联的同义关系,获得对应的各同义关键词,以及分别将所述各同义关键词,替换所述一条初始评论文本中的所述目标关键词,得到各扩展评论文本。
26、可选的,所述分别将所述各同义关键词,替换所述一条初始评论文本中的所述目标关键词,得到各扩展评论文本时,所述获取单元用于:
27、分别将所述各同义关键词,替换所述一条初始评论文本中的所述目标关键词,得到各待定评论文本;
28、分别计算所述各待定评论文本与所述一条初始评论文本之间的文本相似度,并将文本相似度满足筛选条件的待定评论文本,确定为扩展评论文本。
29、可选的,所述在各候选提示内容中,选取使所述第一语言模型的评估结果达到所述达标条件的目标提示内容时,所述选取单元用于:
30、针对每个候选提示内容,分别执行以下操作:分别将所述各参考评论文本,与一个候选提示内容相结合,生成相应的候选提示文本,并调用第一语言模型,分别输出各候选提示文本对应的预测标签,以及基于各预测标签及对应的内容标签,获得所述第一语言模型在所述目标业务下的评估结果;
31、在各评估结果中,选定达到所述达标条件的目标评估结果,并将所述目标评估结果对应的候选提示内容,确定为目标提示内容。
32、可选的,所述基于所述各样本提示文本及对应的样本标签,构建训练样本集时,所述构建单元用于:
33、针对每个样本提示文本,分别执行以下操作:确定一个样本提示文本对应的样本标签,并依据预设的标签同义关系,获得包含所述样本标签的各同义标签,以及分别将所述各同义标签与所述一个样本提示文本相组合,得到各训练样本;所述标签同义关系用于指示与一个标签语义相同的其他标签;
34、将得到的各训练样本,组合得到训练样本集。
35、可选的,所述基于各预测标签及对应的内容标签,获得所述第一语言模型在所述目标业务下的评估结果时,所述生成单元用于:
36、基于各预测标签及对应的内容标签,计算所述第一语言模型对应的准确率,以及计算所述第一语言模型在所述目标业务的各类内容标签下的召回率;将基于各召回率确定的召回率均值,以及所述准确率,确定为所述第一语言模型在所述目标业务下的评估结果。
37、可选的,所述构建训练样本集之后,所述装置还包括训练单元,所述训练单元用于:
38、获取对应各目标业务分别构建的训练样本集;
39、将对应前缀调优结构的初始前缀网络,添加至第二语言模型中,得到初始标签识别模型;所述第一语言模型的参数量级远高于所述第二语言模型;
40、采用各训练样本集,对所述初始标签识别模型中的所述初始前缀网络进行多轮迭代训练,得到由训练后的目标前缀网络和所述第二语言模型构成的目标标签识别模型。
41、可选的,得到由训练后的目标前缀网络和所述第二语言模型构成的目标标签识别模型之后,所述装置还包括执行单元,所述执行单元用于:
42、获取对应各目标业务分别采集的待处理评论文本;
43、针对每个待处理评论文本,分别执行以下操作:按照与归属的目标业务所对应的标签范围,对匹配的目标提示内容进行调整后,将一个待处理文本与调整后的目标提示内容相结合,生成相应的待处理提示文本,并采用所述目标标签识别模型,针对所述待处理提示文本,输出对应的内容标签。
44、可选的,针对每个待处理评论文本,分别输出对应的内容标签之后,所述执行单元还用于:
45、将各待处理评论文本按照针对的被评论对象进行聚类,得到各被评论对象各自对应的待处理评论集;
46、针对每个待处理评论集,分别执行以下操作:根据一个待处理评论集中各待处理评论文本各自对应的内容标签,聚类对应相同内容标签的不同待处理评论文本,得到各内容标签各自对应的待处理评论组及评论数量统计结果。
47、可选的,针对每个待处理评论文本,分别输出对应的内容标签之后,所述执行单元还用于:
48、将各待处理评论文本按照针对的内容标签进行聚类,得到各内容标签各自对应的同类评论集;
49、在所述各内容标签中,分析确定表达消极情感的目标内容标签,并依据所述目标内容标签对应的同类评论集,生成针对相应的目标业务的改进提示信息。
50、第三方面,提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
51、第四方面,提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
52、第五方面,提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法。
53、本技术有益效果如下:
54、本技术实施例中,提出一种训练样本的生成方法、装置、电子设备及存储介质,并公开了针对目标业务,获取标注有内容标签的各参考评论文本,以及获取未标注的各候选评论文本;再分别将所述各参考评论文本,与针对所述目标业务确定的基础提示内容相结合,生成相应的基础提示文本,并调用第一语言模型,分别输出各基础提示文本对应的预测标签,以及基于各预测标签及对应的内容标签,获得所述第一语言模型在所述目标业务下的评估结果;这使得借助于获得的评估结果,能够评估第一语言模型在基础提示内容的提示引导下,对于目标业务的评论推理效果,从而能够评估基础提示内容对于目标业务的可用性和适配性;
55、进而,在确定基础提示内容无法在第一语言模型对于目标业务的评论推理过程中,起到满足需求的引导作用时,可以通过在基础提示内容中添加逻辑引导文本,实现对基础提示内容的调整,得到各候选提示内容;再通过在各候选提示内容中,选取使所述第一语言模型的评估结果达到所述达标条件的目标提示内容,能够筛选出符合第一语言模型在目标业务下的处理需要的目标提示内容,使得得到的目标提示内容适配第一语言模型在目标业务下的处理;
56、之后,分别将各候选评论文本,与所述目标提示内容相结合,生成相应的样本提示文本,并调用所述第一语言模型,分别输出各样本提示文本对应的样本标签,以及基于所述各样本提示文本及对应的样本标签,构建训练样本集;这使得在依据第一语言模型进行标签识别时,能够依据有效的目标提示内容对需要处理的候选评论文本进行整理,提高了模型识别结果的准确性,并为第一语言模型的标签识别效果提供了极大的保障,从而一方面能够实现训练样本的快速构建,另一方面,能够保障训练样本的生成质量。
1.一种训练样本的生成方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述获取未标注的各候选评论文本,包括:
3.如权利要求2所述的方法,其特征在于,所述分别输出各样本提示文本对应的样本标签之后,所述基于所述各样本提示文本及对应的样本标签,构建训练样本集之前,还包括:
4.如权利要求1所述的方法,其特征在于,所述获取未标注的各候选评论文本,包括:
5.如权利要求4所述的方法,其特征在于,所述采用以同义词替换对应的关键词的方式,分别对包含关键词的初始评论文本进行调整,得到处理后的各扩展评论文本,包括:
6.如权利要求5所述的方法,其特征在于,所述分别将所述各同义关键词,替换所述一条初始评论文本中的所述目标关键词,得到各扩展评论文本,包括:
7.如权利要求1所述的方法,其特征在于,所述在各候选提示内容中,选取使所述第一语言模型的评估结果达到所述达标条件的目标提示内容,包括:
8.如权利要求1-7任一项所述的方法,其特征在于,所述基于所述各样本提示文本及对应的样本标签,构建训练样本集,包括:
9.如权利要求1-7任一项所述的方法,其特征在于,所述基于各预测标签及对应的内容标签,获得所述第一语言模型在所述目标业务下的评估结果,包括:
10.如权利要求1-7任一项所述的方法,其特征在于,所述构建训练样本集之后,所述方法还包括:
11.如权利要求10所述的方法,其特征在于,得到由训练后的目标前缀网络和所述第二语言模型构成的目标标签识别模型之后,所述方法还包括:
12.如权利要求11所述的方法,其特征在于,针对每个待处理评论文本,分别输出对应的内容标签之后,所述方法还包括:
13.如权利要求11所述的方法,其特征在于,针对每个待处理评论文本,分别输出对应的内容标签之后,所述方法还包括:
14.一种训练样本的生成装置,其特征在于,包括:
15.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-13任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-13任一项所述的方法。