本技术涉及计算机,特别是涉及一种模型训练方法、系统、设备及介质。
背景技术:
1、随着人工智能技术的快速发展,自然语言处理(nlp)领域的大模型技术得到了广泛应用。在保险行业中,大模型技术对于提升客户服务质量、实现智能化风险评估等方面具有重要意义。然而,大模型在处理用户输入时,尤其是涉及敏感或不合规指令时,其安全性成为了亟待解决的问题。大模型的安全问题主要体现在模型对不合规指令的响应上。不合规指令可能涉及欺诈、误导、歧视或其他违反规定的行为。为了增强模型的安全意识,现阶段的方案主要依赖于构造不合规指令和安全合规的回复的有监督数据,并通过指令微调的形式来指导模型提升安全能力。
2、尽管大模型在训练时可以学习到大量的知识和信息,但对于一些复杂的指令或情境,模型仍然难以理解其背后的逻辑和意图。特别是在面对不合规指令时,模型只学习到了安全正向的回复,而无法完全理解不合规的回复背后的错误逻辑,导致在某些情况下仍然可能产生不符合人类价值的不合规的回复。
技术实现思路
1、基于上述问题,本技术提供了一种模型训练方法、系统、设备及介质,用以提高模型安全性。
2、为解决上述问题,本技术实施例提供的技术方案如下:
3、本技术第一方面提供了一种模型训练方法,包括:
4、获取负向指令,以及获取到的负向指令对应的正向回复;
5、将所述负向指令输入目标大模型,得到目标大模型产生的负向回复,所述目标大模型为基于对比损失函数构建,用于对指令进行回复的模型;
6、将存在对应关系的正向回复和负向回复结合得到正负样本对,并储存至目标数据集,所述目标数据集包括负向指令的正负样本对;
7、基于训练完成的判别模型对所述目标数据集中负向指令的正向回复进行评分,确定评分低于第一预设阈值的负向指令,所述判别模型用于根据与负向指令对应的正向回复和负向回复的差异,对正向回复的安全性进行评分;
8、对筛选得到的负向指令进行拓展,基于拓展结果对目标大模型进行调整,并执行所述获取负向指令及后续步骤。
9、在一种可能的实现方式中,所述判别模型的训练方式包括:
10、构建transformer-decoder的多层网络结构,在所述多层网络结构的输出端后连接两层线性映射层,得到待训练的判别模型,所述两层线性映射层中的第一层线性映射层使用tanh函数作为激活函数;
11、基于所述目标数据集对所述待训练的判别模型进行训练,直至得到正向回复的得分高于负向回复的得分的判别模型。
12、所述判别模型是基于多层网络结构构建得到的,在输出的最后一层之后布置有两层线性映射层,
13、在一种可能的实现方式中,所述目标大模型的构建方式包括:
14、获取调整前的大模型;
15、对所述调整前的大模型设置对比损失函数,训练得到目标大模型,所述对比损失函数为loss2=-logσ(logπ(ys|x)-logπ(yh|x)),σ为sigmoid函数,ys为负向指令的正向回复,yh为负向指令的负向回复,所述对比损失函数用于使大模型学习到正向回复和负向回复的差异。
16、在一种可能的实现方式中,所述对筛选得到的负向指令进行拓展,包括:
17、基于调整前的大模型和目标大模型,生成负向指令的负向回复集合,所述负向回复集合包括与每一条负向指令相对应的负向回复,所述调整前的大模型为未设置对比损失函数的模型;基于目标大模型和提示信息,生成负向指令的正向回复集合,所述正向回复集合包括与每一条负向指令相对应的正向回复;
18、基于所述待训练的判别模型和训练完成的判别模型,分别对负向回复集合和正向回复集合中的各个回复进行评分;
19、获取评分结果中评分高于第三预设阈值的正向回复,评分高于第四预设阈值的负向回复,构建得到用于进行迭代的正负样本对;
20、所述基于拓展结果对目标大模型进行调整,并执行所述获取负向指令及后续步骤,包括:
21、基于用于进行迭代的正负样本对,和目标大模型的模型参数,对所述目标大模型的对比损失函数进行调整,得到调整后的目标大模型;并基于调整后的目标大模型执行所述获取负向指令及后续步骤。
22、在一种可能的实现方式中,所述对筛选得到的负向指令进行拓展,包括:
23、基于筛选得到的负向指令,生成与所述负向指令相似度符合第四预设阈值的相似指令;
24、基于目标大模型生成所述相似指令对应的正负样本对;
25、所述基于拓展结果对目标大模型进行调整,并执行所述获取负向指令及后续步骤,包括:
26、基于所述相似指令对应的正负样本对,和目标大模型的模型参数,对所述目标大模型的对比损失函数进行调整,得到调整后的目标大模型;并基于调整后的目标大模型执行所述获取负向指令及后续步骤。
27、在一种可能的实现方式中,所述基于目标大模型和提示信息,生成负向指令的正向回复集合,包括:
28、基于筛选得到的负向指令,生成与所述负向指令相对应的拒绝回复和正向建议;
29、将所述负向指令,与相对应的拒绝回复和正向建议关联存储,得到正向回复集合。
30、在一种可能的实现方式中,所述基于目标大模型和提示信息,生成负向指令的正向回复集合,包括:
31、基于筛选得到的负向指令,生成与所述负向指令相对应的拒绝回复;
32、存储所述拒绝回复,得到正向回复集合。
33、本技术第二方面提供了一种模型训练系统,包括:
34、获取单元,用于获取负向指令,以及获取到的负向指令对应的正向回复;
35、输入单元,用于将所述负向指令输入目标大模型,得到目标大模型产生的负向回复,所述目标大模型为基于对比损失函数构建,用于对指令进行回复的模型;
36、结合单元,用于将存在对应关系的正向回复和负向回复结合得到正负样本对,并储存至目标数据集,所述目标数据集包括负向指令的正负样本对;
37、评分单元,用于基于训练完成的判别模型对所述目标数据集中负向指令的正向回复进行评分,确定评分低于第一预设阈值的负向指令,所述判别模型用于根据与负向指令对应的正向回复和负向回复的差异,对正向回复的安全性进行评分;
38、拓展单元,用于对筛选得到的负向指令进行拓展,基于拓展结果对目标大模型进行调整,并执行所述获取负向指令及后续步骤。
39、本技术第三方面提供了一种电子设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现前述第一方面所述的模型训练方法。
40、本技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如前述第一方面所述的模型训练方法。
41、相较于现有技术,本技术具有以下有益效果:
42、通过运用对比的思想来优化损失函数,通过明确区分安全回复和有害回复在模型中的表示差异,使损失函数能够更精准地指导模型学习,从而在微调阶段将这两种回复作为训练输入,进一步强化了模型识别有害回复并生成安全回复的能力。其次,本技术引入了判别模型来辅助模型的迭代过程,这一方法实现了自动化主动学习,不仅减少了人工标注和评估的工作量,降低了人力成本,而且通过判别模型实时给出的反馈,模型能够快速地进行自我调整和优化,从而显著提升了迭代的效率和模型的安全性能。
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述判别模型的训练方式包括:
3.根据权利要求1所述的方法,其特征在于,所述目标大模型的构建方式包括:
4.根据权利要求3所述的方法,其特征在于,所述对筛选得到的负向指令进行拓展,包括:
5.根据权利要求3所述的方法,其特征在于,所述对筛选得到的负向指令进行拓展,包括:
6.根据权利要求4所述的方法,其特征在于,所述基于目标大模型和提示信息,生成负向指令的正向回复集合,包括:
7.根据权利要求4所述的方法,其特征在于,所述基于目标大模型和提示信息,生成负向指令的正向回复集合,包括:
8.一种模型训练系统,其特征在于,所述系统包括:
9.一种电子设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7任一项所述的模型训练方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-7任一项所述的模型训练方法。
