大语言模型稀疏化方法、装置、电子设备和存储介质与流程

xiaoxiao6月前  42


本发明涉及人工智能,具体而言,涉及一种大语言模型稀疏化方法、装置、电子设备和存储介质。


背景技术:

1、近年来,随着chatgpt的巨大成功,越来越多的大语言模型得到广泛的应用以及各界人士的重视。由于大语言模型的规模和参数数量巨大,对大语言模型的推理过程进行优化,以降低能源消耗、运营成本和用户等待时间成为大语言模型最重要的研究和应用课题。

2、大语言模型的稀疏化是大语言模型优化的最重要的一个研究方向。现有的大语言模型稀疏化通常采用固定稀疏度进行稀疏化,这种稀疏方式容易造成稀疏不充分或过度稀疏的问题,严重影响大语言模型的处理效率和效果。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种大语言模型稀疏化方法、装置、电子设备和存储介质,能够有效均衡大语言模型处理效率和准确性。

2、为了实现上述目的,本发明实施例采用的技术方案如下:

3、第一方面,本发明提供一种大语言模型稀疏化方法,大语言模型包括多个网络层,每个所述网络层包含激活函数;所述方法包括:

4、将输入文本拆分成多个token,并生成每个所述token的特征向量;

5、将所述特征向量作为输入特征,将所述大语言模型的第一个网络层作为目标网络层;

6、当所述目标网络层不存在预测器时,将所述目标网络层的权重矩阵作为稀疏权重;

7、当所述目标网络层存在预测器时,将所述输入特征输入所述目标网络层的预测器得到每个所述输入特征的多个预设稀疏度对应的重要性,根据各所述输入特征的多个预设稀疏度对应的重要性确定目标稀疏度,根据所述目标稀疏度对应的遮罩对所述目标网络层的权重矩阵进行稀疏计算得到稀疏权重;所述遮罩用于稀疏化所述权重矩阵;

8、将各所述输入特征和所述稀疏权重的乘积输入所述目标网络层的激活函数,并将所述激活函数的输出结果作为下一个网络层的所述输入特征,将下一个网络层作为所述目标网络层,逐层处理直至所述大语言模型的最后一个网络层,将最后一个网络层的激活函数的输出结果作为大语言模型的输出结果。

9、在可选的实施方式中,所述根据各所述输入特征的多个预设稀疏度对应的重要性确定目标稀疏度,包括:

10、针对每个所述输入特征,将超过阈值的重要性对应的预设稀疏度作为初选稀疏度,并将稀疏度最大的所述初选稀疏度作为候选稀疏度;

11、统计各所述候选稀疏度的数量,并将数量最多的候选稀疏度确定为所述目标稀疏度。

12、在可选的实施方式中,所述根据所述目标稀疏度对应的遮罩对所述目标网络层的权重矩阵进行稀疏计算得到稀疏权重,包括:

13、将所述目标稀疏度对应的遮罩和所述目标网络层的权重矩阵点乘,得到所述稀疏权重。

14、在可选的实施方式中,每个网络层设置有权重矩阵,所述预测器是通过以下方式得到的:

15、针对每个需要调整稀疏度的网络层,根据多个训练特征和所述权重矩阵,得到权重重要性矩阵;所述权重重要性矩阵用来表征所述权重矩阵中每个权重的重要性;第一个网络层的训练特征是根据接收到的训练文本提取特征得到的;除第一个网络层之外的网络层的训练特征是上一个网络层的输出;

16、根据所述权重重要性矩阵和多个预设稀疏度,得到每个所述预设稀疏度对应的遮罩;

17、根据所述训练特征对应的token向量、所述权重矩阵和各所述预设稀疏度对应的遮罩,得到每个所述token向量对应的各预设稀疏度的理论重要性;

18、根据各所述token向量和对应的各预设稀疏度的理论重要性迭代训练待训练的全连接层,得到各预设稀疏度的预测重要性,并将所述预测重要性满足验收条件的全连接层作为所述预测器。

19、在可选的实施方式中,所述根据多个训练特征和所述权重矩阵,得到权重重要性矩阵,包括:

20、根据各所述训练特征生成对应的训练方阵,并根据全部所述训练方阵生成三维训练矩阵;

21、根据所述权重矩阵生成三维权重矩阵;

22、对所述三维训练矩阵和所述三维权重矩阵逐元素取绝对值后进行点乘,得到激活矩阵;

23、将所述激活矩阵在所述训练方阵的数量维度上进行求和,得到所述权重重要性矩阵。

24、在可选的实施方式中,所述根据所述权重重要性矩阵和多个预设稀疏度,得到每个所述预设稀疏度对应的遮罩,包括:

25、针对每个所述预设稀疏度,当稀疏格式为比值时,根据所述预设稀疏度计算稀疏数量,按照所述稀疏数量获取所述权重重要性矩阵中权重小的元素坐标;

26、当稀疏格式为比例时,按照所述比例依次获取所述权重重要性矩阵中权重小的元素坐标;

27、根据所述权重重要性矩阵生成全1矩阵,并将所述元素坐标对应的元素设置为0,得到所述预设稀疏度对应的遮罩。

28、在可选的实施方式中,所述根据所述训练特征对应的token向量、所述权重矩阵和各所述预设稀疏度对应的遮罩,得到每个所述token向量对应的各预设稀疏度的理论重要性,包括:

29、针对每个所述token向量,根据所述token向量和所述权重矩阵,得到原始重要性矩阵;第一个网络层的token向量是对由训练文本拆分得到token进行特征提取得到的;除第一个网络层之外的网络层的训练特征是上一个网络层对token向量处理后输出的;

30、根据所述原始重要性矩阵和各所述预设稀疏度对应的遮罩,得到每个所述预设稀疏度对应的理论重要性矩阵;

31、根据各所述理论重要性矩阵和所述原始重要性矩阵得到每个所述token向量对应的各预设稀疏度的理论重要性。

32、第二方面,本发明提供一种大语言模型稀疏化装置,大语言模型包括多个网络层,每个所述网络层包含激活函数;所述装置包括:

33、预处理模块,用于将输入文本拆分成多个token,并生成每个所述token的特征向量;

34、稀疏模块,用于将所述特征向量作为输入特征,将所述大语言模型的第一个网络层作为目标网络层;当所述目标网络层不存在预测器时,将所述目标网络层的权重矩阵作为稀疏权重;当所述目标网络层存在预测器时,将所述输入特征输入所述目标网络层的预测器得到每个所述输入特征的多个预设稀疏度对应的重要性,根据各所述输入特征的多个预设稀疏度对应的重要性确定目标稀疏度,根据所述目标稀疏度对应的遮罩对所述目标网络层的权重矩阵进行稀疏计算得到稀疏权重;所述遮罩用于稀疏化所述权重矩阵;将各所述输入特征和所述稀疏权重的乘积输入所述目标网络层的激活函数,并将所述激活函数的输出结果作为下一个网络层的所述输入特征,将下一个网络层作为所述目标网络层,逐层处理直至所述大语言模型的最后一个网络层,将最后一个网络层的激活函数的输出结果作为大语言模型的输出结果。

35、第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式任一所述的大语言模型稀疏化方法。

36、第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的大语言模型稀疏化方法。

37、相比于现有技术,本发明实施例提供的大语言模型稀疏化方法、装置、电子设备和存储介质,该方法为不同网络层配置不同的预测器,预测器基于不同的输入特征进行预测,充分考虑了不同输入特征以及不同网络层特征分布的差异,可以根据输入特征和网络特征灵活地选择适合的稀疏度。对于可供稀疏化程度高的输入采用较高的稀疏度进行更快运算,以提高大语言模型的处理效率。而对于可供稀疏化程度低的输入采用较低的稀疏度以保证大语言模型的准确性,从而在大语言模型处理效率和准确性之间达到均衡效果。

38、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。


技术特征:

1.一种大语言模型稀疏化方法,其特征在于,大语言模型包括多个网络层,每个所述网络层包含激活函数;所述方法包括:

2.根据权利要求1所述的大语言模型稀疏化方法,其特征在于,所述根据各所述输入特征的多个预设稀疏度对应的重要性确定目标稀疏度,包括:

3.根据权利要求1所述的大语言模型稀疏化方法,其特征在于,所述根据所述目标稀疏度对应的遮罩对所述目标网络层的权重矩阵进行稀疏计算得到稀疏权重,包括:

4.根据权利要求1所述的大语言模型稀疏化方法,其特征在于,每个网络层设置有权重矩阵,所述预测器是通过以下方式得到的:

5.根据权利要求4所述的大语言模型稀疏化方法,其特征在于,所述根据多个训练特征和所述权重矩阵,得到权重重要性矩阵,包括:

6.根据权利要求4所述的大语言模型稀疏化方法,其特征在于,所述根据所述权重重要性矩阵和多个预设稀疏度,得到每个所述预设稀疏度对应的遮罩,包括:

7.根据权利要求4所述的大语言模型稀疏化方法,其特征在于,所述根据所述训练特征对应的token向量、所述权重矩阵和各所述预设稀疏度对应的遮罩,得到每个所述token向量对应的各预设稀疏度的理论重要性,包括:

8.一种大语言模型稀疏化装置,其特征在于,大语言模型包括多个网络层,每个所述网络层包含激活函数;所述装置包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-7任一所述的大语言模型稀疏化方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的大语言模型稀疏化方法。


技术总结
本发明实施例提出一种大语言模型稀疏化方法、装置、电子设备和存储介质,涉及人工智能技术领域。该方法为不同网络层配置不同的预测器,预测器基于不同的输入特征进行预测,充分考虑了不同输入特征以及不同网络层特征分布的差异,可以根据输入特征和网络特征灵活地选择适合的稀疏度。对于可供稀疏化程度高的输入采用较高的稀疏度以提高大语言模型的处理效率,而对于可供稀疏化程度低的输入采用较低的稀疏度以保证大语言模型的准确性,从而在大语言模型处理效率和准确性之间达到均衡效果。

技术研发人员:刘雨杭,应鹏飞,谭铭玺
受保护的技术使用者:四川无际智慧科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)