模型压缩方法以及相关装置与流程

xiaoxiao7月前  100


本发明涉及人工智能,尤其涉及一种模型压缩方法以及相关装置。


背景技术:

1、近年来,随着算力的提升和算法的优化,深度神经网络在图像分类、自然语言处理、语音识别等领域取得了显著成果。

2、然而,使用深度学习模型时常面临着庞大的参数和高计算需求,导致显存占用和计算延迟显著增加,特别是在资源受限的环境(如移动设备和边缘计算)中部署变得困难。相关技术中,模型轻量化技术主要通过减小神经网络模型的规模和降低计算复杂度,使得模型在有限资源的情况下实现高效推理和部署。当前技术主要通过网络剪枝、知识蒸馏等方法进行模型轻量化,但这些方法往往需要大量的计算资源和时间。此外,在高压缩比情况下,剪枝后的模型精度存在恢复效果不佳的问题,严重影响了模型的整体性能。

3、因此,亟待设计一种技术方案,用于解决上述至少一个技术问题。


技术实现思路

1、本发明实施例的主要目的在于提供一种模型压缩方法以及相关装置,旨在解决相关技术中因模型轻量化而降低模型精度的问题。

2、第一方面,本发明实施例提供一种模型压缩方法,包括:

3、利用训练数据进行模型训练获得第一深度学习模型,并获得所述第一深度学习模型的自注意力层对应的第一重要性评分;

4、根据所述第一重要性评分对所述深度学习模型的所述自注意力层进行剪枝,获得第二深度学习模型;

5、利用所述训练数据对所述第二深度学习模型进行重新训练,获得第三深度学习模型,并获得所述第三深度学习模型中的自注意力层对应的第二重要性评分;

6、根据所述第二重要性评分对所述第三深度学习模型进行精度量化获得第四深度学习模型;

7、利用所述第一深度学习模型对所述第四深度学习模型进行蒸馏处理,获得目标深度学习模型。

8、第二方面,本发明实施例提供一种模型压缩装置,包括:

9、第一训练模块,用于利用训练数据进行模型训练获得第一深度学习模型,并获得所述第一深度学习模型的自注意力层对应的第一重要性评分;

10、剪枝处理模块,用于根据所述第一重要性评分对所述深度学习模型的所述自注意力层进行剪枝,获得第二深度学习模型;

11、第二训练模块,用于利用所述训练数据对所述第二深度学习模型进行重新训练,获得第三深度学习模型,并获得所述第三深度学习模型中的自注意力层对应的第二重要性评分;

12、精度量化模块,用于根据所述第二重要性评分对所述第三深度学习模型进行精度量化获得第四深度学习模型;

13、蒸馏处理模块,用于利用所述第一深度学习模型对所述第四深度学习模型进行蒸馏处理,获得目标深度学习模型。

14、第三方面,本发明实施例还提供一种终端设备,终端设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线,其中计算机程序被处理器执行时,实现如本发明说明书提供的任一项模型压缩方法的步骤。

15、第四方面,本发明实施例还提供一种存储介质,用于计算机可读存储,其特征在于,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如本发明说明书提供的任一项模型压缩方法的步骤。

16、本发明实施例提供一种模型压缩方法以及相关装置,该方法包括:利用训练数据进行模型训练获得第一深度学习模型,并获得第一深度学习模型的自注意力层对应的第一重要性评分;根据第一重要性评分对深度学习模型的自注意力层进行剪枝,获得第二深度学习模型;利用训练数据对第二深度学习模型进行重新训练,获得第三深度学习模型,并获得第三深度学习模型中的自注意力层对应的第二重要性评分;根据第二重要性评分对第三深度学习模型进行精度量化获得第四深度学习模型;利用第一深度学习模型对第四深度学习模型进行蒸馏处理,获得目标深度学习模型。该方法将逐层自适应量化和混合精度计算策略,提高了计算效率,显著加速模型推理过程。而且,该方法采用剪枝与量化联合优化策略可以具有较高的灵活性,可适用于不同类型的深度学习模型。最后,本方法通过基于重要性评分的智能剪枝和量化感知训练,可以有效保持模型精度,避免过度剪枝和量化带来的精度损失,进而解决了相关技术中进行模型轻量化时无法保持模型精度从而降低了模型精度的问题。



技术特征:

1.一种模型压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获得所述第一深度学习模型的自注意力层对应的第一重要性评分,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一重要性评分对所述第一深度学习模型的自注意力层进行剪枝,获得第二深度学习模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第二重要性评分对所述第三深度学习模型进行精度量化获得第四深度学习模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第二权重矩阵对所述第三深度学习模型进行非结构化剪枝,获得第五深度学习模型,包括:

6.根据权利要求5所述的方法,其特征在于,所述确定非结构化剪枝对应的权重阈值,包括:

7.根据权利要求4中所述的方法,其特征在于,所述利用所述第二重要性评分对所述第五深度学习模型进行精度量化获得所述第四深度学习模型,包括:

8.根据权利要求1所述的方法,其特征在于,所述利用所述第一深度学习模型对所述第四深度学习模型进行蒸馏处理,获得目标深度学习模型,包括:

9.根据权利要求8所述的方法,其特征在于,所述根据所述第一蒸馏损失函数获得所述目标深度学习模型,包括:

10.根据权利要求1所述的方法,其特征在于,获得所述目标深度学习模型,所述方法还包括:

11.根据权利要求10所述的方法,其特征在于,所述根据所述第五损失值、所述第六损失值、所述第七损失值以及所述第八损失值确定第二蒸馏损失函数,包括:

12.根据权利要求1所述的方法,其特征在于,获得所述目标深度学习模型之后,所述方法还包括:

13.一种模型压缩装置,其特征在于,包括:

14.一种终端设备,其特征在于,所述终端设备包括处理器、存储器;

15.一种计算机存储介质,用于计算机存储,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至12中任一项所述的模型压缩方法的步骤。


技术总结
本发明实施例提供一种模型压缩方法以及相关装置,属于人工智能技术领域。该方法包括:利用训练数据进行模型训练获得第一深度学习模型,并获得第一深度学习模型的自注意力层对应的第一重要性评分;根据第一重要性评分对第一深度学习模型的自注意力层进行剪枝,获得第二深度学习模型;利用训练数据对第二深度学习模型进行重新训练,获得第三深度学习模型,并获得第三深度学习模型中的自注意力层对应的第二重要性评分;根据第二重要性评分对第三深度学习模型进行精度量化获得第四深度学习模型;利用第一深度学习模型对第四深度学习模型进行蒸馏处理,获得目标深度学习模型。通过逐层自适应量化和混合精度计算策略,提高计算效率,加速模型推理过程。

技术研发人员:闯小明,杨龚轶凡,郑瀚寻,潘维维
受保护的技术使用者:中昊芯英(杭州)科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)