基于多层存储的模型检查点保存的制作方法

xiaoxiao4月前 39

背景技术：

1、随着计算数据量的增长和计算能力的提高，机器学习(machine learning)已在各个领域得到广泛应用。各种各样的机器学习模型得以不断地开发，并在诸如自然语言处理、计算机视觉等的许多领域表现出色。例如，基于转换器的双向编码器表示(bidirectionalencoder resentations from transformers，bert)模型、第三代生成式预训练转换器(generative pre-trained transformer-3，gpt-3)模型等已被证明在自然语言处理领域具有卓越效果。这类模型往往是依赖于具有巨量参数的深度网络的大规模或超大规模的深度学习模型。训练这样的模型通常是十分耗时的。

技术实现思路

1、提供本
技术实现要素：
以便介绍一组构思，这组构思将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护的主题的关键特征或必要特征，也不旨在用于限制所保护的主题的范围。

2、本公开的实施例提出了用于基于多层存储的模型检查点保存的方法、装置和计算机可读介质。可以在通过目标节点中的图形处理器(gpu)来执行机器学习模型的训练期间，从与所述gpu直接交换数据的gpu存储器中识别所述机器学习模型的待保存的检查点。可以将所述检查点从所述gpu存储器保存到与所述目标节点中的中央处理器(cpu)直接交换数据的cpu存储器中。可以将所述检查点从所述cpu存储器保存到非暂时性存储器中，所述非暂时性存储器包括以下至少之一：位于所述目标节点中的本地非暂时性存储器、位于所述目标节点的邻居节点中的邻居非暂时性存储器和位于所述目标节点远端的远端非暂时性存储器。

3、应当注意，以上一个或多个方面包括在下文中详细描述并且在权利要求中具体指出的特征。以下说明书及附图详细阐述了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以采用各个方面的原理的各种方式，并且本公开旨在包括所有这些方面及其等同变换。

技术特征：

1.一种用于基于多层存储的模型检查点保存的方法，包括：

2.根据权利要求1所述的方法，其中，所述机器学习模型的待保存的检查点包括所述机器学习模型的参数、梯度和优化器状态中至少之一。

3.根据权利要求1所述的方法，其中，所述非暂时性存储器是所述本地非暂时性存储器和/或所述邻居非暂时性存储器，并且所述方法还包括：

4.根据权利要求1所述的方法，还包括：

5.根据权利要求1所述的方法，还包括：

6.根据权利要求5所述的方法，还包括：

7.根据权利要求6所述的方法，其中，所述非暂时性存储器是所述本地非暂时性存储器和/或所述邻居非暂时性存储器，并且所述方法还包括：

8.一种用于基于多层存储的模型检查点保存的装置，包括：

9.根据权利要求8所述的装置，其中，所述机器学习模型的待保存的检查点包括所述机器学习模型的参数、梯度和优化器状态中至少之一。

10.根据权利要求8所述的装置，其中，所述非暂时性存储器是所述本地非暂时性存储器和/或所述邻居非暂时性存储器，并且所述计算机可执行指令在被执行时还使得所述处理器：

11.根据权利要求8所述的装置，其中，所述计算机可执行指令在被执行时还使得所述处理器：

12.根据权利要求8所述的装置，其中，所述计算机可执行指令在被执行时还使得所述处理器：

13.根据权利要求12所述的装置，其中，所述计算机可执行指令在被执行时还使得所述处理器：

14.根据权利要求13所述的装置，其中，所述非暂时性存储器是所述本地非暂时性存储器和/或所述邻居非暂时性存储器，并且所述计算机可执行指令在被执行时还使得所述处理器：

15.一种用于基于多层存储的模型检查点保存的计算机可读介质，包括指令，所述指令在被执行时使得处理器：

16.根据权利要求15所述的计算机可读介质，其中，所述非暂时性存储器是所述本地非暂时性存储器和/或所述邻居非暂时性存储器，并且所述指令在被执行时还使得处理器：

17.根据权利要求15所述的计算机可读介质，其中，所述指令在被执行时还使得处理器：

18.根据权利要求15所述的计算机可读介质，其中，所述指令在被执行时还使得处理器：

19.根据权利要求18所述的计算机可读介质，其中，所述指令在被执行时还使得处理器：

20.根据权利要求19所述的计算机可读介质，其中，所述非暂时性存储器是所述本地非暂时性存储器和/或所述邻居非暂时性存储器，并且所述指令在被执行时还使得处理器：

技术总结
本公开提出了用于基于多层存储的模型检查点保存的方法、装置和计算机可读介质。可以在通过目标节点中的图形处理器(GPU)来执行机器学习模型的训练期间，从与所述GPU直接交换数据的GPU存储器中识别所述机器学习模型的待保存的检查点。可以将所述检查点从所述GPU存储器保存到与所述目标节点中的中央处理器(CPU)直接交换数据的CPU存储器中。可以将所述检查点从所述CPU存储器保存到非暂时性存储器中，所述非暂时性存储器包括以下至少之一：位于所述目标节点中的本地非暂时性存储器、位于所述目标节点的邻居节点中的邻居非暂时性存储器和位于所述目标节点远端的远端非暂时性存储器。

技术研发人员：罗伟,李晓冉,邱阳,郭骋城,饶清欢,李佳鹏,翟奥男,文潇乐,杨扬,王鹏,汪子奇,华国梁,宣善明,童杰
受保护的技术使用者：微软技术许可有限责任公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)