一种基于强化学习的电力大模型流水线冻结训练优化方法与流程

xiaoxiao1天前  5


本发明涉及分布式训练领域,尤其涉及一种基于强化学习的电力大模型流水线冻结训练优化方法。


背景技术:

1、在数据飞速增长、计算资源不断发展的背景下,近年人工智能大模型技术取得快速突破,在电力领域的垂直深化应用也展现了迫切需求与广阔前景。在电力调度领域,可基于通用大模型,利用电网调控规程、事故预案、历史运行数据和离线仿真数据等多源异构数据训练得到基于深度神经网络(deep neuralnetwork,dnn)的调控大摸型,调控大模型可根据电网运行态势,推理具体调控业务及目标,匹配调控知识库,给出对应的具体策略建议。由于电力系统分层分区的框架体系下,能源与负荷中心在地理位置上相隔较远,需要联合多区域电网的发电、储能、负荷等分布式资源来提升系统的能源消纳能力,增加了现有集中式大模型训练的复杂性,同时,大模型的参数规模不断增大,从亿级到万亿级别,对计算资源和训练算法的要求也越来越高,利用分布式训练方式来提高电网智算中心的计算资源利用率进而提升电力大模型训练效率,从而为电力调控领域的规划和决策提供有力支持。

2、但是,大多数分布式训练方法没有对模型训练过程进行优化,每次训练迭代的流程依旧是传统的前向传播(计算中间结果)、反向传播(计算梯度)和参数更新,整个训练周期内模型的所有参数均需参与训练并进行更新,这意味着计算和通信成本在训练的全过程中基本保持不变。而在优化模型训练过程方面,近期的研究工作提出了一种新的观点,即在模型训练期间不同参数的收敛速度并不一致,特别是靠近输入的模型层参数往往比接近输出的层更快达到收敛状态。此外,这些已经收敛的层有着比未收敛的层更大的计算开销,这就意味着训练过程中大部分的计算时间都花费在了为已收敛的参数进行中间结果计算和梯度计算上,造成了计算资源的浪费。基于这一发现,冻结训练机制应运而生。该机制允许在训练过程中固定(即“冻结”)那些已经或近乎收敛的参数,只对剩余的参数执行反向传播和更新。这样不仅减少了必要的计算资源消耗,还能加速整个模型的收敛过程。结合分布式训练与冻结训练机制不仅有助于缓解大规模神经网络训练中遇到的计算瓶颈,还能在不牺牲模型性能的前提下,进一步加速训练过程。

3、深度学习模型的冻结训练机制为进一步加速分布式训练提供了一种解决思路,电力系统训练调控大模型时,训练加速要求在尽显冻结参数选择时冻结尽可能多的部分从而最小化计算时间,而保障精度则要求精确地冻结已收敛的模型参数,并且尽可能地避免冻结未收敛的参数。然而,上述两个目标之间是存在矛盾的,因此,需要设计合适的冻结判断标准并根据环境的不同调整冻结阈值,在加速训练和保障精度之间取得平衡。

4、在冻结判断标准问题中,分布式训练任务之间可能在所训练的深度学习模型、数据集和模型的状态等方面存在差异,因此如何设计一个良好的冻结判断标准及冻结策略,能够精准地冻结已收敛的模型参数并尽可能地避免冻结未收敛的参数,是一个亟待解决的难点。

5、在动态调整冻结阈值问题中,不合理的冻结判断标准阈值不仅会导致无法实现训练加速,还可能会影响最终的模型精度或降低训练效率,并且在训练过程中模型各参数的收敛程度也在不断变化。因此,如何合理地调整冻结判断阈值以在加速训练和保障精度中取得平衡,是实现高效的流水线冻结训练需要解决的关键问题。


技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一。

2、本发明提供如下技术方案:一种基于强化学习的电力大模型流水线冻结训练优化方法,该方法包括:

3、对电力调控系统中深度学习模型的流水线冻结训练优化建模,基于建模训练中的参数梯度和梯度变化量生成冻结判断策略;

4、基于强化学习方法对冻结判断策略中的各项阈值大小进行动态调整,利用流水线并行训练方法降低强化学习策略网络的计算开销和显存占用。

5、所述流水线冻结训练优化建模过程包括:

6、建立深度学习模型的可学习参数集合,记录冻结判断过程中的梯度和梯度变化量。

7、基于梯度和梯度变化量的冻结判断策略包括:

8、基于梯度变化量进行冻结条件判断,得到每个可学习参数的判断结果;

9、基于梯度绝对值进行冻结条件判断,得到每个可学习参数的判断结果;

10、把基于梯度变化量的冻结条件判断结果和基于梯度绝对值的冻结条件判断结果做与运算,得到最终冻结决策。

11、输入可学习参数集的梯度变化序列,冻结判断的步长,以及两个阈值θ1和θ2,进行基于梯度变化量的冻结条件判断,输出一一标记后的结果集(result1)。

12、输入可学习参数集的梯度平均值序列和一个阈值θ3,进行基于梯度绝对值的冻结条件判断,输出一一标记后的结果集(result2)。

13、基于近端策略优化强化学习算法得到阈值调整策略,适应训练过程中不断变化的模型状态;

14、强化学习策略网络的输入是训练步长内每个参数的梯度绝对值平均值数据、梯度变化量小于阈值θ1的比例、模型在验证集上的平均精度和三个阈值θ1、θ2、θ3,训练时与环境进行交互,得到智能体生成的动作(阈值的调整幅度);

15、基于策略网络的智能体生成动作均值,并通过可学习参数生成对数标准差,然后对其进行指数变换得到动作标准差,得到动作的分布,最后,进行阈值调整。

16、为了加快分布式训练效率,基于在验证集上当前步长与上一步长的平均梯度变化量δa、平均精度变化量δg和训练步长实际用时得到智能体的奖励。

17、结合流水线并行特点而设计的冻结训练滑动窗口机制,具体为:

18、将环境的观测空间限制为固定的大小(即窗口大小),每次只对窗口内的可学习参数进行观测和冻结判断。

19、本发明在工作中,以深度学习模型的可学习参数的冻结维度,对模型冻结机制建模,基于统计步长轮次内的梯度变化量和梯度绝对值生成冻结判断标准,之后,为可学习参数集合制定冻结决策,以实现高效的分布式流水线训练。

20、基于强化学习为深度神经网络冻结判断过程制定阈值调整策略,来动态调整训练过程中的模型状态,并进一步基于结合流水线并行特点的冻结训练滑动窗口机制,将可学习参数观测空间限制为固定的大小(即窗口大小),每次只对窗口内的参数进行观测和冻结判断,从而实现了分布式冻结训练优化方法。

21、本发明能够有效地解决电力调控系统中流水线分布式冻结训练的加速训练和保障精度失衡问题,提高了电力调控大模型分布式训练效率。



技术特征:

1.一种基于强化学习的电力大模型流水线冻结训练优化方法,其特征在于:该方法包括:

2.根据权利要求1所述的一种基于强化学习的电力大模型流水线冻结训练优化方法,其特征在于:所述流水线冻结训练优化建模过程包括:

3.根据权利要求2所述的一种基于强化学习的电力大模型流水线冻结训练优化方法,其特征在于:基于梯度和梯度变化量的冻结判断策略包括:

4.根据权利要求3所述的一种基于强化学习的电力大模型流水线冻结训练优化方法,其特征在于:

5.根据权利要求4所述的一种基于强化学习的电力大模型流水线冻结训练优化方法,其特征在于:

6.根据权利要求5所述的一种基于强化学习的电力大模型流水线冻结训练优化方法,其特征在于:

7.根据权利要求6所述的一种基于强化学习的电力大模型流水线冻结训练优化方法,其特征在于:


技术总结
本发明提供一种基于强化学习的电力大模型流水线冻结训练优化方法,主要包含两个部分:基于梯度和梯度变化量的冻结决策算法、基于强化学习的冻结训练优化方法。本发明首先设计了基于梯度和梯度变化量的冻结决策算法,以获得良好的冻结判断标准及冻结策略。然后针对如何在训练过程中动态调整冻结判断标准的阈值以适应不同时间点模型状态差异的问题,提出一种基于强化学习的冻结训练优化方法,以梯度变化量、梯度大小及冻结策略实施前后一定训练轮次所需时间等数据为基础,通过强化学习方法动态调整冻结判断标准阈值,从而在加速训练和保障精度中取得平衡,最终提高电力大模型训练效率。

技术研发人员:龚在刚,霍雪松,杜云龙,戴强晟,孔伯骏,陈思宇,丰颖,薛晨,周星辰,薛钟兵
受保护的技术使用者:国网江苏省电力有限公司扬州供电分公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)