一种面向多约束被控系统的在线强化学习方法及装置

xiaoxiao25天前 31

本发明涉及强化学习领域，尤其涉及一种面向多约束被控系统的在线强化学习方法及装置。

背景技术：

1、现有技术中，随着能源资源的使用，以清洁新能源为主体的新型电力系统将大量的新能源以及天然气网络接入电力系统中，能够实现电、气、风、光、水等多种能源互补，有利于提高可再生能源占比，促进可持续发展与生态文明建设。在大量新能源、分布式能源、电动汽车等设备不断接入的同时，电网运行的不确定性也在不断增长，这为智能电网的调度算法求解效率提出了新挑战。在智能电网的调度问题中，除了优化目标外往往存在多种约束条件，

2、现有技术中，对于具有多约束条件的被控系统(例如电力系统)，往往采用如下两种方式进行控制策略优化：

3、方式一，基于实际运营数据建立优化模型，通过混合整数线性模型的求解方法进行求解，该方式受实际运营数据安全性限制，存在建立模型准确性差进而导致求解准确率低的问题；

4、方式二，将多约束条件转化为一较大的惩罚项加载奖励函数中，将优化问题转化为无约束优化问题，不能对约束进行直接控制，无法处理一些必要单独考虑的约束条件，进而导致优化效果差的问题；且在对动作进行采样时，未考虑资源分配的问题，存在资源利用率低的问题。

技术实现思路

1、本发明用于解决现有技术中多约束被控系统控制策略确定时存在未考虑单约束条件的情况，以及未考虑资源分配存在控制策略确定效率低及控制效果差的问题。

2、为了解决上述技术问题，本发明一方面提供一种面向多约束被控系统的在线强化学习方法，包括：对于每一状态，通过如下方法确定该状态的最优动作：

3、对动作集合中各动作按预设采样量采样，根据采样结果确定各动作的q因子的方差、各动作激活约束条件的qh因子的方差及各动作的已消耗采样量，其中，q因子根据被控系统控制策略的目标函数确定，qh因子根据被控系统控制策略的约束条件确定；

4、根据各动作的已消耗采样量及预设采样增量，计算已消耗样本总量；

5、利用采样数据分配算法对各动作的q因子的方差、各动作激活约束条件的qh因子的方差及已消耗样本总量进行分析，得到各动作的目标样本量；采样数据分配算法包括计算各类型动作在激活约束条件下采样量的准则，用于渐进最大化正确选择最优动作的概率；

6、根据各动作的目标样本量与各动作的已消耗样本量，确定各动作补充采样量；

7、根据各动作补充采样量进行补充采样，利用补充采样结果重新确定各动作的q因子的方差、各动作激活约束条件的qh因子的方差及各动作的已消耗采样量；

8、调整已消耗采样总量，判断已消耗样本总量是否小于预设总采样量，若是，则重新计算目标样本量及其之后的步骤，若否，输出该状态的最优动作至被控系统。

9、本发明第二方面提供一种面向多约束被控系统的在线强化学习装置，包括：对于每一状态，通过如下单元确定该状态的最优动作：

10、仿真单元，用于对动作集合中各动作按预设采样量采样，根据采样结果确定各动作的q因子的方差、各动作激活约束条件的qh因子的方差及各动作的已消耗采样量，其中，q因子根据被控系统控制策略的目标函数确定，qh因子根据被控系统控制策略的约束条件确定；

11、第一计算单元，用于根据各动作的已消耗采样量及预设采样增量，计算已消耗样本总量；

12、第二计算单元，用于利用采样数据分配算法对各动作的q因子的方差、各动作激活约束条件的qh因子的方差及已消耗样本总量进行分析，得到各动作的目标样本量；采样数据分配算法包括计算各类型动作在激活约束条件下采样量的准则，用于渐进最大化正确选择最优动作的概率；

13、第三计算单元，用于根据各动作的目标样本量与各动作的已消耗样本量，确定各动作补充采样量；

14、补充采样单元，用于根据各动作补充采样量进行补充采样，利用补充采样结果重新确定各动作的q因子的方差、各动作激活约束条件的qh因子的方差及各动作的已消耗采样量；

15、控制单元，用于调整已消耗采样总量，判断已消耗样本总量是否小于预设总采样量，若是，则重新利用第二计算单元计算目标样本量，若否，输出该状态的最优动作至被控系统。

16、本发明第三方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一实施例所述的方法。

17、本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述的方法。

18、本发明提供的面向多约束被控系统的在线强化学习方法及装置，通过预先建立采样数据分配算法，采样数据分配算法包括各类型动作能够计算激活约束条件下的采样量准则，用于渐进最大化正确选择最优动作的概率，利用采样数据分配算法对各状态下的动作进行采样，能够实现如下技术效果：

19、第一，求解简单。相比已有在线q学习方法，本发明只需在最优动作选择这一步进行简单的计算，即可在计算资源有限的情况下最大化正确选择的概率。

20、第二，适用性强。本发明对于任何满足加和性质的约束条件均适用，并且对约束条件的个数没有限制，可以应用于智能电网在多种场景下的调度问题。

21、第三，采样效率高，在计算资源有限的情况下，本发明可以通过对不同动作的采样次数的分配渐进地最大化正确选择满足约束的最优动作的概率，从而实现对q因子更准确的估计，加速算法的收敛。本发明能够将仿真资源集中在真正需要区分的动作上，使得对各动作的观测结果越来越准，最终得到最优动作。

22、为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

技术特征：

1.一种面向多约束被控系统的在线强化学习方法，其特征在于，包括：对于每一状态，通过如下方法确定该状态的最优动作：

2.如权利要求1所述的方法，其特征在于，采样数据分配算法确定过程包括：

3.如权利要求2所述的方法，其特征在于，对多个第一约束条件进行转换得到多个第二约束条件，包括得到利用如下公式表示的多个第二约束条件：

4.如权利要求1所述的方法，其特征在于，近似最优动作挑选概率函数利用如下公式表示：

5.如权利要求1所述的方法，其特征在于，采样数据分配算法包括满足如下条件的准则：

6.如权利要求5所述的方法，其特征在于，采样数据分配算法包括如下准则：

7.如权利要求1所述的方法，其特征在于，利用采样数据分配算法对各动作的q因子的方差、各动作激活约束条件的qh因子的方差及已消耗样本总量进行分析，得到各动作的目标样本量，包括：

8.一种面向多约束被控系统的在线强化学习装置，其特征在于，包括：对于每一状态，通过如下单元确定该状态的最优动作：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器执行时实现权利要求1至7任意一项所述方法。

技术总结
本发明涉及强化学习领域，提供了一种面向多约束被控系统的在线强化学习方法及装置，方法包括：对动作集合中各动作按预设采样量采样，根据采样结果确定各动作的Q因子的方差、各动作激活约束条件的Q<subgt;H</subgt;因子的方差及已消耗采样量；根据各动作的已消耗采样量及预设采样增量计算已消耗样本总量；利用采样数据分配算法对上述量进行分析得到各动作的目标样本量；确定各动作补充采样量；根据各动作补充采样量进行补充采样，利用补充采样结果重新确定上述量；调整已消耗采样总量，判断已消耗样本总量是否小于预设总采样量，若否输出该状态的最优动作至被控系统。本发明适用于多约束被控系统，考虑了各约束条件的采样量分配，提高控制策略确定效率。

技术研发人员：贾庆山,江锐城,郭琦,黄立滨,余佳微,郭天宇,卢远宏,郭海平,涂亮
受保护的技术使用者：清华大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)