本发明涉及强化学习领域,尤其涉及一种被控系统运行调度的监督强化学习方法及装置。
背景技术:
1、对于复杂被控系统(例如智能电网),其经济运行具有重要的工程需求,强化学习具备从数据中学习并逐步提升策略性能的潜力,因而获得了工程应用的高度关注。以新能源电力系统为例,新能源电力系统中含有大量新能源(例如风能、太阳能、燃料电池等)发电设备、储能设备及用电设备(例如建筑用电、电动汽车充电桩用电)等,其运行策略需要在给定当前系统状态后决定采用什么动作。
2、实际上,上述系统存在状态空间及动作空间大的特点,状态空间例如包括各种发电设备、储能设备、用电设备的状态,动作空间例如包括储能设备的充电或者放电功率、电动汽车充电桩的充电功率、火力发电机组的出力等。对于上述复杂被控系统,运行调度策略确定方式主要有如下两类:一类是直接使用一般的强化学习方法,该类方法需要大量的训练数据才能取得较好的运行策略,因而存在学习效率低、耗费时间长的问题。另一类方法为让系统运行一段时间后,由经验丰富的工程师对同样状态下的两个动作评价孰优孰劣,根据工程师的评价结果确定调度策略,但让工程师针对每个状态给出最优动作方式,存在耗时过长,不能实用的问题,且该类方式未将工程师的经验直接应用于被控系统的运行策略优化中,存在工程师经验未得到有效利用的问题。
3、
技术实现思路
1、本发明用于解决现有技术中,复杂被控系统运行调度时未将监督者的反馈信息与环境交互数据结合起来,存在学习效率低、最优动作精度差及监督者经验浪费的问题。
2、为了解决上述技术问题,本发明第一方面提供一种被控系统运行调度的监督强化学习方法,包括:
3、按照预设采样数量对被控系统的各状态-动作对的仿真结果进行采样,根据采样的仿真结果确定各状态下各动作的类型、各状态-动作对的q因子、q因子样本方差以及已消耗样本总量;
4、根据各状态下各非观测最优动作的q因子及观测最优动作的q因子计算得到各状态下各非观测最优动作的重要性,将观测最优动作及重要性排名前△m个非观测最优动作发送至监督者以由监督者确定最优动作;
5、调整已消耗采样总量,利用采样数据分配算法对各状态-动作对的q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量,采样数据分配算法包括各类型动作采样数量的确定准则,用于渐进最大化正确选择观测最优动作的概率;
6、根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;
7、根据各动作补充采样数量进行补充采样,利用补充采样的仿真结果重新确定动作类型步骤及重新计算各状态下各非观测最优动作的重要性及反馈监督者的步骤;
8、判断已消耗样本总量是否小于或等于预设总采样量,若是则重新执行调整已消耗采样总量及其之后的步骤,若否则输出各状态下观测最优动作。
9、作为本发明进一步实施例中,采样数据分配算法确定过程包括:
10、根据被控系统的设备信息、负载信息、系统状态、控制动作、优化目标信息,建立控制策略的目标函数、动作采样数量约束条件及咨询量约束条件;
11、对所述控制策略的目标函数进行转换得到强化学习的动作q因子;
12、根据动作q因子,构建计算非观测最优动作重要性的指标函数以及近似观测最优动作挑选概率函数的目标函数;
13、根据所述近似观测最优动作挑选概率函数的目标函数、指标函数以及动作采样数量约束条件及咨询量约束条件,确定采样数据分配算法的准则。
14、作为本发明进一步实施例中,所述近似观测最优动作挑选概率函数的目标函数、动作采样数量约束条件及咨询量约束条件利用如下公式表示:
15、max apcs;
16、
17、
18、∑s,a,a'm(s,a,a')=m;
19、其中,apcs表示近似观测最优动作挑选概率函数,s表示状态;a表示非观测最优动作,b(s)表示观测最优动作,q(s,b(s))表示状态s下观测最优动作b(s)的q因子值,q(s,a)表示状态s下非观测最优动作a的q因子值,p(s)表示状态s的稳态概率分布,e表示常数,nsa表示状态s及动作a对应的q因子的采样数量,n表示总采样数量,m(s,a,a')表示向监督者咨询状态s下动作a与a’的次数,m表示向监督者咨询的总咨询量。
20、作为本发明进一步实施例中,根据各状态下各非观测最优动作的q因子及观测最优动作的q因子计算得到各状态下各非观测最优动作的重要性包括:
21、利用如下公式计算各状态下各非观测最优动作的重要性:
22、i(s,α)=1-pr{q(s,b(s))≤q(s,α)};
23、其中,i(s,a)表示状态s下非观测最优动作a的重要性;q(s,b(s))表示状态s下观测最优动作b的q因子;q(s,a)表示状态s下非观测最优动作a的q因子。
24、作为本发明进一步实施例中,所述采样数据分配算法用于指示:
25、各状态s下非观测最优动作的噪信比越大,非观测最优动作的采样数量越大,其中,噪信比中的噪声指的是各状态s下非观测最优动作的q因子的样本标准差,噪信比中的信息指的是各状态s下观测最优动作的q因子与状态s下非观测最优动作的q因子的性能差;
26、各状态下各自的观测最优动作的采样数量应正比于各状态的稳态概率与各状态下各自的观测最优动作的q因子的样本标准差的乘积;
27、对于未被监督者确认过的观测最优动作及非观测最优动作,各状态s下观测最优动作的采样数量应多于其他非观测最优动作的采样数量。
28、作为本发明进一步实施例中,所述采样数据分配算法包括如下准则:
29、准则1:对于非观测最优动作i及j,
30、其中,nsi表示状态s下动作i的采样数量,nsj表示状态s下动作j的采样数量,ssi表示状态s下动作i的q因子样本标准差,ssj表示状态s下动作j的q因子样本标准差,dsi表示状态s的观测最优动作的q因子与状态s下动作i的性能差,dsj表示状态s的观测最优动作的q因子与状态s下动作j的性能差;
31、准则2:对于状态i下的观测最优动作b以及状态j下的观测最优动作b,
32、
33、其中,nib表示状态i下的观测最优动作b(i)的采样数量,njb表示状态j下的观测最优动作b(j)的采样数量,p(i)表示状态i的稳态概率分布,p(j)表示状态j的稳态概率分布,sib表示状态i下的观测最优动作b(i)的q因子样本标准差,sjb表示状态j下的观测最优动作b(j)的q因子样本标准差;
34、准则3:对于状态s下的观测最优动作b,
35、其中,nsb表示状态s下动作b(s)的采样数量,ssb表示状态s下动作b(s)的q因子样本标准差,nsa表示状态s下非观测最优动作a的采样数量,ssa表示状态s下非观测最优动作a的q因子样本标准差,m(s,b(s),a)表示状态s下向监督者咨询动作b(s)及a的次数。
36、作为本发明进一步实施例中,利用采样数据分配算法对各状态-动作对的q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量,包括:
37、根据采样数据分配算法对各状态-动作对的q因子样本方差进行分析,得到各状态下各动作的目标样本数量比例;
38、利用各状态下各动作的目标样本数量比例与已消耗样本总量乘积得到各状态下各动作应获得的样本数量;
39、选择各状态下各动作应获得的样本数量与各状态下各动作实际已使用的样本数量中较大者作为各状态下各动作目标样本数量。
40、本发明第二方面提供一种被控系统运行调度的监督强化学习装置,包括:
41、仿真计算单元,用于按照预设采样数量对被控系统的各状态-动作对的仿真结果进行采样,根据采样的仿真结果确定各状态下各动作的类型、各状态-动作对的q因子、q因子样本方差以及已消耗样本总量;
42、监督单元,用于根据各状态下各非观测最优动作的q因子及观测最优动作的q因子计算得到各状态下各非观测最优动作的重要性,将观测最优动作及重要性排名前△m个非观测最优动作发送至监督者以由监督者确定最优动作;
43、分配计算单元,用于调整已消耗采样总量,利用采样数据分配算法对各状态-动作对的q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量,采样数据分配算法包括各类型动作采样数量的确定准则,用于渐进最大化正确选择观测最优动作的概率;
44、补充采样量确定单元,用于根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;
45、补充采样单元,用于根据各动作补充采样数量进行补充采样,由仿真计算单元利用补充采样的仿真结果重新执行确定动作类型的步骤及由监督单元重新计算各状态下各非观测最优动作的重要性及反馈监督者;
46、分析单元,用于判断已消耗样本总量是否小于或等于预设总采样量,若是则由分配计算单元重新执行调整已消耗采样总量及其之后的步骤,若否则输出各状态下观测最优动作。
47、本发明第三方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述任一实施例所述方法。
48、本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述方法。
49、本发明第五方面提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述方法。
50、本发明提供的被控系统运行调度的监督强化学习方法及装置,适用于包括多状态及多动作的复杂被控系统,例如智能电网、新能源电力系统等,能够实现如下技术效果:
51、(1)通过优化使用有限的与监督者交流的机会以及有限的与环境交互的机会,将监督者的监督与采样数据融合起来,能够提升强化学习效率及性能。
52、(2)通过筛选出重要性排名靠前的非观测最优动作及观测最优动作至监督者,以由监督者确定最优动作,能够提高最优动作确定的准确率。
53、(3)通过借助采样数量确定准则能够渐进最大化正确选择最优动作的概率,将仿真资源集中在重要的真正需要区分的动作上,实现有效采样,减少学习时间,降低时间成本,使得对各动作的观测结果越来越准,最终得到最优的动作。同时,通过采样量的控制,还能提升被控系统运行调度过程中在线强化学习的数据效率,显著提升在线决策所需的时间,减少数据用量。
54、为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
55、
1.一种被控系统运行调度的监督强化学习方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,采样数据分配算法确定过程包括:
3.如权利要求2所述的方法,其特征在于,所述近似观测最优动作挑选概率函数的目标函数、动作采样数量约束条件及咨询量约束条件利用如下公式表示:
4.如权利要求1所述的方法,其特征在于,根据各状态下各非观测最优动作的q因子及观测最优动作的q因子计算得到各状态下各非观测最优动作的重要性包括:
5.如权利要求1所述的方法,其特征在于,所述采样数据分配算法用于指示:
6.如权利要求5所述的方法,其特征在于,所述采样数据分配算法包括如下准则:
7.如权利要求1所述的方法,其特征在于,利用采样数据分配算法对各状态-动作对的q因子样本方差及已消耗样本总量进行分析得到各状态下各动作目标样本量,包括:
8.一种被控系统运行调度的监督强化学习装置,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器执行时实现权利要求1至7任意一项所述方法。
