本技术涉及面向被控系统群(例如智能电网中的储能电站群)的运行策略优化领域,尤其涉及一种被控系统群的运行策略协同优化方法及装置。
背景技术:
1、现有技术中,存在具有多个被控系统的被控系统群,例如智能电网中的储能电站,储能电站由大量储能设备构成,可以通过合理调度充放电功率提升大电网的性能。伴随着大量新能源发电接入电网,储能电站的稳定、经济运行愈发重要。现有的储能电站运行策略优化涉及的状态空间(比如各用电设备用电需求、储能设备的储能水平、发电设备的发电功率等)与动作空间(比如各储能设备的充电或者放电功率)均比较大,难以用强化学习等方法精确求解,一般采用简化模型求解,且运行策略求解时一般基于单个储能电站的数据、信息优化决策得出,分处不同地点的储能电站彼此之间在策略优化过程中相对独立,各储能电站的学习时间均很长,都需要消耗大量的训练数据。甚至一般的强化学习方法长时间运行也不能找到性能良好的运行策略,因而需要人工制定的运行规则指导电站运行。
技术实现思路
1、本发明用于解决现有技术中,具有多个被控系统的被控系统群的运行策略优化存在效率低及精度差的问题,未利用不同储能电站决策问题的相似性,未通过迁移学习等方法提升储能电站群的整体学习效率。
2、为了解决上述技术问题,本发明一方面提供一种被控系统群的运行策略协同优化方法,所述被控系统群包括多个被控系统,所述方法包括:
3、按照预设采样量对目标被控系统智能体的各动作仿真结果进行采样,根据采样结果确定各动作的q因子样本方差、各最优动作与非最优动作的q因子融合值的性能差别及已消耗样本总量,其中,各动作的q因子融合值由q因子融合函数计算得到,所述q因子融合函数为同一状态-动作下目标被控系统智能体及其相似被控系统智能体的q因子函数;
4、利用采样数据分配算法对各动作的q因子样本方差、性能差别及已消耗样本总量进行分析得到各动作目标样本量,其中,所述采样数据分配算法包括依据所述q因子融合函数分析得到的各类动作采样量的确定准则,用于渐进最大化正确选择最优动作的概率;
5、根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样量;
6、根据各动作补充采样量进行补充采样,利用补充采样的仿真结果重新确定各动作的q因子样本方差、性能差别及已消耗样本总量;
7、调整已消耗样本总量,判断已消耗样本总量是否小于预设总采样量,若是,则重新计算目标样本量及其之后的步骤,若否,输出最优动作。
8、作为本发明进一步实施例中,采样数据分配算法确定过程包括:
9、根据各被控系统的设备信息、系统状态、控制动作、优化目标信息,建立各被控系统控制策略的性能函数及动作采样量约束条件;
10、对各被控系统控制策略的性能函数进行转换得到各被控系统智能体的q因子融合函数;
11、根据各被控系统智能体的q因子融合函数,建立近似最优动作挑选概率函数的目标函数;
12、根据近似最优动作挑选概率函数的目标函数及动作采样量约束条件,确定采样数据分配算法的准则。
13、作为本发明进一步实施例中,对各被控系统控制策略的性能函数进行转换得到各被控系统智能体的q因子融合函数包括:
14、利用如下公式表示的被控系统智能体的q因子融合函数:
15、
16、其中,表示被控系统智能体i与被控系统智能体j在状态s下动作a的q因子融合值;s表示状态;a表示动作;表示被控系统智能体i在状态s及动作a时的q因子观测均值;表示被控系统智能体j在状态s及动作a时的q因子观测均值;s表示状态空间;ai表示动作空间,被控系统智能体i与被控系统智能体j相似。
17、作为本发明进一步实施例中,根据各被控系统智能体的q因子融合函数,建立近似最优动作挑选概率函数的目标函数包括:
18、利用如下公式表示近似最优动作挑选概率函数的目标函数:
19、
20、其中,apcs表示近似最优动作挑选概率函数;b表示最优动作;a表示非最优动作;qij(s,b)表示被控系统智能体i与被控系统智能体j在状态s下最优动作b的q因子融合值;qij(s,a)表示被控系统智能体i与被控系统智能体j在状态s下非最优动作a的q因子融合值,被控系统智能体i与被控系统智能体j相似。
21、作为本发明进一步实施例中,所述采样数据分配算法用于指示:
22、被控系统智能体与其相似被控系统智能体的数据融合后,同一状态s下非观测最优动作的噪信比越大,非观测最优动作的采样量越大,其中,噪信比中噪声指的是非观测最优动作q因子的样本标准差,噪信比中信息指的是观测最优动作与非观测最优动作的q因子融合值的性能差别;
23、同一状态下观测最优动作的采样量应多于其他非观测最优动作的采样量。
24、作为本发明进一步实施例中,采样数据分配算法包括:
25、准则1:对于非观测最优动作p及q,q≠p,
26、
27、其中,表示被控系统智能体i在非观测最优动作p时的采样量;表示被控系统智能体i在非观测最优动作q时的采样量;σip表示被控系统智能体i在非观测最优动作p时q因子的样本标准差;σiq表示被控系统智能体i在非观测最优动作q时q因子的样本标准差;δp表示被控系统智能体i与其相似被控系统智能体j的最优动作b与非最优动作p的q因子融合值的性能差别;δq表示被控系统智能体i与其相似被控系统智能体j的最优动作b与非最优动作q的q因子融合值的性能差别;
28、准则2:对于观测最优动作b及非最优动作a,
29、
30、其中,表示被控系统智能体i在观测最优动作b时的采样量;σib表示被控系统智能体i在观测最优动作b时q因子的样本标准差;表示被控系统智能体i在非最优动作a时的采样量;σia表示被控系统智能体i在非最优动作a时q因子的样本标准差。
31、作为本发明进一步实施例中,利用采样数据分配算法对各动作的q因子样本方差、性能差别以及已消耗样本总量进行分析得到各动作目标样本量,包括:
32、根据采样数据分配算法对各动作的q因子样本方差及性能差别进行分析,得到各动作的采样比例;
33、利用各动作的采样比例与已消耗样本总量乘积得到各动作应获得的样本数量;
34、选择各动作应获得的样本数量与各动作实际已使用的样本数量中较大者作为各动作目标样本数量。
35、本发明第二方面提供一种被控系统群的运行策略协同优化装置,所述被控系统群包括多个被控系统,所述装置包括:
36、采样计算单元,用于按照预设采样量对目标被控系统智能体的各动作仿真结果进行采样,根据采样结果确定各动作的q因子样本方差、各最优动作与非最优动作的q因子融合值的性能差别及已消耗样本总量,其中,各动作的q因子融合值由q因子融合函数计算得到,所述q因子融合函数为同一状态-动作下目标被控系统智能体及其相似被控系统智能体的q因子函数;
37、目标采样量确定单元,用于利用采样数据分配算法对各动作的q因子样本方差、性能差别及已消耗样本总量进行分析得到各动作目标样本量,其中,所述采样数据分配算法包括依据所述q因子融合函数分析得到的各类动作采样量的确定准则,用于渐进最大化正确选择最优动作的概率;
38、补充采样量确定单元,用于根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样量;
39、补充采样单元,用于根据各动作补充采样量进行补充采样,利用补充采样的仿真结果重新确定各动作的q因子样本方差、性能差别及已消耗样本总量;
40、分析单元,用于调整已消耗样本总量,判断已消耗样本总量是否小于预设总采样量,若是,则重新利用目标采样量确定单元计算目标样本量,若否,输出最优动作。
41、本发明第三方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述任意一实施例所述方法。
42、本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机设备的处理器执行时实现前述任意一实施例所述方法。
43、本发明第五方面提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被计算机设备执行时实现前述任意一实施例所述方法。
44、本发明提供的被控系统群的运行策略协同优化方法及装置,通过预先设计目标被控系统智能体的q因子融合函数,q因子融合函数将目标被控系统智能体与其相似被控系统智能体的q因子数据进行了分享/共享/融合,被控系统智能体之间的相似指的是被控系统智能体在同一状态下最优动作一致,能够提高从共享环境中学习到的策略的性能,拉开最优动作与其他动作的q因子的差距,以利于在同样观测不确定性下提升最优动作的正确挑选概率,协同使用动作一致性的被控系统的运行数据,有效提升策略优化过程的数据效率。
45、基于目标被控系统智能体的q因子融合函数建立采样数据分配算法,基于q因子融合数据及采样数据分配算法对各动作采样量进行分配,能够渐进最大化正确选择最优动作的概率。同时,本发明通过采样量的控制还能提升被控系统运行调度过程中在线强化学习的数据效率,显著提升在线决策所需的时间,减少数据用量。
46、为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
1.一种被控系统群的运行策略协同优化方法,其特征在于,所述被控系统群包括多个被控系统,所述方法包括:
2.如权利要求1所述的方法,其特征在于,采样数据分配算法确定过程包括:
3.如权利要求2所述的方法,其特征在于,对各被控系统控制策略的性能函数进行转换得到各被控系统智能体的q因子融合函数包括:
4.如权利要求2所述的方法,其特征在于,根据各被控系统智能体的q因子融合函数,建立近似最优动作挑选概率函数的目标函数包括:
5.如权利要求1所述的方法,其特征在于,所述采样数据分配算法用于指示:
6.如权利要求5所述的方法,其特征在于,采样数据分配算法包括:
7.如权利要求1所述的方法,其特征在于,利用采样数据分配算法对各动作的q因子样本方差、性能差别以及已消耗样本总量进行分析得到各动作目标样本量,包括:
8.一种被控系统群的运行策略协同优化装置,其特征在于,所述被控系统群包括多个被控系统,所述装置包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器执行时实现权利要求1至7任意一项所述方法。
