本发明属于pv-ec直接耦合制氢系统运行控制领域,具体涉及一种pv-ec直接耦合制氢系统运行优化方法及装置。
背景技术:
1、氢能能被誉为是21世纪的“终极能源”,利用可再生能源电解水制氢全过程几乎没有碳排放。其中,光伏制氢利用光伏电池吸收太阳辐射能量产生直流电,并与电解水制氢装置连接生产氢气,是现阶段众多学者研究的热点之一。
2、光伏-电解槽直接耦合制氢系统省去了dc-dc转换器,降低了其投资成本和连接复杂性,是国内外学者研究的热点。然而直接耦合方式下,电解槽阵列需要动态调节其功率和结构从而匹配变化的光伏输出电压和电流,否则会导致系统不稳定、电解效率低下。
3、pem电解槽在没有其他电源的情况下,仅跟随光伏出力的波动也会对电解槽本身造成不可逆的性能衰减,导致电解槽的使用寿命降低从而提高系统维护成本。现有研究通过进行光伏直接耦合制氢实验,并在试验结束后检查电解槽得出,整个实验周期中,造成pem不可逆衰减的主要原因在于为追踪光伏mpp,pem电解槽会工作在较高电流密度。现有研究还通过对比实验证明,当pem电解槽以10小时为周期交替启停时,在停止工作期间,在运行期间产生的可逆衰减会恢复,而当电解槽以10分钟为周期交替启停时,在1000小时后,其性能衰减较于周期为10小时更严重。
技术实现思路
1、为了解决pv-ec直接耦合制氢系统电解槽阵列结构频繁变换、工作电流密度大导致电解槽性能衰减快的问题,本发明提供一种pv-ec直接耦合制氢系统运行优化方法及装置。由于在白天开启、夜晚时关闭的工作模式并不会加速电解槽的不可逆衰减,在日内运行过程中,电解槽阵列应当减少串并联结构变换的次数并避免电解槽工作在过高的电流密度下,因此本发明分别以直接耦合系统能量利用率、制氢速率为目标,综合考虑电解槽衰减以及光伏不确定性,将pv-ec直接耦合系统控制问题建模为马尔可夫决策过程;搭建包含光辐照度预测模块、光伏发电模块、电解槽阵列模块的仿真情景,并基于深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法训练智能体学习直接耦合制氢系统的最优运行策略;最后,通过与现有控制方法对比分析,证明所提方法能够保证系统较高能量利用率及制氢速率,同时避免电解槽工作在高电流密度并减少电解槽阵列结构变换的次数。
2、为达到上述目的,本发明采用如下技术方案:
3、一种pv-ec直接耦合制氢系统运行优化方法,包括:
4、采集区域内日前光辐照度以及温度预测数据,建立光伏发电以及pem电解槽阵列模型;
5、综合考虑系统能量利用率、电解槽启停约束、电解槽电流密度约束、光辐照度预测精度,基于建立的光伏发电以及pem电解槽阵列模型,搭建pv-ec直接耦合制氢系统的马尔可夫模型;
6、基于ddpg算法训练智能体学习pv-ec直接耦合制氢系统的最优运行策略;
7、采集区域内日内滚动光辐照度以及温度预测数据,基于训练的智能体输出pv-ec实时运行策略。
8、进一步地,所述采集区域内日前光辐照度以及温度预测数据,建立光伏发电以及pem电解槽阵列模型包括:
9、采集区域内日前光辐照度pv以及温度预测数据td,时间分辨率为15min;
10、建立光伏发电系统模型,如下式所示:
11、 (1)
12、式中:i与u为光伏电池输出电压与电流,um、im分别为光伏最大功率点对应的电压与电流;c1,c2为中间系数;um、im、uoc、isc分别为光伏电池最大功率下的电压与电流,开路电压与短路电流,在实际工况下,其计算方法如下:
13、 (2)
14、式中:tair为环境温度;s为实际工况下的光辐照度;分别为参考工况下光伏最大功率点的电压与电流、开路电压与光生电流;sref、tref分别为参考工况下的光辐照度与环境温度;a、b、c分别为光伏电池温度系数;k为玻尔兹曼常数;△t为光伏电池实际温度与参考温度之差;
15、假设光伏阵列的串、并联数目为,得到在任意工况下光伏阵列模型表示如下:
16、 (3)
17、建立pem电解槽阵列模型,如下式所示:
18、 (4)
19、式中:uel为pem电解槽电压,urev、uohm、uact、udiff分别为可逆电压、欧姆过电势、活化过电势、扩散过电势;其中,忽略udiff;
20、基于能斯特方程,可逆电压urev的计算公式为:
21、 (5)
22、式中:p h2、p o2分别为氢气与氧气的分压;r为气体常数;α h2o为水的活度;f为法拉第常数;tel为电解槽工作温度;
23、出欧姆过电势uohm的计算公式为:
24、 (6)
25、式中:δm为pem厚度;λ为pem含水量;j为电流密度;
26、活化过电势uact的计算公式为:
27、 (7)
28、式中:uact-a与uact-c分别为阳极过电势与阴极过电势;ta与tc分别为阳极与阴极的温度;αa与αc分别为阳极与阴极的电荷转移系数;jo,a与jo,c为阳极与阴极的交换电流密度;j为电流密度;
29、基于法拉第定律,单pem电解槽制氢效率表示如下:
30、 (8)
31、 (9)
32、式中:ηh 2为制氢速率,单位为mol/h;a为pem面积;ηf为法拉第效率;f1、f2为法拉第相关系数,其计算方法如下:
33、 (10)
34、式中:f11、f12、f21、f22为法拉第效率系数,通过拟合电解槽制氢效率曲线得到;
35、多个电解槽串并联连接组成电解槽阵列,假设串并联数目分别为ns、np,则电解槽阵列的外特性表示如下:
36、 (11)
37、 (12)
38、式中:istack与ustack分别为电解槽阵列的电流与电压;iel为单电解槽的电流,与电流密度的转换关系如下式表示:
39、 (13)
40、于是,得到电解槽阵列的制氢速率q h2为:
41、 (14)
42、采用线性模型i = au+b拟合电解槽在工作点,其中,i为电流,u为电压,a为斜率,b为截距;基于最小二乘法,假设有离散点集x、y,其平均值为、,离散点数目为m,则线性模型的斜率a计算如下:
43、 (15)
44、基于待定系数法求解截距b,其计算方式如下:
45、 (16)
46、假设电解槽串、并联数目为ns、np,于是电解槽阵列外特性由下式表示:
47、 (17)
48、式中:istack、ustack分别为电解槽阵列的电压与电流,与式(8)联立得到电解槽阵列的制氢速率如下:
49、 (18)。
50、进一步地,所述综合考虑系统能量利用率、电解槽启停约束、电解槽电流密度约束、光辐照度预测精度,建立pv-ec直接耦合制氢系统的马尔可夫模型包括:
51、基于日前光辐照度与温度预测数据建立pv-ec直接耦合制氢系统的状态空间,如下式所示:
52、 (19)
53、式中:st为pv-ec直接耦合制氢系统在t时刻的状态;pvi表示为自当前时刻起光辐照度预测数据;ti表示自当前时刻起第i时刻的温度预测数据;n为预测据的长度;nst表示电解槽阵列在t时刻的串联数目;npt表示电解槽阵列在t时刻的并联数目;
54、建立pv-ec直接耦合制氢系统的动作空间,如下式所示:
55、 (20)
56、式中:at为电解槽阵列在t时刻起应采用的结构;nst与npt表示电解槽阵列在t时刻起应采取的串联与并联数目;
57、建立pv-ec直接耦合制氢系统的状态转移方程,如下式所示:
58、 (21)
59、式中:st表示系统在t时刻的状态;τ表示状态转移函数;ωt表示环境的随机性,其代表了环境固有的可变性,不被智能体的动作影响,在pv-ec直接耦合制氢系统中ωt来自于光辐照度、温度的不确定性;
60、假设在t时刻系统的状态、智能体输出动作如式(19)、式(20),则在t+1时刻,系统状态由下式表示:
61、 (22)
62、建立pv-ec直接耦合制氢系统的奖励值函数,即以能量利用率最大为目标优化电解槽阵列运行策略,奖励值函数如下所示:
63、 (23)
64、式中:gt为t时刻系统获得的预期收益;pt表示t时刻电解槽电流密度的惩罚项;
65、t时刻系统获得的预期收益gt的计算分两种方式:
66、方式一:当智能体输出的动作at与前一时刻电解槽阵列的串、并联数目一致时,由下式计算:
67、 (24)
68、式中:istack,t、vstack,t分别为t时刻电解槽阵列的电压与电流,可联立式(3)、(17)求解;impp,t、vmpp,t为t时刻光伏电池最大功率点处的电压与电流,通过式(2)求解;
69、方式二:当智能体输出的动作at与前一时刻电解槽阵列的串、并联数目不一致时,在系统获得的预期收益gt的计算表达式如下:
70、 (25)
71、式中:n为计算周期的长度;β为奖励系数,这是将预期的收益折算到当前时刻的折算系数,表现了当前收益与预期收益之间的权衡,通过该方式能适当的减小环境不确定性对于决策的影响;rt+1为系统在t+1时刻获得的收益,可根据式(21)计算;
72、t时刻电解槽电流密度的惩罚项pt的计算表达式如下:
73、 (26)
74、式中:jt为执行该动作后电解槽的电流密度,联立式(3)、式(13)、式(17)求解;w为惩罚项的系数;jh、jl分别为设定的电解槽电流密度上限与下限。
75、进一步地,所述基于ddpg算法训练智能体学习pv-ec直接耦合制氢系统的最优运行策略包括:
76、明确ddpg算法各网络更新方式;ddpg算法包含四个神经网络,其中actor网络即智能体,能够根据环境状态st输出动作at;critic网络为批判网络,能够根据当前状态st对actor的动作at做出评价q;actor目标网络根据st+1的状态输出动作at+1,critic目标网络根据状态st+1对actor目标网络输出的动作at+1做出评价q′;
77、对于actor网络的优化,其目标为最大化critic网络的评价q,因此actor的损失函数为-q;
78、对于critic网络,根据马尔可夫决策过程,前一时刻环境状态的q值与q′以及当前奖励值rt存在如下的关系:
79、 (27)
80、式中:γ为衰减因子;
81、基于式(27),得出critic网络损失函数td-error如下:
82、 (28)
83、采用滑动平均值更新方法进行更新;
84、对于actor目标网络,假设actor目标网络参数为θ,actor网络参数为θa,则更新后目标网络参数θ′的计算公式如下:
85、 (29)
86、式中:κ为滑动平均值的比例系数。
87、将智能体与环境互动产生的数据存放在经验池中,在智能体更新网络参数时从经验池中随机挑选batch个数据来训练;
88、引入智能体探索度参数α实现对智能体探索能力的控制,当α大于0.2时不采纳智能体的动作,随机选择可行的动作,反之则采纳智能体的动作;
89、假设智能体训练次数epiode设为n,在第m次训练时,α的计算方式如下:
90、 (30)
91、式中:sample()表示对括号内内容随机采样;n(0,)表式服从期望为0、方差为的正态分布。
92、进一步地,所述采集区域内日内滚动光辐照度以及温度预测数据,基于训练的智能体输出pv-ec实时运行策略包括:
93、采集区域内日内光辐照度预测数据sr以及温度滚动预测数据tr,时间分辨率为15min,滚动预测数据时间尺度为两小时,即8个数据点;
94、将日内滚动预测数据作为前述得到智能体的输入数据,得出各时刻pv-ec运行策略。
95、本发明还提供一种pv-ec直接耦合制氢系统运行优化装置,包括如下模块:
96、pem电解槽阵列模型建立模块,用于采集区域内日前光辐照度以及温度预测数据,建立光伏发电以及pem电解槽阵列模型,用于搭建马尔可夫模型;
97、马尔可夫模型建立模块,用于综合考虑系统能量利用率、电解槽启停约束、电解槽电流密度约束、光辐照度预测精度,建立pv-ec直接耦合制氢系统的马尔可夫模型;
98、智能体学习模块,用于基于ddpg算法训练智能体学习pv-ec直接耦合制氢系统的最优运行策略;
99、实时运行策略输出模块,用于采集区域内日内滚动光辐照度以及温度预测数据,基于训练的智能体输出pv-ec实时运行策略。
100、进一步地,所述pem电解槽阵列模型建立模块实现:
101、采集区域内日前光辐照度pv以及温度预测数据td,时间分辨率为15min;
102、建立光伏发电系统模型,如下式所示:
103、 (1)
104、式中:i与u为光伏电池输出电压与电流;um、im分别为光伏最大功率点对应的电压与电流;c1、c2为中间系数;um、im、uoc、isc分别为光伏电池最大功率下的电压与电流,开路电压与短路电流,在实际工况下,其计算方法如下::
105、 (2)
106、式中:tair为环境温度;s为实际工况下的光辐照度;分别为参考工况下光伏最大功率点的电压与电流、开路电压与光生电流;sref、tref分别为参考工况下的光辐照度与环境温度;a、b、c分别为光伏电池温度系数;k为玻尔兹曼常数;△t为光伏电池实际温度与参考温度之差;
107、假设光伏阵列的串、并联数目为,得到在任意工况下光伏阵列模型表示如下:
108、 (3)
109、建立pem电解槽阵列模型,如下式所示:
110、 (4)
111、式中:uel为pem电解槽电压,urev、uohm、uact、udiff分别为可逆电压、欧姆过电势、活化过电势、扩散过电势;其中,忽略udiff;
112、基于能斯特方程,可逆电压urev计算公式为:
113、 (5)
114、式中:p h2、p o2分别为氢气与氧气的分压;r为气体常数;α h2o为水的活度;f为法拉第常数;tel为电解槽工作温度;
115、出欧姆过电势uohm的计算公式为:
116、 (6)
117、式中:δm为pem厚度;λ为pem含水量;j为电流密度;
118、活化过电势uact计算公式为:
119、 (7)
120、式中:uact-a与uact-c分别为阳极过电势与阴极过电势;ta与tc分别为阳极与阴极的温度;αa与αc分别为阳极与阴极的电荷转移系数;jo,a与jo,c为阳极与阴极的交换电流密度;j为电流密度;
121、基于法拉第定律,单pem电解槽制氢效率表示如下:
122、 (8)
123、 (9)
124、式中:ηh 2为制氢速率,单位为mol/h;a为pem面积;ηf为法拉第效率;f1、f2为法拉第相关系数,其计算方法如下:
125、 (10)
126、式中:f11、f12、f21、f22为法拉第效率系数,通过拟合电解槽制氢效率曲线得到;
127、多个电解槽串并联连接组成电解槽阵列,假设串并联数目分别为ns、np,则电解槽阵列的外特性表示如下:
128、 (11)
129、 (12)
130、式中:istack与ustack分别为电解槽阵列的电流与电压;iel为单电解槽的电流,与电流密度的转换关系如下式表示:
131、 (13)
132、于是,得到电解槽阵列的制氢速率为:
133、 (14)
134、采用线性模型i = au+b拟合电解槽在工作点,其中,i为电流,u为电压,a为斜率,b为截距;基于最小二乘法,假设有离散点集x、y,其平均值为、,离散点数目为m,则线性模型的斜率a计算如下:
135、 (15)
136、基于待定系数法求解截距b,其计算方式如下:
137、 (16)
138、假设电解槽串、并联数目为ns、np,于是电解槽阵列外特性由下式表示:
139、 (17)
140、式中:istack、ustack分别为电解槽阵列的电压与电流,与式(8)联立得到电解槽阵列的制氢速率如下:
141、 (18)。
142、进一步地,所述马尔可夫模型建立模块实现:
143、基于日前光辐照度与温度预测数据建立pv-ec直接耦合制氢系统的状态空间,如下式所示:
144、 (19)
145、式中:st为pv-ec直接耦合制氢系统在t时刻的状态;pvi表示为自当前时刻起光辐照度预测数据;ti表示自当前时刻起第i时刻的温度预测数据;n为预测据的长度;nst表示电解槽阵列在t时刻的串联数目;npt表示电解槽阵列在t时刻的并联数目;
146、建立pv-ec直接耦合制氢系统的动作空间,如下式所示:
147、 (20)
148、式中:at为电解槽阵列在t时刻起应采用的结构;nst与npt表示电解槽阵列在t时刻起应采取的串联与并联数目;
149、建立pv-ec直接耦合制氢系统的状态转移方程,如下式所示:
150、 (21)
151、式中:st表示系统在t时刻的状态;τ表示状态转移函数;ωt表示环境的随机性,其代表了环境固有的可变性,不被智能体的动作影响,在pv-ec直接耦合制氢系统中ωt来自于光辐照度、温度的不确定性;
152、假设在t时刻系统的状态、智能体输出动作如式(19)、式(20),则在t+1时刻,系统状态由下式表示:
153、 (22)
154、建立pv-ec直接耦合制氢系统的奖励值函数,即以能量利用率最大为目标优化电解槽阵列运行策略,奖励值函数如下所示:
155、 (23)
156、式中:gt为t时刻系统获得的预期收益;pt表示t时刻电解槽电流密度的惩罚项;
157、t时刻系统获得的预期收益gt的计算分两种方式:
158、方式一:当智能体输出的动作at与前一时刻电解槽阵列的串、并联数目一致时,由下式计算:
159、 (24)
160、式中:istack,t、vstack,t分别为t时刻电解槽阵列的电压与电流,可联立式(3)、(17)求解;impp,t、vmpp,t为t时刻光伏电池最大功率点处的电压与电流,通过式(2)求解;
161、方式二:当智能体输出的动作at与前一时刻电解槽阵列的串、并联数目不一致时,在系统获得的预期收益gt的计算表达式如下:
162、 (25)
163、式中:n为计算周期的长度;β为奖励系数,这是将预期的收益折算到当前时刻的折算系数,表现了当前收益与预期收益之间的权衡,通过该方式能适当的减小环境不确定性对于决策的影响;rt+1为系统在t+1时刻获得的收益,根据式(21)计算;
164、t时刻电解槽电流密度的惩罚项pt的计算表达式如下:
165、 (26)
166、式中:jt为执行该动作后电解槽的电流密度,联立式(3)、式(13)、式(17)求解;w为惩罚项的系数;jh、jl分别为设定的电解槽电流密度上限与下限。
167、进一步地,所述智能体学习模块实现:
168、明确ddpg算法各网络更新方式;ddpg算法包含四个神经网络,其中actor网络即智能体,能够根据环境状态st输出动作at;critic网络为批判网络,能够根据当前状态st对actor的动作at做出评价q;actor目标网络根据st+1的状态输出动作at+1,critic目标网络根据状态st+1对actor目标网络输出的动作at+1做出评价q′;
169、对于actor网络的优化,其目标为最大化critic网络的评价q,因此actor的损失函数为-q;
170、对于critic网络,根据马尔可夫决策过程,前一时刻环境状态的q值与q′以及当前奖励值rt存在如下的关系:
171、 (27)
172、式中:γ为衰减因子;
173、基于式(27),得出critic网络损失函数td-error如下:
174、 (28)
175、采用滑动平均值更新方法进行更新;
176、对于actor目标网络,假设actor目标网络参数为θ,actor网络参数为θa,则更新后目标网络参数θ′的计算公式如下:
177、 (29)
178、式中:κ为滑动平均值的比例系数。
179、将智能体与环境互动产生的数据存放在经验池中,在智能体更新网络参数时从经验池中随机挑选batch个数据来训练;
180、引入智能体探索度参数α实现对智能体探索能力的控制,当α大于0.2时不采纳智能体的动作,随机选择可行的动作,反之则采纳智能体的动作;
181、假设智能体训练次数epiode设为n,在第m次训练时,α的计算方式如下:
182、 (30)
183、式中:sample()表示对括号内内容随机采样;n(0,)表式服从期望为0、方差为的正态分布。
184、进一步地,所述实时运行策略输出模块实现:
185、采集区域内日内光辐照度预测数据sr以及温度滚动预测数据tr,时间分辨率为15min,滚动预测数据时间尺度为两小时,即8个数据点;
186、将日内滚动预测数据作为前述得到智能体的输入数据,得出各时刻pv-ec运行策略。
187、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的一种pv-ec直接耦合制氢系统运行优化方法的步骤。
188、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种pv-ec直接耦合制氢系统运行优化方法的步骤。
189、本发明与现有技术相比,具有以下有益效果:
190、1、本发明提出将pv-ec直接耦合系统运行控制问题建模为马尔可夫决策过程,并基于ddpg算法求解,能够有效减缓pv-ec直接耦合制氢系统电解槽阵列结构频繁变换、工作电流密度大导致的电解槽性能衰减速度。
191、2、本发明通过可在奖励值中追加电解槽结构频繁变动的惩罚项,以此来平衡电解槽在整个周期结构变动次数与系统整体性能,同时,还能够降低光伏不确定性对系统产生的影响。
1.一种pv-ec直接耦合制氢系统运行优化方法,其特征在于,包括:
2.根据权利要求1所述的pv-ec直接耦合制氢系统运行优化方法,其特征在于,所述采集区域内日前光辐照度以及温度预测数据,建立光伏发电以及pem电解槽阵列模型包括:
3.根据权利要求2所述的pv-ec直接耦合制氢系统运行优化方法,其特征在于,所述综合考虑系统能量利用率、电解槽启停约束、电解槽电流密度约束、光辐照度预测精度,建立pv-ec直接耦合制氢系统的马尔可夫模型包括:
4.根据权利要求3所述的pv-ec直接耦合制氢系统运行优化方法,其特征在于,所述基于ddpg算法训练智能体学习pv-ec直接耦合制氢系统的最优运行策略包括:
5.根据权利要求4所述的pv-ec直接耦合制氢系统运行优化方法,其特征在于,所述采集区域内日内滚动光辐照度以及温度预测数据,基于训练的智能体输出pv-ec实时运行策略包括:
6.一种pv-ec直接耦合制氢系统运行优化装置,其特征在于,包括如下模块:
7.根据权利要求6所述的pv-ec直接耦合制氢系统运行优化装置,其特征在于,所述pem电解槽阵列模型建立模块实现:
8.根据权利要求6所述的pv-ec直接耦合制氢系统运行优化装置,其特征在于,所述马尔可夫模型建立模块实现:
9.根据权利要求6所述的pv-ec直接耦合制氢系统运行优化装置,其特征在于,所述智能体学习模块实现:
10.根据权利要求6所述的pv-ec直接耦合制氢系统运行优化装置,其特征在于,所述实时运行策略输出模块实现:
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5之一所述的一种pv-ec直接耦合制氢系统运行优化方法的步骤。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5之一所述的一种pv-ec直接耦合制氢系统运行优化方法的步骤。