本发明属于智能电网管理调度系统,尤其涉及一种结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法应用。
背景技术:
1、电力交付是一个在电网物理层面运行的关键过程,促进电力从能源卖家到买家的传递,它发生在能源交易的财务结算阶段之后。而能源交易仅将能源作为虚拟商品进行信息处理和订单匹配,这些虚拟操作忽视了实际电力交付的保障,例如:突破配电网物理限制的交易订单会造成传输线路的拥塞,进而影响电网的安全性和可靠性并导致停电。解决电力交付问题需要管理甩负荷,即通过有计划地安排传输线路中的功率流来平衡每个节点的电力供需。减少甩负荷的策略包括增加能源供应、增强传输线路能力和优化网络拓扑。然而,当前面临两个显著的挑战:
2、1.传统的电池储能系统(bess)通过有计划的能源储存和释放来增加能源供应,但它们仍受到拓扑和传输线路的限制。为此,提出了基于电池的能源储存运输(best)方法,即通过火车或卡车运输模块化bess。虽然best为管理传输拥塞提供了一种合理的替代方案,但其运输基础设施(如车辆和电池)的前期投资和维护成本较高,还需要由系统运营商集中控制,包括放电策略和路线规划。
3、2.best通常采用传统的规划算法来优化总成本并在目标函数中获得最优结果,但这需要基于完全信息。尽管在一些交易机制中引入了物理约束,例如基于价格的需求响应管理,但它们通常也依赖于实时或短期规划的完全信息。这种对完全信息的依赖过于理想化,在实际情况下尤其是面对动态市场的不确定性和灵活性时,显得困难且难以实现。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法应用。
2、本发明是这样实现的,一种结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法,其特征在于,该方法包括:
3、s1、构建基于动态电动汽车运输的电力交付系统,明确各组件功能和运行逻辑;
4、s2、分别从甩负荷和电池衰退两个角度分析系统成本;
5、s3、假设在知晓能源订单和汽车路径的理想情况下,将系统成本构建为完全信息的最优控制问题;
6、s4、结合无模型的深度强化学习方法,将此最优控制问题映射到非完全信息的未知环境中;
7、s5、采用actor-critic网络训练智能体,求解最优策略,实现最小化系统成本的目标。
8、进一步,所述s1具体包括:
9、能源传输不仅通过传统的从发电到用户总线的传输线路进行,还通过电动汽车提供了一个灵活的电力传输替代方案;
10、传统的物理电网可以抽象为一个无向图g={v,e},其中v是顶点集,e是边集,是nv个总线的集合,特别地,v=vg∪vc且其中vg表示发电总线,vc表示消费总线,是ne个传输线的集合;
11、所述电力交付系统的各组件包括:
12、总线作为网络中的节点,根据其能源请求,可以分为发电总线和用户总线;它们是系统的服务客体,而系统需要将指定的电力交付到节点以匹配需求;
13、传输线负责将总线节点互连,每条传输线都是双向传输电能的;
14、电动汽车借由其移动能力,在不同节点停留并通过车载的电池充电或放电以突破物理传输线完成能源转运,使电力以一种“搭便车”的方式实现交付;
15、所述电力交付系统运行逻辑如下:
16、在没有储能电池的配电网络中,每个周期的甩负荷是独立的;而在配备本地电池的情况下,本周期交付后多余的能源可以先储存,并在后续周期中作为补充,从而减少未来的甩负荷;然而,即使在有足够能源供应的情况下,配电系统仍然要面对传输线的功率流限制;利用了电动汽车实现了如下功能:如果电动汽车的行驶轨迹恰好与一条拥堵的传输线路重合,可以在起点处充电,并在目的地处放电,从而实现有效的电力交付。其运行逻辑基于以下假设:
17、1)分布式的电动汽车驾驶计划不受系统集中控制或调度;但是,它们对总线节点开放了电池操作访问权限。
18、2)由总线节点发起与停在此处的电动汽车电池交互的请求;由总线节点制定决策以完成能源转运和错峰释放能量。
19、3)系统有义务补偿电动汽车因其操作而导致的电池退化成本,认可其对配电辅助的自愿贡献。
20、进一步,所述总线具备以下性质:
21、根据实际的能源交互性质,节点可以被分为发电总线(通常是发电厂)和用户总线(如工厂等设施),并且此性质在特定时段内保持不变,如δt;向量用来表示总线的能源请求:
22、p=pout+pin
23、其中表示总线的剩余生成能源,表示总线的负载需求。当vi∈vg时,pout,i≥0且pin,i=0;当vi∈vc时,pout,i=0且pin,i≤0;每一个总线都将配备一个或多个装置:新能源发电装置、火力发电装置、存储电池、用电装置;每当运行过程中有盈余或缺损时,总线通过传输线与电网进行交互能源;特别地,在节点vi处配备的储能电池,满足以下约束:
24、
25、
26、
27、其中,表示t时刻节点vi的电池状态,表示电池充电功率,表示电池放电功率,η为充放电效率。和分别为电池状态的上下边界;本地电池不具备移动性。
28、进一步,所述传输线具备以下性质:
29、每条传输线可以双向传输电力,功率流可以简单表示为其中θ1和θ2分别表示该条传输线两端总线的相角,yi是线路ei的导纳;实际的潮流方向可以根据图g初始方向和功率的正负性来判断,潮流的约束为
30、
31、进一步,所述电动汽车具备以下性质:
32、电动汽车作为一种移动储能设备流通在电网中,在每一个δt内,一个电动汽车只出现在一个总线节点附近。我们用向量表示第i个电动汽车evi在t时刻的轨迹,其中当且仅当evi停留在节点vj时,否则evi的车载电池满足以下约束
33、
34、
35、其中表示t时刻电动汽车evi的电池状态,分别表示电动汽车电池充放电功率,和分别为电池状态的上下边界。表示evi由t到t+1时刻行驶的耗能成本函数,特别地,当时,
36、进一步,所述s2分别从甩负荷和电池衰退两个角度分析系统成本,包括以下步骤:
37、s21,甩负荷模型:考虑某一个固定时段内配电网仅靠传输线实现的最优甩负荷s,在这个场景下,不涉及电池和电动汽车调度,首先给定总线的能源请求p,以及弧节点关联矩阵a,问题可以构建为:
38、
39、s.t.atbsin(aθ)-p=d
40、
41、0≤pout+dout≤pout
42、pin≤pin+din≤0
43、
44、其中wi表示用户总线甩负荷的权重,表示发电总线和用户总线交付后的功率与请求的差值,θ是相角向量,是传输线功率限制的向量,是传输线导纳的对角矩阵;
45、s22,电池衰退模型:电池的充放电行为会逐渐降低使用寿命,产生衰减损失;在这一部分讨论的模型具备一般性,同时适用于本地电池和车载电池,下面的参数以本地电池为例。每单位能源的实时衰退成本表示为
46、
47、其中r表示电池的总价格,表示生命期的吞吐量,它与电池当前的放电深度密切相关:
48、
49、
50、
51、其中qb,i表示电池的最大容量,lc(·)表示电池的生命周期函数,a和b是反应电池性质的参数,此外,还规定那么对于t时,所有电池的总衰退成本可以得到
52、
53、进一步,s3假设在知晓能源订单和汽车路径的理想情况下,将系统成本构建为完全信息的最优控制问题;
54、考虑有本地电池和电动汽车加入的配电网场景,需要同时计算最优甩负荷和电池的衰退成本。着眼于整个时域t,将目标问题映射到一个马尔科夫决策过程(mdp),构建为最优控制问题:
55、
56、
57、
58、
59、
60、
61、是总线的初始能源请求,由于电池的作用,总线角色(发电/用户)会发生改变,所以约束中的第三式对当前的能源请求进行了更新;为轨迹矩阵,表示所有电动汽车在t时刻所处的节点位置,ρ为权重,用于权衡损失函数中的两部分。
62、进一步,所述s4结合无模型的深度强化学习方法,将此最优控制问题映射到非完全信息的未知环境中,具体子步骤包括如下:
63、s41,定义一个五元组以表示mdp;
64、s42,定义状态集:其中环境状态是时变且未知的,因为它包含不可预测的能量请求和电动汽车轨迹、可预测的电池状态soc以及时间步t。;
65、s43,定义动作集:其中节点作为智能体,在t时进行动作以控制相角和电池交互;
66、s44,定义状态转移矩阵:其中它表示在状态s下采取动作a时,环境转移到下一个状态s′的转移概率;
67、s45,奖励集:其中rt=-(ρst+(1-p)ct)。为了适应通用的强化学习模型,在t时的奖励表示为负的损失函数;
68、s45,折扣因子:γ∈[0,1],考虑了智能体在过去、现在和未来获得的奖励。在其作用下,奖励与时间域相关;
69、回报ut=rt+rt+1+…+rt表示累计的未来奖励,考虑到奖励的时效性,折扣回报表示为即累计折扣的未来奖励,此处设置γ=1。强化学习中智能体的策略表示为π,它是一个从状态到动作的概率分布函数,即at~π(·|st),对于所提出的最优控制问题,目标是学习一个最优策略π*,以最大化折扣回报,满足以下条件:
70、
71、进一步,所述s5采用actor-critic网络训练智能体,求解最优策略,实现最小化系统成本的目标,根据以下步骤进行求解:
72、分别用vπ和qπ表示策略π下的状态价值和动作价值,两者的关系是
73、
74、在actor-critic方法中,需要训练两个网络,策略网络作为actor控制智能体的动作,其中神经网络用来近似策略π(a|s);价值网络作为critic根据智能体的动作进行打分,其中神经网络q(s,a;ω)用来近似动作价值qπ(s,a)。状态价值表达式更新为:
75、
76、首先,输入一组预定义的参数,包括电力网络传输线性质、电池充放电效率、加权参数等,然后初始化神经网络和q(s,a;ω0),智能体通过以下步骤学习最佳策略:
77、s51,观测初试状态st,并根据策略网络随机采样动作
78、s52,采取动作at,环境作出反馈,并给出新的状态st+1和奖励rt;
79、s53,随机采样动作但智能体不做出此动作。分别用价值网络评价两次动作的价值qt=q(st,at;ωk),
80、s54,计算时序差分误差δt=qt-(rt+γ·qt+1),并根据下面的机制更新神经网络参数
81、
82、
83、其中a,β∈[0,1]表示学习率;
84、s55,检查是否达到一局的结束(即是否达到最后的时间终点t),如果没有,回到s51;
85、s55,检查停止的标准。具体来说,比较两个参数更新前后的值,看是否收敛,如果没有,进入下一局;
86、s56,根据学习完成的策略网绉计算出最佳策略;
87、特别地,为了避免做出的动作不满足目标问题的约束条件,需要在算法中设置看门狗(或者惩罚),即当s52和s53采取动作无效时,奖励rt理论上为-∞并强制结束本局训练。
88、本发明还提供了一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,其特征在于:提供用户输入接口以实施如上述的结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法。
89、本发明还提供了一种执行上述的结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法的移动设备。
90、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
91、第一、本发明的目的在于提供一种结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法,该发明提出了一种无需前期设备投资的电力交付模型,通过将现有行驶中的电动汽车作为免费的能源传输载体来实现。这些去中心化的电动汽车通过移动的车载电池,在保持自身驾驶计划不变的情况下,使电力以“搭便车”的方式促进交付,绕过传输线路的限制并降低成本。
92、此外,该方法不同于离散时间优化,而是借助动态电动汽车进行24小时顺序决策的连续时间优化。本发明在复杂动态系统的框架内对mdp进行了建模,具体分析了mdp元素,以最小化甩负荷和电池衰退来构建最优控制问题。
93、本发明基于无模型的深度强化学习,将所提出的控制问题扩展到未知环境,以解决包括随机能源请求和电动汽车轨迹在内的不完全信息问题。考虑到该问题的连续动作空间,配合设计了一个结合基于价值和基于策略方法的actor-critic网络来解决最优控制策略。
94、本发明在应用于智能电网领域,着力解决电力问题,并结合深度强化学习技术保障网络安全可靠并降低成本。实验结果表明,本发明提出的最优控制策略具备有效性和合理性,可以保证总线之间能源供求的相对平稳并保持较低的系统运行成本,同时显著改善了计算复杂度和完成交电力付的时间。
95、第二,本发明的目的在于提供一种结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法,本发明提出了一种新颖且零设备投资的电力交付解决方案,使得现有的具备运输能力的电动汽车可以巧妙地充当免费的能源传输载体,并结合深度强化学习方法来解决信息不完全的问题。
96、当前,传统的电力交付系统主要依赖于固定的物理电网进行能源传输,这种方式在面临能源供应波动、传输线路拥堵等问题时显得捉襟见肘。此外,电动汽车作为未来城市交通的重要组成部分,其移动储能的特性尚未被充分利用于电力网络的能源管理中。本发明通过引入电动汽车作为电力传输的灵活替代方案,并结合深度强化学习技术,旨在解决传统电力交付系统在面对动态能源需求和传输限制时的不足,实现低成本、高效率的电力交付。
97、本发明的技术方案在多个方面取得了显著的技术进步。首先,通过电动汽车的移动储能特性,打破了传统物理电网的局限,实现了电力的灵活转运和错峰释放,提高了能源利用效率。其次,利用深度强化学习技术,将复杂的电力交付问题转化为最优控制问题,并通过actor-critic网络训练智能体,求解最优策略,实现了对电力交付系统的智能管理和优化。最后,通过引入电池衰退模型和甩负荷模型,综合考虑了系统成本的多个维度,确保了电力交付的低成本和高效率。
98、本发明的技术实现具有显著的优势。一方面,电动汽车的引入为电力交付系统提供了额外的灵活性和可扩展性,使得系统能够更好地应对能源需求的波动和传输线路的限制。另一方面,深度强化学习技术的应用使得系统能够自动学习和优化电力交付策略,减少了人工干预和运营成本。此外,本发明还考虑了电池衰退和甩负荷等实际问题,提高了系统的经济性和可靠性。
99、本发明的提出和实施将对电力行业和社会产生深远的影响。通过提高电力交付系统的效率和可靠性,本发明有助于推动智能电网和可再生能源的发展,促进能源的可持续利用。同时,电动汽车的灵活应用也将推动城市交通的绿色化和智能化转型,为城市可持续发展贡献力量。此外,本发明的技术成果还可广泛应用于其他领域,如能源管理、交通规划等,为相关行业的创新和发展提供新的思路和方法。
100、第三,本发明的技术方案转化后的预期收益和商业价值为:本发明涉及电力交付系统,与传统通过火车或卡车转运能源电池的方法相比,展现出显著的经济优势和环境友好性。本发明采用电动汽车作为能源转运的载体,替代传统的火车或卡车,从而显著降低了初期设备投资,并提高了系统的环保性能。此外,本系统设计使得任何拥有电动汽车的用户均可参与到电力交付中,用户在不影响其日常驾驶计划的情况下,可获得经济补偿,从而极大地扩展了交付系统的规模和覆盖面。实验数据表明,本发明相较于传统的离散优化算法(如贪心算法)在成本节约和用户满意度提升方面具有显著优势。这一创新方法不仅优化了能源分配效率,同时也促进了普及性电动汽车的环境综合利用。
101、(2)本发明的技术方案是否克服了技术偏见:本发明通过采用深度强化学习技术,有效克服了电力交付市场中信息不完全性的挑战。与传统基于最优控制理论的优化算法不同,这些算法通常需要访问目标函数相关的全部信息,而这在波动性强且随机性高的能源市场中是不现实的。本发明采用的无模型强化学习算法直接与环境交互,适应性强,能够处理信息的不完全性,并有效避免了数学优化中np难题的困境。
102、进一步地,本发明实施了基于深度确定性策略梯度(deep deterministic policygradient,ddpg)的actor-critic网络结构,解决了深度强化学习智能体在连续动作空间中的动作采样问题。不同于传统的q学习算法那样仅限于简单的离散动作空间,本发明考虑到实际应用场景中总线和电动汽车的参数可能在连续区间内取任意值。虽然这种方法增加了网络的复杂度,但它显著提高了算法在真实世界场景中的适用性和效率。
1.一种结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法,其特征在于,该方法包括:
2.如权利要求1所述的基于动态电动汽车运输的低成本电力交付方法,其特征在于,所述s1具体包括:
3.如权利要求1所述的基于动态电动汽车运输的低成本电力交付方法,其特征在于,所述s2具体包括:
4.如权利要求1所述的基于动态电动汽车运输的低成本电力交付方法,其特征在于,所述s3具体包括:
5.如权利要求1所述的基于动态电动汽车运输的低成本电力交付方法,其特征在于,所述s4具体包括:
6.如权利要求1所述的基于动态电动汽车运输的低成本电力交付方法,其特征在于,所述s5具体包括:
7.一种结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付系统,其特征在于,包括:
8.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,其特征在于:提供用户输入接口以实施如权利要求1至6任意一项所述的结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法。
9.一种执行权利要求1至6任意一项所述的结合深度强化学习技术的基于动态电动汽车运输的低成本电力交付方法的移动设备。
