一种基于搜索排序的电网拓扑优化方法与流程

xiaoxiao3月前 28

本发明属于电网智能调度，具体涉及一种基于搜索排序的电网拓扑优化方法。

背景技术：

1、现有的电网调度大多集中在源侧和荷侧，比如传统的自动发电控制（automationgeneration control，agc）主要方式是通过控制电网中发电机组、储能机组等设备的有功出力来维持电网的频率稳定。但是这种调度方式需要经常对发电厂进行调控，必要时还会强制降低产能，成本更高，而电力网络作为电能传输的途径和载体，实时的拓扑优化控制是一种成本低、响应快、有前景且未被充分利用的电网调度方法。

2、输电线路的开闭是最简单的拓扑结构优化问题，早期的一些研究大多针对该问题，有针对线路开闭影响拓扑结构，进而影响网损的问题进行研究，也有使用混合整数优化来解决电网中输电线切换问题，这些方法虽然也对电网拓扑结构优化进行了分析研究，但是仅停留在线路开闭的层面，而且大都针对传统小规模电网，很难适应当下更大规模、更复杂的电网系统。

3、随着alphago，dqn等工作的出现，强化学习强大的能力得到更多人的认可，在这个背景下，法国电网公司等国际能源机构从2019年开始，每年与国际人工智能会议合作，举办l2rpn（learning to run a power network）竞赛，希望研究人员将强化学习应用到电网调度中，尤其是电网拓扑结构优化中。此后，开始有较多的科研人员关注到这个领域。l2rpn的拓扑优化设定更为复杂，不仅有线路的开闭会影响拓扑结构，更为主要的是其连接到节点上的输电线可以进行接线柱的切换，类似于火车变轨的操作改变电流的流向。具体来说，每一个变电站节点内部都有两个相互绝缘的接线柱，所有连接到该节点上的输电线其实都只是连接到其中一个接线柱上，连接到同一个接线柱上的输电线可以认为是直接相连的，当改变线路的接线柱时，可以使用其他线路分担过载线路的电流，解决线路的过载。这也是目前电网的一个主流拓扑优化框架。

4、对于大规模的电网来说，电网规模越大，节点越多，可进行的拓扑调整方式就越多，即便已经限制同一时刻只能调整一个变电站的线路连接方式，整体的动作空间依然很大。并且由于模拟功能的存在，导致现有的技术大多使用暴力的规则进行模拟试错，而改进暴力方案的一个主要方法就是结合人工智能，尤其是深度强化学习（deep reinforcementlearning）方法。

5、一个主流的使用强化学习的方法是先使用贪心方法收集大量专家数据，然后利用专家数据使用模仿学习为智能体提供预训练的模型权重，最后使用深度强化学习对预训练策略进行微调，这种方法较为简单有效，但是也存在明显的缺陷，因为其环境波动性大，即使有不错的初始化权重，强化学习依然要面临大规模的动作空间，训练也很难有所提升。此外，部分方法使用类似alphazero的框架来进行电网拓扑结构的优化，通过多层的规则与模型，结合环节自带的模拟功能，效果虽好，但实现却极其复杂，难以复用到其他环境之下。并且，已有的方法均严重依赖环境模拟，致使平均单步模拟次数很高，效率很低。

6、总体来说，早期的拓扑优化方案针对的问题过于简单，而且不是实时调度，不适合今天复杂的新型电网系统；针对当前复杂电网的方案大都基于纯规则，方法过于暴力，效率低下；融合了人工智能的方案效果都比较差或者过于复杂，并且依然依赖环境模拟，效率依然较低。

技术实现思路

1、发明目的，通过使用监督学习、强化学习和人类先验知识解决电网拓扑优化中超大规模不均衡动作空间的问题，兼顾调度的效率和稳定性。

2、技术方案，根据本申请的一个方面，提出一种基于搜索排序的电网拓扑优化方法，包括如下步骤：

3、s1、获取电网拓扑结构，采集影响电网拓扑结构的动作，构建原始动作空间，并对原始动作空间进行降维，得到降维后的动作空间；

4、s2、构建并使用双塔召回模型从降维后的动作空间中召回若干优质动作，作为候选动作，获得候选动作集合；

5、s3、构建并优化基于强化学习的排序模型，对候选动作进行打分排序，生成候选动作排序列表；

6、s4、选择候选动作排序列表中前k个候选动作依序进行模拟与评估，筛选并输出最优动作，将最优动作作为实际操作指令予以执行；k为大于0的自然数。

7、有益效果

8、1、本发明通过对原始超大动作空间的降维处理和智能筛选，能够集中资源于最有效、最关键的调控措施上，避免了无效或低效操作，实现了资源的优化配置精细的调度模拟和策略优化。同时本发明能够兼顾拓扑优化效率和电网运行稳定性，大幅降低拓扑优化过程中的单步模拟次数，降低对环境模拟的依赖，提高调度效率。

9、2、本发明通过双塔召回模型从降维后的动作空间进一步筛选当前状态下的优质动作集合，既可以同时考虑状态特征和动作特征，在使用时也可以降低计算量，提高计算效率，并且可以在使用时继续微调。

10、3、本发明通过强化学习驱动的策略网络能够不断从环境交互中学习，电网运行的各种复杂变化，持续优化调度策略，确保长期效益。

11、4、本发明通过自动化调度减少了对人工干预的依赖，降低了因人为错误导致的操作风险，同时也减轻了调度人员的工作负担。

技术特征：

1.一种基于搜索排序的电网拓扑优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s1进一步为：

3.根据权利要求2所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s2进一步为：

4.根据权利要求3所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s3进一步为：

5.根据权利要求4所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s4进一步为：

6.根据权利要5所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s4还包括对执行结果进行反馈和优化：

7.根据权利要5所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s21中生成状态嵌入向量的过程，进一步为：

8.根据权利要5所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s21中生成动作嵌入向量的过程，进一步为：

9.根据权利要5所述的一种基于搜索排序的电网拓扑优化方法，其特征在于，步骤s24中，还包括构造训练样本的过程，具体为：

技术总结
本发明公开了一种基于搜索排序的电网拓扑优化方法，属于电网智能调度技术领域，该方法首先获取电网拓扑结构，采集影响电网拓扑结构的动作，构建原始动作空间，并对原始动作空间进行降维，得到降维后的动作空间；构建并使用双塔召回模型从降维后的动作空间中召回若干优质动作，作为候选动作，获得候选动作集合；构建并优化基于强化学习的排序模型，对候选动作进行打分排序，生成候选动作排序列表；选择候选动作排序列表中前K个候选动作依序进行模拟与评估，筛选并输出最优动作予以执行。本发明通过对动作空间的降维处理和智能筛选，能够集中资源于最有效、最关键的调控措施上，避免了无效或低效操作，实现了更高效的调度模拟和策略优化。

技术研发人员：王威
受保护的技术使用者：中科南京人工智能创新研究院
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)