本发明属于电力系统监测,更具体地,涉及一种基于多算法融合模型+知识规则的台区月度线损率预测方法及系统。
背景技术:
1、线损率作为一种综合反映电力系统中规划设计、生产运行、经营管理水平的指标,直接反映了一个地区的电网营销管理水平,降低线损率能够带来非常可观的经济与社会效益。但目前常由于粗放性的线损管理,导致供电企业中的大量线损不知去向。一是台区线损率多为被动治理,电力企业无法实时掌握对用户的供电和自身的经营状况,只能通过在月末抄表得到的静态数据来反应经营状况,过程中的损失即使被发现追补也极其困难,对于高损或负损台区采用事后处理方式,对电网经济运行和供电企业自身的发展极为不利。以某市供电公司为例,每月月初电费正式发行后可查询上月电费账单信息,每月预发行结束后可查询本月预发行电费账单信息,20号之前查不到当月电费信息。二是工作人员多凭借主观经验找出线损高低的影响因素(如采集成功率、台账投运错误等),致使线损追因比较落后且缺乏较为科学的数据支撑。
2、为此,亟需运用数据挖掘方式对台区线损进行分析,从已知的历史数据中寻找规律,准确地对线损率进行预测,以提前掌握高负损台区,找出薄弱环节,辅助制定相应管理措施。
3、针对此问题,采用线损率预测方式来提前获取线损率值从而避免台区发生问题是一种常用的解决方法。尽管众多学者对线损率开展了多方面研究,但这些算法模型多是建立在所有台区的预测基础之上,即在大数范围内提升预测准确率。而按现有国网要求,台区有高损和负损,如把高负损台区筛选进行预测,一个地市级供电公司一个月仅仅是几台或者几十台,是小样本数据,目前针对此问题的研究较少。即使将小样本高负损台区混入全量台区中一起进行预测,其预测效果查全率整体也较低。
技术实现思路
1、为解决现有技术中存在的不足,本发明提供一种基于多算法融合模型+知识规则的台区月度线损率预测方法。
2、本发明采用如下的技术方案。
3、本发明的第一方面提供了一种基于多算法融合模型+知识规则的台区月度线损率预测方法,包括以下步骤:
4、步骤1,提取台区内电力用户用电信息,进行台区线损数据处理包括异常数据处理、缺失数据处理和数据指标处理;
5、步骤2,在处理过的数据中,提取关键特征,进行特征的相关性分析确定影响线损率的关键因素;
6、步骤3,基于确定的关键因素,利用随机森林、arima、lstm、xgboost、svr算法构建融合模型;
7、步骤4,基于多算法融合模型,使用mae和查全率指标评估不同算法模型的性能,结合知识规则的交集和并集优化模型;
8、步骤5,基于优化的模型,在多月份数据上验证模型的稳定性,评估各个台区的线损率。
9、优选地,步骤1中,所述异常数据处理包括对于指标包括供电量、售电量、配变容量,当其值大于上限q3+1.5iqr时,采用处理方式将其设为上限值q3+1.5iqr;当指标值小于下限q1-1.5iqr时,采用处理方式将其设为下限值q1-1.5iqr;四分位数间距iqr计算公式如下:
10、iqr=q3-q1
11、其中,q1为25%分位数,q3为75%分位数;
12、所述缺失数据处理包括对于离散型指标包括三相不平衡次数、业扩报装用户数、时钟异常次数,采用众数进行填充;
13、连续型指标包括损失电量、供电量、售电量、配变容量,根据不同情况采用以下填充规则:
14、采用三阶差分、二阶差分、一阶差分进行填充;
15、对于无法差分的数据,使用向前向后数值插补法进行填充;
16、所述数据指标处理包括对于离散型指标,包括三相不平衡次数、业扩报装用户数、时钟异常次数,采用试错法,将值为0的处理为0.0001;
17、指标户均化处理包括配变容量、供电量、售电量、损失电量指标,采用户均化处理。
18、优选地,步骤2中,所述提取特征包括基于pearson系数的指标相关性分析、基于gini系数的特征筛选和基于试验数学的特征衍生,三种特征提取相互补充;
19、所述基于pearson系数的指标相关性分析,用于提供线损率与各因素之间的直接关系:
20、使用pearson相关系数衡量线损率与多个因素包括户数、供电量、售电量、电压等级、运行容量之间的相关性;pearson相关系数介于-1和1之间,其绝对值越大,相关性越强;正相关表示系数大于0,负相关表示系数小于0;
21、所述基于gini系数的特征筛选,用于筛选出对线损率影响的特征:
22、采用随机森林gini系数重要性评分作为特征选择指标,通过计算每个特征的gini系数,确定其在模型中的重要性,进行特征筛选;
23、所述基于试验数学的特征衍生,用于捕捉不同维度上的线损率变化:
24、从同比环比特征、均值特征、滞后与差分特征多个维度展开特征构建;构建同比增长率和环比增长率特征、均值与标准差特征、滞后与差分特征;
25、结合相关性、特征重要性、特征衍生分析角度,生成台区线损预测模型特征组合,包括含户均容量、户均供电量、户均售电量、户均损失电量、户均户变关系不一致用户数量、近3个月业扩报装用户数量均值、近3个月户变关系不一致用户数量均值、近3个月重载次数均值。
26、优选地,步骤3中,所述多算法融合模型具体包括:
27、随机森林模型:选取cart算法生成回归决策树,节点分裂基于最小均方差,通过迭代树的数量、深度、交叉验证优化超参数;
28、arima模型:计及供售电量的季节性规律,通过arima算法预测线损率,内生变量为线损率本身,通过网格搜索迭代寻找最佳超参数;
29、lstm模型:引入具有时间影响的指标包括三相不平衡次数数、低电压次数、供电量、过载次数,通过lstm算法构建模型,通过迭代优化器、学习率、l2正则项系数寻优模型最佳超参数;
30、xgboost和svr模型:分别采用xgboost和svr算法构建线损率预测模型,与上述算法模型效果进行对比。
31、优选地,步骤3中,在模型预测结果中,采用知识规则进行优化:
32、移动平均阈值规则:分析偏差较大的台区,生成线损率阈值,当历史线损率均值大于阈值时,采用历史线损率均值进行计算输出;
33、交集和并集知识规则:通过分析模型1与模型2的效果,通过穷尽法法则建立交集与并集规则,提升查全率;将通过规则优化的模型进行多月份测试,对比分析查全率稳定性;
34、所述模型1为以滞后法构造特征形成的模型,模型2为以差分法构造特征形成的模型。
35、优选地,步骤4中,对不同模型算法进行选择时,以平均绝对误差mae的大小为指标,mae的计算公式如下:
36、
37、其中:n表示样本数量,yi表示样本真实值;表示模型预测值;
38、采用查全率r在实际为正样本中预测为正样本的概率进行整体评估,计算公式如下:
39、
40、其中,tp为预测为正样本且实际也是正样本的数量,tp+fn为所有正样本的数量。
41、优选地,模型算法结果基于全量台区数据,对比不同算法模型mae的平均值,不同算法模型的预测mae值各异,按照mae的大小,各算法模型的效果排序为svr>xgboost>arima>rf>lstm,svr模型的效果最好,mae最小。
42、优选地,所述单模型查全率评估,将台区根据线损率分为两类:合理台区的线损率在-1%~7%区间内和高负损台区的线损率大于7%或小于-1%;
43、所述模型组合优选查全率评估包括增加交集知识规则和增加并集知识规则;
44、所述增加交集知识规则,加入台区线损交集知识规则后,重新生成高负损预测结果,模型的高负损查全率相对模型1有所提升,相对模型2下降;
45、所述增加并集知识规则,加入台区线损预测并集知识规则后,重新生成高负损预测结果,高负损查全率相较模型1和模型2均有提升。
46、优选地,所述验证模型的稳定性包括围绕并集知识规则模型对5、6、7三个月分别进行台区线损率预测,得到模型查全率效果围绕在65%以上,验证该规则模型的稳定性。
47、本发明的第二方面提供了一种基于多算法融合模型+知识规则的台区月度线损率预测系统,包括:数据预处理模块、多算法融合模型模块、知识规则模块以及结果评估模块;运行如权利要求1至9中任一项所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法:
48、数据预处理模块用于收集、清理和转换原始数据,包括缺失值处理、异常值检测、数据标准化;
49、多算法融合模型模块采用随机森林、arima、lstm、xgboost、svr算法构建综合模型,通过优化超参数、处理时间序列关系手段,对台区月度线损率进行预测;
50、知识规则模块制定并引入领域专业知识规则,补充模型对于特殊情况的预测,包括移动平均阈值规则、交集和并集知识规则,用于调整或修正模型输出;
51、结果评估模块采用指标平均绝对误差mae、查全率,对模型的预测结果进行评估,选择最优算法或进行后续优化。
52、与现有技术相比,本发明的有益效果至少包括:提出了一种多算法模型融合+知识规则的预测方法,解决传统线损率预测精度不高的问题,通过对比优选、组合优化等多种手段选取最优方案并实施,提升了模型预测效果,为工作人员进行线损管理由被动治理向主动预防提供参考依据。
1.一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
3.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
4.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
5.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
6.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
7.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
8.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
9.根据权利要求1所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于:
10.一种基于多算法融合模型+知识规则的台区月度线损率预测系统,包括:数据预处理模块、多算法融合模型模块、知识规则模块以及结果评估模块;运行如权利要求1至9中任一项所述的一种基于多算法融合模型+知识规则的台区月度线损率预测方法,其特征在于: