本发明属于水电机组状态检测,具体涉及一种基于异常值检测的水电机组监测数据清洗方法。
背景技术:
1、水电机组作为水电站的核心设备,其在水力与电气系统间发挥着重要的连接纽带作用。安全稳定运行对于电站、人员安全及电力系统稳定具有重要意义。尤其在新型电力系统背景下,水风光多能互补使得水电运行的主要风险源将由传统不确定性径流扩展到径流和风光发电气象因素的高维不确定性,从根本上增加了水电运行风险。在数字化转型趋势下,当前水电机组运维模式以“状态检修”为主。而在智能化检修和运维中,如何准确反映机组真实运行状态至关重要。目前,水电机组已建立并健全了计算机监测系统,为机组智能化管理奠定了数据基础,但仍面临诸多困难与挑战。由于机组长期运行于潮湿、强电磁等恶劣环境,监测系统易出现缺失、离群与小尺度偏移等数据异常情况,这限制了后续数据分析的准确性与可靠性。因此,研究有效水电机组状态监测数据清洗方法,对提高机组健康状态评估具有重要意义。
技术实现思路
1、本发明的目的在于提供一种基于异常值检测的水电机组监测数据清洗方法,解决了由于机组长期运行于潮湿、强电磁等恶劣环境,导致监测系统易出现缺失、离群与小尺度偏移的技术问题。
2、本发明所采用的技术方案是,基于异常值检测的水电机组监测数据清洗方法,具体包括以下步骤:
3、s1,采集水电机组长期运行监测数据;
4、s2,采用cusum算法对采集到的监测数据进行初步分析,得到特征向量;
5、s3,通过dpc算法对特征向量中数据离散值进行识别,计算数据点之间的局部密度和相对距离,确定并标记异常聚类;
6、s4,整合cusum算法和dpc算法识别出监测数据中的异常值并进行清除。
7、本发明的特点还在于:
8、s2具体为:确定控制参数和参考值,初始化参数,令s+(m)=0,s-(m)=0,并通过计算数据点相对于过程目标值或基线的累积偏差,对监测数据中的突变异常值进行识别。
9、累积偏差计算如式(1)和式(2)所示:
10、s+(m)=max(0,xm-dc-k+s+(m-1)) (1)
11、s-(m)=min(0,xm-dc+k+s-(m-1)) (2)
12、式(1)和式(2)中,s+(m)为上限累积和,s-(m)为下限累积和,xm为确定控制参数,k为确定控制参数,dc为参考值。
13、s3中计算局部密度和相对距离如式(3)和式(4)所示:
14、
15、式(3)中:ρi为点i在其邻域内的相对密度;j为当前计算点;dij为点i与点j之间的距离;dc为截断距离,用于界定局部邻域的大小;χ(x)是一个指示函数,当x<0时,χ(x)取1,否则χ(x)取0,用于计数在dc范围内的点;
16、
17、式(4)中:ρi为点i在其邻域内的相对密度;ρj为点j在其邻域内的相对密度;dij为点i到达具有更高密度的其他点所需的最小距离。
18、s3具体为:计算每个数据点的局部密度ρi和到密度更高点的最小距离δi,将ρi和δi绘制在二维坐标系中,构建决策图,再根据决策图中的密度峰值点,确定聚类中心,最后根据聚类中心,将数据点分配到相应的簇中,完成聚类分析,识别密度峰值点和聚类中心,以确认异常聚类。
19、本发明的有益效果是:
20、本发明通过累计和(cusum)算法识别数据的积极与消极偏差,并采用密度峰值聚类(dpc)算法,聚集关键特征向量,识别密度高峰和聚类中心,进而结合cusum分析和dpc聚类结果,准确并标识数据中的异常值,最后,清除被标记的异常数据点。不仅有效去除异常和噪声,提升数据质量和可靠性,而且也适应于大规模数据处理,对于水电机组监测数据清洗领域具有较高的实用性和广泛的适应性。
1.基于异常值检测的水电机组监测数据清洗方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的基于异常值检测的水电机组监测数据清洗方法,其特征在于,所述s2具体为:确定控制参数和参考值,初始化参数,令s+(m)=0,s-(m)=0,并通过计算数据点相对于过程目标值或基线的累积偏差,对监测数据中的突变异常值进行识别。
3.根据权利要求2所述的基于异常值检测的水电机组监测数据清洗方法,其特征在于,所述累积偏差计算如式(1)和式(2)所示:
4.根据权利要求3所述的基于异常值检测的水电机组监测数据清洗方法,其特征在于,所述s3中计算局部密度和相对距离如式(3)和式(4)所示:
5.根据权利要求4所述的基于异常值检测的水电机组监测数据清洗方法,其特征在于,所述s3具体为:计算每个数据点的局部密度ρi和到密度更高点的最小距离δi,将ρi和δi绘制在二维坐标系中,构建决策图,再根据决策图中的密度峰值点,确定聚类中心,最后根据聚类中心,将数据点分配到相应的簇中,完成聚类分析,识别密度峰值点和聚类中心,以确认异常聚类。
