一种无类别标签的时间序列异常检测方法
【技术领域】
[0001] 本发明涉及无类别标签的时间序列异常检测方法。
【背景技术】
[0002] 通过对卫星遥测数据中的偏航姿态角进行分析,偏航姿态角的整体变化趋势如图 2所示,其细节变化如图3所示,得出卫星遥测数据具有明显地周期性,且该特性已与卫星 遥测数据提供单位进行了确认。通过对遥测数据的每个周期进行分析,可以得出卫星在该 周期之内的运行状态是否正常,按照固定点对卫星遥测数据分段效果不理想的情况,如图4 所示,各个分段序列之间的耦合度不够高,存在一定的偏差,随着时间的推进这种偏差会愈 发明显。
[0003] 目前卫星遥测数据各周期内的正常模式、异常模式、故障模式等均没有较为明确 的可参考资料,因此分段后得到的时间序列没有所属类别标签,在此类无类别标签的时间 序列基础之上实现离线和在线的异常检测目前没有可直接利用的异常检测方法框架。
[0004] 对离线数据进行异常检测,一般采用聚类方法进行,并将聚类结果中成员极少类 别视为异常类别,其中聚类方法中较为常用的聚类方法是层次聚类方法,但是该算法存在 需要人工设定聚类数目的缺陷,若聚类数目设定不当将会使得聚类结果以及异常检测结果 不够理想。
【发明内容】
[0005] 本发明的目的是为了解决针对卫星遥测数据进行固定点分段效果不理想、层次聚 类需要人工设定聚类数目以及目前尚无一种可直接利用的能够实现无类别标签时间序列 的离线和在线的异常检测方法框架的问题,而提出了一种无类别标签的时间序列异常检测 方法。
[0006] 上述的发明目的是通过以下技术方案实现的:
[0007] 步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类 别标签的时间序列X={Xl,x2,…,xn},其中n为大于0的正整数,表示时间序列数目,Xl为无 类别标签的时间序列中第一个时间序列,x2为无类别标签的时间序列中第二个时间序列,xn 为无类别标签的时间序列中第n个时间序列;
[0008]步骤二、对步骤一得到的无类别标签的时间序列X={xpx2,…,xn}进行自适应 层次聚类,并判定和删除无类别标签的时间序列中的异常序列,得到卫星正常运行模式含 有类别标签的时间序列.
和类别标签
,其中nz为大于 〇的正整数,表示正常时间序列数目,X'i为含有类别标签的时间序列中第一个正常时间序 列,1'2为含有类别标签的时间序列中第二个正常时间序列,< 为含有类别标签的时间序 列中第nz个正常时间序列,1' :为类别标签中第一个正常时间序列,1' 2为类别标签中第二 个正常时间序列,为类别标签中第\个正常时间序列;
[0009] 步骤三、结合匹配阈值以步骤二中获得的含有类别标签的时间序列
和类别标签
为样本,采用最近邻居算法对最新卫星 遥测时间序列X"进行模式匹配,并根据模式匹配结果实现卫星遥测数据异常检测。
[0010] 发明效果
[0011] 异常检测是数据挖掘任务中的一项重要功能,本发明针对卫星运行过程中的遥 测数据特点,首先,根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段;然后, 对分段后得到的无类别标签时间序列进行自适应层次聚类同时根据异常判定参数对其中 的异常类别进行删除,得到卫星正常运行的类别模式;最后,结合匹配阈值采用最近邻居 (1-NearestNeighbor,1-NN)算法对最新卫星遥测数据进行模式匹配,并根据模式匹配结 果实现卫星遥测数据异常检测。各部分的具体发明效果如下:
[0012] 首先针对按照固定点对卫星遥测数据分段效果不理想的情况,如图4所示,提出 了按照卫星遥测数据中的幅角突变点为标识进行分段的方法,其分段效果如图5所示,以 幅角为标识进行分段的分段结果更为紧凑,各个分段序列之间的耦合度更高、更为合理。
[0013] 其次,针对层次聚类需要人工设定聚类数目的问题,提出了一种以类间类内距离 比值为评价标准的自适应层次聚类方法,使层次聚类算法能够自动确定最优类别数目,避 免了由于人工设定聚类数目不当的情况导致的聚类结果以及异常检测结果不够理想的问 题。
[0014] 最后,针对目前尚无一种可直接利用的能够实现无类别标签时间序列的离线和在 线的异常检测方法框架,提出了一种无类别标签的时间序列异常检测方法。该方法首先对 历史卫星遥测数据采用自适应层次聚类方法并根据异常判定参数对其中的异常类别进行 删除,获得正常类别模式,实现离线无类别标签时间序列的异常检测;然后结合匹配阈值采 用1-NN算法对最新卫星遥测数据进行模式匹配,并根据模式匹配结果实现卫星遥测数据 异常检测,实现在线无类别标签时间序列的异常检测。
[0015] 通过对卫星遥测数据中的飞轮转速D参量采用异常注入的方式进行仿真实验,其 实验结果表明,该方法能够有效的检测出离线和在线卫星遥测数据中的异常时间序列,如 图 10、图 11a、图 11b、图llbc、图 12、图 13a、图 13b、图 13c所示。
[0016] 针对卫星遥测数据开展无类别标签时间序列离线和在线异常检测的验证实验,用 于实验的具体测试参量为飞轮转速D,其原始数据如图6所示。其中用于离线异常检测实验 的无类别标签时间序列样本数为50,所有时间序列经与数据提供单位确认已无异常,通过 采用异常准入的方式对其中一个时间序列注入脉冲型异常,异常幅值为二分之一倍参量最 大值减去最小值,注入位置为时间序列中间位置,注入异常后的样本如图10所示。
[0017] 针对上述无类别标签时间序列样本采用自适应层次聚类方法并设定异常判定参 数为〇. 05,进行异常检测结果如图1la、1lb、1lc所示,通过该结果可以发现基于自适应层 次聚类方法的异常检测方法能够有效识别异常时间序列,并对正常时间序列确定较好的类 别数目并实现聚类。
[0018] 将通过前述处理后得到的含有类别标签的正常时间序列作为1-NN分类算法的训 练样本,设定灵敏度系数为1,用于实现卫星遥测数据的在线异常检测。仿真输入测试样本 为50,所有时间序列经与数据提供单位确认已无异常,通过采用异常准入的方式对其中一 个时间序列注入阶跃型异常,异常幅值为负四分之一倍参量最大值减去最小值,注入位置 为时间序列的四分之三处位置,注入异常后的样本如图12所示。
【附图说明】
[0019] 图1为本发明流程图;
[0020] 图2为原始测试数据偏航姿态角测试序列示例图;
[0021] 图3为原始测试数据偏航姿态角测试序列前450点示例图;
[0022] 图4为偏航姿态角测试序列固定点分段叠加绘图结果图;
[0023] 图5为偏航姿态角测试序列以幅角分段叠加绘图结果图,时间单位为秒;
[0024] 图6为飞轮转速D测试序列分段叠加绘图结果图,时间单位为秒;
[0025] 图7为实施例中自适应层次聚类仿真测试数据图;
[0026] 图8为实施例中自适应层次聚类质量曲线图;
[0027] 图9为实施例中自适应层次聚类结果图;
[0028] 图10为注入异常后的无标签时间序列样本图,时间单位为秒;
[0029] 图11a为类别1基于自适应层次聚类异常检测结果图,时间单位为秒;
[0030] 图
lib为类别2基于自适应层次聚类异常检测结果图,时间单位为秒;
[0031] 图lie为异常序列基于自适应层次聚类异常检测结果图,时间单位为秒;
[0032] 图12为注入异常后的测试无标签时间序列样本图,时间单位为秒;
[0033] 图13a为类别1基于1-NN分类匹配的异常检测结果图,时间单位为秒;
[0034] 图13b为类别2基于1-NN分类匹配的异常检测结果图,时间单位为秒;
[0035] 图13c为异常序列基于1-NN分类匹配的异常检测结果图,时间单位为秒。
【具体实施方式】
【具体实施方式】 [0036] 一:结合图1说明本实施方式,一种无类别标签的时间序列异常检 测方法具体是按照以下步骤进行的:
[0037] 步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类 别标签的时间序列X= {Xl,x2,…,xn},其中n为大于0的正整数,表示时间序列数目,Xl为无 类别标签的时间序列中第一个时间序列,x2为无类别标签的时间序列中第二个时间序列,xn 为无类别标签的时间序列中第n个时间序列;
[0038] 步骤二、对步骤一得到的无类别标签的时间序列X= {Xl,x2,…,xn}进行自适应层 次聚类,并判定和删除无类别标签的时间序列中的异常序列,得到卫星正常运行模式下含 有类别标签的时间序列
和类别标签
,其中nz为大于 〇的正整数,表示正常时间序列数目,X'i为含有类别标签的时间序列中第一个正常时间序 列,x'2为含有类别标签的时间序列中第二个正常时间序列,为含有类别标签的时间序 列中第nz个正常时间序列,1' :为类别标签中第一个正常时间序列,1' 2为类别标签中第二 个正常时间序列,为类别标签中第\个正常时间序列;
[0039] 步骤三、结合匹配阈值以步骤二中获得的含有类别标签的时间序列
和类别标签.
为训练样本,采用最近邻居(1-Nearest Neighbor,1-NN)算法对最新卫星遥测时间序列x"进行模式匹配,并根据模式匹配结果实 现卫星遥测数据异常检测。
【具体实施方式】 [0040] 二:本实施方式与一不同的是:所述步骤一中根据卫 星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标签的时间序列X= {Xl,x2,…,xn},其中n为大于0的正整数,表示时间序列数目,Xl为无类别标签的时间序列 中第一个时间序列,X2为无类别标签的时间序列中第二个时间序列,Xn为无类别标签的时 间序列中第n个时间序列;具体过程为:将卫星遥测历史数据以幅角突变点为标识进行分 段,得到无类别标签的时间序列X={xpx2,…,xn}。
[0041] 幅角为卫星遥测数据中的测试参量之一,其值的变化规律为从0~360依次递增, 当达到360后,则变为0重新开始递增,其中从360变为0这个点为幅角突变点;以幅角突 变点为标识进行分段,即:记录幅角突变点的对应时间,将其他测试参量根据幅角突变点对 应的时间进行提取,提取方法为相邻两个幅角突变点对应时间之内的测试数据提取为一条 时间序列。
[0042] 其它步骤及参数与【具体实施方式】一相同。
[0043] 【具体实施方式】三:本实施方式与【具体实施方式】一或二不同的是:所述步骤二中对 步骤一得到的无类别标签的时间序列X={Xl,x2,…,xn}进行自适应层次聚类,并判定和 删除无类别标签的时间序列中的异常序列,得到卫星正常运行模式下含有类别标签的时间 序列
和类别标签
,其中nz为大于0的正整数,表示 正常时间序列数目,为含有类别标签的时间序列中第一个正常时间序列,X'2为含有类 别标签的时间序列中第二个正常时间序列为含有类别标签的时间序列中第nz个正常 时间序列,1' :为类别标签中第一个正常时间序列,1' 2为类别标签中第二个正常时间序列, 丨乂为类别标签中第\个正常时间序列;具体过程为:
[0044] 计算出各个无类别标签的时间序列X= {Xl,x2,…,xn}之间的nXn的欧式距离矩 阵,自适应层次聚类方法的基本步骤如下:
[0045] 步骤二一、将每个无类别标签的时间序列归为一类,共得到n类,每类仅包含一个 无类别标签的时间序列,类与类之间的距离就是所包含的无类别标签的时间序列之间的距 离,并令RT (n) = 0洱为类间类内距离比值序列用于评估聚类质量,序列长度为n,RT (n)表 示%中的第n个元素;
[0046] 步骤二二、找到最接近的两个类合并成一类,总类别数减少一个,并根据式(4-6) 计算R/i)的值,i为当前类别数,R/i)为%中的第i个元素,表示当类别数目为i时的类 间类内距离比值,i= 1,2,…,n;
[0047] 设加权类内距离为?/〖,加权类间距离为?/:,则相关定义如下:
[0049]其中,$为第j'类的类内距离均值
[0052]匕为第i'类与第j'类的类间距离均值
[0055]式中,dist(xrt,Xj,k)表示计算xrt与xj,k之间的欧式距离;
[0056]Pj,为第j'类的类内距离权重;
[0057]qn,为第i'类与第j'类的类间距离权重,j' = 1,2,…,i,,i' = 1,2,…,i;
[0058] Xj,k为第j'类Xj,中的第k个序列,k= 1,2,…,n^rv为第j'类的成员数目;
[0059]xrt为第i'类Xi,中的第t个序列t= 1,2,…,rii,,%为第i'类的成员数目;
[0060]Xj,为第j'类的时间序列集合
[0061] <为类内距离均值序列;
[0062] \,为第i'类的时间序列集合
[0063] 义/1,为第」'类)^,中的第七'个序列,七'=1,2,~,11/;
[0064] 步骤二三、重新计算合并后的类与未合并的类之间的距离,更新欧式距离矩阵;
[0065] 步骤二四、重复步骤二二和步骤二三,直到合并成一个类别数目为止,并令R/1) =0,R/1)为%中的第1个元素,表示当类别数目为1时的类间类内距离比值;
[0066] 步骤二五、获取%序列中前半段序列中的最大值RT(c),%序列中前半段序列为
.其中C即为最佳的聚类数目,并获得对应C类的聚类后类别标 签L= {1』,…,1J;
[0067] 步骤二六、根据设定异常判定参数R对聚类后的各类别进行判定,若
,则表 示第i'类为异常类别并对该类别进行删除;
[0068] 步骤二七、删除所有异常类别后即得到卫星正常运行模式含有类别标签的时间序 列
和类别标签
,此时类别数目为C_C,,C,表不异常 类别数目。
[0069] 其它步骤及参数与【具体实施方式】一或二相同。
[0070] 【具体实施方式】四:本实施方式与【具体实施方式】一、二或三不同的是:所述步骤三 中结合匹配阈值以步骤二中获得的含有类别标签的时间序列
和类别 标签
为训练样本,采用最近邻居(1-NearestNeighbor,1-NN)算法对最 新卫星遥测时间序列x"进行模式匹配,并根据模式匹配结果实现卫星遥测数据异常检测; 具体过程为:
[0071] 步骤三一:计算
出含有类别标签的时间序列
中各类别的类内 欧式距离均值
,其中$的计算方式如下:
[0073] 其中,5表示第1类的类内距离均值,1 = 1,2,…,c-c' ;
[0074] 表示第1类的成员数目;
[0075]
中第1类的所有成员;
[0076] dist(Xy,Xu")表示计算xu,,与Xu"之间的欧式距离;
[0077] i" = 1,2,…,mfl,j" =i"+l,i"+2,
[0078] 步骤三二:获取待进行异常检测的时间序列x",获取方式为提取最新卫星遥测数 据中相邻两个幅角突变点对应时间之内的时间序列x" ;
[0079] 步骤三三:计算出待检测的时间序列x"与含有类别标签的时间序列
之间的欧式距离序列D= {屯,d2,…,dn},其中,屯,,,表示待检测的时间 序列X"与x'i,,,之间的欧式距离,X'i,,,为
中的第i"'个序列,i"' = 1,2,…,n ;
[0080] 步骤三四:采用基于欧式距离的1-NN分类方法,对待检测的时间序列x"进行预 分类,确定待检测的时间序列x"的准所属类别1' ;准所属类别1'取值范围为1 = 1,2,… ,C-C' ;
[0081] 步骤三五:确定与待检测的时间序列X"的欧式距离最小的含有类别标签的时间 序列,即在D= {屯,d2,…,dn}中,取出最小的数值dmin,确定最小的数值对应的含有类别标 签的时间序列,其对应的类别标签即为x"的准所属类别为1' ;
[0082] 步骤三六:判断dmin与Z3?瓦之间的大小关系,其中P为用户设定的异常检测敏感系 数,得出待检测的时间序列X"的异常检测结果,其判断规则为:若则待检测的 时间序列X"判定为异常序列,否则待检测的时间序列X"判定为正常序列,并将X"归入1' 类。
[0083] 其它步骤及参数与【具体实施方式】一、二或三相同。
[0084] 采用以下实施例验证本发明的有益效果:
[0085] 实施例1
[0086] 一种无类别标签的时间序列异常检测方法具体是按照以下步骤进行的:
[0087] 步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类 别标签的时间序列X= {Xl,x2,…,xn},其中n为大于0的正整数,表示时间序列数目,Xl为无 类别标签的时间序列中第一个时间序列,x2为无类别标签的时间序列中第二个时间序列,xn 为无类别标签的时间序列中第n个时间序列;
[0088] 步骤二、对步骤一得到的无类别标签的时间序列X={xpx2,…,xn}进行自适应层 次聚类,并判定和删除无类别标签的时间序列中的异常序列,得到卫星正常运行模式下含 有类别标签的时间序列
和类别标签
,其中nz为大于 〇的正整数,表示正常时间序列数目,X'i为含有类别标签的时间序列中第一个正常时间序 列,x'2为含有类别标签的时间序列中第二个正常时间序列,为含有类别标签的时间序 列中第nz个正常时间序列,1' :为类别标签中第一个正常时间序列,1' 2为类别标签中第二 个正常时间序列,匕z为类别标签中第nz个正常时间序列;
[0089] 步骤三、结合匹配阈值以步骤二中获得的含有类别标签的时间序列
和类别标签
为训练样本,采用最近邻居(1-Nearest Neighbor,1-NN)算法对最新卫星遥测时间序列x"进行模式匹配,并根据模式匹配结果实 现卫星遥测数据异常检测。
[0090] 此部分,首先,根据卫星遥测数据的周期特性以幅角突变点为标识对卫星遥测历 史数据进行分段,得到无类别标签的卫星遥测时间序列集合;然后,对分段后得到的无类别 标签的卫星遥测时间序列集合进行自适应层次聚类,并完成异常时间序列的检出之后,得 到卫星正常时间序列以及对应的正常类别模式;最后,结合匹配阈值采用1-NN算法对从最 新卫星遥测数据中提取出来的待检测时间序列进行模式匹配,并根据模式匹配结果实现卫 星遥测数据异常检测与卫星运行模式识别。
[0091] 对自适应层次聚类的验证采用仿真实验完成。仿真数据如图7所示,共200个数 据点,对其采用自适应层次聚类的处理结果为:聚类质量曲线如图8所示,可知当类别数为 4时,聚类质量最好,因此将仿真数据聚类为4类,聚类结果如图9所示,其中不同形状表示 所属不同类别。由处理结果图9对比原始数据图7可知自适应层次聚类有效可行。
[0092] 针对卫星遥测数据开展无类别标签时间序列离线和在线异常检测的验证实验,用 于实验的具体测试参量为飞轮转速D,其原始数据如图6所示。其中用于离线异常检测实验 的无类别标签时间序列样本数为50,所有时间序列经与数据提供单位确认已无异常,通过 采用异常准入的方式对其中一个时间序列注入脉冲型异常,异常幅值为二分之一倍参量最 大值减去最小值,注入位置为时间序列中间位置,注入异常后的样本如图10所示。
[0093] 针对上述无类别标签时间序列样本采用自适应层次聚类方法并设定异常判定参 数为〇. 05,进行异常检测结果如图1la、1lb、1lc所示,通过该结果可以发现基于自适应层 次聚类方法的异常检测方法能够有效识别异常时间序列,并对正常时间序列确定较好的类 别数目并实现聚类。
[0094] 将通过前述处理后得到的含有类别标签的正常时间序列作为1-NN分类算法的训 练样本,设定灵敏度系数为1,用于实现卫星遥测数据的在线异常检测。仿真输入测试样本 为50,所有时间序列经与数据提供单位确认已无异常,通过采用异常准入的方式对其中一 个时间序列注入阶跃型异常,异常幅值为负四分之一倍参量最大值减去最小值,注入位置 为时间序列的四分之三处位置,注入异常后的样本如图12所示。
[0095] 进行基于1-NN分类匹配的异常检测结果如图13a、13b、13c所示,通过该结果可以 发现基于1-NN分类匹配的异常检测方法能够有效识别异常时间序列,并对正常时间序列 实现较好的分类。
【主权项】
1. 一种无类别标签的时间序列异常检测方法,其特征在于,一种无类别标签的时间序 列异常检测方法具体是按照以下步骤进行的: 步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标 签的时间序列X = Ix1, X2,…,X1J,其中η为大于O的正整数,表示时间序列数目,X1为无类 别标签的时间序列中第一个时间序列,X2为无类别标签的时间序列中第二个时间序列,Xn为无类别标签的时间序列中第η个时间序列; 步骤二、对步骤一得到的无类别标签的时间序列X = Ix1, X2,…,χη}进行自适应层次聚 类,并判定和删除无类别标签的时间序列中的异常序列,得到卫星正常运行模式含有类别 标签的时间序列尤'=卜>'2,和类别标签I'= [/〗,/'2,…,/'U,其中ηζ为大于O的正 整数,表示正常时间序列数目,为含有类别标签的时间序列中第一个正常时间序列,X' 2为含有类别标签的时间序列中第二个正常时间序列,为含有类别标签的时间序列中第 nz个正常时间序列,1' 类别标签中第一个正常时间序列,1' 2为类别标签中第二个正常 时间序列,/'"为类别标签中第\个正常时间序列; 步骤三、结合匹配阈值以步骤二中获得的含有类别标签的时间序列 JT二P1Y2,…和类别标签i'
= ·}/W···,/'J为样本,采用最近邻居算法对最新卫 星遥测时间序列X"进行模式匹配,并根据模式匹配结果实现卫星遥测数据异常检测。2. 根据权利要求1所述一种无类别标签的时间序列异常检测方法,其特征在于,所述 步骤一中根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标签的 时间序列X = Ix1, X2,…,xn},其中η为大于O的正整数,表示时间序列数目,X1为无类别标 签的时间序列中第一个时间序列,X2为无类别标签的时间序列中第二个时间序列,Xn为无 类别标签的时间序列中第η个时间序列;具体过程为:将卫星遥测历史数据以幅角突变点 为标识进行分段,得到无类别标签的时间序列X = Ix1, X2,…,xj。3. 根据权利要求2所述一种无类别标签的时间序列异常检测方法,其特征在于,所述 步骤二中对步骤一得到的无类别标签的时间序列X = Ix1, X2,…,χη}进行自适应层次聚类, 并判定和删除无类别标签的时间序列中的异常序列,得到卫星正常运行模式含有类别标签 的时间序列= YwU和类别标签^?(/'1,/'2,~,/',^,其中1为大于〇的正整 数,表示正常时间序列数目,X' i为含有类别标签的时间序列中第一个正常时间序列,X' 2为 含有类别标签的时间序列中第二个正常时间序列,为含有类别标签的时间序列中第nz个正常时间序列,1\为类别标签中第一个正常时间序列,1' 2为类别标签中第二个正常时 间序列为类别标签中第\个正常时间序列;具体过程为: 计算出各个无类别标签的时间序列X = (X1, x2,…,xj之间的nXn的欧式距离矩阵, 自适应层次聚类方法的基本步骤如下: 步骤二一、将每个无类别标签的时间序列归为一类,共得到η类,每类仅包含一个无类 别标签的时间序列,类与类之间的距离就是所包含的无类别标签的时间序列之间的距离, 并令Rj(n) = O 为类间类内距离比值序列,序列长度为n,Rj(n)表示Rj中的第η个元素; 步骤二二、找到最接近的两个类合并成一类,总类别数减少一个,并根据式(4-6)计算 Rj(i)的值,i为当前类别数,Rj(i)为Rj中的第i个元素,表示当类别数目为i时的类间类 内距离比值,i = 1,2,…,η ; 设加权类内距离为<,加权类间距离为,则相关定义如下:(4-6) 其中,?为第j'类的类内距离均值^为第i'类与第j'类的类间距离均值式中,(IistUrt, Xj,k)表示计算xrt与X j,k之间的欧式距离; Pj.为第j'类的类内距离权重; 1,』,为第1'类与第」'类的类间距离权重,」'=1,2,"%1,,1'=1,2,···,。 1^为第」_'类父』,中的第1^个序列,1^=1,2,~,1^,%为第」_'类的成员数目; Xrt为第i'类Xi.中的第t个序列t= 1,2,~,1^,,~为第1'类的成员数目; Xj,为第j'类的时间序列集合χ/ = ·(^ι,Κ·_,^? <为类内距离均值序列; Xr为第i'类的时间序列集合,…, Xj,t,为第j'类X j,中的第t'个序列,t' = 1, 2,…,n j,; 步骤二三、重新计算合并后的类与未合并的类之间的距离,更新欧式距离矩阵; 步骤二四、重复步骤二二和步骤二三,直到合并成一个类别数目为止,并令Rt(I)= ORj(I)为Rj中的第1个元素,表示当类别数目为1时的类间类内距离比值; 步骤二五、获取Rt序列中前半段序列中的最大值RT(C),Rt序列中前半段序列为?,其中C即为最佳的聚类数目,并获得对应C类的聚类后类别标 签 L= ΙΛ,I2,…,IJ ; 步骤二六、根据设定异常判定参数R对聚类后的各类别进行判定,若^>1,则表示第 i'类为异常类别并对该类别进行删除; 步骤二七、删除所有异常类别后即得到卫星正常运行模式含有类别标签的时间序列 尤'二卜^'^'^和类别标签厂^"…义卜此时类别数目为^'^'表示异常类 别数目。4.根据权利要求3所述一种无类别标签的时间序列异常检测方法,其特征在于,所述 步骤三中结合匹配阈值以步骤二中获得的含有类别标签的时间序列= 和类别标签" = [/',,/'21为样本,采用最近邻居算法对最新卫星遥测时间序列X"进行 模式匹配,并根据模式匹配结果实现卫星遥测数据异常检测;具体过程为: 步骤三一:计算出含有类别标签的时间序列= ,…,中各类别的类内欧式 距离均值歹= g,;F2,…,k.},其中5的计算方式如下:其中,5表示第1类的类内距离均值,1 = 1,2,…,c-c' ; Hl1表示第1类的成员数目; X/=p/px/2,…表示X' = {x\,x'2,…中第1类的所有成员; distUm χυ")表示计算Xli,,与xlj"之间的欧式距离; i"= 1,2, ...,Iii1-I ; j"= i"+l,i"+2,…,m1; 步骤三二:获取待进行异常检测的时间序列x",获取方式为提取最新卫星遥测数据中 相邻两个幅角突变点对应时间之内的时间序列X" ; 步骤三三:计算出待检测的时间序列X"与含有类别标签的时间序列 ,x'2,_··,之间的欧式距离序列D = {屯,d2, ···,(!"},其中,Cli,,,表示待检测的时间 序列X"与X' i",之间的欧式距离,X'广为= 丨,χ'2,"·,χ'" }中的第i"'个序列,i"' = 1,2,…,η ; 步骤三四:采用基于欧式距离的I-NN分类方法,对待检测的时间序列X"进行预分类, 确定待检测的时间序列X"的准所属类别1' ;准所属类别1'取值范围为1 = 1,2,…,c-c' ; 其中,所述I-NN分类方法为最近邻居算法; 步骤三五:确定与待检测的时间序列X"的欧式距离最小的含有类别标签的时间序列, 即在D = W1, d2,…,dn}中,取出最小的数值dmin,确定最小的数值对应的含有类别标签的时 间序列,其对应的类别标签即为X"的准所属类别为1' ; 步骤三六:判断dmin与/5S之间的大小关系,其中P为用户设定的异常检测敏感系数, 得出待检测的时间序列X"的异常检测结果,其判断规则为:若^> ,则待检测的时间 序列X"判定为异常序列,否则待检测的时间序列X"判定为正常序列,并将X"归入1'类。
【专利摘要】一种无类别标签的时间序列异常检测方法,本发明涉及无类别标签的时间序列异常检测方法。本发明的目的是为了解决针对卫星遥测数据进行固定点分段效果不理想、层次聚类需要人工设定聚类数目以及目前尚无一种可直接利用的能够实现无类别标签时间序列的离线和在线的异常检测方法框架的问题。通过以下技术方案实现的:步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标签的时间序列X={x1,x2,…,xn};步骤二、对步骤一得到的X={x1,x2,…,xn}进行自适应层次聚类,并判定和删除无类别标签的时间序列中的异常序列,得到和;步骤三、结合匹配阈值以和为样本,采用最近邻居算法对x”进行模式匹配,实现卫星遥测数据异常检测。本发明应用于卫星数据检测领域。
【IPC分类】G06K9/66, G06F17/30, G06K9/62
【公开号】CN104899327
【申请号】CN201510351164
【发明人】刘大同, 彭宇, 陈静, 张玉杰, 彭喜元
【申请人】哈尔滨工业大学
【公开日】2015年9月9日
【申请日】2015年6月24日