磁盘故障预测处理方法、设备、介质及计算机程序产品与流程

xiaoxiao8月前  55


本发明涉及存储,特别是涉及磁盘故障预测处理方法、设备、介质及计算机程序产品。


背景技术:

1、磁盘阵列(如redundant arrays of independent disks,raid)是由很多块独立的磁盘组成的容量巨大的磁盘组。利用磁盘阵列技术,将数据切割成许多区段,分别存放在各个磁盘上。磁盘阵列提供了一种容错机制,在磁盘阵列中任意一个磁盘发生故障时,可以基于其他磁盘计算出坏盘上的数据,并重构在一个新的磁盘上,极大地提升了存储的可靠性。

2、然而,当前磁盘阵列的容错机制只能提供灾后恢复功能,并需要运维人员发现故障、手动控制换盘,运维效率较低,相应地导致了较长的业务停滞时间。同时,磁盘阵列控制器对磁盘阵列中磁盘的控制包括raid0、raid1、raid5、raid6等级别,其中raid0没有数据冗余,无法实现上述灾后恢复功能,导致数据可靠性低。

3、如何提高磁盘阵列运行的可靠性,是本领域技术人员需要解决的技术问题。


技术实现思路

1、本发明的目的是提供磁盘故障预测处理方法、设备、介质及计算机程序产品,用于提高磁盘阵列运行的可靠性。

2、为解决上述技术问题,本发明提供一种磁盘故障预测处理方法,包括:

3、利用磁盘运行数据训练样本训练磁盘状态分类模型,将多轮迭代训练中得到的所述磁盘状态分类模型进行组合,得到磁盘故障预测模型;在每轮迭代训练中,采用加权后的所述磁盘运行数据训练样本训练当前轮的所述磁盘状态分类模型的磁盘状态分类能力,并根据当前轮最终得到的所述磁盘状态分类模型的磁盘状态分类误差确定当前轮最终得到的所述磁盘状态分类模型的权重以及更新所述磁盘运行数据训练样本进入下一轮迭代训练的权重;磁盘状态包括正常状态和故障状态;

4、利用所述磁盘故障预测模型根据目标磁盘阵列的目标磁盘的磁盘运行数据确定所述目标磁盘的磁盘运行状态;

5、若确定所述目标磁盘中存在预期故障磁盘,则将所述预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将所述预期故障磁盘的数据输入输出任务切换至所述备份磁盘。

6、一方面,所述磁盘状态分类模型为支持向量机模型;

7、在每轮迭代训练中对所述磁盘状态分类模型的训练步骤包括:

8、确定所述支持向量机模型的核函数;

9、以最小化磁盘状态分类误差为目标,利用所述核函数构造所述磁盘状态分类模型的目标函数;

10、利用所述磁盘状态分类模型的目标函数和加权后的所述磁盘运行数据训练样本求解所述磁盘状态分类模型的最优解;

11、利用所述磁盘状态分类模型的最优解构造当前轮最终得到的所述磁盘状态分类模型。

12、另一方面,确定所述支持向量机模型的核函数,包括:

13、采用所述磁盘运行数据训练样本训练多种所述核函数对应的所述磁盘状态分类模型,根据对应得到的所述磁盘状态分类模型的磁盘状态分类误差选择确定投入所述磁盘故障预测模型的迭代训练的所述磁盘状态分类模型的所述核函数的类型。

14、另一方面,确定所述支持向量机模型的核函数,包括:

15、根据训练设备的算力确定所述核函数的类型。

16、另一方面,所述根据当前轮最终得到的所述磁盘状态分类模型的磁盘状态分类误差确定当前轮最终得到的所述磁盘状态分类模型的权重以及更新所述磁盘运行数据训练样本进入下一轮迭代训练的权重,包括:

17、在根据当前轮最终得到的所述磁盘状态分类模型的磁盘状态分类误差确定当前轮最终得到的所述磁盘状态分类模型的权重之后,根据当前轮最终得到的所述磁盘状态分类模型的权重、当前轮最终得到的所述磁盘状态分类模型对各所述磁盘运行数据训练样本的磁盘状态分类结果、各所述磁盘运行数据训练样本的实际磁盘状态以及各所述磁盘运行数据训练样本在当前轮的权重,计算得到当前轮的权重更新参数;

18、利用所述权重更新参数更新所述磁盘运行数据训练样本在当前轮的权重,得到所述磁盘运行数据训练样本进入下一轮迭代训练的权重。

19、另一方面,所述利用磁盘运行数据训练样本训练磁盘状态分类模型,将多轮迭代训练中得到的所述磁盘状态分类模型进行组合,得到磁盘故障预测模型,包括:

20、在利用所述磁盘运行数据训练样本进行多轮迭代训练后,将各轮迭代训练得到的所述磁盘状态分类模型进行组合,得到中间磁盘故障预测模型;

21、利用磁盘运行数据测试样本对所述中间磁盘故障预测模型进行测试;

22、若测试结果满足预设磁盘故障预测要求,则结束迭代训练,得到所述磁盘故障预测模型;

23、若所述测试结果不满足所述磁盘故障预测要求,则继续进行迭代训练。

24、另一方面,所述测试结果满足所述预设磁盘故障预测要求,包括:

25、所述中间磁盘故障预测模型对所述磁盘运行数据训练样本的故障检测率不小于故障检测率阈值,且所述中间磁盘故障预测模型对所述磁盘运行数据训练样本的误报率不大于误报率阈值,且所述中间磁盘故障预测模型对所述磁盘运行数据训练样本的故障磁盘提前预测时间满足预设时间范围。

26、另一方面,所述故障检测率为所述中间磁盘故障预测模型预测得到的故障磁盘的数量与实际故障磁盘数量的比值。

27、另一方面,所述误报率为所述中间磁盘故障预测模型误判为健康磁盘的数量与实际健康磁盘数量的比值。

28、另一方面,利用所述磁盘故障预测模型根据目标磁盘阵列的目标磁盘的磁盘运行数据确定所述目标磁盘的磁盘运行状态,包括:

29、读取所述目标磁盘阵列的各所述目标磁盘的磁盘运行数据;

30、利用所述磁盘故障预测模型根据所述目标磁盘的磁盘运行数据得到对所述目标磁盘的故障预测结果;

31、若所述目标磁盘的故障预测结果为预期出现故障,则确定所述目标磁盘为所述预期故障磁盘。

32、另一方面,利用所述磁盘故障预测模型根据目标磁盘阵列的目标磁盘的磁盘运行数据确定所述目标磁盘的磁盘运行状态,包括:

33、读取所述目标磁盘阵列的各所述目标磁盘的磁盘运行数据;

34、利用所述磁盘故障预测模型根据所述目标磁盘的磁盘运行数据得到对所述目标磁盘的故障预测结果;

35、若存在故障预测结果为预期出现故障的候选预期故障磁盘,则对所述候选预期故障磁盘进行坏道检测;

36、根据坏道检测结果自所述候选预期故障磁盘中确定所述预期故障磁盘。

37、另一方面,对所述候选预期故障磁盘进行坏道检测,包括:

38、对所述候选预期故障磁盘进行全盘读操作;

39、根据对所述候选预期故障磁盘的各磁盘存储单元的读操作结果确定所述磁盘存储单元的运行状态;

40、所述根据坏道检测结果自所述候选预期故障磁盘中确定所述预期故障磁盘,包括:

41、若所述候选预期故障磁盘中运行状态为异常运行状态的所述磁盘存储单元的数量超出异常存储单元数量阈值时,确定所述候选预期故障磁盘为所述预期故障磁盘。

42、另一方面,所述根据坏道检测结果自所述候选预期故障磁盘中确定所述预期故障磁盘,包括:

43、若根据所述坏道检测结果确定所述候选预期故障磁盘为所述预期故障磁盘,则进入将所述预期故障磁盘的数据同步至备份磁盘的步骤;

44、若根据所述坏道检测结果确定所述候选预期故障磁盘不为所述预期故障磁盘,则提高对所述预期故障磁盘的监测频率。

45、另一方面,所述若确定所述目标磁盘中存在预期故障磁盘,则将所述预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将所述预期故障磁盘的数据输入输出任务切换至所述备份磁盘,包括:

46、在根据所述坏道检测结果确定所述候选预期故障磁盘为所述预期故障磁盘之后,根据所述坏道检测结果对应的预期故障级别将所述预期故障磁盘列入磁盘替换队列,以使预期故障级别越高的所述预期故障磁盘在所述磁盘替换队列中越靠前;

47、按照所述磁盘替换队列的顺序,对所述磁盘替换队列中的所述预期故障磁盘执行将所述预期故障磁盘的数据同步至所述备份磁盘,并在数据同步完毕后,将所述预期故障磁盘的数据输入输出任务切换至所述备份磁盘。

48、另一方面,将所述预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将所述预期故障磁盘的数据输入输出任务切换至所述备份磁盘,包括:

49、将备份磁盘组中的首个所述备份磁盘加入所述目标磁盘阵列以作为目标备份磁盘;

50、在将所述预期故障磁盘的数据同步至所述目标备份磁盘的过程中,将所述目标备份磁盘与所述预期故障磁盘组为镜像组,以同步执行所述预期故障磁盘收到的数据输入输出任务;

51、在将所述预期故障磁盘的数据全部同步至所述目标备份磁盘之后,暂停所述预期故障磁盘的数据输入输出任务,并将所述预期故障磁盘从所述目标磁盘阵列中移除,将所述目标备份磁盘替换为所述预期故障磁盘在所述目标磁盘阵列中的标识。

52、另一方面,应用于磁盘阵列控制器,利用所述磁盘故障预测模型监测目标磁盘阵列的磁盘运行状态,包括:

53、根据所述磁盘阵列控制器的运行状态确定利用所述磁盘故障预测模型监测目标磁盘阵列的磁盘运行状态的执行时间。

54、为解决上述技术问题,本发明还提供一种磁盘故障预测处理装置,包括:

55、模型生成模块,用于利用磁盘运行数据训练样本训练磁盘状态分类模型,将多轮迭代训练中得到的所述磁盘状态分类模型进行组合,得到磁盘故障预测模型;在每轮迭代训练中,采用加权后的所述磁盘运行数据训练样本训练当前轮的所述磁盘状态分类模型的磁盘状态分类能力,并根据当前轮最终得到的所述磁盘状态分类模型的磁盘状态分类误差确定当前轮最终得到的所述磁盘状态分类模型的权重以及更新所述磁盘运行数据训练样本进入下一轮迭代训练的权重;磁盘状态包括正常状态和故障状态;

56、磁盘故障预测模块,用于利用所述磁盘故障预测模型根据目标磁盘阵列的目标磁盘的磁盘运行数据确定所述目标磁盘的磁盘运行状态;

57、磁盘管理模块,用于若确定所述目标磁盘中存在预期故障磁盘,则将所述预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将所述预期故障磁盘的数据输入输出任务切换至所述备份磁盘。

58、为解决上述技术问题,本发明还提供一种磁盘故障预测处理设备,包括:

59、存储器,用于存储计算机程序;

60、处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述磁盘故障预测处理方法的步骤。

61、为解决上述技术问题,本发明还提供一种非易失性存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述磁盘故障预测处理方法的步骤。

62、为解决上述技术问题,本发明还提供一种计算机程序产品,包括计算机程序/指令,其所述计算机程序/指令被处理器执行时实现如上述任意一项所述磁盘故障预测处理方法的步骤。

63、本发明所提供的磁盘故障预测处理方法,有益效果在于在解决磁盘阵列的磁盘故障处理问题时,采用磁盘故障预测模型来预测磁盘故障,并在监测到预期故障磁盘时采用将预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将预期故障磁盘的数据输入输出任务切换至备份磁盘的方式来实现对预期故障磁盘的预先处理,而不是等到磁盘真正故障时再进行数据恢复,从而不会造成业务停滞,也能解决raid0级别磁盘阵列数据可靠性低的问题。其中,通过利用加权后的磁盘运行数据训练样本进行多轮训练磁盘状态分类模型的磁盘状态分类能力的迭代训练,在每轮中都根据最终得到的磁盘状态分类模型的磁盘状态分类误差确定当前轮最终得到的磁盘状态分类模型的权重以及更新磁盘运行数据训练样本进入下一轮迭代训练的权重,将多轮迭代训练中得到的磁盘状态分类模型得到磁盘故障预测模型,生成强分类器来准确预测磁盘阵列中磁盘故障的发生,降低因预测失误导致磁盘出现故障时造成业务停滞或频繁换盘提升运行成本的概率。

64、本发明还提供一种磁盘故障预测处理设备、介质及计算机程序产品,具有上述有益效果,在此不再赘述。


技术特征:

1.一种磁盘故障预测处理方法,其特征在于,包括:

2.根据权利要求1所述的磁盘故障预测处理方法,其特征在于,所述磁盘状态分类模型为支持向量机模型;

3.根据权利要求2所述的磁盘故障预测处理方法,其特征在于,确定所述支持向量机模型的核函数,包括:

4.根据权利要求2所述的磁盘故障预测处理方法,其特征在于,确定所述支持向量机模型的核函数,包括:

5.根据权利要求2所述的磁盘故障预测处理方法,其特征在于,所述根据当前轮最终得到的所述磁盘状态分类模型的磁盘状态分类误差确定当前轮最终得到的所述磁盘状态分类模型的权重以及更新所述磁盘运行数据训练样本进入下一轮迭代训练的权重,包括:

6.根据权利要求1所述的磁盘故障预测处理方法,其特征在于,所述利用磁盘运行数据训练样本训练磁盘状态分类模型,将多轮迭代训练中得到的所述磁盘状态分类模型进行组合,得到磁盘故障预测模型,包括:

7.根据权利要求6所述的磁盘故障预测处理方法,其特征在于,所述测试结果满足所述预设磁盘故障预测要求,包括:

8.根据权利要求7所述的磁盘故障预测处理方法,其特征在于,所述故障检测率为所述中间磁盘故障预测模型预测得到的故障磁盘的数量与实际故障磁盘数量的比值。

9.根据权利要求7所述的磁盘故障预测处理方法,其特征在于,所述误报率为所述中间磁盘故障预测模型误判为健康磁盘的数量与实际健康磁盘数量的比值。

10.根据权利要求1所述的磁盘故障预测处理方法,其特征在于,利用所述磁盘故障预测模型根据目标磁盘阵列的目标磁盘的磁盘运行数据确定所述目标磁盘的磁盘运行状态,包括:

11.根据权利要求1所述的磁盘故障预测处理方法,其特征在于,利用所述磁盘故障预测模型根据目标磁盘阵列的目标磁盘的磁盘运行数据确定所述目标磁盘的磁盘运行状态,包括:

12.根据权利要求11所述的磁盘故障预测处理方法,其特征在于,对所述候选预期故障磁盘进行坏道检测,包括:

13.根据权利要求11所述的磁盘故障预测处理方法,其特征在于,所述根据坏道检测结果自所述候选预期故障磁盘中确定所述预期故障磁盘,包括:

14.根据权利要求13所述的磁盘故障预测处理方法,其特征在于,所述若确定所述目标磁盘中存在预期故障磁盘,则将所述预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将所述预期故障磁盘的数据输入输出任务切换至所述备份磁盘,包括:

15.根据权利要求1所述的磁盘故障预测处理方法,其特征在于,将所述预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将所述预期故障磁盘的数据输入输出任务切换至所述备份磁盘,包括:

16.根据权利要求1所述的磁盘故障预测处理方法,其特征在于,应用于磁盘阵列控制器,利用所述磁盘故障预测模型监测目标磁盘阵列的磁盘运行状态,包括:

17.一种磁盘故障预测处理装置,其特征在于,包括:

18.一种磁盘故障预测处理设备,其特征在于,包括:

19.一种非易失性存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至16任意一项所述磁盘故障预测处理方法的步骤。

20.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1至16任意一项所述磁盘故障预测处理方法的步骤。


技术总结
本发明涉及存储技术领域,具体公开了磁盘故障预测处理方法、设备、介质及计算机程序产品,采用磁盘故障预测模型来预测目标磁盘阵列的磁盘故障,在监测到预期故障磁盘时采用将预期故障磁盘的数据同步至备份磁盘,并在数据同步完毕后,将预期故障磁盘的数据输入输出任务切换至备份磁盘的方式来实现对预期故障磁盘的预先处理,避免磁盘阵列业务停滞。通过利用加权后的磁盘运行数据训练样本进行多轮训练磁盘状态分类模型的磁盘状态分类能力的迭代训练,将多轮迭代训练中得到的磁盘状态分类模型得到磁盘故障预测模型以生成强分类器来准确预测磁盘阵列中磁盘故障的发生,降低因预测失误导致磁盘出现故障时造成业务停滞或频繁换盘提升运行成本的概率。

技术研发人员:李凤民,李超,李超,张晶晶
受保护的技术使用者:苏州元脑智能科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)