一种基于机器学习的服务器预测性维护模型方法与流程

xiaoxiao10月前  74



1.本发明涉及故障预测与健康管理技术领域,具体为一种基于机器学习的服务器预测性维护模型方法。


背景技术:

2.随着it行业的快速发展,互联网+、云计算、大数据、区块链等新兴技术也得到了快速发展。服务器随着云计算、大数据、5g、边缘计算等信息技术的不断发展,其应用领域越来越广阔,服务器作为机房中的关键设备,广泛用于处理关键业务和信息,其故障和异常事件会对业务的连续性等造成严重后果,因此对服务器的可靠性、可用性提出了更高的要求。
3.现有技术中,高可靠、高可用性需要有高效率的故障诊断、故障监测等技术支撑。如何监测服务器运行的故障,通过服务器监测有效提升服务运行可靠性与稳定性,成为近年来的研究热点。预测性维护便是其中的重要应用领域。
4.但是,在预测性维护技术产生之前,对机房中服务器设备的维护通常是常规性维护,主要以时间为单位进行周期性的保养,导致了资源浪费和设备损耗。


技术实现要素:

5.本发明的目的在于提供一种基于机器学习的服务器预测性维护模型方法,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种基于机器学习的服务器预测性维护模型方法,所述基于机器学习的服务器预测性维护模型方法包括以下步骤:
7.对以往服务器上的一些关键部件异常数据进行收集;
8.将采集的数据进行处理;
9.提取出数据特征;
10.根据提取的数据特征并结合机器学习、故障预测与健康管理相关技术,训练出当前机房急需的服务器故障预测模型;
11.使用lime算法对模型的预测行为进行合理性的解释。
12.优选的,对采集的数据进行分析预处理,把数据处理成以文件为单位给定标签,使其每个文件内有个数不固定的采样样本,没有明确的时间节点与工作量指标。
13.优选的,利用基于统计特征提取文件中每列特征的统计量,包括最大值、最小值、平均值与方差,利用比值特征中pearson相关函数构造三个比值特征,然后将所有的特征两两做相关性检验,得到相关性矩阵,用动态时间调整dtw来衡量两个时间序列之间的相似度,通过把时间序列进行延伸与缩短来计算两个时间变量之间的相似性特性。
14.优选的,采用了多模型融合的方法,把数据处理成向量化的数据,把数据进行k折划分;对于k折数据,每一折数据都训练出一个模型,总共得到k个子模型,然后使用折k个子模型对预测数据进行预测,从而得到k个预测结果,然后用全部数据直接训练第k+1个模型,并对测试数据进行预测得到第k+1个结果;设定一个阈值h,高于阈值的认定为异常,低于阈
值,认定为正常。
15.优选的,通过对不同特征工程的训练预测耗时进行统计,发现macro-f1分数和模型的耗时均随着特征的增加而增加,其中macro-f1分数最高提升2.3%,时间最多增加10.1%,通过该实现的结果及权衡数据处理的时间和,最终确定了模型所使用的特征为统计特征结合两列dtw特征。
16.一种基于机器学习的服务器预测性维护模型系统,该系统由数据收集模块、数据分析模块、特征构造模块、模型融合模块以及解析模块构成;
17.数据收集模块,用于对以往服务器上的一些关键部件异常数据进行收集;
18.数据分析模块,用于将采集的数据进行处理;
19.特征构造模块,用于提取出数据特征;
20.模型融合模块,用于根据提取的数据特征并结合机器学习、故障预测与健康管理相关技术,训练出当前机房急需的服务器故障预测模型;
21.解析模块,用于使用lime算法对模型的预测行为进行合理性的解释。
22.优选的,所述数据分析模块中,对采集的数据进行分析预处理,把数据处理成以文件为单位给定标签,使其每个文件内有个数不固定的采样样本,没有明确的时间节点与工作量指标。
23.优选的,所述特征构造模块中,利用基于统计特征提取文件中每列特征的统计量,包括最大值、最小值、平均值与方差,利用比值特征中pearson相关函数构造三个比值特征,然后将所有的特征两两做相关性检验,得到相关性矩阵,用动态时间调整dtw来衡量两个时间序列之间的相似度,通过把时间序列进行延伸与缩短来计算两个时间变量之间的相似性特性。
24.优选的,所述模型融合模块中,采用了多模型融合的方法,把数据处理成向量化的数据,把数据进行k折划分;对于k折数据,每一折数据都训练出一个模型,总共得到k个子模型,然后使用折k个子模型对预测数据进行预测,从而得到k个预测结果,然后用全部数据直接训练第k+1个模型,并对测试数据进行预测得到第k+1个结果;设定一个阈值h,高于阈值的认定为异常,低于阈值,认定为正常。
25.优选的,所述模型融合模块中,通过对不同特征工程的训练预测耗时进行统计,发现macro-f1分数和模型的耗时均随着特征的增加而增加,其中macro-f1分数最高提升2.3%,时间最多增加10.1%,通过该实现的结果及权衡数据处理的时间和,最终确定了模型所使用的特征为统计特征结合两列dtw特征。
26.与现有技术相比,本发明的有益效果是:
27.本发明提出的基于机器学习的服务器预测性维护模型方法通过采用基于支持向量机的回归与分类算法,通过收集到的数据进行训练后,使该模型能够通过抓取的信息对未来某一时间点服务器出现故障做出精确预判。该模型在具体开发时采用c/s架构实现了数据采集,并使用lime算法对模型的预测行为进行合理性的解释,通过对设计模型的测试,验证了该模型的功能。同时经过一定时间的稳定运行,不断积累数据的训练,监测系统对于故障的预测准确率也在逐步提升。
附图说明
28.图1为本发明流程图。
具体实施方式
29.为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.实施例一
31.请参阅图1,本发明提供一种技术方案:一种基于机器学习的服务器预测性维护模型方法,所述基于机器学习的服务器预测性维护模型方法包括以下步骤:
32.对以往服务器上的一些关键部件异常数据进行收集;
33.将采集的数据进行处理;对采集的数据进行分析预处理,把数据处理成以文件为单位给定标签,使其每个文件内有个数不固定的采样样本,没有明确的时间节点与工作量指标;
34.提取出数据特征;利用基于统计特征提取文件中每列特征的统计量,包括最大值、最小值、平均值与方差,利用比值特征中pearson相关函数构造三个比值特征,然后将所有的特征两两做相关性检验,得到相关性矩阵,用动态时间调整(dtw)来衡量两个时间序列之间的相似度,该方法通过把时间序列进行延伸与缩短来计算两个时间变量之间的相似性特性;
35.根据提取的数据特征并结合机器学习、故障预测与健康管理相关技术,训练出当前机房急需的服务器故障预测模型;首先采用lightgbm模型,选取lightgbm中重要的两个参数n_estimators与learning_rate进行调优,并辅以subsample_for_bin与colsample_bytree降低模型的过拟合程度,后采用xgboost模型,在优化过程中对xgboost影响较强的n_estimators与learning_rate进行参数优化,最终得到最优的n_estimators为100,最优learning_rate为0.01;
36.使用lime算法对模型的预测行为进行合理性的解释;经过实验证明,单模型性能不佳,于是创新性的采用了多模型融合的方法,把数据处理成向量化的数据,把数据进行k折划分,由于标签的存在,使用分层划分可以使每个模型训练数据分布相同,从而提升训练效果;对于k折数据,每一折数据都训练出一个模型,总共得到k个子模型,然后使用折k个子模型对预测数据进行预测,从而得到k个预测结果,然后用全部数据直接训练第k+1个模型,并对测试数据进行预测得到第k+1个结果。设定一个阈值h,高于阈值的认定为异常,低于阈值,认定为正常;6.通过对不同特征工程的训练预测耗时进行统计,发现macro-f1分数和模型的耗时均随着特征的增加而增加,其中macro-f1分数最高提升2.3%,时间最多增加10.1%,通过该实现的结果及权衡数据处理的时间和,最终确定了模型所使用的特征为统计特征结合两列dtw特征;为了更好的理解黑箱模型所作出的预测,使用lime算法对模型的预测行为进行合理性的解释,通过lime算法,可以找出每个特征对预测结果的贡献大小,从而以人类认知推理该判断是否合理。
37.实施例二
38.一种基于机器学习的服务器预测性维护模型系统,该系统由数据收集模块、数据分析模块、特征构造模块、模型融合模块以及解析模块构成;
39.数据收集模块,用于对以往服务器上的一些关键部件异常数据进行收集;
40.数据分析模块,用于将采集的数据进行处理;对采集的数据进行分析预处理,把数据处理成以文件为单位给定标签,使其每个文件内有个数不固定的采样样本,没有明确的时间节点与工作量指标;
41.特征构造模块,用于提取出数据特征;利用基于统计特征提取文件中每列特征的统计量,包括最大值、最小值、平均值与方差,利用比值特征中pearson相关函数构造三个比值特征,然后将所有的特征两两做相关性检验,得到相关性矩阵,用动态时间调整dtw来衡量两个时间序列之间的相似度,通过把时间序列进行延伸与缩短来计算两个时间变量之间的相似性特性;
42.模型融合模块,用于根据提取的数据特征并结合机器学习、故障预测与健康管理相关技术,训练出当前机房急需的服务器故障预测模型;采用了多模型融合的方法,把数据处理成向量化的数据,把数据进行k折划分;对于k折数据,每一折数据都训练出一个模型,总共得到k个子模型,然后使用折k个子模型对预测数据进行预测,从而得到k个预测结果,然后用全部数据直接训练第k+1个模型,并对测试数据进行预测得到第k+1个结果;设定一个阈值h,高于阈值的认定为异常,低于阈值,认定为正常;通过对不同特征工程的训练预测耗时进行统计,发现macro-f1分数和模型的耗时均随着特征的增加而增加,其中macro-f1分数最高提升2.3%,时间最多增加10.1%,通过该实现的结果及权衡数据处理的时间和,最终确定了模型所使用的特征为统计特征结合两列dtw特征;
43.解析模块,用于使用lime算法对模型的预测行为进行合理性的解释。
44.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

技术特征:
1.一种基于机器学习的服务器预测性维护模型方法,其特征在于:所述基于机器学习的服务器预测性维护模型方法包括以下步骤:对以往服务器上的一些关键部件异常数据进行收集;将采集的数据进行处理;提取出数据特征;根据提取的数据特征并结合机器学习、故障预测与健康管理相关技术,训练出当前机房急需的服务器故障预测模型;使用lime算法对模型的预测行为进行合理性的解释。2.根据权利要求1所述的一种基于机器学习的服务器预测性维护模型方法,其特征在于:对采集的数据进行分析预处理,把数据处理成以文件为单位给定标签,使其每个文件内有个数不固定的采样样本,没有明确的时间节点与工作量指标。3.根据权利要求2所述的一种基于机器学习的服务器预测性维护模型方法,其特征在于:利用基于统计特征提取文件中每列特征的统计量,包括最大值、最小值、平均值与方差,利用比值特征中pearson相关函数构造三个比值特征,然后将所有的特征两两做相关性检验,得到相关性矩阵,用动态时间调整dtw来衡量两个时间序列之间的相似度,通过把时间序列进行延伸与缩短来计算两个时间变量之间的相似性特性。4.根据权利要求1所述的一种基于机器学习的服务器预测性维护模型方法,其特征在于:采用了多模型融合的方法,把数据处理成向量化的数据,把数据进行k折划分;对于k折数据,每一折数据都训练出一个模型,总共得到k个子模型,然后使用折k个子模型对预测数据进行预测,从而得到k个预测结果,然后用全部数据直接训练第k+1个模型,并对测试数据进行预测得到第k+1个结果;设定一个阈值h,高于阈值的认定为异常,低于阈值,认定为正常。5.根据权利要求1所述的一种基于机器学习的服务器预测性维护模型方法,其特征在于:通过对不同特征工程的训练预测耗时进行统计,发现macro-f1分数和模型的耗时均随着特征的增加而增加,其中macro-f1分数最高提升2.3%,时间最多增加10.1%,通过该实现的结果及权衡数据处理的时间和,最终确定了模型所使用的特征为统计特征结合两列dtw特征。6.一种根据上述权利要求1-5任意一项所述的基于机器学习的服务器预测性维护模型系统,其特征在于:该系统由数据收集模块、数据分析模块、特征构造模块、模型融合模块以及解析模块构成;数据收集模块,用于对以往服务器上的一些关键部件异常数据进行收集;数据分析模块,用于将采集的数据进行处理;特征构造模块,用于提取出数据特征;模型融合模块,用于根据提取的数据特征并结合机器学习、故障预测与健康管理相关技术,训练出当前机房急需的服务器故障预测模型;解析模块,用于使用lime算法对模型的预测行为进行合理性的解释。7.根据权利要求6所述的一种基于机器学习的服务器预测性维护模型系统,其特征在于:所述数据分析模块中,对采集的数据进行分析预处理,把数据处理成以文件为单位给定标签,使其每个文件内有个数不固定的采样样本,没有明确的时间节点与工作量指标。
8.根据权利要求6所述的一种基于机器学习的服务器预测性维护模型系统,其特征在于:所述特征构造模块中,利用基于统计特征提取文件中每列特征的统计量,包括最大值、最小值、平均值与方差,利用比值特征中pearson相关函数构造三个比值特征,然后将所有的特征两两做相关性检验,得到相关性矩阵,用动态时间调整dtw来衡量两个时间序列之间的相似度,通过把时间序列进行延伸与缩短来计算两个时间变量之间的相似性特性。9.根据权利要求6所述的一种基于机器学习的服务器预测性维护模型系统,其特征在于:所述模型融合模块中,采用了多模型融合的方法,把数据处理成向量化的数据,把数据进行k折划分;对于k折数据,每一折数据都训练出一个模型,总共得到k个子模型,然后使用折k个子模型对预测数据进行预测,从而得到k个预测结果,然后用全部数据直接训练第k+1个模型,并对测试数据进行预测得到第k+1个结果;设定一个阈值h,高于阈值的认定为异常,低于阈值,认定为正常。10.根据权利要求6所述的一种基于机器学习的服务器预测性维护模型系统,其特征在于:所述模型融合模块中,通过对不同特征工程的训练预测耗时进行统计,发现macro-f1分数和模型的耗时均随着特征的增加而增加,其中macro-f1分数最高提升2.3%,时间最多增加10.1%,通过该实现的结果及权衡数据处理的时间和,最终确定了模型所使用的特征为统计特征结合两列dtw特征。

技术总结
本发明涉及故障预测与健康管理技术领域,具体为一种基于机器学习的服务器预测性维护模型方法,包括以下步骤:对以往服务器上的一些关键部件异常数据进行收集;将采集的数据进行处理;提取出数据特征;根据提取的数据特征并结合机器学习、故障预测与健康管理相关技术,训练出当前机房急需的服务器故障预测模型;使用LIME算法对模型的预测行为进行合理性的解释;有益效果为:本发明提出的基于机器学习的服务器预测性维护模型方法通过采用基于支持向量机的回归与分类算法,通过收集到的数据进行训练后,使该模型能够通过抓取的信息对未来某一时间点服务器出现故障做出精确预判。未来某一时间点服务器出现故障做出精确预判。未来某一时间点服务器出现故障做出精确预判。


技术研发人员:尹青山 高岩 黄洋
受保护的技术使用者:山东新一代信息产业技术研究院有限公司
技术研发日:2022.10.24
技术公布日:2023/1/6

最新回复(0)