情境化故障预测系统的制作方法

xiaoxiao10天前  18


本公开涉及预测性维护领域,尤其涉及情境化故障预测系统。


背景技术:

0、背景

1、在数据中心,服务器遇到不同的问题情况并告警或报告故障事件是很常见的。报告的故障事件可能与某些特定的硬件配置或情境有关。例如,具有某些处理器状态配置的cpu固件级别将导致服务器cpu首先发出警报,然后自动关闭电源。在另一个示例中,具有某些配置的某些制造硬件通常会触发某些错误事件。通常,与硬件配置和情境的相关性并不明显,只有在报告了大量相同的硬件故障事件后才会显示出来。


技术实现思路

1、为了解决服务器告警或报告故障事件情境化的问题,本公开实施例提供了一种情境化故障预测方法。技术方案如下:

2、本公开提供了一种故障预测方法。该方法包括将从计算系统获取的历史系统事件流和情境信息提供给训练引擎;从所述训练引擎获得关于所述情境信息的故障预测模型;将所述故障预测模型应用于推理引擎;和将实时系统事件流和情境信息提供给所述推理引擎,以预测所述计算系统的故障并生成特定于情境的操作建议。

3、在一些实施例中,所述历史系统事件流包括多个时间序列事件;和所述多个时间序列事件包括按时间顺序排列的硬件故障,超出范围的传感器测量值,故障预测分析(pfa)警报和电源状态转换中的一项或多项。

4、在一些实施例中,所述情境信息包括配置信息和环境信息。

5、在一些实施例中,所述配置信息包括以下一项或多项:固件级别,硬件级别,安装的选件和生产日期。

6、在一些实施例中,所述环境信息包括温度,地理位置,天气状况,网络类型,网络状况和电源质量中的一项或多项。

7、在一些实施例中,该方法还包括:借助于所述推理引擎,实时确定是否需要将系统事件流的系统事件作为系统事件警报转发;和响应于确定所述系统事件被确定为需要转发为所述系统事件警报,借助于所述推理引擎,将严重性级别和事件类型分配给所述系统事件警报。

8、在一些实施例中,该计算系统包括多个计算资源,该多个计算资源包括处理单元(cpu),图形处理单元(gpu),现场可编程门阵列(fpga)和存储设备中的一个或多个。

9、在一些实施例中,所述故障预测模型包括一个神经网络。

10、本公开提供了一种故障预测装置。该装置包括存储程序指令的存储器和执行程序指令的处理器。该处理器执行:将从计算系统获取的历史系统事件流和情境信息提供给训练引擎;从所述训练引擎获得关于情境信息的故障预测模型;将所述故障预测模型应用于推理引擎;和将实时系统事件流和情境信息提供给所述推理引擎,以预测所述计算系统的故障并生成特定于情境的操作建议。

11、在一些实施例中,所述历史系统事件流包括多个时间序列事件;和所述多个时间序列事件包括按时间顺序排列的硬件故障,超出范围的传感器测量值,故障预测分析(pfa)警报和电源状态转换中的一项或多项。

12、在一些实施例中,所述情境信息包括配置信息和环境信息。

13、在一些实施例中,所述配置信息包括以下一项或多项:固件级别,硬件级别,安装的选件和生产日期。

14、在一些实施例中,所述环境信息包括温度,地理位置,天气状况,网络类型,网络状况和电源质量中的一项或多项。

15、在一些实施例中,该处理器执行程序指令以执行:借助于所述推理引擎,实时确定是否需要将系统事件流的系统事件作为系统事件警报转发;和响应于确定所述系统事件被确定为需要转发为所述系统事件警报,借助于所述推理引擎,将严重性级别和事件类型分配给所述系统事件警报。

16、在一些实施例中,该计算系统包括多个计算资源,该多个计算资源包括处理单元(cpu),图形处理单元(gpu),现场可编程门阵列(fpga)和存储设备中的一个或多个。

17、在一些实施例中,所述故障预测模型包括一个神经网络。

18、所述故障预测方法和故障预测装置通过把所述情境信息包括在训练数据集中以生成考虑了所述情境信息的故障预测模型以针对情境信息预测计算系统的故障,并生成特定于情境的操作建议。因此,所述计算系统的平均故障间隔时间(mtbf)增加,所述计算系统的问题的平均修复时间(mttr)减少,从而提高了所述计算系统的可用性,并且同时降低了维护成本。



技术特征:

1.一种故障预测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于:

3.根据权利要求1所述的方法,其特征在于:

4.根据权利要求3所述的方法,其特征在于:

5.根据权利要求3所述的方法,其特征在于:

6.根据权利要求1-5中任一个的方法,其特征在于,还包括:

7.根据权利要求1-5中任意一个的方法,其特征在于:

8.根据权利要求l-5中任意一个的方法,其特征在于:

9.一种故障预测装置,其特征在于,包括:

10.根据权利要求9所述的装置,其特征在于:

11.根据权利要求9所述的装置,其特征在于:

12.根据权利要求11所述的装置,其特征在于:

13.根据权利要求11所述的装置,其特征在于:

14.根据权利要求9-13中任意一个的装置,其特征在于,该处理器还执行程序指令以执行:

15.根据权利要求9-13中任意一个的装置,其特征在于:

16.根据权利要求9-13中任意一个的装置,其特征在于:


技术总结
一种故障预测方法,包括:将从计算系统获取的历史系统事件流和情境信息提供给训练引擎;从所述训练引擎获得关于所述情境信息的故障预测模型;将所述故障预测模型应用于推理引擎;和将实时系统事件流和情境信息提供给所述推理引擎,以预测所述计算系统的故障并生成特定于情境的操作建议。

技术研发人员:詹姆斯·G.·迈克莱恩,张彩红,F·A·鲍尔三世,杨少辉
受保护的技术使用者:联想(北京)有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)