故障上报方法、系统、装置、电子设备及存储介质与流程

xiaoxiao23天前  20


本技术涉及云技术及计算机,尤其涉及一种故障上报方法、系统、装置、电子设备及存储介质。


背景技术:

1、随着信息技术的发展,对服务器硬件的稳定性要求日益升高。在服务器容量不断增加的大环境下,批次问题增多、器件老化失效等硬件质量问题慢慢凸显出来。内存条(后文简称内存)作为服务器最重要的三大部件之一,具有现网存量基数大、故障影响严重、工艺更新迭代快速、数据易失性等特点。

2、相关技术中,主要通过在服务器运行过程中,基于业务运行状态确定内存是否出现故障,并在内存出现故障的情况下,停止运行当前业务,并对内存故障进行修复,在内存故障修复完成的情况下重新运行业务。但该方式,无法及时检测出内存故障,容易出现由于内存故障带来的服务器非预期的业务中断,提高了现网运营成本。


技术实现思路

1、本技术实施例提供了一种故障上报方法,以解决相关技术中,无法及时确定内存故障,影响业务运行的问题。

2、相应的,本技术实施例还提供了一种故障上报系统、一种故障上报装置、一种电子设备以及一种存储介质,用以保证上述方法的实现及应用。

3、一方面,本技术实施例提供一种故障上报方法,该方法应用于处理器固件中,包括:

4、响应于操作系统的启动请求,确定内存的规格内存信息;该规格内存信息包括规格内存容量信息、规格内存频率信息和规格内存电压信息中的至少一项;

5、基于预设的内存探测方式对内存进行探测,确定与规格内存信息对应的可用内存信息;

6、在规格内存信息和可用内存信息满足内存故障上报条件的情况下,确定内存的故障位置,并基于该故障位置生成故障提示信息;

7、将故障提示信息发送至基板管理控制器,指示该基板管理控制器基于故障提示信息生成访问系统事件日志,并基于该访问系统事件日志进行告警。

8、另一方面,本技术实施例还提供了一种故障上报系统,该故障上报系统包括处理器、处理器固件和基板管理控制器,该处理器对应至少一个内存,其中,处理器固件用于:

9、响应于操作系统的启动请求,确定内存的规格内存信息;规格内存信息包括规格内存容量信息、规格内存频率信息和规格内存电压信息中的至少一项;

10、基于预设的内存探测方式对内存进行探测,确定与规格内存信息对应的可用内存信息;

11、在规格内存信息和可用内存信息满足内存故障上报条件的情况下,确定内存的故障位置,并基于故障位置生成故障提示信息;

12、将故障提示信息发送至基板管理控制器,指示基板管理控制器基于故障提示信息生成访问系统事件日志,并基于访问系统事件日志进行告警。

13、可选地,内存包括至少两个存储单元,上述处理器固件在基于预设的内存探测方式对内存进行探测,确定与规格内存信息对应的可用内存信息时,可以具体用于:

14、基于上述内存探测方式分别对每个存储单元进行探测,确定每个存储单元的存储状态信息;该存储状态信息指示存储单元是否可用以及该存储单元的子可用内存信息;

15、基于各存储单元的子可用内存信息,确定上述可用内存信息;

16、上述处理器固件还可以用于:

17、在确定内存的可用内存信息的过程中,若存储单元的存储状态信息指示该存储单元不可用,对该存储单元进行隔离操作;该隔离操作可以包括对存储单元进行隔离或对存储单元所属内存进行隔离。

18、可选地,上述内存故障上报条件包括以下至少一项:

19、在确定上述可用内存信息的过程中,对存在故障的存储单元进行隔离操作;

20、可用内存信息和规格内存信息不一致。

21、可选地,内存的数目包括至少两个,每个内存具有唯一的位号和序列号,每个存储单元在其所属内存中具有唯一的存储位号;

22、上述处理器固件在基于故障位置生成故障提示信息时,可以具体用于:

23、在内存中所有存储单元都存在故障的情况下,基于故障位置生成第一故障提示信息;第一故障提示信息是基于内存的位号和内存的序列号生成的;

24、在内存中部分存储单元存在故障的情况下,基于故障位置生成第二故障提示信息;第二故障提示信息是基于内存的位号、存在故障的存储单元的标识和内存的序列号生成的。

25、可选地,上述处理器固件还可以用于:

26、预先基于预设的故障类型与业务状态的对应关系,确定对应于每种故障类型的报警信息;其中,不同的故障类型对应的报警信息的级别不同;

27、上述处理器固件在基于访问系统事件日志进行告警时,可以具体用于:

28、基于系统事件日志,确定内存的目标故障类型;

29、基于目标故障类型对应的目标报警信息进行告警。

30、可选地,上述处理器固件在确定内存的规格内存信息时,可以具体用于:

31、读取内存的串行存在侦测规范spd信息;

32、基于spd信息以及预设的规格内存信息确定方式,确定规格内存信息。

33、另一方面,本技术实施例提供了一种故障上报装置,该装置应用于处理器固件中,包括:

34、规格内存信息确定模块,用于响应于操作系统的启动请求,确定内存的规格内存信息;规格内存信息包括规格内存容量信息、规格内存频率信息和规格内存电压信息中的至少一项;

35、可用内存信息确定模块,用于基于预设的内存探测方式对内存进行探测,确定与规格内存信息对应的可用内存信息;

36、故障提示信息生成模块,用于在规格内存信息和可用内存信息满足内存故障上报条件的情况下,确定内存的故障位置,并基于所述故障位置生成故障提示信息;

37、故障上报模块,用于将故障提示信息发送至基板管理控制器,指示基板管理控制器基于故障提示信息生成访问系统事件日志,并基于访问系统事件日志进行告警。

38、可选地,内存包括至少两个存储单元,上述可用内存信息确定模块在基于预设的内存探测方式对内存进行探测,确定与规格内存信息对应的可用内存信息时,可以具体用于:

39、基于上述内存探测方式分别对每个存储单元进行探测,确定每个存储单元的存储状态信息;该存储状态信息指示存储单元是否可用以及该存储单元的子可用内存信息;

40、基于各存储单元的子可用内存信息,确定上述可用内存信息;

41、上述装置还可以包括隔离模块,用于:

42、在确定内存的可用内存信息的过程中,若存储单元的存储状态信息指示该存储单元不可用,对该存储单元进行隔离操作;该隔离操作可以包括对存储单元进行隔离或对存储单元所属内存进行隔离。

43、可选地,上述内存故障上报条件包括以下至少一项:

44、在确定上述可用内存信息的过程中,对存在故障的存储单元进行隔离操作;

45、可用内存信息和规格内存信息不一致。

46、可选地,内存的数目包括至少两个,每个内存具有唯一的位号和序列号,每个存储单元在其所属内存中具有唯一的存储位号;

47、上述故障提示信息生成模块在基于故障位置生成故障提示信息时,可以具体用于:

48、在内存中所有存储单元都存在故障的情况下,基于故障位置生成第一故障提示信息;第一故障提示信息是基于内存的位号和内存的序列号生成的;

49、在内存中部分存储单元存在故障的情况下,基于故障位置生成第二故障提示信息;第二故障提示信息是基于内存的位号、存在故障的存储单元的标识和内存的序列号生成的。

50、可选地,上述装置还可以包括报警信息确定模块,用于:

51、预先基于预设的故障类型与业务状态的对应关系,确定对应于每种故障类型的报警信息;其中,不同的故障类型对应的报警信息的级别不同;

52、上述故障上报模块在基于访问系统事件日志进行告警时,可以具体用于:

53、基于系统事件日志,确定内存的目标故障类型;

54、基于目标故障类型对应的目标报警信息进行告警。

55、可选地,上述规格内存信息确定模块在确定内存的规格内存信息时,可以具体用于:

56、读取内存的串行存在侦测规范spd信息;

57、基于spd信息以及预设的规格内存信息确定方式,确定规格内存信息。

58、另一方面,本技术实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;

59、上述存储器用于存储计算机程序;

60、上述处理器被配置用于在调用上述计算机程序时,执行本技术实施例提供的故障上报方法。

61、另一方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本技术实施例提供的故障上报方法。

62、另一方面,本技术实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行时实现本技术实施例提供的故障上报方法。

63、在本技术实施例中,通过在操作系统启动时,通过处理器固件对内存的容量信息、频率信息和电压信息等进行检测,确定出内存的规格内存信息以及与规格内存信息对应的可用内存信息,并在规格内存信息和可用内存信息满足故障上报条件的情况下,确定出内存的故障位置,并进一步基于该故障位置生成故障提示信息,将故障提示信息发送至基板管理控制器,指示该基板管理控制器基于故障提示信息生成访问系统事件日志,并基于该访问系统事件日志进行告警,可以实现通过硬件系统及时确定出内存故障,并主动上报所确定的内存故障,将内存故障“暴露出来”,提高了确定内存故障的及时性,方便后续基于告警信息所指示的故障位置及时且准确地对内存故障进行修复,提高了基于该操作系统实现的服务器的稳定性,避免了由于内存故障导致服务器非预期的业务中断的情况发生,进一步降低了现网运营成本。


技术特征:

1.一种故障上报方法,其特征在于,所述方法应用于处理器固件中,包括:

2.根据权利要求1所述的方法,其特征在于,所述内存包括至少两个存储单元,所述基于预设的内存探测方式对所述内存进行探测,确定与所述规格内存信息对应的可用内存信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述内存故障上报条件包括以下至少一项:

4.根据权利要求3所述的方法,其特征在于,所述内存的数目包括至少两个,每个所述内存具有唯一的位号和序列号,每个所述存储单元在其所属内存中具有唯一的存储位号;

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述确定内存的规格内存信息,包括:

7.一种故障上报系统,其特征在于,所述故障上报系统包括处理器、处理器固件和基板管理控制器,所述处理器对应至少一个内存,其中,所述处理器固件用于:

8.一种故障上报装置,其特征在于,所述装置应用于处理器固件中,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。

11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。


技术总结
本申请实施例公开了一种故障上报方法、系统、装置、电子设备及存储介质,涉及云技术及计算机技术领域。该方法包括:响应于操作系统的启动请求,确定内存的规格内存信息;规格内存信息包括规格内存容量信息、规格内存频率信息和规格内存电压信息中的至少一项;基于预设的内存探测方式对内存进行探测,得到可用内存信息;在规格内存信息和可用内存信息满足内存故障上报条件时,确定内存的故障位置,基于故障位置生成故障提示信息;将故障提示信息发送至基板管理控制器,指示基板管理控制器基于故障提示信息生成访问系统事件日志,并进行告警。采用本申请实施例,可以实现通过硬件系统及时确定并上报内存故障,方便基于故障位置对内存故障进行修复。

技术研发人员:叶铮,田康
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)