一种网络监控处理方法以及装置的制造方法

xiaoxiao2021-2-23  129

一种网络监控处理方法以及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,尤其涉及一种网络监控处理方法以及装置。
【背景技术】
[0002]在目前的IM(Instant Messaging,即时通讯)系统中,来自客户端的请求消息首先是通过接入节点的处理,然后再转发到后端的服务节点,服务节点对请求消息处理完毕后再将结果经由接入节点返回给客户端。为了实现系统的可靠性,通常会在不同的区域的机房部署多个对等的服务节点。接入节点通常是按照随机或者轮询方式将请求消息转发给服务节点。当某个服务节点网络出现问题时,仍然会有部分请求消息转发到这个问题服务节点上,从而会对客户端的请求造成影响。在这种情况下,就需要人工采取措施,隔离或者停止这个问题服务节点,而且在该服务节点所处机房网络不是很稳定的情况下,就需要管理员频繁对问题服务节点进行隔离或停止,导致人工维护成本增加。

【发明内容】

[0003]本发明实施例提供一种网络监控处理方法以及装置,可降低对服务节点的人工维护成本。
[0004]本发明实施例提供了一种网络监控处理方法,包括:
[0005]获取接入节点与服务节点之间的消息发送状态信息;
[0006]根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态;
[0007]当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;
[0008]当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。
[0009]相应地,本发明实施例还提供了一种网络监控处理装置,包括:
[0010]获取模块,用于获取接入节点与服务节点之间的消息发送状态信息;
[0011]确定模块,用于根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态;
[0012]添加模块,用于当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;
[0013]所述添加模块,还用于当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。
[0014]本发明实施例通过获取接入节点与服务节点之间的消息发送状态信息,并根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态,可以在所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;或在所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。由于所述接入节点只将请求消息转发给所述正常服务节点集合中的服务节点,所以可以有效降低问题服务节点对客户端的请求所造成的影响,而且基于所述正常服务节点集合和所述暂停服务节点集合对服务节点的划分,可以自动对问题服务节点进行隔离或停止,从而可降低对服务节点的人工维护成本。
【附图说明】
[0015]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本发明实施例提供的一种网络架构的不意图;
[0017]图2是本发明实施例提供的一种网络监控处理方法的流程示意图;
[0018]图3是本发明实施例提供的另一种网络监控处理方法的流程示意图;
[0019]图4是本发明实施例提供的一种网络监控处理装置的结构示意图;
[0020]图5是本发明实施例提供的一种获取模块的结构示意图;
[0021 ]图6是本发明实施例提供的一种计算生成单元的结构示意图;
[0022]图7是本发明实施例提供的一种确定模块的结构示意图;
[0023]图8是本发明实施例提供的另一种网络监控处理装置的结构示意图;
[0024]图9是本发明实施例提供的又一种网络监控处理装置的结构示意图。
【具体实施方式】
[0025]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0026]请参见图1,是本发明实施例提供的一种网络构架的示意图。如图1所示,该网络构架可以包括网络监控处理装置、接入节点以及多个服务节点。所述网络监控处理装置可以应用于IM系统中,具体可以为部署于IM系统中的某一台或多台服务器。所述网络监控处理装置可以分别于所述接入节点和所述多个服务节点进行网络连接,所述接入节点也可以与所述多个服务节点进行网络连接。本发明实施例中,所述网络监控处理装置可以获取所述接入节点与每个服务节点之间的消息发送状态信息,并根据每个消息发送状态信息中的消息延时率或消息失败率,分别确定各消息发送状态信息所对应的服务节点的网络状态,所述网络监控处理装置还可以将所述网络状态为正常状态的服务节点添加到正常服务节点集合,并将所述网络状态为异常状态的服务节点添加到暂停服务节点集合,并控制所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信,从而可以有效降低问题服务节点对客户端的请求所造成的影响,而且还可以自动对问题服务节点进行隔离或停止,从而可降低对服务节点的人工维护成本。由于对每个服务节点的网络状态监控过程都一样,且对每个服务节点的集合判断过程也一样,所以以下图2至图9对应的实施例均以其中一个服务节点为例进行说明,且该服务节点可以为该网络架构中的任意一个服务节点。
[0027]基于图1所示的网络构架,本发明实施例公开了的一种网络监控处理方法。请参见图2,是本发明实施例提供的一种网络监控处理方法的流程示意图,所述方法可以包括:
[0028]S201,获取接入节点与服务节点之间的消息发送状态信息;
[0029]具体的,网络监控处理装置可以获取接入节点与服务节点之间的消息发送状态信息,所述消息发送状态信息可以包括消息延时率和消息失败率。其中,消息延时率可以是某段时间内所述接入节点发送到所述服务节点的所有请求消息中,属于延时状态的请求消息所占的比例;所述消息失败率可以是时间内所述接入节点发送到所述服务节点的所有请求消息中,属于失败状态的请求消息所占的比例。其中,所述接入节点在发送请求消息到所述服务节点后,所述服务节点可以对所述请求消息进行响应并返回确认消息。因此,当所述接入节点从发送某请求消息到接收到对应的确认消息的时长超过预设的第一时长阈值时,可以将该请求消息确定为属于延时状态的请求消息;当所述接入节点无法接收到某请求消息对应的确认消息时,可以将该请求消息确定为属于失败状态的请求消息。例如,所述接入节点在1分钟内向服务节点发送了 100个请求消息,其中,属于延时状态的请求消息为20个,属于失败状态的请求消息为10个,那么,可以计算出消息延时率为20%,消息失败率为10%。
[0030]S202,根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态;
[0031]具体的,所述网络监控处理装置可以判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值,若判断为是,说明有过多的请求消息出现延时或过多的请求消息出现响应失败,则可以确定所述服务节点的网络状态为异常状态,否则,可以确定所述服务节点的网络状态为正常状态。其中,用于判断所述消息延时率是否过大的比例阈值,与用于判断所述消息失败率是否过大的比例阈值可以相同,也可以不同。
[0032]S203,当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;
[0033]S204,当所述网 络状态为异常状态时,将所述服务节点添加到暂停服务节点集合;
[0034]具体的,当确定出所述网络状态为正常状态时,所述网络监控处理装置可以将所述服务节点添加到正常服务节点集合;当确定出所述网络状态为异常状态时,所述网络监控处理装置可以将所述服务节点添加到暂停服务节点集合。处于所述暂停服务节点集合中的所有服务节点都被自动隔离或停止,使得所述接入节点在后续发送请求消息时,只会将请求消息发送到所述正常服务节点集合中的所有服务节点,以避免在后续过程中所述接入节点将请求消息发送到问题服务节点。
[0035]本发明实施例通过获取接入节点与服务节点之间的消息发送状态信息,并根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态,可以在所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;或在所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。由于所述接入节点只将请求消息转发给所述正常服务节点集合中的服务节点,所以可以有效降低问题服务节点对客户端的请求所造成的影响,而且基于所述正常服务节点集合和所述暂停服务节点集合对服务节点的划分,可以自动对问题服务节点进行隔离或停止,从而可降低对服务节点的人工维护成本。
[0036]基于图1所示的网络构架,本发明实施例公开了的另一种网络监控处理方法。请参见图3,是本发明实施例提供的另一种网络监控处理方法的流程示意图,所述方法可以包括:
[0037]S301,在预设时间周期内,获取所述接入节点与所述服务节点之间的至少一个时间戳信息;
[0038]具体的,在预设时间周期内,网络监控处理装置可以获取所述接入节点与所述服务节点之间的至少一个时间戳信息,每个时间戳信息均包括发送时间戳和接收时间戳;所述每个时间戳信息中的所述发送时间戳为所述接入节点发送请求消息到所述服务节点时的时间戳,所述接收时间戳为所述接入节点接收到所述服务节点对所述请求消息进行响应的确认消息时的时间戳。
[0039]S302,分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并根据所述每个时间戳信息对应的时间差以及预设的第一时长阈值,生成所述接入节点与所述服务节点之间的消息发送状态信息;
[0040]具体的,所述网络监控处理装置获取到所述至少一个时间戳信息后,可以分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并将所述时间差大于所述第一时长阈值的时间戳信息确定为延时信息,并将所述时间差为异常值的时间戳信息确定为失败信息;为异常值的时间差所对应的所述接收时间戳为空值。再统计所述延时信息的数量和所述失败信息的数量,并根据所述延时信息的数量与所述时间戳信息的总数量计算消息延时率,并根据所述失败信息的数量与所述时间戳信息的总数量计算消息失败率,以生成包含所述消息延时率和所述消息失败率的消息发送状态信息。例如,在1分钟内,若所述接入节点向所述服务节点发送了 100条请求消息,每条请求消息都对应一个时间戳信息,其中,有10个时间戳信息中的所述接收时间戳为空值,说明所述接入节点没有接收到与这10个时间戳信息关联的请求消息所对应的确认消息,即将这10个时间戳信息确定为失败信息,因此,可以得到消息失败率=失败信息的数量(10)/时间戳信息的总数量
(100)*100% = 10%;另外,其中有20个时间戳信息对应的时间差大于所述第一时长阈值(2秒),则可以将这20个时间戳信息确定为延时信息,因此,可以得到消息延时率=延时信息的数量(20)/时间戳信息的总数量(100)*100% =20%,从而可以生成包含消息延时率(20%)以及消息失败率(10%)的消息发送状态信息。
[0041]S303,判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值;
[0042]具体的,所述网络监控处理装置可以判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值。其中,用于判断所述消息延时率是否过大的比例阈值,与用于判断所述消息失败率是否过大的比例阈值可以相同,也可以不同。
[0043]S304,确定所述服务节点的网络状态为正常状态;
[0044]具体的,若S303判断否,则可以确定所述服务节点的网络状态为正常状态。
[0045]S305,将所述服务节点添加到正常服务节点集合;
[0046]具体的,当S304确定出所述服务节点的网络状态为正常状态时,可以将所述服务节点添加到正常服务节点集合。
[0047]S306,确定所述服务节点的网络状态为异常状态;
[0048]具体的,若S303判断为是,说明有过多的请求消息出现延时或过多的请求消息出现响应失败,则可以确定所述服务节点的网络状态为异常状态。
[0049]S307,将所述服务节点添加到暂停服务节点集合;
[0050]具体的,当S306确定出所述服务节点的网络状态为异常状态时,可以将所述服务节点添加到暂停服务节点集合。处于所述暂停服务节点集合中的所有服务节点都被自动隔离或停止,使得所述接入节点在后续发送请求消息时,只会将请求消息发送到所述正常服务节点集合中的所有服务节点,以避免在后续过程中所述接入节点将请求消息发送到问题服务节点。
[0051]S308,当检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合;
[0052]具体的,当将所述服务节点添加到所述暂停服务节点集合后,即可开始计时,并在检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合,使得被隔离或停止的服务节点可以被自动恢复,进一步降低了人工维护成本。进一步的,当所述服务节点重新转移到所述正常服务节点集合后,将会重新检测所述服务节点的网络状态,若检测到所述服务节点的网络状态依然为异常状态,则所述服务节点将会再次被转移至所述暂停服务节点集合,此时,所述第二时长阈值将会变为原先的2倍,即所述服务节点需要在所述暂停服务节点集合中停留更久的时间后才会被转移到所述正常服务节点集合中。例如,若所述服务节点第一次进入所述暂停服务节点集合时的所述第二时长阈值为t,那么所述服务节点第二次进入所述暂停服务节点集合时的所述第二时长阈值将变为2*t,以此类推,所述服务节点第η次进入所述暂停服务节点集合时的所述第二时长阈值将变为n*t。
[0053]可选的,当检测到所述暂停服务节点集合中的服务节点数量大于所述正常服务节点集合中的服务节点数量时,将所述暂停服务节点集合中的所有服务节点都转移至所述正常服务节点集合中,并生成与所述接入节点相关联的告警通知信息;
[0054]具体的,当检测到所述暂停服务节点集合中的服务节点数量大于所述正常服务节点集合中的服务节点数量时,说明所述接入节点到各个服务节点的链路都有问题,即通常是其本身网络出现问题,需要对接入节点进行处理。
[0055]可选的,所述网络监控处理装置在预设时间周期内,获取所述接入节点与所述服务节点之间的至少一个时间戳信息时,为了避免请求消息和确认消息刚好跨了两个预设时间周期造成的错误统计,可以将处于易出错的时间范围内的时间戳信息进行删除,即处于易出错的时间范围内的时间戳信息不参与统计。例如,将当前准备进行统计的时间戳设为tl,获取到的每个时间戳信息中的发送时间戳均设为t2,则可以将满足tl_t2〈30秒或tl_t2>2分钟的时间戳信息删除,即只有满足30秒< tl-t2 < 2分钟的时间戳信息才参与统计,以生成对应的消息发送状态信息。
[0056]本发明实施例通过获取接入节点与服务节点之间的消息发送状态信息,并根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态,可以在所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;或在所述网络状 态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。由于所述接入节点只将请求消息转发给所述正常服务节点集合中的服务节点,所以可以有效降低问题服务节点对客户端的请求所造成的影响,而且基于所述正常服务节点集合和所述暂停服务节点集合对服务节点的划分,可以自动对问题服务节点进行隔离或停止,而且在检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,可以将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合,使得被隔离或停止的服务节点可以被自动恢复,从而可降低对服务节点的人工维护成本。
[0057]基于图1所示的网络构架,本发明实施例公开了的一种网络监控处理装置。请参见图4,是本发明实施例提供的一种网络监控处理装置的结构示意图,所述网络监控处理装置1可以包括:获取模块10、确定模块20、添加模块30;
[0058]所述获取模块10,用于获取接入节点与服务节点之间的消息发送状态信息;
[0059]具体的,所述获取模块10可以获取接入节点与服务节点之间的消息发送状态信息,所述消息发送状态信息可以包括消息延时率和消息失败率。其中,消息延时率可以是某段时间内所述接入节点发送到所述服务节点的所有请求消息中,属于延时状态的请求消息所占的比例;所述消息失败率可以是时间内所述接入节点发送到所述服务节点的所有请求消息中,属于失败状态的请求消息所占的比例。其中,所述接入节点在发送请求消息到所述服务节点后,所述服务节点可以对所述请求消息进行响应并返回确认消息。因此,当所述接入节点从发送某请求消息到接收到对应的确认消息的时长超过预设的第一时长阈值时,可以将该请求消息确定为属于延时状态的请求消息;当所述接入节点无法接收到某请求消息对应的确认消息时,可以将该请求消息确定为属于失败状态的请求消息。例如,所述接入节点在1分钟内向服务节点发送了 100个请求消息,其中,属于延时状态的请求消息为20个,属于失败状态的请求消息为10个,那么,可以计算出消息延时率为20%,消息失败率为10%。
[0060]所述确定模块20,用于根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态;
[0061]具体的,所述确定模块20可以判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值,若判断为是,说明有过多的请求消息出现延时或过多的请求消息出现响应失败,则所述确定模块20可以确定所述服务节点的网络状态为异常状态,否则,可以确定所述服务节点的网络状态为正常状态。其中,用于判断所述消息延时率是否过大的比例阈值,与用于判断所述消息失败率是否过大的比例阈值可以相同,也可以不同。
[0062]所述添加模块30,用于当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;
[0063]所述添加模块30,还用于当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。
[0064]具体的,当确定出所述网络状态为正常状态时,所述添加模块30可以将所述服务节点添加到正常服务节点集合;当确定出所述网络状态为异常状态时,所述添加模块30可以将所述服务节点添加到暂停服务节点集合。处于所述暂停服务节点集合中的所有服务节点都被自动隔离或停止,使得所述接入节点在后续发送请求消息时,只会将请求消息发送到所述正常服务节点集合中的所有服务节点,以避免在后续过程中所述接入节点将请求消息发送到问题服务节点。
[0065]进一步的,再请参见图5,是本发明实施例提供的一种获取模块10的结构示意图,所述获取模块10可以包括:时间戳获取单元101、计算生成单元102;
[0066]所述时间戳获取单元101,用于在预设时间周期内,获取所述接入节点与所述服务节点之间的至少一个时间戳信息,每个时间戳信息均包括发送时间戳和接收时间戳;所述每个时间戳信息中的所述发送时间戳为所述接入节点发送请求消息到所述服务节点时的时间戳,所述接收时间戳为所述接入节点接收到所述服务节点对所述请求消息进行响应的确认消息时的时间戳;
[0067]可选的,所述时间戳获取单元101在预设时间周期内,获取所述接入节点与所述服务节点之间的至少一个时间戳信息时,为了避免请求消息和确认消息刚好跨了两个预设时间周期造成的错误统计,可以将处于易出错的时间范围内的时间戳信息进行删除,即处于易出错的时间范围内的时间戳信息不参与统计。例如,将当前准备进行统计的时间戳设为tl,获取到的每个时间戳信息中的发送时间戳均设为t2,则可以将满足tl-t2〈30秒或tl-t2>2分钟的时间戳信息删除,即只有满足30秒< tl-t2 < 2分钟的时间戳信息才参与统计,以生成对应的消息发送状态信息。
[0068]所述计算生成单元102,用于分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并根据所述每个时间戳信息对应的时间差以及预设的第一时长阈值,生成所述接入节点与所述服务节点之间的消息发送状态信息。
[0069]进一步的,再请参见图6,是本发明实施例提供的一种计算生成单元102的结构示意图,所述计算生成单元102可以包括:计算子单元1021、信息确定子单元1022、统计子单元1023、生成子单元1024;
[0070]所述计算子单元1021,用于分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差;
[0071]所述信息确定子单元1022,用于将所述时间差大于所述第一时长阈值的时间戳信息确定为延时信息,并将所述时间差为异常值的时间戳信息确定为失败信息;为异常值的时间差所对应的所述接收时间戳为空值;
[0072]所述统计子单元1023,用于统计所述延时信息的数量和所述失败信息的数量,并根据所述延时信息的数量与所述时间戳信息的总数量计算消息延时率,并根据所述失败信息的数量与所述时间戳信息的总数量计算消息失败率;
[0073]所述生成子单元1024,用于生成包含所述消息延时率和所述消息失败率的消息发送状态信息;
[0074]例如,在1分钟内,若所述接入节点向所述服务节点发送了100条请求消息,每条请求消息都对应一个时间戳信息,其中,有10个时间戳信息中的所述接收时间戳为空值,说明所述接入节点没有接收到与这10个时间戳信息关联的请求消息所对应的确认消息,即所述信息确定子单元1022可以将这10个时间戳信息确定为失败信息,因此,所述统计子单元1023可以得到消息失败率=失败信息的数量(10)/时间戳信息的总数量(100)*100% =10 % ;另外,其中有20个时间戳信息对应的时间差大于所述第一时长阈值(2秒),则所述信息确定子单元1022可以将这20个时间戳信息确定为延时信息,因此,所述统计子单元1023可以得到消息延时率=延时信息的数量(20)/时间戳信息的总数量(100)*100% = 20%,从而所述生成子单元1024可以生成包含消息延时率(20%)以及消息失败率(10%)的消息发送状态信息。
[0075]进一步的,再请参见图7,是本发明实施例提供的一种确定模块20的结构示意图,所述确定模块20可以包括:比例判断单元201、状态确定单元202;
[0076]所述比例判断单元201,用于判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值;
[0077]所述状态确定单元202,用于若所述比例判断单元201判断为是,则确定所述服务节点的网络状态为异常状态;
[0078]所述状态确定单元202,还用于若所述比例判断单元201判断为否,则确定所述服务节点的网络状态为正常状态。
[0079]本发明实施例通过获取接入节点与服务节点之间的消息发送状态信息,并根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态,可以在所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;或在所述网络状 态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。由于所述接入节点只将请求消息转发给所述正常服务节点集合中的服务节点,所以可以有效降低问题服务节点对客户端的请求所造成的影响,而且基于所述正常服务节点集合和所述暂停服务节点集合对服务节点的划分,可以自动对问题服务节点进行隔离或停止,从而可降低对服务节点的人工维护成本。
[0080]再请参见图8,是本发明实施例提供的另一种网络监控处理装置的结构示意图,所述网络监控处理装置1可以包括上述图4对应实施例中的获取模块10、确定模块20、添加模块30,进一步的,所述网络监控处理装置1还可以包括:第一转移模块40、第二转移模块50;
[0081]所述第一转移模块40,用于当检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合;
[0082]具体的,当将所述服务节点添加到所述暂停服务节点集合后,所述第一转移模块40即可开始计时,并在检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合,使得被隔离或停止的服务节点可以被自动恢复,进一步降低了人工维护成本。进一步的,当所述服务节点重新转移到所述正常服务节点集合后,所述网络监控处理装置1将会重新检测所述服务节点的网络状态,若检测到所述服务节点的网络状态依然为异常状态,则所述服务节点将会再次被转移至所述暂停服务节点集合,此时,所述第二时长阈值将会变为原先的2倍,即所述服务节点需要在所述暂停服务节点集合中停留更久的时间后才会被转移到所述正常服务节点集合中。例如,若所述服务节点第一次进入所述暂停服务节点集合时的所述第二时长阈值为t,那么所述服务节点第二次进入所述暂停服务节点集合时的所述第二时长阈值将变为2*t,以此类推,所述服务节点第η次进入所述暂停服务节点集合时的所述第二时长阈值将变为n*t。
[0083]所述第二转移模块50,用于当检测到所述暂停服务节点集合中的服务节点数量大于所述正常服务节点集合中的服务节点数量时,将所述暂停服务节点集合中的所有服务节点都转移至所述正常服务节点集合中,并生成与所述接入节点相关联的告警通知信息;
[0084]具体的,当检测到所述暂停服务节点集合中的服务节点数量大于所述正常服务节点集合中的服务节点数量时,说明所述接入节点到各个服务节点的链路都有问题,即通常是其本身网络出现问题,需要对接入节点进行处理。
[0085]本发明实施例通过获取接入节点与服务节点之间的消息发送状态信息,并根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态,可以在所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;或在所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。由于所述接入节点只将请求消息转发给所述正常服务节点集合中的服务节点,所以可以有效降低问题服务节点对客户端的请求所造成的影响,而且基于所述正常服务节点集合和所述暂停服务节点集合对服务节点的划分,可以自动对问题服务节点进行隔离或停止,而且在检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,可以将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合,使得被隔离或停止的服务节点可以被自动恢复,从而可降低对服务节点的人工维护成本。
[0086]基于图1所示的网络构架,本发明实施例公开了的又一种网络监控处理装置。请参见图9,是本发明实施例提供的又一种网络监控处理装置的结构示意图。所述网络监控处理装置1000可以包括处理器1001、通信接口 1002和存储器1003(所述网络监控处理装置1000中的处理器1001的数量可以为一个或多个,图9中以一个处理器为例)。本发明的一些实施例中,处理器1001、通信接口 1002和存储器1003可通过通信总线或其他方式连接,其中,图9以通过通信总线连接为例。
[0087]其中,所述通信接口1002,用于与接入节点和服务节点进行通信;
[0088]所述存储器1003用于存储程序;
[0089]所述处理器1001用于执行所述程序,以实现
[0090]获取接入节点与服务节点之间的消息发送状态信息;
[0091 ]根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态;
[0092]当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;
[0093]当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。
[0094]在一个实施例中,所述处理器1001在执行获取接入节点与服务节点之间的消息发送状态信息时,具体用于:
[0095]在预设时间周期内,获取所述接入节点与所述服务节点之间的至少一个时间戳信息,每个时间戳信息均包括发送时间戳和接收时间戳;所述每个时间戳信息中的所述发送时间戳为所述接入节点发送请求消息到所述服务节点时的时间戳,所述接收时间戳为所述接入节点接收到所述服务节点对所述请求消息进行响应的确认消息时的时间戳;
[0096]分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并根据所述每个时间戳信息对应的时间差以及预设的第一时长阈值,生成所述接入节点与所述服务节点之间的消息发送状态信息。
[0097]在一个实施例中,所述处理器1001在执行分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并根据所述每个时间戳信息对应的时间差以及预设的第一时长阈值,生成所述接入节点与所述服务节点之间的消息发送状态信息时,具体用于:
[0098]分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差;
[0099]将所述时间差大于所述第一时长阈值的时间戳信息确定为延时信息,并将所述时间差为异常值的时间戳信息确定为失败信息;为异常值的时间差所对应的所述接收时间戳为空值;
[0100]统计所述延时信息的数量和所述失败信息的数量,并根据所述延时信息的数量与所述时间戳信息的总数量计算消息延时率,并根据所述失败信息的数量与所述时间戳信息的总数量计算消息失败率;
[0101]生成包含所述消息延时率和所述消息失败率的消息发送状态信息。
[0102]在一个实施例中,所述处理器1001在执行根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态时,具体用于:
[0103]判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值;
[0104]若判断为是,则确定所述服务节点的网络状态为异常状态;
[0105]若判断为否,则确定所述服务节点的网络状态为正常状态。
[0106]在一个实施例中,所述处理器1001在执行当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合之后,还用于:
[0107]当检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合。
[0108]在一个实施例中,所述处理器1001还用于:
[0109]当检测到所述暂停服务节点集合中的服务节点数量大于所述正常服务节点集合中的服务节点数量时,将所述暂停服务节点集合中的所有服务节点都转移至所述正常服务节点集合中,并生成与所述接入节点相关联的告警通知信息。
[0110]本发明实施例通过获取接入节点与服务节点之间的消息发送状态信息,并根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态,可以在所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;或在 所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。由于所述接入节点只将请求消息转发给所述正常服务节点集合中的服务节点,所以可以有效降低问题服务节点对客户端的请求所造成的影响,而且基于所述正常服务节点集合和所述暂停服务节点集合对服务节点的划分,可以自动对问题服务节点进行隔离或停止,而且在检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,可以将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合,使得被隔离或停止的服务节点可以被自动恢复,从而可降低对服务节点的人工维护成本。
[0111]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
[0112]以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
【主权项】
1.一种网络监控处理方法,其特征在于,包括: 获取接入节点与服务节点之间的消息发送状态信息; 根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态; 当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合; 当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。2.如权利要求1所述的方法,其特征在于,所述获取接入节点与服务节点之间的消息发送状态信息,包括: 在预设时间周期内,获取所述接入节点与所述服务节点之间的至少一个时间戳信息,每个时间戳信息均包括发送时间戳和接收时间戳;所述每个时间戳信息中的所述发送时间戳为所述接入节点发送请求消息到所述服务节点时的时间戳,所述接收时间戳为所述接入节点接收到所述服务节点对所述请求消息进行响应的确认消息时的时间戳; 分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并根据所述每个时间戳信息对应的时间差以及预设的第一时长阈值,生成所述接入节点与所述服务节点之间的消息发送状态信息。3.如权利要求2所述的方法,其特征在于,所述分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并根据所述每个时间戳信息对应的时间差以及预设的第一时长阈值,生成所述接入节点与所述服务节点之间的消息发送状态信息,包括: 分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差; 将所述时间差大于所述第一时长阈值的时间戳信息确定为延时信息,并将所述时间差为异常值的时间戳信息确定为失败信息;为异常值的时间差所对应的所述接收时间戳为空值; 统计所述延时信息的数量和所述失败信息的数量,并根据所述延时信息的数量与所述时间戳信息的总数量计算消息延时率,并根据所述失败信息的数量与所述时间戳信息的总数量计算消息失败率; 生成包含所述消息延时率和所述消息失败率的消息发送状态信息。4.如权利要求1所述的方法,其特征在于,所述根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态,包括: 判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值; 若判断为是,则确定所述服务节点的网络状态为异常状态; 若判断为否,则确定所述服务节点的网络状态为正常状态。5.如权利要求1所述的方法,其特征在于,在所述当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合的步骤之后,还包括: 当检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合。6.如权利要求1所述的方法,其特征在于,还包括: 当检测到所述暂停服务节点集合中的服务节点数量大于所述正常服务节点集合中的服务节点数量时,将所述暂停服务节点集合中的所有服务节点都转移至所述正常服务节点集合中,并生成与所述接入节点相关联的告警通知信息。7.一种网络监控处理装置,其特征在于,包括: 获取模块,用于获取接入节点与服务节点之间的消息发送状态信息; 确定模块,用于根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态; 添加模块,用于当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合; 所述添加模块,还用于当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通?目Ο8.如权利要求7所述的装置,其特征在于,所述获取模块包括: 时间戳获取单元,用于在预设时间周期内,获取所述接入节点与所述服务节点之间的至少一个时间戳信息,每个时间戳信息均包括发送时间戳和接收时间戳;所述每个时间戳信息中的所述发送时间戳为所述接入节点发送请求消息到所述服务节点时的时间戳,所述接收时间戳为所述接入节点接收到所述服务节点对所述请求消息进行响应的确认消息时的时间戳; 计算生成单元,用于分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戳之间的时间差,并根据所述每个时间戳信息对应的时间差以及预设的第一时长阈值,生成所述接入节点与所述服务节点之间的消息发送状态信息。9.如权利要求8所述的装置,其特征在于,所述计算生成单元包括: 计算子单元,用于分别计算所述每个时间戳信息中的所述发送时间戳和所述接收时间戮之间的时间差; 信息确定子单元,用于将所述时间差大于所述第一时长阈值的时间戳信息确定为延时信息,并将所述时间差为异常值的时间戳信息确定为失败信息;为异常值的时间差所对应的所述接收时间戳为空值; 统计子单元,用于统计所述延时信息的数量和所述失败信息的数量,并根据所述延时信息的数量与所述时间戳信息的总数量计算消息延时率,并根据所述失败信息的数量与所述时间戳信息的总数量计算消息失败率; 生成子单元,用于生成包含所述消息延时率和所述消息失败率的消息发送状态信息。10.如权利要求7所述的装置,其特征在于,所述确定模块包括: 比例判断单元,用于判断所述消息发送状态信息中的消息延时率或消息失败率是否大于预设的比例阈值; 状态确定单元,用于若所述比例判断单元判断为是,则确定所述服务节点的网络状态为异常状态; 所述状态确定单元,还用于若所述比例判断单元判断为否,则确定所述服务节点的网络状态为正常状态。11.如权利要求7所述的装置,其特征在于,还包括: 第一转移模块,用于当检测到所述服务节点处于所述暂停服务节点集合中的时长达到所述第二时长阈值时,将所述服务节点从所述暂停服务节点集合中转移至所述正常服务节点集合。12.如权利要求7所述的装置,其特征在于,还包括: 第二转移模块,用于当检测到所述暂停服务节点集合中的服务节点数量大于所述正常服务节点集合中的服务节点数量时,将所述暂停服务节点集合中的所有服务节点都转移至所述正常服务节点集合中,并生成与所述接入节点相关联的告警通知信息。
【专利摘要】本发明实施例公开了一种网络监控处理方法以及装置,其中方法包括:获取接入节点与服务节点之间的消息发送状态信息;根据所述消息发送状态信息中的消息延时率或消息失败率,确定所述服务节点的网络状态;当所述网络状态为正常状态时,将所述服务节点添加到正常服务节点集合;当所述网络状态为异常状态时,将所述服务节点添加到暂停服务节点集合,以便于所述接入节点仅对所述正常服务节点集合中的所有服务节点进行通信。采用本发明,可降低对服务节点的人工维护成本。
【IPC分类】H04L12/24
【公开号】CN105490837
【申请号】CN201510824761
【发明人】巩吉璋
【申请人】广州市百果园网络科技有限公司
【公开日】2016年4月13日
【申请日】2015年11月24日

最新回复(0)