便于通信环境内的事件管理和分析的方法和系统的制作方法

xiaoxiao2020-9-10 24

专利名称：：便于通信环境内的事件管理和分析的方法和系统的制作方法
技术领域：
：本发明总的涉及通信环境内的处理，具体涉及便于通信环境的事件管理和分析。
背景技术：
：在通信环境以及其它环境中，快速和准确地确定环境的故障组件是很重要的，以便通过修理和/或替代故障组件来进行纠正措施。以前，为了确定通信环境(如交换网络环境)的故障组件，记录错误，由记录的错误生成事件，并且报告事件。之前报告错误的技术常常不能识别跨网络的事件之间的因果关系，从而不能分离理论上最小的现场可换部件(FRU)列表。这进而迫使维修人员使用概率和其它诊断技术确定正确的方向，从而延长了系统和/或资源的消耗。
发明内容基于上文，需要一种考虑通信环境内的事件的因果关系来管理和分析通信网络环境内的事件的增强能力，以及基于一组事件(否则单独考虑的话将指示若干可能的故障组件)推断单个根本原因故障组件。作为一个例子，需要一种利用通信网络内的因果关系确定和报告通信网络的故障组件的增强能力。通过提供一种在通信环境中便于选择要报告的与时间相关的可服务事件的方法来克服现有技术的缺点，并且提供额外的优点，在该通信环境中，确定和报告多个单独的可服务和起因的实时事件中的至少一个。所述方法包括例如，使第一事件池只包括第一类别的一个或多个第一事件，所述一个或多个第一事件中的每一个第一事件具有与其相关联的单独的超时属性，第一事件的所述单独的超时属性是可调的以便控制第一时间池的关闭；使第二事件池只包括第二类别的一个或多个第二事件，所述一个或多个第二事件中的每一个第二事件具有与其相关联的单独的超时属性，第二事件的所述单独的超时属性是可调的以便控制时间量，对应于单独的超时属性的第二事件可用于对第一时间池的一个或多个第一事件应用起因消除，其中第一事件池和第二事件池的事件在时间上相关，这由事件单独的超时定义，并且其中，超时的调节控制在时间上彼此相关的事件；以及通过使用第二事件池的一个或多个第二事件对所述第一事件池的一个或多个第一事件执行起因消除，其中所述第一事件池的关闭独立于第二事件池的一个或多个第二事件的超时，从而便于及时地报告要提供服务的一个或多个第一事件。这里还描述和要求保护对应于上述方法的系统和计算机程序产品。通过本发明的技术实现额外的特征和优点。本发明的其它实施例和方面在这里详细描述，并且作为本发明的一部分。在说明书后面的权利要求书中特别指出和明确要求保护作为本发明的主题。通过下面结合附图的详细描述，本发明的上述和其它目的、特征和优点变得清楚，其中图1绘出包括和使用本发明的一个或多个方面的通信环境的一个实施例；图2绘出根据本发明一个方面的、关于图1的事件驻守部分(daemon)的进一步细节；图3绘出根据本发明一个方面的、图2的事件配置数据结构的一个实施例；图4a绘出根据本发明一个方面使用的活动的警报池的一个示例。图4b绘出根据本发明一个方面使用的活动的警报池的一个实施例。图4c-4e绘出根据本发明一个方面的、图4b的活动的网络池的设备子池(subpool)的示例；图5绘出根据本发明一个方面的、事件的处理流程的实施例。图6a-6b绘出根据本发明一个方面的、与图5的处理流程中使用的第一级分析例程相关的逻辑的一个实施例；图7绘出根据本发明一个方面的、与当事件超时时处理警报池中的事件相关的逻辑的一个实施例；图8绘出根据本发明一个方面的、与处理关于网络池的超时相关的逻辑的一个实施例；图9绘出根据本发明一个方面的、与图5的处理流程中使用的中间分析例程相关的逻辑的一个实施例；以及图10a-10b绘出根据本发明一个方面的、与图5的处理流程中使用的第二级分析例程相关的逻辑的一个实施例。具体实施例方式根据本发明的一个或多个方面，便于通信环境的事件的管理和分析。例如，诸如警报和网络事件之类的事件被根据事件的分类而分成多个池，并且使用池来便于事件的分析。此外，一个或多个池被分成子池，以进一步便于分析。本发明的一个或多个方面被并入和用在例如通信环境(如包括通信网络的通信环境)中。一种类型的通信网络是交换网络，在下面的专利中描述了交换网络的例子Ramananetal于2000年2月1日发表的、名为“MethodAndApparatusForPartitioningAnInterconnectionMediumInAPartitionedMultiprocessorComputerSystem”的美国专利No.6021442；Ramananetal于1999年3月16日发表的、名为“MethodAndApparatusForPartitioningAnInterconnectionMediumInAPartitionedMultiprocessorComputerSystem”的美国专利No.5884090；Sethu于1998年9月22日发表的、名为“RouteRestrictionsForDeadlockFreeRoutingWithIncreasedBandwidthInAMulti-StageCrossPointPacketSwitch”的美国专利No.5812549；Sethuetal.于1995年9月26日发表的、名为“TechniqueForAccomplishingDeadlockFreeRoutingThroughAMulti-StageCrossPointPacketSwitch”的美国专利No.5453978；和Abali于1994年10月11日发表的、名为“MethodOfRoutingElectronicMessages”的美国专利No.5355364，这里通过应用将它们中的每一个并入这里。参照图1描述包括和使用本发明一个或多个方面的通信环境的一个实施例。通信环境100包括例如交换网络101，它可以是光、铜、光电或者其任意组合。众所周知，交换网络用于在系统(如中央处理联合体)的计算单元(例如，处理器)之间通信。处理器可以是例如纽约阿芒克的国际商用机器公司的pSeries处理器或者其它处理器。国际商用机器公司提供的一种交换网络是高性能交换(HPS)网络，在“AnIntroductiontotheNewIBMeServerpSeriesHighPerformanceSwitch”，SG24-6978-00，2003年12月中描述其实施例，通过引用将其并入这里。(IBM和pSeries是美国纽约阿芒克的国际商用机器公司的注册商标。这里使用的其它名称可能是国际商用机器公司或其它公司的注册商标、商标或产品名。)交换网络101包括例如多个节点102，如连接到一个或多个交换框架(switchframe)104的、由纽约阿芒克的国际商用机器公司提供的Power4节点。节点102包括例如一个或多个适配器(或其它网络接口)，将节点102连接到交换框架104。交换框架104包括例如多个交换板(switchboard)108，每个交换板108包括一个或多个交换芯片(switchchip)。每个交换芯片包括一个或多个外部交换端口，以及(可选地)一个或多个内部交换端口。交换板108通过交换网络中的一个或多个交换-交换链路109连接到一个或多个其它交换板。此外，一个或多个交换板通过交换网络的一个或多个适配器-到-交换链路110连接到交换网络的一个或多个节点的一个或多个适配器。交换框架104还包括至少一个服务网络链路112(例如，以太网适配器)，将交换框架连接到通信环境100的服务网络120。类似地，节点102包括例如一个或多个服务网络链路114(例如，以太网适配器)，将该节点连接到服务网络120。服务网络120是带外网络，它向交换网络提供各种服务。在本实施例中，服务网络负责管理和便于通信网络的事件的分析。作为一个例子，服务网络120包括具有例如一个或多个服务网络链路124(例如以太网适配器)的服务器122，该服务网络链路124连接到节点102的一个或多个链路114和/或交换框架104的一个或多个链路112。服务器122还包括操作系统126(如LINUX操作系统)和事件驻守部分128，这将参照图2进一步详细描述。在一个实施例中，事件驻守部分128从一个或多个事件报告客户端206接收错误事件和与其相关的数据。事件报告客户端是例如交换网络101的适配器或交换机，或者任何其它连接到事件驻守部分的组件。相关的事件数据包括特定的错误事件id和关于出错设备的逻辑位置结构及其相关的链路事件的端点。事件驻守部分包括事件配置数据结构200，用于映射具有与其相关的分析属性的特定事件id；一个或多个分析池202，用于分离不同的事件类别，以便于分析；和一个或多个分析例程204，用于分析事件，它们中的每一个将在下面进一步详细描述。事件配置数据结构200是例如包括一个或多个事件id段300的表或者其它结构(图3)。事件id是从事件报告客户端206接收的事件和/或由从报告客户端接收的一个或多个事件形成的新事件。用关于如何分析事件的一组规则，事先建立配置文件。在这里所述的例子中，存在事件的两种类别警报事件和网络事件，包括新事件。然而，在其它实施例中，可能有其它事件的类别。每个事件具有与其相关的事件标识符(EventId)302，并且每个事件id具有一个或多个相应属性。一个事件的属性可以与另一事件的相同或不同。与EventId相关的可能属性包括下列●EventId-包括池类别-字符串，表示要将事件添加到哪个池(例如，AT＝警告事件，NT＝网络事件，ND＝新网络设备事件，NN＝新网络事件)；设备类型-表示出错设备类型的十六进制数(例如，10＝交换机，20＝交换链路，30＝适配器，40＝适配器链路)；和描述-描述错误的十六进制错误消息号(例如，D007用于数据奇偶错误)○优先级-优先级用于事件的消除和新事件的形成。在网络分析期间使用优先级。具有最高优先级的事件优先。它用于确定应当先形成的新设备和新网络事件。只能将事件作为新事件的成员使用一次。优先级还用在两个事件可以执行起因分析并且彼此消除的时候。具有最高优先级的事件优先。○超时-超市用于确定网络池或警报事件超时。○报告-用于确定是否应当执行警报事件。○FRU_list-当选择要报告的设备时要采用的设备和动作列表。○elimination_level-消除其它事件的位置级。对应于从报告客户端接收的逻辑位置字段(EventId_location和Event_endpoint_location)。例如，机架(cage)是位置级。○EP_elim_EventIds-当非警报链路设备事件的EventId_endpoint_location与在EventId的elimination_level上的该EventId的EventId_location匹配时消除的、非警报链路设备事件的列表(例如，EventId设备类型02和04)。这种类型的消除称为端点(EP)起因消除。○LD_elim_EventIds-当非警报设备事件的EventId_location与在EventId的elimination_level上的该EventId的EventId_location匹配时消除的、非警报设备事件的列表(例如，EventId所有设备类型)。这种类型的消除称为位置设备(LD)起因消除。○ND_Expr-新设备EventId表达式。ND-Expr是布尔表达式，定义在特定逻辑位置级或形成新事件条件的多个唯一的逻辑位置级上的非警报候选事件的列表。例如，在三个特定端口1、2和3或者任何三个唯一的端口上发生的事件列表。它与向下定义到例如其Card#级的单个设备位置有关。当共享特定设备位置的两个或更多记录的事件满足该标准时，在网络池被关闭和创建之后评估新设备EventId表达式。创建定义特定设备技术的表达式的能力允许(与编码新分析例程相对)通过简单地添加新EventId及其相关表达式来添加新设备EventId。该表达式由设备级位置操作数以及布尔运算构成。由于特定设备位置在这个例子中被向下定义到Card#级(例如，适配器/交换机)，因此只有芯片和端口级运算符是有效的。语言定义和规则的例子如下■EventIdDevicetype定义新EventID代表的特定设备类型(例如，交换机或适配器)。任何有效的EventIdDevicetype可以是该表达式的成员。然而，只有共享或者作为新EventId上指定的Devicetype的端点的EventId才能在同一表达式中使用。例如，交换机的新设备EventId可以包含开关链路和适配器链路EventId。这是由于适配器链路的端点位置也可以共享同一交换机设备位置，因此是有效的。■数字后面跟着特定设备级位置(例如，2P和2C)。2P定义同一卡和芯片上的2个唯一的端口，并且2C定义同一卡上的2个唯一的芯片。■特定设备级位置后面跟着数字(例如，P2和C2)。P2定义同一卡和芯片上的端口号2，并且C2定义同一卡上的芯片号2。■由#OR#和#AND#定义的布尔AND和OR运算符。■EventId的组，由集合符号括号“{}”定义，并且由作为括号内的括号的逗号分开。位置级和布尔运算符在括号前面，并且位置级运算符在布尔运算符前面。这些规则是为了容易分析。■例子●EventId-NT10F040ND_Expr＝2C#AND#{NT10F0F7}一定义特定交换机报告了2个或更多与该新eventId相关的事件，其中每个发生在唯一的芯片上。●EventId-NT30F000ND-Expr＝#OR#{#AND#{C0#OR#{NT40D007，NT40D000，NT40D001}，C1#OR#{NT40D007，NT40D000，NT200510}}，#AND#{C2#OR#{NT40D007，NT40D000，NTBB40D001}，C5#OR#{NT40D007，NT40D000，NT20510}}，#AND#{C6#OR#{NT40D007，NT40D000，NT40D001}，C7#OR#{NT40D007，NT40D000，NT200510}}，定义在同一卡上的或者在作为这些适配器芯片的端点的交换机上的2个唯一的适配器芯片报告了在与适配器0&1或2&3或4&5或6&7上发生的该新EventId相关的2个或更多事件。○NN_Expr-新网络事件Id表达式。NN_Expr是在唯一设备逻辑位置上发生的两个或更多非警报事件的列表。创建定义特定网络技术的表达式的能力允许(与编码新分析例程相对)通过简单地添加新EventId及其相关表达式来添加新网络EventId。端点相连的EventId不认为是唯一的。语言定义和规则的例子如下■不是特定于设备位置级的。所有EventIdDevicetype可以在同一表达式中合并。■EventId的组由集合符号括号“{}”定义，并且用逗号分开。■例子●Eventld-NT20F01ENN_Expr＝{NT40D01A，NT40D03A，NT200800，NT200801，NT200802，NT200803，NT200807，NT30400E}定义适配器或交换机报告了与该唯一位置上的新EventId相关的2个或更多事件。○associated_new_EventId-其中该EventId可以是成员的新EventId(设备或网络)的列表。事件配置数据结构中包括的信息用于将事件彼此关联，并且便于处理和/或分析这些事件。一个目标是能够分析环境中的事件，以基于该环境内的组件的分层逻辑位置结构来正确地确定故障组件。此外，抑制向维修人员报告那些不会导致替换资源的事件。返回图2，除了事件配置数据结构200外，事件驻守部分128包括分析池202。根据本发明的一个方面，分析池202包括多个池，每个具有特定类别的事件。这种多池设计将不同类别的事件分到不同的池中。池中的每个事件与其自己单独的超时相关联，超时涉及控制每个池的分析窗口。分析窗口是可调节或可调谐的窗口，从而在分析阶段可以将事件相关联。池中成员关系由事件id的池类别定义，并且通过配置文件对每个事件id定义超时属性。分析池的例子包括活动的警报池400(图4a)和活动的网络池450(图4b)，下面逐个描述。活动的警报池400(图4a)包括具有警报池类别的事件id的事件。活动的警报池中的每个警报具有与其相关的单独超时值。警报池不超时，也不关闭。当事件id的单独的超时值过期时，简单地将其从池中删除。警报池中的事件可以通过配置文件，被配置成消除在其超时窗口内发生的网络事件。因此，警报事件起因消除可以跨越多个网络池。例如，两个连续的网络池可以都在15分钟的时间周期内关闭，而警报事件可以被定义在20分钟内超时。在一个例子中，活动的警报池400包括一个或多个警报事件402，例如像关机这样的故意管理动作；状态事件，指示组件(例如链路)的状态；检错停机；电源故障；交换机重置等事件。警报池中的每个警报与每个进入和现有的事件比较，并且用于标记被起因消除影响的活动的网络池内的子池中的事件。警报事件被配置成消除在其超时窗口内发生的网络事件。使用例如这里所述的elimination_level、EP_elim_EventId和/或LD_elim_EventId来执行该消除。然而，警报事件不成为活动的网络池的一部分。警报事件是独立于分析的，并且不需要分析来确定是否要报告它。它被配置成无条件地报告或者根本不报告。作为一个例子，如果警报事件被配置成要报告，则立即报告它，而不等待其超时过期。警报的配置在配置数据结构200中指定(图2)。活动的网络池450(图4b)包括例如，具有非警报池类别的事件。当该池中的所有单独的网络事件超时的时候(这里称为慢池超时)，这种类型的池对于分析关闭(不再接收事件id)。这样，在活动稳定期间，该池仍然开放，并且继续包括新实时事件(例如从报告客户端接收的事件)。在该池开放期间，如这里所述，应用警报和网络起因消除。然而，被起因消除影响的事件仅仅被标记为消除，并且在池关闭之后从网络池中消除。这些受影响的事件仍被添加到网络池，对网络中的其它事件应用网络分析，并且影响网络池的超时。删除重复的进入事件(例如，相同位置的相同事件)，因为它们冲突，并且因而不影响整个池的超时。这避免了关于激烈错误(无法抑制的事件)的无限池超时状况。慢池超时被设为事件id在最晚时间到期的实际超时。对于到达该池中的每个新事件id，根据现有的慢池超时计算和测试其实际超时。如果它较大，则它成为新的慢池超时。由于对每个进入事件应用各种起因消除动作，因此还为慢池超时加上一小段时间，以防止在应用起因消除的期间关闭该池。一旦完成了消除动作，如果原来的慢池超时还未到期，则恢复原来的慢池超时；否则，立即关闭该池。当该池关闭时，其余的事件经历进一步分析(例如，以形成新事件等)。特别地，彼此关联地分析该池中的其余事件。例如，网络事件可以按照配置文件中的指示，被配置成新网络事件的成员，消除另一事件，或者被另一事件消除。关闭的网络池移除被起因消除影响的事件，然后用其余事件形成新设备和网络事件。如果网络事件没有与另一事件合并或被另一事件消除，则按照规则定义的那样报告它。用于慢池超时的伪代码的一个例子如下/*不设置任何进入事件池超时，而使用Dummy_event来控制网络池超时*//*Dummy_eventtmeout控制网络池超时时间*/-Timeneeded4elimination＝10secs；/*或者任何有意义的事情-If(1stEventinPool)or(！(1stEventinPool)and(Incoming_event_config_table_timeout+Currentime>Orig_Dummy_evt_poptime)){Dummy_event_timeout＝Incoming_event_config_table_timeout+Time-needed_4elimination；Orig_Dummy_event_poptime＝Incoming_event_config_table_timeout+Currentime；/*保存以便恢复原始超时}-DoAlertandDupElimination；-If！(DuplicateEvent)and(Orig_Dummy-evt-poptime＞Currentime){Dummy_event_timeout＝0；/*立即超时}else{Dummy_event_timeout+Currentime-Orig_Dummy_event_poptime；/*恢复原始超时w/o删除时间}在上面的伪代码中，“！”表示“否”。在一个实施例中，在活动的网络池中，为了易于形成新设备事件，事件成员被划分子池到特定设备级位置。在一个例子中，设备位置(例如，交换机、适配器)被向下定义到卡号级(例如，Frame#Cage#CagetypeDevicetypeCard#)。如图4b中所述，活动的网络池450包括例如新网络事件452，它可以在分析期间通过合并一个或多个其它事件创建；和多个设备子池454，这将在下面详细描述。尽管在该例子中示出了一个网络事件和三个子池，但在其它例子中，在任何给定的活动的网络池中可以有零或更多新网络事件、零或更多新设备事件、和/或零或更多子池。子池454进一步便于事件之间的相互关系的定义。事件池和相关子池具有唯一的名字。作为一个例子，子池是设备子池，其中存在对具有要报告的事件的每个硬件的一个设备子池，并且基于例如设备位置创建子池。例如，如图4c&4d所示，可以为特定交换机或适配器事件创建设备子池。如图4c所示，为交换机1创建子池460，其中指示存在交换机-1链路EventId1(462)、交换机-1链路EventId2(464)、交换机-1链路EventId3(466)和通过交换机-1链路端点与交换机-链路相关联的适配器适配器-1、链路EventId-1(468)。类似地，存在对交换机2的设备子池470(例如见图4d)和对适配器1的设备子池480(例如见图4e)。如所述，子池包括为其报告事件的设备，以及该设备的端点，例如在交换机例子中的适配器。回到图2，事件驻守部分128还包括一个或多个分析例程204。这些例程用于分析所报告的事件。作为例子，根据本发明的一个方面使用的分析例程包括第一级分析例程500(图5)、中间分析例程502和第二级分析例程504，下面将详细描述它们的每一个。总的来说，这些例程使用事件配置数据结构506中的数据来管理一个或多个分析池(如活动的警报池508、活动的网络池510和关闭的网络池512)中的事件。响应于接收来自例如事件报告客户端520的事件，调用第一级分析例程500。第一级分析例程负责确定事件的类别，并且将事件放在多个活动的多个池(如参照图6a-6b所述的活动的警报池508和/或活动的网络池510)之一中。当活动的网络池通过例如慢池超时而超时的时候，调用中间分析例程502。中间分析例程关闭该池，并且调用第二级分析例程504。第二级分析例程如下面所述评估关闭的池中的新事件。当第二级分析例程完成其分析时，它报告任何剩余的事件(522)。下面描述有关分析例程的细节。参照图6a-6b，描述与第一级分析例程相关的逻辑的一个实施例。在该描述中，还参照图5。因此，以“5”开始的附图标记是指图5的组件，并且类似地，以“6”开始的附图标记是指图6a-6b中的步骤。最初，第一级分析例程接收事件，步骤600(图6a)。作为一个例子，事件报告客户端520将事件的标识符(EventId)、出错设备的位置(EventId_location)和该设备的端点位置(Event_endpoint_location)送给第一级分析例程，下面逐个描述。由报告客户端负责定义配置文件中的EventId和与该EventId相关联的属性。这包括EventId的起因消除事件关系和新事件以及它们的事件成员。EventId定义出错事件的池类别、设备类型和特定硬件错误低层描述。警报、网络、新网络设备和新网络是事件的有效池分类，其中分类到网络的事件是网络池的成员，而分类到警报的事件是警报池的成员。报告客户端负责基于事件分析和配置文件中定义的可报告性来指令池分类。警报与常规的网络事件的不同之处在于，它们不会被起因消除消除，或者成为新事件的成员。(新事件和事件起因消除在配置部分中定义)。因此，警报事件不需要分析来确定可报告性。交换机、交换机链路、适配器和适配器链路都是有效的设备类型。警报事件的一个例子是AT300010“AT”代表警报池，“30”代表适配器设备，而“0010”代表检错停机错误。网络事件的一个例子是NT200511“NT”代表网络池，“20”代表交换机链路设备，而“0511”代表“交换机链路同步失败。表示EventId的结构是PoolClassDevicetypeErrDesc”。EventId_location定义出错设备的逻辑位置。可报告的EventId被向下定义到它们唯一的设备位置级或更低。设备位置(例如交换机、适配器)被向下定义到例如Card#级(例如，Frame#Cage#CagetypeDevicetypeCard#)。不可报告的警报事件被向下定义到它们的消除级(在配置文件中定义)或更低。EventId_location用于应用EventId消除，形成新EventId，并且报告错误。表示EventId_location的十六进制串是Frame#Cage#CagetypeDevicetypeCard#Chip#Port#。EventID_endpt_location只对非警报链路设备类型EventId使用，并且定义该链路设备的端点位置的逻辑位置。它被定义到例如Port#级，并且可以包含多于一个端点位置。例如，交换机设备同时连接到适配器和扩充设备(riserdevice)。它用于应用EventId消除、形成新EventId和报告错误。表示EventId_endpoint_location的十六进制串是Frame#Cage#CagetypeDevicetypeCard#Chip#Port#。响应于接收到事件，第一级分析例程确定该事件是可报告的警报还是重复的网络事件，查询602、604、606。由配置文件确定可报告性。如果警报事件是可报告的事件，则立即报告它，步骤608。为了确定它是否是重复的网络事件，进行例如关于进入事件是否具有与网络池中的另一事件相同的事件id和位置的检查。如果该事件是重复的网络事件，则删除该事件，步骤610，然后完成第一级分析例程的处理。如果进入事件是警报事件，则将该事件添加到警报池，从事件配置文件中获得与该事件相关的属性，并且设置该事件的定时器，步骤612、614、616。然后，如配置文件中定义的那样，对网络池中现有的事件应用端点和/或本地设备起因消除，并且受影响的EventId被标为删除，但不从网络池中移除，步骤618。这完成了对该事件的第一级分析例程的处理。返回查询606，如果进入事件不是重复的网络事件，则将该事件添加到适当的网络设备子池，步骤620，并且添加到与其端点(标为端点)相关的适当设备子池，步骤622。然后从事件配置文件中获得与事件相关联的属性，并且设置该事件的定时器，步骤624、626。使用事件的定时器来计算网络池的慢池定时器。此外，将EventId的相关新EventId和属性添加到适当的池(例如，新网络事件的网络池和新设备事件的设备子池)中，步骤628、630(图6b)。然后，根据警报EventId中已有的事件将起因消除应用到该EventId，步骤632。例如，如配置文件定义的那样，对进入事件应用已有警报EventId的端点和/或位置设备消除。例如，如果这是链路级事件，并且它具有包含卡A的端点位置，并且存在执行卡级消除的已有警报事件，并且它被按照卡A报告，则利用如下的事实消除链路级事件，即，其端点位置包含卡A，卡A将该警报事件的位置向下匹配到警报事件的消除级。(该消除级定义事件的影响范围)。此外，对进入的EventId应用已有网络EventId端点和/或本地设备消除，反之亦然，步骤634。两个EventId可以相互抵消。最高优先级优先。如果两个EventId共享同一优先级，则已有的EventId优先。这完成了第一级分析例程的处理。活动的警报池中的警报事件一直在池中，直到达到它们各自的超时值为止。参照图7描述与达到警报事件的超时相关的逻辑的一个实施例。当警报池中的事件超时时，查询700，从警报池中删除该事件，步骤702。这与其它事件是否超时无关。如果池中存在更多的事件，查询704，则处理继续查询700。否则，结束处理。返回查询700，如果池中的事件没有超时，则处理继续查询700。与警报池相反，事件一直在活动网络池中，直到慢池定时器到期。参照图8描述与该超时相关的逻辑的一个实施例。最初，进行关于适当的超时是否已到期的确定，查询800。即，池中的所有超时已到期。如果没有到期，则处理继续查询800。然而，当超时已到期时，则调用中间分析例程502(图5)，步骤802(图8)。参照图9描述与中间分析池相关的逻辑的一个实施例。响应于慢池超时的到期，中间分析例程关闭活动的网络池，步骤900，提供关闭的网络池(例如，关闭的池512)。通过关闭该池，其它事件不能被放入该池中。然后，第二级分析例程504(图5)被调用并且送到所述关闭的网络池以便进一步分析，步骤902。参照图10a-10b描述与第二级分析例程相关的逻辑的一个实施例。最初，将受起因消除影响的事件从关闭的池中移除，步骤1000(图10a)，之后进行关于是否要从剩余的事件形成新设备事件的确定，步骤1001。在一个例子中，该确定是通过检查配置文件中的规则做出的。首先评估最高优先级的新设备事件id。如果要形成新设备事件，查询1002，则将事件成员添加到新EventId，步骤1004，并且从设备子池中删除原来的EventId，步骤1006。此外，对于不是端点EventId的新EventId成员，从端点的设备子池中删除它们相关的端点EventId，步骤1007，并且对于作为端点EventId的新EventId成员，从设备的设备子池中删除它们相关的设备EventId，步骤1008。如果不形成新EventId，则从设备子池中删除它，步骤1003。然后，进行关于是否要执行更多评估的确定，以确定是否存在另外的新设备事件，查询1010。如果是的话，则处理继续步骤1000。然而，如果评估完成或者没有新设备事件，则处理继续从设备子池中删除端点事件id，步骤1012(图10b)。然后，进行关于是否要从关闭的网络池中的事件形成新网络事件的确定，步骤1014。首先评估最高优先级的新网络事件。如果要形成新网络事件，查询1016，则将EventId成员添加到新EventId，步骤1018，并且从设备子池中删除原来的事件id，步骤1020。如果不形成新EventId，则从网络池中删除它，步骤1017。然后，进行关于是否要执行更多评估的确定，以确定是否存在另外的新网络事件，查询1022。如果是的话，则处理继续步骤1014。否则的话，或者如果没有新网络事件，则报告剩余的事件(如果节点是主节点)，步骤1024。这完成第二级分析例程的处理。上面详细描述了便于管理和分析事件的能力。基于每个事件的事件分类将其放在池中。存在不同的池分类和不同的管理池分类的方式。在一个例子中，慢池超时用于在活动的错误事件彼此接近地到达期间保持一个分类的池(例如，网络池)开放。在这种情况下，事件容易相关联。多池设计提供增加关于警报事件的超时的能力，同时降低关于网络事件的超时(如果希望的话)。因此，网络池仅当它需要时才在较长时间段内保持开放，而当它不需要时在较短时间段内保持开放。警报超时独立于网络池超时，同时在业务繁忙期间保持开放快池，这一事实提供了良好的灵活性和能力。在上面所述的技术中，通过配置文件定义属性，将起因消除应用到网络池和新设备，并且形成网络事件。此外，EventId优先级和硬件位置与事件的逻辑消除和新事件的形成有关。应用这些分析的次序、特定规则的应用以及可调节池的分析窗口，允许选择和报告正确的事件。在一个例子中，使用应用到每个设备子池的新事件语言形成新事件。新语言消除了为要支持的每个新事件情况编写新分析例程的需要。有利地，提供例如关于优先级、优先、事件和物理位置使事件彼此关联的能力，。对这些事件执行分析，并且在某些情况下，将其合并成(否则网络不会报告的)推断事件。提供基于设备网络中和不带有设备网络的设备所报告的事件来确定并清楚和准确地说明需要替换哪个网络资源(如果有的话)的能力。有利地，这使系统和/或资源消耗的持续时间最小。有利地，提供基于网络内的组件的层次结构来适当地确定故障组件的能力。此外，抑制了向维修人员报告那些不会导致网络资源替换的事件。该能力考虑系统中的硬件组件的层次结构和报告的事件的优先级，以便报告导致网络资源替换的最重要的事件。它考虑系统中的硬件组件的层次本质，并且合并相关联的事件，以确定是否存在(否则本不会被报告的)潜在的网络资源值。在这样做时，它抑制记录导致该推断事件的所有合并的事件；因此清楚地标识故障的资源。它将限制维修人员看到的事件数量限制到仅仅那些确定故障资源所需的事件数量；因此清楚地标识故障资源。有利地，在一个或多个实施例中提供下列内容●已有的网络或通信环境，其中有关单个硬件的错误事件被生成、分析和确定为可服务和/或起因事件，并且其中在确定的时候，该事件和所有相关联的设备位置将由报告客户端报告给服务器驻守程序进程，以便进行数据保存和依赖于实时网络的分析。●由独立于网络中的其它事件的报告客户端，建立该事件分析和可服务性的确定。因此，如果该事件不是由网络中的另一事件引起的，或者与网络中的其它事件合并以形成新事件，它应当被作为其原始的可服务事件报告。●存在事件配置文件，它对于服务器驻守程序进程是可访问的。尽管这里描述了例子，但在不背离本发明宗旨的前提下可以提供这些例子的许多变型。例如，除了国际商用机器公司提供的高性能交换网络以外的交换网络可以受益于本发明的一个或多个方面。同样地，其它类型的网络也可以受益于本发明的一个或多个方面。此外，这里所述的交换网络可以包括比这里所述的更多、更少或不同的设备。例如，它可以包括比这里所述的更多、更少或不同的节点，以及比这里所述的更少、更多或不同的交换框架。此外，这里所述的链路、适配器、交换机和/或其它设备或组件可以所描述的不同，并且可以是比它们更多或更少。在这里的例子中，网络的硬件组件是自治的，但在其它实施例中这并不是必要的。此外，服务网络可以包括比这里所述的更少、更多或不同的组件。在另一实施例中，除了交换网络或交换网络的组件以外的报告客户端可以根据本发明的一个或多个方面，报告事件并且评估这些事件。在其它实施例中，事件驻守部分以外的其它组件可以执行本发明的一个或多个方面。此外，事件驻守部分可以是通信网络的一部分、独立于通信网络或者其组合。另外，网络可以是在与这里所述的不同的环境中。此外，本发明的一个或多个方面可以被并入和/或用在网络以外的通信环境中，如计算环境或其它类型的系统中。这些和其它变型被认为包含在本发明的范围内。除了上述之外，尽管事件具有这里所述的特定属性，但其它或不同的属性可以与事件相关联。在不背离本发明宗旨的前提下，对描述的许多变型都是可能的。本发明的一个或多个方面的能力可以用软件、固件、硬件或者其某些组合来实现。本发明的一个或多个方面可以被包含在具有例如计算机可用介质的制造物品(例如，一个或多个计算机程序产品)中。介质中具有例如计算机可读程序代码手段或逻辑(例如，指令、代码、命令等)，以提供和便利本发明的能力。制造物品可以被包含为计算机系统的一部分，或者单独销售。此外，可以提供可由机器读取的至少一个程序存储设备，它实现机器可执行的指令的至少一个程序，以执行本发明的能力。这里所绘出的流程图仅仅是例子。在不背离本发明宗旨的前提下，可以有许多对这里所述的这些图或步骤(或操作)的变型。例如，可以以不同的顺序执行这些步骤，或者可以添加、删除或修改步骤。所有这些变型都认为是本发明的一部分。尽管这里详细绘出和描述了本发明的优选实施例，但本领域人员应当理解，在不背离本发明宗旨的前提下，可以进行各种修改、添加、替换等，并且这些被认为在权利要求书限定的发明范围之内。权利要求1.一种在通信环境中便于选择要报告的与时间相关的可服务事件的方法，在该通信环境中，确定和报告单独的可服务和起因的实时事件中的至少一个，所述方法包括使第一事件池只包括第一类别的一个或多个第一事件，所述一个或多个第一事件中的每一个第一事件具有与其相关联的单独的超时属性，第一事件的所述单独的超时属性是可调的以便控制第一时间池的关闭；使第二事件池只包括第二类别的一个或多个第二事件，所述一个或多个第二事件中的每一个第二事件具有与其相关联的单独的超时属性，第二事件的所述单独的超时属性是可调的以便控制时间量，对应于单独的超时属性的第二事件可用于对第一时间池的一个或多个第一事件应用起因消除，其中第一事件池和第二事件池的事件在时间上相关，这由事件的单独的超时定义，并且其中，超时的调节控制在时间上彼此相关的事件；以及通过使用第二事件池的一个或多个第二事件对所述第一事件池的一个或多个第一事件执行起因消除，其中所述第一事件池的关闭独立于第二事件池的一个或多个第二事件的超时，从而便于及时地报告要提供服务的一个或多个第一事件。2.如权利要求1所述的方法，其中，第一事件池是网络池，包括一个或多个网络事件，并且其中所述网络池响应于网络池的一个或多个网络事件的超时而关闭。3.如权利要求2所述的方法，其中，当网络池的所有网络事件超时时，所述网络池关闭。4.如权利要求2所述的方法，其中，网络事件被分类为其中事件的可报告性受到通信环境的一个或多个其它事件影响的事件，使得可能发生下列情况中的至少一个一个或多个其它事件消除该事件，该事件被作为新事件的成员报告。5.如权利要求2所述的方法，其中，由现有事件消除作为网络池的现有事件的重复的进入事件，以避免网络池不能关闭的无限状况。6.如权利要求2所述的方法，还包括接收网络池的关闭之后的网络事件；以及响应于所述关闭之后的网络事件的接收，自动打开另一网络池，以对所接收的网络事件提供服务。7.如权利要求2所述的方法，其中，所述执行起因消除的步骤包括使用第一事件池和第二事件池的至少一个中的至少一个事件，来标记从活动的网络池中消除至少一个事件，所述消除基于定义的端点消除和本地设备消除中的至少一个。8.如权利要求2所述的方法，还包括对关闭的网络池中的一个或多个事件执行评估；以及响应于该评估，报告网络池中剩余的零或多个事件。9.如权利要求8所述的方法，其中所述执行评估的步骤包括消除受起因消除影响的一个或多个事件，并且从关闭的网络池中的一个或多个事件形成一个或多个新事件。10.如权利要求1所述的方法，其中，第二事件池包括警报池，并且第二事件池的所述一个或多个第二事件是警报事件，所述警报事件被分类为其中这些事件的可报告性不受该环境中的其它事件影响的事件。11.如权利要求10所述的方法，还包括在向警报池添加警报事件之前报告警报事件，所述报告独立于通信环境中的其它事件。12.如权利要求11所述的方法，还包括配置要报告的警报事件，其中警报池的警报事件被配置为可报告或不可报告的。13.如权利要求10所述的方法，其中，警报池不关闭，并且响应于与警报事件的单独的超时的到期，将警报事件池的警报事件从警报事件池中删除。14.如权利要求10所述的方法，其中，警报事件特征在于，能够用来跨越一个或多个第一事件池应用消除。15.如权利要求1所述的方法，其中，第二事件池的一个或多个第二事件的可报告性独立于第一时间池的一个或多个第一事件的超时，便于及时地报告一个或多个第二事件。16.如权利要求1所述的方法，其中，在与该单独的超时相关联的事件被添加到事件池时的时间设置单独的超时属性。17.如权利要求1所述的方法，还包括在至少一个配置文件中提供具有其关联属性的每个第一事件和具有其关联属性的每个第二属性，所述关联属性定义其关联事件的单独的超时属性以及对一个或多个其它事件的一个或多个分析定义和关系。18.一种在通信环境中便于选择要报告的与时间相关的可服务事件的系统，在该通信环境中，确定和报告单独的可服务和起因的实时事件中的至少一个，所述系统包括第一事件池，只包括第一类别的一个或多个第一事件，所述一个或多个第一事件中的每一个第一事件具有与其相关联的单独的超时属性，第一事件的所述单独的超时属性是可调的以便控制第一时间池的关闭；第二事件池，只包括第二类别的一个或多个第二事件，所述一个或多个第二事件中的每一个第二事件具有与其相关联的单独的超时属性，第二事件的所述单独的超时属性是可调的以便控制时间量，对应于单独的超时属性的第二事件可用于对第一时间池的一个或多个第一事件应用起因消除，其中第一事件池和第二事件池的事件在时间上相关，这由事件单独的超时定义，并且其中，超时的调节控制在时间上彼此相关的事件；和事件驻守部分，用于通过使用第二事件池的一个或多个第二事件对所述第一事件池的一个或多个第一事件执行起因消除，其中所述第一事件池的关闭独立于第二事件池的一个或多个第二事件的超时，从而便于及时地报告要提供服务的一个或多个第一事件。全文摘要便于通信环境的事件的管理和分析。诸如警报和网络事件之类的事件被根据事件的类别分成多个池。每个池只具有一种事件类型的事件。通过一个或多个分析例程将事件放在适当的池中。此外，还使用一个或多个分析例程来分析至少一种类型的池的事件，以确定要报告哪些事件(如果有的话)。文档编号H04L12/26GK101026494SQ20071000476公开日2007年8月29日申请日期2007年1月30日优先权日2006年1月30日发明者唐·S·莫耶,马克·G·阿特金斯申请人:国际商业机器公司

2012-2014专利技术

最新回复(0)