用于管理替换单元的测试的、具有可替换单元的计算机化存储系统的制作方法

xiaoxiao2020-7-22  5

专利名称:用于管理替换单元的测试的、具有可替换单元的计算机化存储系统的制作方法
技术领域
本发明涉及在包含一个或多个可替换单元的计算机化存储系统中使用的方法、装置或软件,用于管理一个或多个替换单元的测试。
背景技术
计算机系统通常由一组互连的相异组件构成。当单元发生故障时,需要用正确地运行的单元替换所述单元。一些计算机系统(诸如高可用性存储系统)具有内建式冗余, 其中关键单元被重复。关键单元可为诸如盘阵列、接口卡及连接线缆的单元,其中任一都可能发生故障且需要替换。在这种系统中,由重复单元提供的冗余可用来在替换有故障的单元时提供连续的服务。例如,若检测到表明需要替换连接线缆的故障或错误,则在执行替换时将用户输入/输出(I/O)转向至重复单元。一旦替换单元在适当位置,便使其可用于与用户I/O—起使用。然而,若故障或错误未被正确诊断、替换单元发生故障、或者如果一个以上单元造成故障,则故障或错误可能复发。另外,若所替换的单元未校正所检测到的故障或错误,则这是因为用户I/O可能被中断。

发明内容
在第一方面,本发明相应地提供一种用于在包含一个或多个可替换单元的计算机化存储系统中使用的方法,用于管理一个或多个替换单元的测试,所述方法包含以下步骤 a)识别存储系统中用于替换的可替换单元,且将所述存储系统切换至服务模式;b)响应于用替换单元替换所述可替换单元而自动将所述存储系统切换至测试模式;c)根据预定测试策略测试所述替换单元,以便验证所述替换单元的运行;以及d)若对所选组件的所述测试成功,则使所述存储系统返回至在线模式。优选地,选择来自所述存储系统的一个或多个另外的单元用于结合所述替换单元使用以用于测试。优选地,选择另外的单元用于结合所述替换单元使用以便提供合适的输入/输出(I/O)路径,用于测试所述替换单元的完全操作能力。优选地,自动地识别和选择所述另外的单元用于在所述测试中使用。优选地,若在所述测试中未检测到故障,则所述存储系统自动地返回至在线模式。 优选地,若在所述测试期间检测到预定级别的故障,则所述存储系统自动地返回至所述服务模式。优选地,所述测试策略包含排他性地将测试数据发送至所述替换单元。优选地, 所述测试策略包含将测试数据发送至所述替换单元,所述测试数据的级别被配置为对至所述替换单元的用户数据的级别进行补充,以便将预定级别的I/O提供至所述替换单元。优选地,当所述测试包含将数据写入一个或多个数据存储单元时,将所述数据写入存储单元的保留区域。优选地,所述存储系统包含用于提供冗余的多个重复存储系统。优选地,当给定存储系统中的替换单元处于测试模式中时,将所有用户I/O转向所述重复存储系统。优选地,所述存储系统包含一个或多个光纤信道仲裁回路(FCAL)。在第二方面,提供了用于在包含一个或多个可替换单元的计算机化存储系统中使用的装置,用于管理一个或多个替换单元的测试,所述装置可操作来识别存储系统中用于替换的可替换单元,并将所述存储系统切换至服务模式;响应于用替换单元替换所述可替换单元而自动地将所述存储系统切换至测试模式;根据预定测试策略测试所述替换单元, 以便验证所述替换单元的运行;以及若对所选组件的所述测试成功,则使所述存储系统返回至在线模式。优选地,选择来自所述存储系统的一个或多个另外的单元用于结合所述替换单元使用以用于所述测试。优选地,选择所述另外的单元用于结合所述替换单元使用以便提供合适的输入/输出(I/O)路径,用于测试所述替换单元的完全操作能力。优选地,自动地识别和选择所述另外的单元用于在所述测试中使用。优选地,若在所述测试中未检测到故障,则所述存储系统自动地返回至所述在线模式。优选地,若在所述测试期间检测到预定级别的故障,则所述存储系统自动地返回至所述服务模式。优选地,所述测试策略包含排他性地将测试数据发送至所述替换单元。优选地, 所述测试策略包含将测试数据发送至所述替换单元,所述测试数据的级别被配置为对至所述替换单元的用户数据的级别进行补充,以便将预定级别的I/O提供至所述替换单元。优选地,当所述测试包含将数据写入一个或多个数据存储单元时,将所述数据写入存储单元的保留区域。优选地,所述存储系统包含用于提供冗余的多个重复存储系统。优选地,当给定存储系统中的替换单元处于测试模式中时,将所有用户I/O转向所述重复存储系统。优选地,所述存储系统包含一个或多个光纤信道仲裁回路(FCAL)。在第三方面中,提供了一种含有一个或多个程序的群组,所述一个或多个程序被配置为使得含有一个或多个可编程器件的群组能够执行第一方面的方法,或者提供第二方面的装置。在第四方面中,提供了一种计算机程序,其包含计算机程序代码,当该计算机程序代码被加载到计算机系统中并在其中执行时,使得所述计算机系统执行根据第一方面的方法的所有步骤。可以以可加载到数字计算机的内存中的计算机程序产品的形式提供该计算机程序,其包括当所述产品在计算机上运行时执行所述第一方面的方法的计算机代码部分。本发明的一个实施例提供了一种用于在包含一个或多个可替换单元的计算机化存储系统中使用的方法,用于管理一个或多个替换单元的测试,所述方法包含以下步骤a)识别存储系统中用于替换的可替换单元并将所述存储系统切换至服务模式;b)响应于用替换单元替换所述可替换单元而自动地将所述存储系统切换至测试模式;c)根据预定测试策略测试所述替换单元,以便验证所述替换单元的运行;以及d)若对所选组件的测试成功,则使所述存储系统返回在线模式。可选择来自所述存储系统的一个或多个另外的单元用于结合所述替换单元使用以用于测试。可选择另外的单元用于结合所述替换单元使用,以便提供合适的输入/输出 (I/O)路径,用于测试所述替换单元的完全操作能力。可自动地识别和选择所述另外的单元用于在所述测试中使用。若在所述测试中未检测到故障,则所述存储系统可自动地返回至在线模式。若在所述测试期间检测到预定级别的故障,则所述存储系统可自动地返回至所述服务模式。所述测试策略可包含排他性地将测试数据发送至所述替换单元。所述测试策略可包含将测试数据发送至所述替换单元,所述测试数据的级别被配置为与对至所述替换单元的用户数据的级别进行补充,以便将预定级别的I/O提供至所述替换单元。当所述测试包含将数据写入一个或多个数据存储单元时,可将所述数据写入存储单元的保留区域。所述存储系统可包含用于提供冗余的多个重复存储系统。当给定存储系统中的替换单元处于测试模式中时,可将所有用户I/O转向所述重复存储系统。所述存储系统可包含一个或多个光纤信道仲裁回路(FCAL)。另一实施例提供用于在包含一个或多个可替换单元的计算机化存储系统中使用的装置,用于管理一个或多个替换单元的测试,所述装置可操作来识别存储系统中用于替换的可替换单元并将所述存储系统切换至服务模式;响应于用替换单元替换所述可替换单元而自动地将所述存储系统切换至测试模式;根据预定测试策略测试所述替换单元,以便验证所述替换单元的运行;以及若对所选组件的所述测试成功,则使所述存储系统返回至在线模式。再一实施例提供提供了一种含有一个或多个程序的群组,所述一个或多个程序被配置为使得含有一个或多个可编程器件的群组能够执行用于在包含一个或多个可替换单元的计算机化存储系统中使用的方法,用于管理一个或多个替换单元的测试,所述方法包含以下步骤a)识别存储系统中用于替换的可替换单元并将所述存储系统切换至服务模式;b)响应于用替换单元替换所述可替换单元而自动地将所述存储系统切换至测试模式;c)根据预定测试策略测试所述替换单元,以便验证所述替换单元的运行;以及d)若对所选组件的测试成功,则使所述存储系统返回在线模式。再一实施例提供提供了一种含有一个或多个程序的群组,所述一个或多个程序被配置为使得含有一个或多个可编程器件的群组能够提供用于在包含一个或多个可替换单元的计算机化存储系统中使用的装置,用于管理一个或多个替换单元的测试,所述装置可操作来识别存储系统中用于替换的可替换单元并将所述存储系统切换至服务模式;响应于用替换单元替换所述可替换单元而自动地将所述存储系统切换至测试模式;根据预定测试策略测试所述替换单元,以便验证所述替换单元的运行;以及若对所选组件的所述测试成功,则使所述存储系统返回至在线模式。再一实施例提供一种可加载至数字计算机的内存中的计算机程序产品,其包含软件代码部分,当所述产品在计算机上运行时,所述软件代码部分执行用于在包含一个或多个可替换单元的计算机化存储系统中使用的方法,用于管理一个或多个替换单元的测试, 所述方法包含以下步骤
a)识别存储系统中用于替换的可替换单元并将所述存储系统切换至服务模式;b)响应于用替换单元替换所述可替换单元而自动地将所述存储系统切换至测试模式;c)根据预定测试策略测试所述替换单元,以便验证所述替换单元的运行;以及d)若对所选组件的测试成功,则使所述存储系统返回在线模式。


现在将参照附图通过示例说明本发明的实施例,其中图1为包含计算机化存储系统的计算机网络的示意图;图2为更详细地展示图1的计算机化存储系统的示意图;图3a为说明图2的计算机化存储系统内的单元的连接的表;图北为说明用于图2的计算机化存储系统的测试策略的表;图4为说明由图2的计算机化存储系统执行的处理的流程图;及图5为说明由图2的计算机化存储系统执行的进一步处理的流程图。
具体实施例方式
参照图1,计算机系统包含加载有存储服务器应用程序103且连接至存储系统104 的第一计算机102。第一计算机102经由局域网(LAN) 106形式的网络而连接至两个第二计算机105。所述第二计算机105各自加载有数据处理应用程序107,该数据处理应用程序 107被配置为经由该存储服务器103存储和访问该存储系统104上的数据。换言之,数据处理应用程序107将用户输入/输出(I/O)提供至存储服务器103及存储系统104。参照图2,存储服务器应用程序103包含配置为提供用户接口和处理用户I/O的存储控制器201 ;以及配置为合作地管理对存储系统104的提供、服务及测试的重复存储适配器202、203,如下文更详细地描述。存储系统104包含三个盘阵列204、205、206,所述盘阵列204、205、206各自包含四个盘207及两个接口卡208、209。每个接口卡208、209提供用于连接至适配器202、203的连接端口。提供一组链路210、211用于将适配器202、203中的每一个以串联方式连接至每个盘阵列204、205、206的两个接口卡208、209。在图2中,为了清楚起见,省略了对一些重复项(诸如链路210、211)的每次出现的标记。多个重复适配器202、203、链路210、211、盘207及接口卡208、209的提供对存储系统104提供了多重冗余。在本实施例中,将每个单元207、208、209、210、211重复至少一次,以便通过事实上提供两个重复存储系统来提供冗余。存储控制器201被配置为使用重复存储系统来提供高可用性,这是因为,若一个重复存储系统离线,则它的重复存储系统被配置来提供所需服务。在本实施例中,多个链路210、211、盘207及接口卡208、209中的每一者被提供为可单独地替换的相异单元,其通常被称为现场可替换单元(FRU)。存储控制器201包含用以检测链路210、211、盘207及接口卡208、209中的故障及错误的范围的功能,且一旦检测到便警告工程师。为了替换有故障的FRU,使相关重复存储系统从在线模式进入服务模式,其中通过该冗余重复存储系统维持可用性。在本实施例中,当给定的重复存储系统处于服务模式中时,将所有用户I/O转向至该冗余的重复存储系统。在各个存储适配器202、203之间合作地执行在线或服务模式的切换,以便确保两者不同时处于服务模式中,由此维持可用性。在本实施例中,存储适配器202、203被配置为具有测试模式的形式的另一模式, 该模式是服务模式与在线模式之间的中间模式。当工程师已替换FRU且指示重复存储系统可返回到在线模式时,相关存储适配器202、203被配置为自动地将该重复存储系统置于测试模式中。在测试模式中,对替换FRU执行一组一个或多个预定测试,以确保其正确地运行以及该替换已修复检测到的故障。在本实施例中,取决于已被替换的FRU的类型而选择测试。在本实施例中,在测试模式中,在给定重复存储系统上准许用户I/O。然而,在各个存储适配器202、203之间合作地执行测试模式切换,以便确保两者不同时处于测试模式中。这被配置来避免两个系统同时返回到服务模式的可能性。参照图3a,在测试策略301中定义测试,该测试策略301针对存储系统104中的每个FRU的类型识别适当的测试、以及该测试的持续时间(若可用)。例如,若被替换的FRU 为链路,则对替换链路压力测试十分钟。若FRU为盘,则执行盘验证测试,该盘验证测试运行不定的时间,直至完成或异常中止为止。在给定的重复存储系统处于测试模式中时,针对任何新的或复发的故障监视该系统。若检测到任何故障,则自动使重复存储系统转到服务模式。然而,若测试完成且未检测到故障,则自动使重复存储系统返回至在线模式。如上所述,参照图3a,对替换链路执行压力测试。压力测试被配置为通过经由替换后的链路馈送适当级别的测试I/O且在测试时段内监视其性能,来测试该链路的最大数据速率。然而,若链路具有比其直接下游组件(诸如盘)大的能力,则可能需要选择若干下游组件以提供适当带宽来执行压力测试。例如,若替换后的链路具有2(ib/S的最大数据速率且连接于各自具有50MB/S的最大数据速率的盘的上游,则将需要使用四个盘来吸收测试 I/O的2(ib/S形式的测试数据。参照图3b,每个存储适配器202、203被配置为维持呈FRU连接表形式的表302,其记录存储系统104中的每个FRU的唯一识别符(FRU ID),连同给定FRU的类型以及直接下游单元的FRU ID。存储适配器202、203被配置为使用FRU连接表302来识别在替换单元下游的、为测试I/O提供适当目标的单元,以便使得能够提供适当级别的测试I/O用于该替换单元。现将参照图4的流程图进一步描述存储适配器202、203响应于由于在它们各自的重复存储系统上检测到故障而被置于服务模式中而执行的处理。在步骤401处,响应于重复存储系统被置于服务模式中而开始处理,且处理移至步骤402,以等待有故障的FRU的替换。当有故障的FRU已被替换时,如被安装工程师所指示,处理移至步骤403,在步骤403处, 重复存储系统自动进入测试模式,且处理移至步骤404。在步骤404处,识别替换FRU的类型,且处理移至步骤405。在步骤405处,使用所识别的FRU类型根据测试策略301识别适当测试,且处理移至步骤406。在步骤406处,执行所识别的测试,且处理移至步骤407。在步骤407处,执行故障监视,且若在测试的持续时间内未检测到故障,则处理移至步骤408。 在步骤408处,自动将重复存储系统置于在线模式中,且处理结束于步骤409处。若在步骤 407处检测到一预定组的一个或多个故障,则处理移至步骤410。在步骤410处,记载该故障或每一故障,且重复存储系统自动地返回至服务模式。处理接着移至步骤402,以等待另外的服务动作,且接着如上文所描述而继续进行。现在将参照图5的流程图来描述响应于压力测试的开始而由存储适配器202、203执行的处理。在步骤501处,响应于在图4的流程图中的步骤405处对压力测试的识别而开始处理,且处理移至步骤502。在步骤502处,根据FRU连接表302识别替换FRU的最大操作数据速率,且处理移至步骤503。在步骤503处,再次使用FRU连接表302,选择来自重复存储系统的一组已连接单元,以形成能够处理或吸收在替换FRU的最大操作数据速率下的I/O的测试群组。处理接着移至步骤504,在步骤504处判定用户I/O的当前级别。如上所述,在本实施例中,在测试模式中,在重复存储系统上准许用户I/O。一旦判定了用户I/O 的级别,处理便移至步骤505。在步骤505处,计算所需要的扩充(top-up)测试I/O的量, 即,将测得的用户I/O扩充至替换FRU的最大操作数据速率所需要的测试1/0,且处理移至步骤506。在步骤506处,产生该扩充测试1/0,并在所规定的用于压力测试的时段内将该扩充测试I/O路由到在步骤503中所选择的单元的测试群组。一旦在所规定的时段内已提供该测试1/0,则处理移至步骤507并结束。在本实施例中,将扩充测试I/O发送至相关盘驱动器的为此目的而保留的区域。 换言之,明确地将用户I/O排除在测试I/O目标盘驱动器的保留区域之外,以便避免任何用户I/O被测试I/O覆写或破坏。当重复存储系统被置于测试模式中时,用户I/O的至少一部分被配置为从使用冗余重复存储系统返回到检查中的重复存储系统。若识别了任何错误,诸如回路的意外重组或丢失的帧,则这导致测试模式立即失败以及返回到服务模式,其接着仅沿着冗余重复存储系统重新驱动用户I/O。这不会对客户访问造成风险,因为冗余存储系统仍为用于数据的良好路径。若测试模式失败,则可重新检查替换FRU且执行进一步的修复动作。例如,当正修复的问题为间歇性的且不能容易地识别为单一 FRU失败时,这提高给定修复的可信度。在另一实施例中,在系统中未提供冗余,且在系统处于服务模式中时不能处理用户I/O。在另一实施例中,提供部分冗余,即,为系统中的一些单元但并非所有单元提供冗余。在另一实施例中,每个FRU自身被配置为具有单独的服务、测试及在线模式,而非整体地用于系统的全局模式。在另一实施例中,在处于测试模式期间在给定系统上不使用用户 1/0,且若执行压力测试,则测试数据被配置为提供替换FRU的最大操作数据速率。如本领域的技术人员将理解的,替换单元可能并非对现有的或有故障的单元的直接替换,而可能为例如添加至系统以修复故障或提供额外功能的升级单元或新安装的单元。此外,在给定服务动作期间可替换一个以上的FRU,其可导致在给定测试中测试一个以上的FRU。如本领域的技术人员将理解的,可针对测试中的传输设备的类型而特别地配置测试I/O的格式。例如,可通过包含低频地改变值的比特流的I/O模式来最好地对光纤信道仲裁回路(FCAL)系统加压。本领域的技术人员将理解,实施本发明的一部分或全部的装置可为具有被配置为提供本发明的实施例的一部分或全部的软件的通用设备。该设备可为单一设备或一群设备,且该软件可为单一程序或一组程序。此外,用来实施本发明的任何或所有软件可经由任何适当的传输或存储手段加以传递,以使得该软件可加载至一个或多个设备上。虽然已经通过对本发明的实施例的描述来说明本发明,且虽然已相当详细地描述了所述实施例,但对本领域的技术人员而言,其它优点及修改将显而易见。
权利要求
1.一种用于在包含一个或多个可替换单元的计算机化存储系统中使用的方法,用于管理一个或多个替换单元的测试,所述方法包含以下步骤a)识别存储系统中用于替换的可替换单元,并将所述存储系统切换至服务模式;b)响应于用替换单元替换所述可替换单元,自动地将所述存储系统切换至测试模式;c)根据预定的测试策略测试所述替换单元,以便验证所述替换单元的运行;以及d)若对所选组件的测试成功,则使所述存储系统返回至在线模式。
2.如权利要求1的方法,其中,选择来自所述存储系统的一个或多个另外的单元,用于结合所述替换单元使用,以用于所述测试。
3.如权利要求2的方法,其中,选择所述另外的单元用于结合所述替换单元使用,以便提供适当的输入/输出(I/O)路径用于测试所述替换单元的完全操作能力。
4.如前述权利要求中任一项的方法,其中,若在所述测试中未检测到故障,则所述存储系统自动地返回至所述在线模式;并且若在所述测试期间检测到预定级别的故障,则所述存储系统自动地返回至所述服务模式。
5.如前述权利要求中任一项的方法,其中,所述测试策略包含排他性地将测试数据发送至所述替换单元。
6.如权利要求1至4中任一项的方法,其中,所述测试策略包含将测试数据发送至所述替换单元,所述测试数据的级别被配置为对至所述替换单元的用户数据的级别进行补充,以便将预定级别的I/O提供至所述替换单元。
7.如前述权利要求中任一项的方法,其中,当所述测试包含将数据写入至一个或多个数据存储单元时,将所述数据写入所述存储单元的保留区域。
8.一种用于在包含一个或多个可替换单元的计算机化存储系统中使用的装置,用于管理一个或多个替换单元的测试,所述装置可操作来 识别存储系统中用于替换的可替换单元,并将所述存储系统切换至服务模式;响应于用替换单元替换所述可替换单元,自动地将所述存储系统切换至测试模式;根据预定测试策略测试所述替换单元,以便验证所述替换单元的运行;以及若对所选组件的测试成功,则使所述存储系统返回至在线模式。
9.如权利要求8的装置,其中,选择来自所述存储系统的一个或多个另外的单元用于结合所述替换单元使用,以用于所述测试。
10.如权利要求9的装置,其中,选择所述另外的单元用于结合所述替换单元使用,以便提供适当的输入/输出(I/O)路径用于测试所述替换单元的完全操作能力。
11.如权利要求8至10中任一项的装置,其中,若在所述测试中未检测到故障,则所述存储系统自动地返回至所述在线模式;并且,若在所述测试期间检测到预定级别的故障,则所述存储系统自动地返回至所述服务模式。
12.如权利要求8至11中任一项的装置,其中,所述测试策略包含排他性地将测试数据发送至所述替换单元。
13.如权利要求8至11中任一项的装置,其中,所述测试策略包含将测试数据发送至所述替换单元,所述测试数据的级别被配置为对与至所述替换单元的用户数据的级别进行补充,以便将预定级别的I/O提供至所述替换单元。
14.如权利要求8至13中任一项的装置,其中,当所述测试包含将数据写入至一个或多个数据存储单元时,将所述数据写入所述存储单元的保留区域。
15. 一种计算机程序,其包含计算机程序代码,当所述计算机程序代码被加载到计算机系统中并在其中执行时,使得所述计算机系统执行根据权利要求1至7中的任一个的方法的所有步骤。
全文摘要
本发明公开了一种在包含一个或多个可替换单元的计算机化存储系统中使用的方法、装置或软件,用于管理一个或多个替换单元的测试,其中,响应于给定单元被替换而自动地将该存储系统置于测试模式中,且若测试失败,则该存储系统自动恢复至服务模式。
文档编号G06F11/27GK102171662SQ200980138802
公开日2011年8月31日 申请日期2009年10月1日 优先权日2008年10月2日
发明者乔纳森·I·塞特尔, 乔纳森·W·L·肖特, 保罗·N·卡什曼, 罗德里克·G·穆尔, 蒂莫西·F·麦卡锡 申请人:国际商业机器公司

最新回复(0)