一种高性能作业调度管理节点双机加固方法

xiaoxiao2020-7-22  4

一种高性能作业调度管理节点双机加固方法
【专利摘要】本发明公开了一种高性能作业调度管理节点双机加固方法,该方法主要是在高性能计算领域针对作业调度管理节点通过安装以及配置Pacemaker、corosync和drbd软件,达到节点级以及资源级的双重加固;该方法一方面避免了单机部署造成的单点故障问题,另一方面,采用pacemaker软件可以提供对作业系统资源监控,再加上drbd可以对作业调度系统的存储进行双机配置,比heartbeat+NFS方式中NFS共享作业调度系统存储具有双机冗余优势,更有效保证了系统运行的可靠性,可以有效的弥补了传统方法的不足。
【专利说明】一种高性能作业调度管理节点双机加固方法
【技术领域】
[0001]本发明涉及计算机领域,尤其涉及一种基于Pacemaker+corosync+drbd的高性能作业调度管理节点双机加固方法。
【背景技术】
[0002]当前,基于网络的计算机技术,促进了集群系统的发展和广泛应用。用高速网络将高性能工作站或PC按某种结构连接成集群,实现并行计算,只用很小的花费,就可以得到大型机和并行机的性能;然而,随着高性能计算集群应用规模的不断扩充,集群的管理问题也随之而来。作业调度系统主要负责接收用户提交的作业请求,并根据特定的调度规则以及用户对作业的要求选择合适的计算资源来完成用户作业。在作业调度系统的帮助下,对用户而言高性能计算集群系统就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个系统。作业调度系统管理用户提交的作业,为各个作业合理地分配资源,从而确保充分利用集群系统的计算能力,并尽可能迅速地得到运算结果。因此作业调度系统的重要性也就不言而喻。
[0003]然而,传统的作业调度系统往往采用单机方式或使用heartbeat+NFS方式做双机加固,这两种方法都存在一定的缺陷漏洞,比如管理节点单机部署,一旦该节点故障,会导致整个高性能集群的作业调度系统停止工作,整个集群的作业无法进行合理有效的调度,那么作业运行会出现停滞,严重影响系统运行效率;再比如使用heartbeat+NFS方式进行双机加固,由于heartbeat软件自身的设计因素,并不能对作业调度系统实行资源级监控,一旦监控的资源出现故障,则不能有效的进行资源切换,会导致整个集群作业无法进行合理有效的调度,严重影响系统运行效率。由此可见,传统两种安全加固方法都有致命的缺点,故如何更加有效的对作业调度系统进行加固就成为一个亟待解决的问题。
[0004]
【发明内容】

针对现有技术存在的不足之处,本发明提供一种基于Pacemaker+corosync+drbd的高性能作业调度管理节点双机加固方法,该方法主要是在高性能计算领域针对作业调度管理节点使用Pacemaker+corosync+drbd进行双机安全加固。
[0005]下面对Pacemaker、corosync、drbd进行说明:Corosync用来实现多个机器互相通讯(维持心跳)的,而pacemaker是在corosync上层来统一管理整个集群的运行;Distributed Replicated Block Device (DRBD)是一个用软件实现的、无共享的、服务器之间镜像块设备内容的存储复制解决方案,DRBD的核心功能通过Linux的内核实现,DRBD的位置处于文件系统以下,比文件系统更加靠近操作系统内核及10栈。
[0006]本发明公开了一种高性能作业调度管理节点双机加固方法,其解决所述技术问题采用的技术方案如下:所述双击加固方法是基于Pacemaker+corosync+drbd的高性能作业调度管理节点双机加固方法,其内容主要包括在高性能集群中针对作业调度管理节点通过安装以及配置Pacemaker、corosync和drbd软件,达到节点级以及资源级的双重加固;
其中,通过corosync软件对高性能集群中作业调度系统进行节点监控,可以配置多心跳,以确保在节点出现问题时,通知pacemaker进行资源切换;
通过pacemaker软件对高性能集群中作业调度系统进行资源监控,一旦资源出现问题,会及时有效的对资源进行重启或者切换到其他节点,确保资源运行正常;
通过drbd软件配置作业调度系统存储的双机,drbd可以时刻保持双机中的存储数据一致;配置完毕后,作为资源受pacemaker软件监控。
[0007]本发明公开的高性能作业调度管理节点双机加固方法的有益效果是:
该方法采用了 pacemaker+corosync+drbd方案进行双机加固,一方面避免了单机部署造成的单点故障问题,另一方面,采用pacemaker软件可以提供对作业系统资源监控,再加上drbd可以对作业调度系统的存储进行双机配置,比heartbeat+NFS方式中NFS共享作业调度系统存储具有双机冗余优势,更有效保证了系统运行的可靠性,可以有效的弥补了传统方法的不足。
[0008]该方法通过使用pacemaker+corosync+drbd的组合,来同时进行高性能集群中作业调度系统节点级以及资源级的监控,实现作业调度系统的无单点故障部署,该方案有很强的适用性和安全性。
【专利附图】

【附图说明】
[0009]附图1为本发明所述高性能作业调度管理节点双机加固方法的架构图。
【具体实施方式】
[0010]下面通过实施例,对本发明所述高性能作业调度管理节点双机加固方法做进一步详细说明,并不造成对本发明的限制。
[0011]本发明所述双机加固方法基于Pacemaker+corosync+drbd的高性能作业调度管理节点双机加固方法,其主要内容包括:
1)通过corosync软件对高性能集群中作业调度系统进行节点监控,可以配置多心跳,以确保在节点出现问题时,通知pacemaker进行资源切换;
2)通过pacemaker软件对高性能集群中作业调度系统进行资源监控,一旦资源出现问题,会及时有效的对资源进行重启或者切换到其他节点,确保资源运行正常;
3)通过drbd软件配置作业调度系统存储的双机,drbd可以时刻保持双机中的存储数据一致;配置完毕后,作为资源受pacemaker软件监控。
[0012]综上可知,本发明所述高性能作业调度管理节点双机加固方法,是通过使用pacemaker+corosync+drbd的组合,来同时进行高性能集群中作业调度系统节点级以及资源级的监控,来达到相应的双机加固目的。
[0013]实施例:
本发明所述高性能作业调度管理节点双机加固方法通过以下步骤实现:
1)在作业调度系统双机节点安装Corosync+pacemaker+drbd软件;
2)对drbd软件进行配置;
3)对corosync+pacemaker 进行配置;
4)启动corosync+pacemaker+drbd服务,对节点和资源进行监控。
[0014]该基于Pacemaker+corosync+drbd的高性能作业调度管理节点双机加固方法配
【权利要求】
1.一种高性能作业调度管理节点双机加固方法,其特征在于,所述双击加固方法是基于Pacemaker+corosync+drbd的高性能作业调度管理节点双机加固方法,其内容主要是在高性能集群中针对作业调度管理节点通过安装以及配置Pacemaker、corosync和drbd软件,达到节点级以及资源级的双重加固; 其中,通过corosync软件对高性能集群中作业调度系统进行节点监控,能够配置多心跳,以确保在节点出现问题时,通知pacemaker进行资源切换; 通过pacemaker软件对高性能集群中作业调度系统进行资源监控,一旦资源出现问题,会及时有效的对资源进行重启或者切换到其他节点; 通过drbd软件配置作业调度系统存储的双机,drbd能够时刻保持双机中的存储数据一致;配置完毕后,作为资源受pacemaker软件监控。
2.根据权利要求1所述的高性能作业调度管理节点双机加固方法,其特征在于,该高性能作业调度管理节点双机加固方法的实现步骤为: 在作业调度系统双机节点安装Corosync+pacemaker+drbd软件; 对drbd软件进行配置; 对 corosync+pacemaker 进行配置;
启动corosync+pacemaker+drbd服务,对节点和资源进行监控。
3.根据权利要求1所述的高性能作业调度管理节点双机加固方法,其特征在于,该高性能作业调度管理节点双机加固方法的配置命令为: Drbd软件配置: global { usage-count yes; } common { syncer { rate IOM; } } resource rO {
protocol C;
net {
cram-hmac—alg shal;
shared-secret 〃FooFunFactory〃;

}
on hal {
device/dev/drbdI;
disk/dev/sda3;
address10.10.1.10:7789;
meta-disk internal;


}
on ha2 {
device/dev/drbdI;
disk/dev/sda3;
address10.10.1.11:7789;
meta-disk internal;


}
【文档编号】G06F11/30GK103942128SQ201410174934
【公开日】2014年7月23日 申请日期:2014年4月29日 优先权日:2014年4月29日
【发明者】马四腾 申请人:浪潮电子信息产业股份有限公司

最新回复(0)