本说明书涉及数据处理,特别涉及一种多集群任务调度和监控的系统、方法、装置和介质。
背景技术:
1、分布式任务处理因能并行处理任务的不同部分,具有较高的计算效率,在大数据场景中,尤其是分布式图数据库中,被广泛应用。在目前的分布式任务处理过程中,无法有效地管理“1+n”模式的多个集群,作业无法在集群之间进行任务调度和负载均衡,导致资源的浪费;且需要投入大量的人力和物力进行运维,从而导致运维成本高。
2、针对如何解决上述问题,专利号为cn103207814b的专利提出一种去中心化的跨集群资源管理与任务调度系统与调度方法,在本地资源不足而外集群资源充足的情况下,任务管理器将任务分发,调度至别的集群执行任务,并在任务完成后收回结果文件,然而该种方法缺乏有效、实时的作业运行监控和告警机制,在作业出现问题时,无法及时发现和解决,从而影响了作业的稳定运行;且无法提供高可靠性,在面临硬件故障或网络问题时,作业的运行可能会受到影响。
3、因此提供一种多集群任务调度和监控的系统及方法,有助于提高作业的执行效率。
技术实现思路
1、本
技术实现要素:
包括一种多集群任务调度和监控的方法,所述方法由服务器执行,所述方法包括:基于用户请求,向至少一个待注册集群发送注册指令,以生成注册集群;基于所述注册集群的惯性数据量,确定至少一个待激活作业组件,并向所述至少一个待激活作业组件发出激活指令以生成所述注册集群对应的激活作业组件集合,所述惯性数据量为预设历史时段内的数据产生率;基于第一预设时段的第一任务的数据量,生成至少一个启动指令,将至少一个所述启动指令发送至所述注册集群;其中,所述注册集群包括调度组件和作业组件,所述调度组件用于接收并基于所述启动指令,将第一任务调度至激活作业组件进行处理;基于所述激活作业组件的负载状态值、待处理数据量,在所述激活作业组件集合中对第二预设时段的第二任务进行分配并处理,所述第二预设时段为所述第一预设时段之后的时间段;以及响应于任务处理失败,基于失败原因以及失败发生时间,发出警告,并在所述激活作业组件集合中重新分配失败任务,所述失败任务包括失败的第一任务和失败的第二任务中的至少一种。
2、本发明内容包括一种多集群任务调度和监控的系统,所述系统包括:注册集群模块,被配置为基于用户请求,向至少一个待注册集群发送注册指令,以生成注册集群;激活组件模块,被配置为基于所述注册集群的惯性数据量,确定至少一个待激活作业组件,并向所述至少一个待激活作业组件发出激活指令以生成所述注册集群对应的激活作业组件集合,所述惯性数据量为预设历史时段内的数据产生率;启动作业模块,被配置为基于第一预设时段的第一任务的数据量,生成至少一个启动指令,将至少一个所述启动指令发送至所述注册集群;其中,所述注册集群包括调度组件和作业组件,所述调度组件用于接收并基于所述启动指令,将第一任务调度至激活作业组件进行处理;以及第一分配模块,被配置为基于所述激活作业组件的负载状态值、待处理数据量,在所述激活作业组件集合中对第二预设时段的第二任务进行分配并处理,所述第二预设时段为所述第一预设时段之后的时间段;第二分配模块,被配置为响应于任务处理失败,基于失败原因以及失败发生时间,发出警告,并在所述激活作业组件集合中重新分配失败任务,所述失败任务包括失败的第一任务和失败的第二任务中的至少一种。
3、本发明内容包括一种多集群任务调度和监控的装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现所述的多集群任务调度和监控的方法。
4、本发明内容包括一种计算机可读介质,所述介质存储计算机指令,当计算机读取介质中的计算机指令后,计算机执行所述的多集群任务调度和监控的方法。
1.一种多集群任务调度和监控的方法,其特征在于,所述方法由服务器执行,所述方法包括;
2.如权利要求1所述的方法,其特征在于,所述基于所述激活作业组件的负载状态值、待处理数据量,在所述激活作业组件集合中对第二预设时段的第二任务进行分配,包括:
3.如权利要求1所述的方法,其特征在于,所述重新分配所述失败任务,包括:
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
5.一种多集群任务调度和监控的系统,其特征在于,所述系统包括:
6.如权利要求5所述的系统,其特征在于,所述第一分配模块,进一步被配置为:
7.如权利要求5所述的系统,其特征在于,所述第二分配模块,进一步被配置为:
8.如权利要求7所述的系统,其特征在于,所述系统还包括初始化模块,所述初始化模块进一步被配置为:
9.一种多集群任务调度和监控的装置,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;
10.一种计算机可读介质,其特征在于,所述介质存储计算机指令,当计算机读取介质中的计算机指令后,计算机执行如权利要求1~4任一项所述的多集群任务调度和监控的方法。