一种海量数据快速查询的方法

xiaoxiao2021-2-28  199

一种海量数据快速查询的方法
【技术领域】
[0001]本发明涉及数据查方法,具体涉及一种海量数据快速查询的方法。
【背景技术】
[0002]在科技高速发展的今天,互联网以不同的方式影响着我们的生活,人们的学习、工作和生活已经离不开互联网。人们可以通过网络相互交流、工作,寻找有价值的数据,从而提升我们的工作效率及生活水平,改善人们的生活方式及工作学习方式。但随着网络时代的快速发展,每天产生的数据呈现指数型的剧增。通过分析大数据,可以方便用户应对工作中的困难,如发现工作中的缺陷、流程业务的不足等,从而修正缺陷,提供良好的服务。分析处理海量数据可以帮助企业或个人甚至国家解决难题,使得他们更快的做出决策。但是在大量的数据中,收集、存储、处理等过程都带来了巨大的挑战,单台的计算机已经无法满足现状,传统的计算处理数据也无法满足海量数据的需求,能够快速提取海量数据中的有用信息是至关重要的。

【发明内容】

[0003]本发明的技术任务是针对现有技术的不足,提供一种海量数据快速查询的方法。本方法使用快速数据利用及并行处理的思想,采用了基于内存计算的分布式框架的查询方式,实现了一种海量数据快速查询的方法,从而提高查询数据效率,充分利用计算机资源。[0004 ]本发明解决其技术问题所采用的技术方案是:
一种海量数据快速查询的方法,采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块。
[0005]基于内存集群模块是通过将数据导入到内存,允许内存中保存数据集,方便高效地重复利用,减少了磁盘中数据切换到内存的开销,加快了运行速度。
[0006]分布式处理模块是通过查询编译器解析查询语句并生成对应的抽象语法树,然后将其转化为逻辑计划及基本逻辑优化,优化器将应用优化规则到各个独立的分区中,创建相应的物理计划,最后通过现有的操作分布式的执行相应的物理计划,数据可以并行查询处理,提高查询效率。
[0007]本发明的一种海量数据快速查询的方法与现有技术相比,所产生的有益效果是,
(1)允许数据在内存中保存并高效地重复利用,保证了数据在处理过程中的快速及高效;
(2)使用分布式处理数据的模式,使得数据可以并行查询处理,大大提高了查询效率。
【附图说明】
[0008]附图1一种海量数据快速查询方法的框架图;
附图2—种海量数据快速查询方法的流程图。
【具体实施方式】
[0009]下面结合附图对本发明的一种海量数据快速查询的方法作以下详细地说明。
[0010]一种海量数据快速查询的方法,采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块。
[0011]基于内存集群模块是通过将数据导入到内存,允许内存中保存数据集,方便高效地重复利用,减少了磁盘中数据切换到内存的开销,加快了运行速度。
[0012]分布式处理模块是通过查询编译器解析查询语句并生成对应的抽象语法树,然后将其转化为逻辑计划及基本逻辑优化,优化器将应用优化规则到各个独立的分区中,创建相应的物理计划,最后通过现有的操作分布式的执行相应的物理计划,数据可以并行查询处理,提高查询效率。
实施例
[0013]下面参照附图,对本发明的内容以一个具体实例来描述一种海量数据快速查询的方法的过程。
[0014]正如
【发明内容】
中所描述的,本发明中一种海量数据快速查询方法的设计和实现包括两个模块,分别是基于内存集群模块和分布式处理模块。一种海量数据快速查询方法的框架图如附图1所示。
[0015]首先在五个节点的服务器上安装操作系统Centos6.3,其中五个节点都是128G内存。然后将五个节点设置成无密码登陆,用于组建集群。按照Spark依赖的环境准备并安装部署集群,同时安装部署Shark。然后安装hadoop组件如hdfs。此时,集群环境准备完毕。
[0016]—种海量数据快速查询方法的流程图如附图2所示,将查询的数据集导入到一张表中,使用CREATE TABLE语句,通过LOAD DATA加载数据所在的文件路径。然后创建现有表的缓存表,并设置属性"shark, cache" = 〃true〃。通过SQL语句对表进行相应的查询。Shark可以通过SQL语句进行解析并将执行相应的物理计划,完成快速的查询,提高查询效率。
【主权项】
1.一种海量数据快速查询的方法,其特征在于采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块; 基于内存集群模块是通过将数据导入到内存,允许内存中保存数据集,方便高效地重复利用,减少了磁盘中数据切换到内存的开销,加快了运行速度; 分布式处理模块是通过查询编译器解析查询语句并生成对应的抽象语法树,然后将其转化为逻辑计划及基本逻辑优化,优化器将应用优化规则到各个独立的分区中,创建相应的物理计划,最后通过现有的操作分布式的执行相应的物理计划,数据可以并行查询处理,提高查询效率。
【专利摘要】本发明提供一种海量数据快速查询的方法,采用基于内存计算的分布式框架的查询方式,实现海量数据快速查询的方法,提高查询数据效率,充分利用计算机资源;该方法的设计结构包括:基于内存集群模块、分布式处理模块。本发明的结构设计主要考虑海量数据查询不便的问题。为了使得海量数据查询过程更加便捷、高效,本文使用快速数据利用及并行处理的思想,采用了基于内存计算的分布式框架的查询方式,实现了一种海量数据快速查询的方法。从而提高查询数据效率,充分利用计算机资源。
【IPC分类】G06F17/30
【公开号】CN105488155
【申请号】CN201510850706
【发明人】孙志云, 郭美思
【申请人】浪潮集团有限公司
【公开日】2016年4月13日
【申请日】2015年11月30日

最新回复(0)