一种基于多级索引的实时数据查询方法及系统与流程

xiaoxiao3月前 15

本发明涉及共享内存，具体为一种基于多级索引的实时数据查询方法及系统。

背景技术：

1、随着大数据技术的快速发展，数据存储与查询技术在各行各业中的应用愈发广泛。传统数据库系统依靠单一索引结构进行数据管理和查询，已经难以满足现代复杂数据环境中的实时性和高效性需求。近年来，面向海量数据的分布式数据库系统逐渐成为研究热点，其核心在于如何高效地存储和查询海量的、多源异构数据。多级索引技术因其能够灵活地适应不同数据类型和访问模式，逐渐成为解决数据管理与查询效率问题的重要手段之一。

2、多级索引技术通过在不同层次上建立索引，能够有效提高数据检索速度和系统的响应能力。例如，lsm树(log-structured merge-tree)在存储系统中得到了广泛应用，其通过多级合并和索引重建，显著提升了写入性能和查询效率。然而，随着数据量的不断增长和数据类型的多样化，现有的多级索引技术在面对实时数据处理和多源异构数据融合查询时，仍存在许多不足之处。这些不足包括索引结构更新滞后、查询优化策略不够灵活、无法动态适应数据访问模式的变化等。

3、现有多级索引技术在实时数据查询和管理方面存在一些明显的不足。首先，索引结构的更新通常需要较长的时间，难以应对频繁的数据写入和查询请求，导致系统在高并发环境下性能下降。其次，现有技术缺乏对不同级别的数据和索引进行精细化管理的机制，无法根据数据的重要性和访问频率灵活调整索引策略。这种一刀切的索引管理方式，往往导致系统资源浪费，无法充分发挥索引的优势。此外，多源异构数据的统一查询和检索也是现有技术的难点之一。由于不同数据源的数据格式和结构各异，现有技术在进行数据融合和查询优化时，缺乏有效的手段来处理数据异构性问题，导致查询效率低下，无法满足实际应用需求。

技术实现思路

1、鉴于上述存在的问题，提出了本发明。

2、因此，本发明解决的技术问题是：

3、实时数据处理效率低，现有的多级索引技术在处理实时数据时，由于索引结构更新滞后，难以应对频繁的数据写入和查询请求，索引管理缺乏灵活性：现有技术缺乏对不同级别的数据和索引进行精细化管理的机制，无法根据数据的重要性和访问频率灵活调整索引策略。存储空间占用和查询效率低，现有技术在进行数据索引和查询时，往往采用统一的索引策略，导致存储空间占用过大，查询效率低下。多源异构数据查询困难，由于不同数据源的数据格式和结构各异，现有技术在进行数据融合和查询优化时，缺乏有效的手段来处理数据异构性问题，导致查询效率低下。

4、为解决上述技术问题，本发明提供如下技术方案：一种基于多级索引的实时数据查询方法，包括：

5、采集实时数据，在写入前对实时数据进行预处理，通过变频数据缓冲区缓存预处理后的实时数据；

6、从哈希表中查询对应时间的数据存储文件，对不同级别的数据和索引进行管理；

7、查看数据存储文件索引表中数据块对应时间段的历史数据，对不同级别的数据和索引进行差异化压缩；

8、对多源异构数据进行统一查询和检索，从数据存储文件哈希表中查询对应时间的数据存储文件，并在数据写入或查询过程中，动态重建和优化索引结构。

9、作为本发明所述的基于多级索引的实时数据查询方法的一种优选方案，其中：对实时数据进行预处理包括，数据清洗、数据压缩和数据聚合；

10、数据清洗包括，当数据质量低于阈值时，若实时数据中缺失值或异常值超过5％，系统自动触发数据清洗程序；

11、数据压缩包括，根据数据量选择压缩算法，当缓存数据量超过100mb时，使用zstd进行压缩；当缓存数据量低于100mb时，使用lz4进行压缩；

12、数据聚合包括，依据时间窗口进行数据聚合：对时间序列数据，使用10分钟的时间窗口进行平均值聚合；对事件数据，按事件类型汇总，每小时进行一次统计。

13、作为本发明所述的基于多级索引的实时数据查询方法的一种优选方案，其中：从哈希表中查询对应时间的数据存储文件，对不同级别的数据和索引进行管理包括，通过分别量化数据类型、访问频率、时间跨度、数据重要性的权重进行计算数据的级别分类和定义，构建评分函数，公式表示为：

14、

15、权重矩阵：

16、数据矩阵：

17、

18、其中，it表示时间函数数据重要性随时间的变化，fi表示第i个数据的访问频率，tj表示第j个数据的时间跨度，sk表示第k个数据的重要性，w1表示数据类型的权重，w2表示访问频率的权重，w3表示时间跨度的权重，w4表示数据重要性的权重，z表示归一化因子，λi衰减常数，p表示数据重要性的个数，n表示访问频率的数据数，m表示时间跨度的数据数，t表示时间变量；

19、score表示评分函数，score的阈值在0-5之间；

20、当0<score<1.5时，低优先级数据，存储在慢速存储介质上，定期归档，减少频繁访问，降低存储成本；

21、当1.5≤score≤3时，中优先级数据，存储在中速存储介质上，设置适中的索引结构，平衡访问速度和存储效率；

22、当3<score<5时，高优先级数据，存储在快速存储介质上，采用快速且冗余的索引结构，确保数据的高效访问和可靠性。

23、作为本发明所述的基于多级索引的实时数据查询方法的一种优选方案，其中：对不同级别的数据和索引进行差异化压缩包括，根据评分函数score的结果定义差异化压缩系数，根据不同的压缩系数构建压缩函数，对不同级别的数据和索引进行压缩，公式表示为：

24、

25、其中，c表示差异化压缩系数，score表示评分函数，d表示原始数据，t表示总时间范围，n表示数据块的数量，di表示第i个数据块，λ表示时间衰减常数，t表示时间变量。

26、作为本发明所述的基于多级索引的实时数据查询方法的一种优选方案，其中：对多源异构数据进行的统一查询和检索包括，根据评分函数的结果，得到不同数据源的不同优先级，并且结合数据不同属性的不同权重，构建多源异构数据的融合模型，公式表示为：

27、

28、权重矩阵：

29、其中，score表示综合评分函数，z表示归一化因子，i(t)表示随时间变化的数据重要性，w表示权重矩阵，di表示第i个数据块，fusion(d)表示多源异构数据的融合模型，λ表示衰减常数，n表示数据块的数量，fi,j表示第i个数据源的第j个特征，wa(xi,wi)表示加权平均函数。

30、作为本发明所述的基于多级索引的实时数据查询方法的一种优选方案，其中：对多源异构数据进行的统一查询和检索还包括，基于多源异构数据的融合模型，采用差分进化算法，构建查询函数，进行的统一查询和检索，公式表示为：

31、生成一个包含n个个体的初始种群，每个个体是一个d维向量：

32、population＝{x1,x2,…,xn}

33、对于每个目标向量xi，生成变异向量vi:

34、vi＝xr1+f·(xr2-xr3)

35、其中，xr1,xr2,xr3是从种群中随机选择的三个不同个体，且r1≠r2≠r3≠i，f是缩放因子，通常在[0,2]范围内；

36、生成实验向量ui:

37、vijif(0,1)≤cror＝jrandxijotherwise

38、其中，cr是交叉概率，通常在[0,1]范围内。jrand是[1,d]中的一个随机整数。通过适应度函数选择下一代个体：

39、uiif(ui)≤f(xi)xiotherwise

40、查询函数q(x)目标是最小化查询时间和最大化查询结果的相关性，设计如下的查询函数：

41、

42、其中，t(x)表示查询参数组合x的查询时间，r(x)表示查询结果的相关性度量，α和β表示平衡查询时间和结果相关性的权重系数，xi第i个个体表示的查询参数组合，f表示缩放因子，cr表示交叉概率，vi表示变异向量，ui表示试验向量，q(x)表示查询函数，f(xi)表示适应度函数，population表示初始种群，cj表示第j个查询参数的查询时间系数，xj表示第j个查询参数，dk表示第k个查询参数的相关性系数，gk表示第k个查询参数的非线性缩放系数，tanh表示双曲正切函数。

43、作为本发明所述的基于多级索引的实时数据查询方法的一种优选方案，其中：动态重建和优化索引结构包括，当数据访问频率超过设定阈值时，重建索引结构，重建过程中，优先选择具有高访问频率的数据块进行索引优化，采用b+树、哈希索引，提升查询速度，对于低访问频率的数据块，采用稀疏索引，以节省存储空间；

44、当网络延迟或数据流量出现异常波动时，动态调整索引策略，定期监测和评估索引性能，进行自适应优化，保持系统的最佳运行状态，采用预测性调整策略，根据历史数据和趋势分析，提前优化索引结构，减少突发状况对系统的影响。

45、一种采用如本发明任一所述方法的基于多级索引的实时数据查询系统，其中：数据处理模块，采集实时数据，在写入前对实时数据进行预处理，通过变频数据缓冲区缓存预处理后的实时数据；

46、数据分级模块，从哈希表中查询对应时间的数据存储文件，对不同级别的数据和索引进行管理；

47、数据压缩模块，查看数据存储文件索引表中数据块对应时间段的历史数据，对不同级别的数据和索引进行差异化压缩；

48、数据查询模块，对多源异构数据进行统一查询和检索，从数据存储文件哈希表中查询对应时间的数据存储文件，并在数据写入或查询过程中，动态重建和优化索引结构。

49、一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现本发明中任一项所述的方法的步骤。

50、一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现本发明中任一项所述的方法的步骤。

51、本发明的有益效果：本发明提供的基于多级索引的实时数据查询方法本发明通过对实时数据进行预处理和缓存，提高了数据写入的稳定性和效率；优化了系统资源的利用和数据查询效率；采用差异化压缩策略减少了存储空间占用，同时保留了关键数据的快速访问能力；确保系统能够适应变化的查询需求，持续保持高性能的数据检索能力。形成了一个高效、稳定、灵活的数据管理和查询系统，显著提升了现有技术的水平。

技术特征：

1.一种基于多级索引的实时数据查询方法，其特征在于，包括：

2.如权利要求1所述的基于多级索引的实时数据查询方法，其特征在于：对实时数据进行预处理包括，数据清洗、数据压缩和数据聚合；

3.如权利要求2所述的基于多级索引的实时数据查询方法，其特征在于：从哈希表中查询对应时间的数据存储文件，对不同级别的数据和索引进行管理包括，通过分别量化数据类型、访问频率、时间跨度、数据重要性的权重进行计算数据的级别分类和定义，构建评分函数，公式表示为：

4.如权利要求3所述的基于多级索引的实时数据查询方法，其特征在于：对不同级别的数据和索引进行差异化压缩包括，根据评分函数score的结果定义差异化压缩系数，根据不同的压缩系数构建压缩函数，对不同级别的数据和索引进行压缩，公式表示为：

5.如权利要求4所述的基于多级索引的实时数据查询方法，其特征在于：对多源异构数据进行的统一查询和检索包括，根据评分函数的结果，得到不同数据源的不同优先级，并且结合数据不同属性的不同权重，构建多源异构数据的融合模型，公式表示为：

6.如权利要求5所述的基于多级索引的实时数据查询方法，其特征在于：对多源异构数据进行的统一查询和检索还包括，基于多源异构数据的融合模型，采用差分进化算法，构建查询函数，进行的统一查询和检索，公式表示为：

7.如权利要求6所述的基于多级索引的实时数据查询方法，其特征在于：动态重建和优化索引结构包括，当数据访问频率超过设定阈值时，重建索引结构，重建过程中，优先选择具有高访问频率的数据块进行索引优化，采用b+树、哈希索引，提升查询速度，对于低访问频率的数据块，采用稀疏索引，以节省存储空间；

8.一种采用如权利要求1-7任一所述方法的一种基于多级索引的实时数据查询系统，其特征在于：

9.一种计算机设备，包括：存储器和处理器；所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现基于多级索引的实时数据查询方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现基于多级索引的实时数据查询方法的步骤。

技术总结
本发明公开了一种基于多级索引的实时数据查询方法及系统，包括：采集实时数据，在写入前对实时数据进行预处理，通过变频数据缓冲区缓存预处理后的实时数据，从哈希表中查询对应时间的数据存储文件，对不同级别的数据和索引进行管理，查看数据存储文件索引表中数据块对应时间段的历史数据，对不同级别的数据和索引进行差异化压缩，对多源异构数据进行统一查询和检索，从数据存储文件哈希表中查询对应时间的数据存储文件，并在数据写入或查询过程中，动态重建和优化索引结构。提高了数据写入的稳定性和效率。持续保持高性能的数据检索能力。

技术研发人员：毛旭初,胡杰英,朱凯林,钱学伟
受保护的技术使用者：朗坤智慧科技股份有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)