本发明涉及数据处理,尤其涉及一种基于数据虚拟化的应急数据标准化系统及方法。
背景技术:
1、随着信息技术的飞速发展和普及,数据虚拟化与数据标准化是现代数据管理领域中两个重要的技术趋势,它们各自经历了显著的发展,并且在很多场景中相互结合以提供更强大的数据处理能力。其中,数据虚拟化作为一种先进的数据集成技术,它允许应用程序以统一的方式访问和操作来自多个异构数据源的数据,而无需关心数据的实际位置或格式;另外,数据标准化是指将数据转换成一致的格式或结构,以确保数据的可比性和一致性。随着大数据和人工智能技术的兴起,数据标准化变得尤为重要。
2、尽管数据虚拟化与数据标准化技术在应急数据管理领域发挥了重要作用,但仍存在一些挑战和缺陷,各个机构或部门可能采用不同的数据标准和规范,导致数据在不同系统之间的互操作性较差,缺乏统一的数据标准框架,使得数据标准化的工作量大增,在数据同步过程中,由于多个数据源可能同时对同一数据进行修改,导致数据冲突。缺乏有效的冲突解决机制,可能导致数据的一致性和准确性受损。
3、更为棘手的是,采用传统的数据集成方法来解决上述问题时,会遇到诸多实际困难。传统方法要求多源数据进行实时或定时的同步,但在复杂多变的网络条件下,以及面对各式各样的数据源系统,数据同步方案的实施变得异常艰难,且易引发数据安全方面的顾虑。数据同步过程中可能出现的延迟、错误或丢失,进一步加剧了数据不一致性和完整性问题,影响了临床决策的可靠性。
技术实现思路
1、本发明实施例提供一种基于数据虚拟化的应急数据标准化系统及方法,能够至少解决现有技术中数据不一致性和完整性问题,影响了临床决策的可靠性的技术问题。
2、本发明实施例的第一方面,提供了一种基于数据虚拟化的应急数据标准化系统,包括:元数据抽取模块、异构数据融合模块、数据标准化模块、映射前置处理模块以及数据映射层模块,其中:
3、所述元数据抽取模块通过多个不同数据源接口抽取元数据,并将元数据发送到虚拟化系统中,以作为数据视图和虚拟表格定义的基础,所述元数据中包含多类型异构应急数据;
4、所述异构数据融合模块接收所述元数据抽取模块的元数据,通过数据虚拟化服务器执行数据融合,确定融合数据,以使上层应用访问多类型异构数据;
5、所述数据标准化模块基于预设的应急数据标准将融合数据进行标准化处理,得到应急数据;
6、所述映射前置处理模块基于元数据分析得到应急数据格式,再依据应急数据格式监测数据源,当监测到数据源的变更事件时,通过多维度增量同步算法确保虚拟化系统中的应急数据与数据源一致;当监测到多个数据源对相同数据进行修改时,通过一致性保证算法确保数据的一致性和准确性;
7、所述数据映射层模块根据虚拟表格到数据源的映射,将标准化处理后得到的应急数据映射到原始数据源。
8、进一步地,所述异构数据融合模块,包括:
9、数据源识别单元,用于识别连接到数据虚拟化服务器的各个数据源的类型;
10、数据适配器单元,针对每一种数据源的类型配置数据适配器,用于解析数据源的结构和内容,以将不同格式的元数据转化为统一的中间表示;
11、数据映射单元,分析元数据的类型,以建立数据源与虚拟化系统内部数据模型之间的映射关系,使得元数据在不同数据源和虚拟化系统之间转换;
12、数据融合单元,接收经数据适配器单元转化的中间表示数据,执行数据融合算法,以创建数据视图,使上层应用能够以统一的接口访问来自不同数据源的数据。
13、进一步地,所述数据融合单元,包括:
14、获取所述元数据抽取模块中数据源的记录数量,以确定数据源完整性;
15、基于所述数据映射单元建立的数据源与虚拟化系统内部数据模型之间的映射关系,确定数据源的一致性;
16、基于所述元数据抽取模块中数据源更新事件,确定数据源更新的及时性;
17、基于所述数据标准化模块中输出的应急数据与元数据,确定数据源的准确性;
18、获取所述元数据抽取模块中数据源与预设衡量指标,确定数据源的可靠性;
19、基于所述数据映射层模块将标准化处理后的应急数据映射到原始数据源,确定数据源的丰富性;
20、根据所述数据源的一致性、及时性、准确性、可靠性以及丰富性计算数据源的综合质量分数;
21、当所述综合质量分数大于预设值时,使用自适应数据融合策略,以构建数据视图。
22、进一步地,述映射前置处理模块,包括:数据同步单元和冲突解决单元;
23、数据同步单元在监测到数据源变更事件后,首先执行多维度增量同步算法,将变更数据同步到虚拟化系统中;
24、在同步过程中,数据同步单元会记录每个数据项的版本号和时间戳作为同步信息,以备冲突解决单元使用;
25、同步完成后,数据同步单元将同步信息传递给冲突解决单元;
26、冲突解决单元接收到同步信息后,检查是否存在数据冲突;
27、如果检测到数据冲突,冲突解决单元使用一致性保证算法来解决冲突;
28、冲突解决单元将解决后的数据版本返回给数据同步单元,数据同步单元据此更新虚拟化系统中的数据;
29、数据同步单元和冲突解决单元之间通过消息传递机制进行通信,以确保同步过程和冲突解决过程的协调一致。
30、进一步地,所述多维度增量同步算法包括:
31、给定数据项 di的历史变更记录hi,数据源sj的特性cj,数据项的重要性 wi,数据源的质量分数 qj,以及数据源可信度tj,预测数据项 di在下一时间段内发生变更的预测概率pi为:
32、;
33、其中,是sigmoid函数,用于将预测结果转换为概率值,表示通过时间序列模型提取历史记录hi的特征向量,表示通过聚类分析得到的数据源特性cj的特征向量,表示通过预测模型预测出的数据项的重要性 wi的特征向量,表示数据源的质量分数qj的非线性权重函数,表示数据源可信度tj的特征向量,,,,,是权重系数,用于调整各因素的影响程度;
34、针对预测概率大于阈值的数据项,在预设时间节点的上一时间周期内进行数据同步,针对预测概率小于阈值的数据项,在预设时间节点的下一时间周期内进行数据同步,以减少数据冗余。
35、进一步地,所述数据映射层模块,包括:
36、类型确定单元,用于确定所述元数据抽取模块中各个数据源类型,基于数据源类型确定封装表格,以解析应急数据;
37、虚拟表格构建单元,用于基于预设的封装表格定义虚拟表格,所述虚拟表格是依据应急数据的逻辑结构而定;
38、执行单元,用于执行映射规则,将数据源中的应急数据转换成虚拟表格的格式;
39、查询单元,用于建立查询端口,以使上层数据应用访问应急数据。
40、进一步地,所述数据映射层模块中虚拟表格构建单元中涉及应急数据转换时,采用box-cox变换进行数据转换以改善数据分布的正态性,其中,采用box-cox变换进行数据转换以改善数据分布的正态性的步骤,包括:
41、采用最大似然估计法确定最优的λ值,其中λ值用于确定变换的类型;
42、针对于每个非负的应急数据值,如果λ值不等于零,则采用幂变换的方法,计算原始数据值的λ次幂,从λ次幂的结果中减去一,将结果除以λ值;
43、如果λ值等于零,则采用对数变换的方法,对原始数据值取自然对数;
44、应用变换后,使用正态性检验方法来验证变换后的数据是否更接近正态分布;
45、若变换后的数据验证了正态性,进行标准化处理。
46、第二方面,本发明实施例还提供了一种基于数据虚拟化的应急数据标准化方法,包括:
47、控制元数据抽取模块通过多个不同数据源接口抽取元数据,并将元数据发送到虚拟化系统中,以作为数据视图和虚拟表格定义的基础,所述元数据中包含多类型异构应急数据;
48、控制异构数据融合模块接收所述元数据抽取模块的元数据,通过数据虚拟化服务器执行数据融合,确定融合数据,以使上层应用访问多类型异构数据;
49、控制数据标准化模块基于预设的应急数据标准将融合数据进行标准化处理,得到应急数据;
50、控制映射前置处理模块基于元数据分析得到应急数据格式,再依据应急数据格式监测数据源,当监测到数据源的变更事件时,通过多维度增量同步算法确保虚拟化系统中的应急数据与数据源一致;当监测到多个数据源对相同数据进行修改时,通过一致性保证算法确保数据的一致性和准确性;
51、控制数据映射层模块根据虚拟表格到数据源的映射,将标准化处理后得到的应急数据映射到原始数据源。
52、第三方面,本发明实施例还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第二方面所述的一种基于数据虚拟化的应急数据标准化方法。
53、第四方面,本发明实施例还提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括第二方面所述的一种基于数据虚拟化的应急数据标准化方法。
54、本发明实施例提供的一种基于数据虚拟化的应急数据标准化系统,包括:元数据抽取模块、异构数据融合模块、数据标准化模块、映射前置处理模块以及数据映射层模块,其中:所述元数据抽取模块通过多个不同数据源接口抽取元数据,并将元数据发送到虚拟化系统中,以作为数据视图和虚拟表格定义的基础,所述元数据中包含多类型异构应急数据;所述异构数据融合模块接收所述元数据抽取模块的元数据,通过数据虚拟化服务器执行数据融合,确定融合数据,以使上层应用访问多类型异构数据;所述数据标准化模块基于预设的应急数据标准将融合数据进行标准化处理,得到应急数据;所述映射前置处理模块基于元数据分析得到应急数据格式,再依据应急数据格式监测数据源,当监测到数据源的变更事件时,通过多维度增量同步算法确保虚拟化系统中的应急数据与数据源一致;当监测到多个数据源对相同数据进行修改时,通过一致性保证算法确保数据的一致性和准确性;所述数据映射层模块根据虚拟表格到数据源的映射,将标准化处理后得到的应急数据映射到原始数据源。基于数据虚拟化的应急数据标准化系统能够有效地处理来自不同数据源的异构应急数据,通过元数据抽取、数据融合、数据标准化、智能增量同步和一致性保证步骤,确保了数据的一致性、准确性和可用性。这些步骤不仅提高了数据处理的效率,还为上层应用提供了统一的数据视图,有助于决策支持和紧急情况下的快速响应。
55、本发明实施例的有益效果可以参考具体实施方式中技术特征对应的技术效果,在此不再赘述。
1.一种基于数据虚拟化的应急数据标准化系统,其特征在于,包括:元数据抽取模块、异构数据融合模块、数据标准化模块、映射前置处理模块以及数据映射层模块,其中:
2.根据权利要求1所述的基于数据虚拟化的应急数据标准化系统,其特征在于,所述异构数据融合模块,包括:
3.根据权利要求2所述的基于数据虚拟化的应急数据标准化系统,其特征在于,所述数据融合单元,包括:
4.根据权利要求1所述的基于数据虚拟化的应急数据标准化系统,其特征在于,所述映射前置处理模块,包括:数据同步单元和冲突解决单元;
5.根据权利要求4所述的基于数据虚拟化的应急数据标准化系统,其特征在于,所述多维度增量同步算法包括:
6.根据权利要求1所述的基于数据虚拟化的应急数据标准化系统,其特征在于,所述数据映射层模块,包括:
7.根据权利要求6所述的基于数据虚拟化的应急数据标准化系统,其特征在于,所述数据映射层模块中虚拟表格构建单元中涉及应急数据转换时,采用box-cox变换进行数据转换以改善数据分布的正态性,其中,采用box-cox变换进行数据转换以改善数据分布的正态性的步骤,包括:
8.一种基于数据虚拟化的应急数据标准化方法,其特征在于,包括:
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求8所述的基于数据虚拟化的应急数据标准化方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求8所述的基于数据虚拟化的应急数据标准化方法。