本发明涉及数据处理,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术:
1、针对医院多源异构的上百种业务系统,通过不同业务系统之间的数据映射实现医院患者信息,病例信息,医生信息及用药信息等的关联。不同业务系统之间需要映射的字段数量越来越多,数据映射过程也变得非常复杂。
2、目前常通过人工的方式建立不同业务系统之间数据与数据的映射关系,而对于源端数据和目的端数据结构比较一致的情况,也可以通过索引或者字段名来建立映射关系;由于数据表示的不一致和差异,因此通过人工的方式映射来自异构源数据时易出现失误或者表名,字段名之间差异性相对较大的情况,从而导致映射失败或者出错。
技术实现思路
1、有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备及存储介质,以解决现有技术中存在的映射失败或者出错的问题。
2、为实现上述目的,本发明实施例提供如下技术方案:
3、本发明实施例第一方面示出了一种数据处理方法,所述方法包括:
4、获取元数据信息;
5、对所述元数据信息进行分析,确定不同数据类型的特征字段;
6、针对每一数据类型的特征字段,利用所述数据类型对应的处理算法将预先构建的数据模型与所述特征字段进行匹配,得到匹配结果;
7、根据所述匹配结果构建与所述元数据信息对应的映射关系。
8、可选的,对所述元数据信息进行分析,确定不同数据类型的特征字段,包括:
9、确定所述元数据信息的数据类型;
10、从所述元数据信息中获取与所述数据类型对应初始字段;
11、针对每一数据类型,对所述初始字段进行处理,得到不同数据类型的特征字段。
12、可选的,针对每一数据类型的特征字段,利用所述数据类型对应的处理算法将预先构建的数据模型与所述特征字段进行匹配,得到匹配结果,包括:
13、按照预设匹配顺序确定当前待匹配的数据类型;
14、基于所述待匹配的数据类型对应的处理算法,对所述待匹配的数据类型对应的特征字段和预先构建的数据模型进行匹配,得到对应的匹配结果。
15、可选的,所述基于所述待匹配的数据类型对应的处理算法,对所述待匹配的数据类型对应的特征字段和预先构建的数据模型进行匹配,得到对应的匹配结果,包括:
16、若确定当前待匹配的数据类型为第一数据类型、第二数据类型或第三数据类型,确定其对应的处理算法为第一相似度算法;
17、利用所述第一相似度算法对所述特征字段和预先构建的数据模型进行匹配,得到对应的第一子匹配结果,所述第一子匹配结果属于所述匹配结果;
18、若确定当前待匹配的数据类型为第四数据类型,确定其对应的处理算法为第二相似度算法;
19、利用所述第二相似度算法对所述特征字段和预先构建的数据模型进行匹配,得到对应的第二子匹配结果,所述第二子匹配结果属于所述匹配结果。
20、可选的,利用所述第一相似度算法对所述特征字段和预先构建的数据模型进行匹配,得到对应的第一子匹配结果,包括:
21、若所述第一相似度算法为频次相似度算法,获取所述预先构建的数据模型中与所述特征字段的类型相同的各个字段的历史特征向量;
22、利用所述频次相似度算法计算所述特征字段对应的第一向量分别与每一字段的历史特征向量之间的对应余弦值;
23、基于所述余弦值确定对应的第一子匹配结果。
24、可选的,利用所述第一相似度算法对所述特征字段和预先构建的数据模型进行匹配,得到对应的第一子匹配结果,包括:
25、若所述第一相似度算法为释义相似度算法,获取所述预先构建的数据模型中与所述特征字段的类型相同的各个字段的第一释义;
26、利用所述释义相似度算法计算所述特征字段对应的第二释义的字符串分别与所述第一释义字符串之间的编辑距离;
27、基于所述编辑距离确定对应的第二子匹配结果。
28、可选的,在接收到获取元数据信息之后,还包括:
29、基于知识库对所述元数据进行进行识别,得到识别结果,所述知识库中存储有历史元数据信息对应的映射关系;
30、若所述识别结果指示存在所述元数据信息与历史元数据信息的相似度高于预设阈值的历史元数据信息,从知识库中调用所述历史元数据信息对应的映射关系作为所述元数据信息的映射关系;
31、若所述识别结果指示不存在所述元数据信息与历史元数据信息的相似度高于预设阈值的历史元数据信息,执行对所述元数据信息进行分析,确定不同数据类型的特征字段的步骤。
32、本发明实施例第二方面示出了一种数据处理装置,所述装置包括:
33、获取单元,用于获取元数据信息;
34、处理单元,用于对所述元数据信息进行分析,确定不同数据类型的特征字段;
35、匹配单元,用于针对每一数据类型的特征字段,利用所述数据类型对应的处理算法将预先构建的数据模型与所述特征字段进行匹配,得到匹配结果;
36、构建单元,用于根据所述匹配结果构建与所述元数据信息对应的映射关系。
37、本发明实施例第三方面示出了一种电子设备,所述电子设备用于运行程序,其中,所述程序运行时执行如本发明实施例第一方面示出的数据处理方法。
38、本发明实施例第四方面示出了一种存储介质,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如本发明实施例第一方面示出的数据处理方法。
39、基于上述本发明实施例提供的一种数据处理方法、装置、电子设备及存储介质,所述方法包括:获取元数据信息;获取元数据信息;对所述元数据信息进行分析,确定不同数据类型的特征字段;针对每一数据类型的特征字段,利用所述数据类型对应的处理算法将预先构建的数据模型与所述特征字段进行匹配,得到匹配结果;根据所述匹配结果构建与所述元数据信息对应的映射关系。本发明通过元数据信息分析,字段匹配,映射构建实现数据自动映射,不需要人工协助,且在字段匹配时,通过不同数据类型对应的相似度算法进行匹配,以增加映射准确率以及映射效率,从而避免出现映射失败或者出错的问题。
1.一种数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,对所述元数据信息进行分析,确定不同数据类型的特征字段,包括:
3.根据权利要求1所述的方法,其特征在于,所述针对每一数据类型的特征字段,利用所述数据类型对应的处理算法将预先构建的数据模型与所述特征字段进行匹配,得到匹配结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述待匹配的数据类型对应的处理算法,对所述待匹配的数据类型对应的特征字段和预先构建的数据模型进行匹配,得到对应的匹配结果,包括:
5.根据权利要求4所述的方法,其特征在于,利用所述第一相似度算法对所述特征字段和预先构建的数据模型进行匹配,得到对应的第一子匹配结果,包括:
6.根据权利要求4所述的方法,其特征在于,利用所述第一相似度算法对所述特征字段和预先构建的数据模型进行匹配,得到对应的第一子匹配结果,包括:
7.根据权利要求1所述的方法,其特征在于,在接收到获取元数据信息之后,还包括:
8.一种数据处理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备用于运行程序,其中,所述程序运行时执行如权利要求1-7中任一所述的数据处理方法。
10.一种存储介质,其特征在于,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一所述的数据处理方法。