本发明涉及数据清洗,尤其涉及一种数据清洗方法、系统、终端及计算机可读存储介质。
背景技术:
1、数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
2、然后,目前的数据清洗通常需要消耗大量的时间和精力,尤其在处理大量数据或数据质量较差的情况下,数据清洗效率不高;而当数据清洗过程过于严格时,可能会删除一些看似不重要的数据,从而导致数据完整性被破坏。
3、因此,现有技术还有待于改进和发展。
技术实现思路
1、本发明的主要目的在于提供一种数据清洗方法、系统、终端及计算机可读存储介质,旨在解决现有技术中对数据清洗时资源消耗大,以及对大量数据进行清洗时可能删除重要数据,从而导致数据完整性被破坏的问题。
2、为实现上述目的,本发明提供一种数据清洗方法,所述数据清洗方法包括如下步骤:
3、创建多个边缘节点,将用户输入的多个清洗规则添加到多个所述边缘节点,并连接所有所述边缘节点,生成数据清洗网络模型;
4、获取用户输入的多个进程数据并分析,得到对应的数据属性,并将所有所述进程数据输入到所述数据清洗网络模型进行数据清洗,输出多个目标数据;
5、分析所有所述目标数据,得到对应的目标数据属性,并将所有所述目标数据属性与对应的所述数据属性进行对比,得到数据清洗结果。
6、可选地,所述的数据清洗方法,其中,所述创建多个边缘节点,将用户输入的多个清洗规则添加到多个所述边缘节点,并连接所有所述边缘节点,生成数据清洗网络模型,具体包括:
7、接收用户输入的多个清洗规则,根据所述清洗规则的数量创建多个边缘节点,并将所有所述清洗规则分别添加到所有所述边缘节点中;
8、连接所有所述边缘节点,构建数据清洗网络模型。
9、可选地,所述的数据清洗方法,其中,所述连接所有所述边缘节点,构建数据清洗网络模型,之后还包括:
10、当接收到用户输入的修改指令后,根据所述修改指令更新预设数量的所述清洗规则,得到所述预设数量的目标清洗规则;
11、将所述预设数量的所述清洗规则对应的边缘节点删除,并创建所述预设数量的目标边缘节点;
12、将所述预设数量的所述目标清洗规则分别添加到所有所述目标边缘节点中,并将所有所述目标边缘节点与所述数据清洗网络模型中的其他所述边缘节点连接,更新所述数据清洗网络模型。
13、可选地,所述的数据清洗方法,其中,所述获取用户输入的多个进程数据并分析,得到对应的数据属性,并将所有所述进程数据输入到所述数据清洗网络模型进行数据清洗,输出多个目标数据,具体包括:
14、获取用户输入的多个进程数据,分析所有所述进程数据,得到对应的数据属性;
15、将所有所述进程数据输入到所述数据清洗网络模型,所述数据清洗网络模型根据每个所述数据属性,选择不同的所述清洗规则处理所述进程数据,输出对应的所述目标数据。
16、可选地,所述的数据清洗方法,其中,所述将所有所述进程数据输入到所述数据清洗网络模型,所述数据清洗网络模型根据每个所述数据属性,选择不同的所述清洗规则处理所述进程数据,输出对应的所述目标数据,之后还包括:
17、对所有所述清洗规则进行分类,得到需要对所述进程数据进行过滤的第一数量的所述清洗规则和不需要对所述进程数据进行过滤的第二数量的所述清洗规则;
18、若所述目标数据的数量与所述第二数量不匹配,则生成第一预警信息,并重新将所有所述进程数据输入到所述数据清洗网络模型进行数据清洗。
19、可选地,所述的数据清洗方法,其中,所述分析所有所述目标数据,得到对应的目标数据属性,并将所有所述目标数据属性与对应的所述数据属性进行对比,得到数据清洗结果,具体包括:
20、若所述目标数据的数量与所述第二数量匹配,则分析所有所述目标数据,得到对应的目标数据属性;
21、对比所有所述数据属性与所述目标数据对应的所述目标数据属性,得到数据清洗结果。
22、可选地,所述的数据清洗方法,其中,所述对比所有所述数据属性与所述目标数据对应的所述目标数据属性,得到数据清洗结果,具体包括:
23、分析所有所述数据属性与所述目标数据对应的所述目标数据属性,得到每个所述数据属性与对应的所述目标数据属性之间的匹配度;
24、若所述匹配度低于预设值,则生成第二预警信息,并重新将所有所述进程数据输入到所述数据清洗网络模型进行数据清洗。
25、此外,为实现上述目的,本发明还提供一种数据清洗系统,其中,所述数据清洗系统包括:
26、模型创建模块,用于创建多个边缘节点,将用户输入的多个清洗规则添加到多个所述边缘节点,并连接所有所述边缘节点,生成数据清洗网络模型;
27、数据清洗模块,用于获取用户输入的多个进程数据并分析,得到对应的数据属性,并将所有所述进程数据输入到所述数据清洗网络模型进行数据清洗,输出多个目标数据;
28、结果分析模块,用于分析所有所述目标数据,得到对应的目标数据属性,并将所有所述目标数据属性与对应的所述数据属性进行对比,得到数据清洗结果。
29、此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据清洗程序,所述数据清洗程序被所述处理器执行时实现如上所述的数据清洗方法的步骤。
30、此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有数据清洗程序,所述数据清洗程序被处理器执行时实现如上所述的数据清洗方法的步骤。
31、本发明中,创建多个边缘节点,将用户输入的多个清洗规则添加到多个所述边缘节点,并连接所有所述边缘节点,生成数据清洗网络模型;获取用户输入的多个进程数据并分析,得到对应的数据属性,并将所有所述进程数据输入到所述数据清洗网络模型进行数据清洗,输出多个目标数据;分析所有所述目标数据,得到对应的目标数据属性,并将所有所述目标数据属性与对应的所述数据属性进行对比,得到数据清洗结果。本发明通过自定义清洗规则并创建数据清洗网络模型,提高对数据清洗过程的可操作性,并且能够使得用户根据需求对数据清洗网络模型进行更改,提高了用户的使用体验和对数据清洗的效率。
1.一种数据清洗方法,其特征在于,所述数据清洗方法包括:
2.根据权利要求1所述的数据清洗方法,其特征在于,所述创建多个边缘节点,将用户输入的多个清洗规则添加到多个所述边缘节点,并连接所有所述边缘节点,生成数据清洗网络模型,具体包括:
3.根据权利要求2所述的数据清洗方法,其特征在于,所述连接所有所述边缘节点,构建数据清洗网络模型,之后还包括:
4.根据权利要求1所述的数据清洗方法,其特征在于,所述获取用户输入的多个进程数据并分析,得到对应的数据属性,并将所有所述进程数据输入到所述数据清洗网络模型进行数据清洗,输出多个目标数据,具体包括:
5.根据权利要求4所述的数据清洗方法,其特征在于,所述将所有所述进程数据输入到所述数据清洗网络模型,所述数据清洗网络模型根据每个所述数据属性,选择不同的所述清洗规则处理所述进程数据,输出对应的所述目标数据,之后还包括:
6.根据权利要求5所述的数据清洗方法,其特征在于,所述分析所有所述目标数据,得到对应的目标数据属性,并将所有所述目标数据属性与对应的所述数据属性进行对比,得到数据清洗结果,具体包括:
7.根据权利要求6所述的数据清洗方法,其特征在于,所述对比所有所述数据属性与所述目标数据对应的所述目标数据属性,得到数据清洗结果,具体包括:
8.一种数据清洗系统,其特征在于,所述数据清洗系统包括:
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据清洗程序,所述数据清洗程序被所述处理器执行时实现如权利要求1-7任一项所述的数据清洗方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有数据清洗程序,所述数据清洗程序被处理器执行时实现如权利要求1-7任一项所述的数据清洗方法的步骤。
