本发明涉及工业信息和数据处理,具体涉及一种港口运维业务数字化信息处理方法。
背景技术:
1、工业港口在运行过程中需要对多类型的港口运维数据进行采集,通过港口运维数据的分析和数字化信息处理,能够支持工业港口智能化决策,促进工业港口行业的可持续发展。然而港口运维数据的数据量庞大,在对港口运维数据进行数据存储空间占用较高。
2、相关技术中使用压缩算法对港口运维数据进行压缩存储,这种方式下,由于港口运维数据本身数据波动范围较小,但波动频率较大,在进行数据压缩时,会占用较多的存储空间,使得数据压缩效率与存取效率较低,不利于后续对优化压缩结果进行调用和提取,对港口运维数据的数字化、智能化存储处理效果不足。
技术实现思路
1、为了解决相关技术在进行数据压缩时,占用较多的存储空间,使得数据压缩效率与存取效率较低,不利于后续对优化压缩结果进行调用和提取,对港口运维数据的数字化、智能化存储处理效果不足技术的问题,本发明提供一种港口运维业务数字化信息处理方法,所采用的技术方案具体如下:
2、本发明提出了一种港口运维业务数字化信息处理方法,方法包括:
3、获取至少两个类型的港口运维数据,其中,所述港口运维数据中包括运维记录字段;以每个运维记录字段作为一个特征维度,构建多维样本空间,确定所述港口运维数据在所述多维样本空间中的主成分方向;
4、根据同一类型的港口运维数据中任意两个运维记录字段的字符差异,确定两个运维记录字段的相似程度;将任意两个运维记录字段在所述多维样本空间所对应的维度平面作为待测平面,根据所述主成分方向与所述待测平面的夹角和两个运维记录字段的相似程度,确定两个运维记录字段间的字段关联度;
5、根据相距最近的两个运维记录字段的字段关联度,对运维记录字段进行组合,得到关联组;根据同一关联组中两个运维记录字段间的字段关联度和所有运维记录字段在所述港口运维数据中的位置,确定所述关联组的数据误差可接受程度;根据所述数据误差可接受程度对所述关联组中的运维记录字段进行一致化调整,得到调整字段;
6、使用所述调整字段替换所述港口运维数据中对应的运维记录字段,得到调整运维数据;对所述调整运维数据进行压缩得到优化压缩结果。
7、进一步地,所述根据同一类型的港口运维数据中任意两个运维记录字段的字符差异,确定两个运维记录字段的相似程度,包括:
8、基于二进制编码算法,将每一运维记录字段编码为二进制字段,对任意两个运维记录字段的二进制字段中相同位数进行异或运算,得到二进制差值;
9、将所述二进制差值中为0的位数作为相似位数,计算所述相似位数和所述二进制字段的总位数的比值作为两个运维记录字段的相似程度。
10、进一步地,所述根据所述主成分方向与所述待测平面的夹角和两个运维记录字段的相似程度,确定两个运维记录字段间的字段关联度,包括:
11、基于余弦公式计算所述主成分方向与所述待测平面的夹角的余弦值,得到角度相似因子;
12、根据所述角度相似因子与两个运维记录字段的相似程度,确定两个运维记录字段间的字段关联度。
13、进一步地,所述根据所述角度相似因子与两个运维记录字段的相似程度,确定两个运维记录字段间的字段关联度,包括:
14、计算所述角度相似因子与所述相似程度的乘积的归一化值,得到两个运维记录字段间的字段关联度。
15、进一步地,所述根据相距最近的两个运维记录字段的字段关联度,对运维记录字段进行组合,得到关联组,包括:
16、将相邻且字段关联度大于等于预设关联阈值的运维记录字段进行组合,得到运维组;
17、将运维组外相距最近的运维记录字段作为待加入字段;
18、在所述待加入字段与所述运维组内所有运维记录字段的字段关联度均大于等于预设关联阈值时,将待加入字段补充至运维组中,对所述运维组进行更新,得到新的运维组;
19、否则,将运维组作为关联组,遍历所有运维记录字段,得到所有关联组,其中,不同关联组内的运维记录字段不重叠。
20、进一步地,所述根据同一关联组中两个运维记录字段间的字段关联度和所有运维记录字段在所述港口运维数据中的位置,确定所述关联组的数据误差可接受程度,包括:
21、将关联组中任意两个不同的运维记录字段作为第一分析段和第二分析段;
22、将所述第一分析段和所述第二分析段间隔的运维记录字段的数量进行反比例归一化处理得到距离影响权值;
23、计算所述第一分析段和所述第二分析段的距离影响权值与字段关联度乘积的归一化值,得到误差接受因子;
24、根据所述关联组中任意两个不同的运维记录字段的误差接受因子,确定所述关联组的数据误差可接受程度。
25、进一步地,所述根据所述关联组中任意两个不同的运维记录字段的误差接受因子,确定所述关联组的数据误差可接受程度,包括:
26、计算所述第一分析段与所述关联组中其他所有运维记录字段的误差接受因子的均值作为所述第一分析段的段误差系数;
27、计算所述关联组中所有运维记录字段的段误差系数均值的归一化值,得到所述关联组的数据误差可接受程度。
28、进一步地,所述根据所述数据误差可接受程度对所述关联组中的运维记录字段进行一致化调整,得到调整字段,包括:
29、在所述关联组的数据误差可接受程度大于预设可接受程度阈值时,计算所述关联组中的运维记录数据的均值,得到数据均值,并将所述运维记录数据调整为数据均值,得到调整字段。
30、进一步地,所述对所述调整运维数据进行压缩得到优化压缩结果,包括:
31、基于lz77算法对所述调整运维数据进行压缩编码处理,并将压缩编码得到的编码值作为优化压缩结果。
32、进一步地,所述确定所述港口运维数据在所述多维样本空间中的主成分方向,包括:
33、基于主成分分析算法,对所述港口运维数据进行主成分分析,得到在所述多维样本空间中的主成分方向。
34、本发明具有如下有益效果:
35、本发明通过获取港口运维数据,并根据港口运维数据中运维记录字段的数值分布确定主成分方向,而后,根据港口运维数据中运维记录字段的字符差异确定相似程度,结合主成分方向和相似程度,确定两个运维记录字段间的字段关联度,其中,字段关联度为两个运维记录字段间的关联程度,该值越大,表征两个运维记录字段关联程度越高,其数值相似性越高。之后,根据字段关联度确定关联组,使得相似较高的数据聚集在一起,结合同一关联组中运维记录字段的字段关联度和位置,确定关联组的数据误差可接受程度,数据误差可接受程度即为关联组中运维记录字段中数据变化的影响程度,该值越高,也即数据变化影响越小,越能够进行数据的修改,由此,对关联组进行一致化调整,得到调整字段,并获得调整运维数据,调整运维数据由于是经过数据一致化调整的数据,数据的重复性较高,便于后续对调整运维数据进行编码压缩,得到优化压缩结果。本发明通过数据一致性调整的方式,将相似性较高且误差影响较小的字段进行一致性调整,从而提升调整运维数据的重复性,使得在对调整运维数据进行压缩时,减少优化压缩结果存储所需的空间,进一步提升了数据压缩效率与存取效率,便于后续对优化压缩结果进行调用和提取,实现港口运维数据的数字化、智能化存储处理。
1.一种港口运维业务数字化信息处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种港口运维业务数字化信息处理方法,其特征在于,所述根据同一类型的港口运维数据中任意两个运维记录字段的字符差异,确定两个运维记录字段的相似程度,包括:
3.如权利要求1所述的一种港口运维业务数字化信息处理方法,其特征在于,所述根据所述主成分方向与所述待测平面的夹角和两个运维记录字段的相似程度,确定两个运维记录字段间的字段关联度,包括:
4.如权利要求3所述的一种港口运维业务数字化信息处理方法,其特征在于,所述根据所述角度相似因子与两个运维记录字段的相似程度,确定两个运维记录字段间的字段关联度,包括:
5.如权利要求1所述的一种港口运维业务数字化信息处理方法,其特征在于,所述根据相距最近的两个运维记录字段的字段关联度,对运维记录字段进行组合,得到关联组,包括:
6.如权利要求1所述的一种港口运维业务数字化信息处理方法,其特征在于,所述根据同一关联组中两个运维记录字段间的字段关联度和所有运维记录字段在所述港口运维数据中的位置,确定所述关联组的数据误差可接受程度,包括:
7.如权利要求6所述的一种港口运维业务数字化信息处理方法,其特征在于,所述根据所述关联组中任意两个不同的运维记录字段的误差接受因子,确定所述关联组的数据误差可接受程度,包括:
8.如权利要求1所述的一种港口运维业务数字化信息处理方法,其特征在于,所述根据所述数据误差可接受程度对所述关联组中的运维记录字段进行一致化调整,得到调整字段,包括:
9.如权利要求1所述的一种港口运维业务数字化信息处理方法,其特征在于,所述对所述调整运维数据进行压缩得到优化压缩结果,包括:
10.如权利要求1所述的一种港口运维业务数字化信息处理方法,其特征在于,所述确定所述港口运维数据在所述多维样本空间中的主成分方向,包括: