云存储的数据去重方法及系统与流程

xiaoxiao5天前  13


本技术涉及云存储,具体涉及一种云存储的数据去重方法及一种云存储的数据去重系统。


背景技术:

1、云存储技术作为云计算的核心组成部分,在当今数字化时代正面临着前所未有的数据爆炸式增长挑战。随着大数据、物联网和移动计算等领域的迅猛发展,用户对云存储服务的需求呈现出持续增长的趋势。然而,随之而来的问题是大量重复数据的存在,这不仅导致了存储空间的浪费,还影响了数据传输的效率和整体系统性能。数据爆炸式增长是当前云存储技术所面临的现实挑战之一。随着用户生成的数据量不断增加,云存储服务提供商需要应对海量数据的存储和管理。大数据、物联网和移动计算等新兴技术的普及,进一步推动了数据的快速增长,使得云存储服务在数据处理和存储方面面临着前所未有的压力。用户对云存储服务的需求不断增长,这反映了云计算在现代社会中的重要性和普及程度。企业和个人用户都倾向于将数据存储在云端,以便随时随地访问和共享。然而,随着数据量的增加,重复数据的存在成为了一个不容忽视的问题。重复数据不仅占用了宝贵的存储空间,还增加了数据传输的负担,降低了系统的整体效率和性能。

2、存储空间的浪费是由重复数据造成的主要问题之一。当用户上传大量数据时,其中往往包含大量相似或完全相同的内容,这导致了存储空间的不必要占用。如果不及时清理和处理这些重复数据,将会对云存储系统的可用空间和性能造成负面影响。因此,有效地识别和处理重复数据成为了优化云存储服务的重要一环。除了存储空间的浪费外,重复数据还会影响数据传输的效率。在数据传输过程中,如果存在大量重复数据,将增加数据传输的时间和成本。此外,重复数据的存在也会增加数据冗余,降低数据传输的速度和效率。因此,减少重复数据的存储和传输对于提升云存储服务的性能和用户体验至关重要。

3、针对云存储的数据重复问题,出现了一些云存储去重技术,但是当前的云存储去重技术主要依赖于数据指纹和内容比较,这些方法在处理大规模数据时存在效率低下和资源消耗大的问题。针对该问题,需要提出一种新的云存储的数据去重方案。


技术实现思路

1、本技术实施例的目的是提供一种云存储的数据去重方法及系统,以解决现有云存储方案存在的效率低和资源消耗大的问题。

2、为了实现上述目的,本技术第一方面提供一种云存储的数据去重方法,所述方法由客户端执行,所述客户端与云存储端通信连接,所述方法包括:识别待上传数据,并计算待上传数据的整体信息摘要,将所述整体信息摘要发送到云存储端;回收云存储端的查询结果,所述查询结果为云存储端基于所述整体信息摘要与数据存储库中的已存信息摘要之间的匹配关系查询结果;基于所述查询结果与云存储端协商选定对应的数据存储方案,并基于选定的数据存储方案确定目标存储数据;将所述目标存储数据上传至云存储端,以供云存储端完成对应目标存储数据存储

3、在本技术实施例中,所述识别待上传数据,并计算待上传数据的整体信息摘要,包括:将识别待上传数据作为原始数据;将所述原始数据最作为作为sm3算法的输入,基于sm3算法填充规则,执行所述原始数据填充,获得目标长度的原始数据;将目标常数的原始数据分城预设大小的消息块,并对每个消息块执行压缩函数处理,获得处理后数据;对处理后数据执行迭代压缩,获得数据信息摘要,作为待上传数据的整体信息摘要。

4、在本技术实施例中,所述基于所述查询结果与云存储端协商选定对应的数据存储方案,包括:若数据存储库中存在与所述整体信息摘要匹配的已存信息摘要,则对应的数据存储方案为仅引用方案;若数据存储库中不存在与所述整体信息摘要匹配的已存信息摘要,则对应的数据存储方案为分块存储方案。

5、在本技术实施例中,所述仅引用方案的规则为:向云存储端确定执行仅引用方案;所述云存储端被配置为:基于所述仅引用方案,在数据存储库中对应匹配的已存信息摘要的存储文件处增加一条引用;完成引用增加后,反馈对应的数据存储完整信号到客户端。

6、在本技术实施例中,所述分块存储方案的规则为:将原始数据拆分为多个数据块,每个数据块的大小均不大于预设数据块大小阈值;基于sm3算法分别计算各数据块的信息摘要;将各数据块的信息摘要发送到云存储端,并回收云存储端的各数据块的分块查询结果,所述分块查询结果为云存储端基于各数据块信息摘要与数据存储库中的已存信息摘要之间的匹配关系查询结果;基于各数据块的分块查询结果执行各数据块分类,获得已存数据块和未知数据块两种类型的数据块若数据块的类型为已存数据块,则针对当前数据块执行仅引用方案;若数据块的类型为未知数据块,则将该数据块上传至云存储端,以供云存储端完成对应数据块存储。

7、本技术第二方面提供一种云存储的数据去重方法,所述方法由云存储端执行,所述云存储与客户端通信连接,所述方法包括:采集客户端计算并上传的待上传数据的整体信息摘要;基于所述整体信息摘要在数据存储库中进行已存信息摘要匹配查询,并将查询结果反馈到客户端;基于所述查询结果与客户端协商选定对应的数据存储方案,并基于选定的数据存储方案确定目标存储数据;回收客户端上传的目标存储数据,并执行对应目标存储数据存储。

8、在本技术实施例中,所述客户端执行待上传数据的整体信息摘要的计算规则为:将识别待上传数据作为原始数据;将所述原始数据最作为sm3算法的输入,基于sm3算法填充规则,执行所述原始数据填充,获得目标长度的原始数据;将目标常数的原始数据分城预设大小的消息块,并对每个消息块执行压缩函数处理,获得处理后数据;对处理后数据执行迭代压缩,获得数据信息摘要,作为待上传数据的整体信息摘要。

9、在本技术实施例中,所述基于所述查询结果与客户端协商选定对应的数据存储方案,包括:若数据存储库中存在与所述整体信息摘要匹配的已存信息摘要,则对应的数据存储方案为仅引用方案;若数据存储库中不存在与所述整体信息摘要匹配的已存信息摘要,则对应的数据存储方案为分块存储方案。

10、在本技术实施例中,所述仅引用方案的规则为:基于所述仅引用方案,在数据存储库中对应匹配的已存信息摘要的存储文件处增加一条引用;完成引用增加后,反馈对应的数据存储完整信号到客户端。

11、在本技术实施例中,所述分块存储方案的规则为:回收基于客户端上传的各数据块的信息摘要;其中,各数据块的信息摘要的计算规则为:客户端将原始数据拆分为多个数据块,每个数据块的大小均不大于预设数据块大小阈值,基于sm3算法分别计算各数据块的信息摘要;基于各数据块信息摘要在数据存储库中进行已存信息摘要匹配关系查询,获得各数据块的分块查询结果;将各数据块的分块查询结果发送到客户端,以供客户端基于各数据块的分块查询结果执行各数据块分类,获得已存数据块和未知数据块两种类型的数据块;若数据块的类型为已存数据块,则针对当前数据块执行仅引用方案;若数据块的类型为未知数据块,则回收客户端上传的对应数据块,并执行对应数据块存储。

12、本技术第三方面提供一种云存储的数据去重系统,所述系统包括互相通信连接的客户端和云存储端;所述客户端和所述云存储端用于执行上述的云存储的数据去重方法。

13、本技术第四方面提供一种处理器,被配置成执行上述的云存储的数据去重方法。

14、本技术第五方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的云存储的数据去重方法。

15、本技术第六方面提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述的云存储的数据去重方法。

16、通过上述技术方案,本发明方案基于整体信息摘要判断云存储库中是否存在已存储的历史文件,并基于不同的匹配关系执行差异化的存储方案,以便于针对已存在数据时,避免上传重复数据,在数据传输之前便完成数据重复状态判断。避免了重复数据上传占用通信资源,减少损耗,并提高了去重效率。

17、本技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。


技术特征:

1.一种云存储的数据去重方法,其特征在于,所述方法由客户端执行,所述客户端与云存储端通信连接,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述识别待上传数据,并计算待上传数据的整体信息摘要,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述查询结果与云存储端协商选定对应的数据存储方案,包括:

4.根据权利要求3所述的方法,其特征在于,所述仅引用方案的规则为:

5.根据权利要求3所述的方法,其特征在于,所述分块存储方案的规则为:

6.一种云存储的数据去重方法,其特征在于,所述方法由云存储端执行,所述云存储与客户端通信连接,所述方法包括:

7.根据权利要求6所述的方法,其特征在于,所述客户端执行待上传数据的整体信息摘要的计算规则为:

8.根据权利要求6所述的方法,其特征在于,所述基于所述查询结果与客户端协商选定对应的数据存储方案,包括:

9.根据权利要求8所述的方法,其特征在于,所述仅引用方案的规则为:

10.根据权利要求8所述的方法,其特征在于,所述分块存储方案的规则为:

11.一种云存储的数据去重系统,其特征在于,所述系统包括互相通信连接的客户端和云存储端;

12.一种处理器,其特征在于,被配置成执行根据权利要求1至10中任意一项所述的云存储的数据去重方法。

13.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至10中任一项所述的云存储的数据去重方法。

14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的云存储的数据去重方法。


技术总结
本申请实施例提供一种云存储的数据去重方法及系统,属于云存储技术领域。所述方法由客户端执行,所述客户端与云存储端通信连接,所述方法包括:识别待上传数据,并计算待上传数据的整体信息摘要,将所述整体信息摘要发送到云存储端;回收云存储端的查询结果,所述查询结果为云存储端基于所述整体信息摘要与数据存储库中的已存信息摘要之间的匹配关系查询结果;基于所述查询结果与云存储端协商选定对应的数据存储方案,并基于选定的数据存储方案确定目标存储数据;将所述目标存储数据上传至云存储端,以供云存储端完成对应目标存储数据存储。本发明方案解决了现有云存储方案存在的效率低和资源消耗大的问题。

技术研发人员:刘磊
受保护的技术使用者:中国建设银行股份有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)