一种文件数据分级存储方法、装置、介质及电子设备与流程

xiaoxiao2月前  14


本发明属于数据存储,具体涉及一种文件数据分级存储方法、装置、介质及电子设备。


背景技术:

1、随着信息化时代的到来,企业和组织在日常运营过程中会产生大量的文件,这些文件的重要性、访问频率等都有所不同。传统的单一存储系统无法满足不同文件的需求,例如,对高频率访问和非常重要的文件需要更快的存取速度和更高的安全保障,而对低频率访问和非重要的文件则可以接受较慢的存取速度和较低的安全保障。

2、且随着近几年的硬件技术发展中新型存储设备不断出现,例如satassd、pciessd等,可以提供高性能的数据存储和数据访问,但其价格较高。相对而言,传统的硬盘性能较差,但价格便宜。另外,许多针对大规模存储系统的研究表明,在所有文件中,只有少量的文件每天使用,而大部分文件几乎不被使用,即文件的访问具有局部性。因此,如果将所有的文件都存储在高性能的存储设备上,虽然可以保证文件的高性能存储和访问,但由于数据量巨大,会导致存储成本急剧上升;而如果将所有文件都存储在大容量的存储设备上,则不能保证系统的整体性能。由于考虑因素较少,无法充分发挥分级存储效果,尤其是当业务负载较高时不利于文件数据分级迁移带来的资源消耗,影响存储设备正常业务访问。因此,急需一种面向多个存储系统的文件的分级存储方法及装置来解决上述问题。


技术实现思路

1、本发明的目的在于针对上述问题,提出一种文件数据分级存储方法、装置、介质及电子设备,能够提高访问速度,降低访问延时,改善用户体验,避免浪费昂贵的存储资源,提高整体系统利用效率和可扩展性。

2、为实现上述目的,本发明所采取的技术方案为:

3、本发明提出的一种文件数据分级存储方法、装置、介质及电子设备,包括如下步骤:

4、s1、配置分级策略,分级策略包括至少两级存储设备,且存储设备的等级越高性能越好;

5、s2、响应数据访问请求,并记录数据访问日志;

6、s3、采集并解析数据访问日志,统计文件访问日志;

7、s4、分析文件访问日志中的访问特征,根据访问特征基于分级策略决策文件数据的预设迁移策略,访问特征包括访问热度、访问时间、访问次数、每秒读写操作次数和单位时间内的读写数据量至少其一,预设迁移策略包括待迁移文件列表和对应的目标存储设备;

8、s5、根据预设迁移策略和预设迁移时间窗口,启动迁移任务按照预设迁移策略进行文件数据的迁移,并在迁移过程中监控存储设备的负载状态,根据负载状态动态调整文件数据的迁移速率,完成文件数据的分级存储,文件数据的迁移速率通过增缩文件数据并发迁移的线程数或增缩文件数据单位时间内迁移读写请求的次数进行调整。

9、优选地,分级策略包括两级存储设备,分别记为第一级存储设备和第二级存储设备,具体如下:

10、当按照存储性能进行划分时,为文件预设第一访问阈值,第一级存储设备采用nvme ssd作为存储介质,用于存储大于或等于第一访问阈值的文件,第二级存储设备采用hdd作为存储介质,用于存储小于第一访问阈值的文件;

11、当按照访问热度进行划分时,为文件预设第一热度阈值,若文件的访问热度大于或等于第一热度阈值,则存储于第一级存储设备,若文件的访问热度小于第一热度阈值,则存储于第二级存储设备,若文件的存储位置不正确,则表明文件需要进行迁移,加入待迁移文件列表等待迁移;

12、当按照每秒读写操作次数和带宽约束进行划分时,为小文件预设第一ops阈值,若小文件的每秒读写操作次数大于或等于第一ops阈值,则存储于第一级存储设备,若小文件的每秒读写操作次数小于第一ops阈值,则存储于第二级存储设备,若小文件的存储位置不正确,则表明该文件需要进行迁移,加入待迁移文件列表等待迁移;为大文件预设第一带宽阈值,若大文件在单位时间内的读写数据量大于或等于第一带宽阈值,则存储于第一级存储设备,若大文件在单位时间内的读写数据量小于第一带宽阈值,则大文件存储于第二级存储设备,若大文件的存储位置不正确,则表明该文件需要进行迁移,加入待迁移文件列表等待迁移,小文件为小于第一分类阈值的文件,大文件为大于或等于第一分类阈值的文件;

13、当按照距离最后一次访问时间的间隔进行划分时,预设第一过期归档时间阈值,若文件在第一过期归档时间阈值内被访问,则存储于第一级存储设备,若文件在第一过期归档时间阈值内未被访问,则存储于第二级存储设备,若文件的存储位置不正确,则表明文件需要进行迁移,加入待迁移文件列表等待迁移;

14、或分级策略包括三级存储设备,分别记为第一级存储设备、第二级存储设备和第三级存储设备,具体如下:

15、当按照存储性能进行划分时,为文件预设第二访问阈值和第三访问阈值,且第三访问阈值大于第二访问阈值,第一级存储设备采用nvme ssd作为存储介质,用于存储大于或等于第三访问阈值的文件,第二级存储设备采用sas ssd作为存储介质,用于存储小于第三访问阈值但大于或等于第二访问阈值的文件,第三级存储设备采用hdd作为存储介质,用于存储小于第二访问阈值的文件;

16、当按照访问热度进行划分时,为文件预设第二热度阈值和第三热度阈值,且第三热度阈值大于第二热度阈值,若文件的访问热度大于或等于第三热度阈值,则存储于第一级存储设备,若文件的访问热度小于第三热度阈值但大于或等于第二热度阈值,则存储于第二级存储设备,若小于第二热度阈值,则文件存储于第三级存储设备,若文件的存储位置不正确,则表明文件需要进行迁移,加入待迁移文件列表等待迁移;

17、当按照每秒读写操作次数和带宽约束进行划分时,为小文件预设第二ops阈值和第三ops阈值,且第三ops阈值大于第二ops阈值,若小文件的每秒读写操作次数大于或等于第三ops阈值,则存储于第一级存储设备,若小文件的每秒读写操作次数小于第三ops阈值但大于或等于第二ops阈值,则存储于第二级存储设备,若小文件的每秒读写操作次数小于第二ops阈值,则存储于第三级存储设备,若小文件的存储位置不正确,则表明该文件需要进行迁移,加入待迁移文件列表等待迁移;为大文件预设第二带宽阈值和第三带宽阈值,且第三带宽阈值大于第二带宽阈值,若大文件在单位时间内的读写数据量大于或等于第三带宽阈值,则存储于第一级存储设备,若大文件在单位时间内的读写数据量小于第三带宽阈值但大于或等于第二带宽阈值,则存储于第二级存储设备,若大文件在单位时间内的读写数据量小于第二带宽阈值,则大文件存储于第三级存储设备,若大文件的存储位置不正确,则表明该文件需要进行迁移,加入待迁移文件列表等待迁移,小文件为小于第一分类阈值的文件,大文件为大于或等于第一分类阈值的文件;

18、当按照距离最后一次访问时间的间隔进行划分时,预设第二过期归档时间阈值和第三过期归档时间阈值,且第三过期归档时间阈值大于第二过期归档时间阈值,若文件在第二过期归档时间阈值内被访问,则存储于第一级存储设备,若在第二过期归档时间阈值未被访问但在第三过期归档时间阈值内被访问,则文件存储于第二级存储设备,若文件在第三过期归档时间阈值内也未被访问,则文件存储于第三级存储设备,若文件的存储位置不正确,则表明文件需要进行迁移,加入待迁移文件列表等待迁移。

19、优选地,文件数据分级存储方法还包括:

20、当高级存储设备中的文件数据迁移至低级存储设备后,低级存储设备采用相同的文件命名方式和存储路径,高级存储设备保留文件的元数据信息,并修改文件属性信息中描述内容数据指向目标存储设备中迁移后的文件数据的存储地址;当低级存储设备中的文件数据迁移至高级存储设备后,删除低级存储设备中对应的文件数据,高级存储设备作为默认存储设备并用于响应数据访问请求,文件数据为用户业务透明的文件数据。

21、优选地,记录数据访问日志,具体如下:

22、s201、将数据访问日志记录到日志文件,且日志文件中记录的数据访问日志的格式包括访问时间、访问者、文件标识、访问类型和操作数据量,访问类型包括读取操作、写入操作、文件属性访问操作、非数据读写访问操作,且非数据读写访问操作的操作数据量按照固定数值计算;

23、s202、异步地,采集并汇聚数据访问日志,按照数据访问日志的格式进行解析,以文件标识为唯一索引将访问信息记录到日志数据库,若日志数据库已经存在该文件的索引,则对该文件进行递增访问次数、累加操作数据量和更新最后一次操作时间,访问信息包括访问时间、访问者、文件标识、访问类型和操作数据量;

24、s203、实时监听日志文件,当日志文件新增一条数据访问日志时进行实时读取,并返回执行步骤s202。

25、优选地,采集并解析数据访问日志,统计文件访问日志,具体如下:

26、步骤s301、在预设时间窗口采集数据访问日志,预设时间窗口以日或周为时间单位;

27、步骤s302、对采集到数据访问日志进行清洗,去除无效数据,无效数据为不包含访问类型的日志语句;

28、步骤s303、根据清洗后的数据访问日志,统计当前时间单位内文件的访问特征,所述访问特征中的访问热度,计算如下:

29、采用加权求和公式计算:

30、qi= mi/ ni;

31、或采用时间衰减公式计算:

32、qi= mi/ ni+ qi-1 * e -λ t;

33、其中,qi-1表示第i-1时间单位的访问热度,qi表示第i时间单位的访问热度,初始值为0,mi表示第i时间单位的访问次数,ni表示第i时间单位的操作数据总量,i为正整数,λ为衰减系数, t表示自文件首次被访问或被记录以来的时间, e表示自然对数的底数;

34、或采用神经网络模型计算,神经网络模型为马尔可夫模型或多层感知机;

35、步骤s304、将当前时间单位内文件的访问特征记录到日志数据库,并设置访问次数和操作数据总量均为零;

36、步骤s305、对日志数据库中的访问热度进行排序。

37、优选地,文件数据分级存储方法还包括如下步骤:

38、在根据负载状态动态调整文件数据的迁移速率,使得存储设备不陷入高负载状态后,还按照业务优先模式或迁移优先模式进行文件数据迁移,业务优先模式指在不影响业务访问的情况下进行文件数据迁移,迁移优先模式指以最大化利用存储资源进行文件数据迁移,存储资源包括处理器、内存至少其一。

39、优选地,负载状态包括cpu、内存、磁盘、访问操作数、带宽、时延的状态,且当至少其一超过对应预设阈值时,认为存储设备处于高负载状态,根据负载状态动态调整文件数据的迁移速率,使得存储设备不陷入高负载状态;增缩文件数据单位时间内迁移读写请求的次数采用令牌桶算法。

40、一种文件数据分级存储装置,包括配置模块、代理模块、统计模块、迁移决策模块和迁移控制模块,其中:

41、配置模块,用于配置分级策略;

42、代理模块,用于响应数据访问请求,并记录数据访问日志;

43、统计模块,用于采集并解析数据访问日志,统计文件访问日志;

44、迁移决策模块,用于分析文件访问日志中的访问特征,根据访问特征基于分级策略决策文件数据的预设迁移策略,访问特征包括访问热度、访问时间、访问次数、每秒读写操作次数和单位时间内的读写数据量,预设迁移策略包括待迁移文件列表和对应的目标存储设备;

45、迁移控制模块,用于根据预设迁移策略和预设迁移时间窗口,启动迁移任务按照预设迁移策略进行文件数据的迁移,并在迁移过程中监控存储设备的负载状态,根据负载状态动态调整文件数据的迁移速率,使得存储设备不陷入高负载状态,完成文件数据的分级存储,文件数据的迁移速率通过增缩文件数据并发迁移的线程数或增缩文件数据单位时间内迁移读写请求的次数进行调整。

46、一种文件数据分级存储介质,用于存储计算机程序,计算机程序被处理器执行时实现上述提及的任一文件数据分级存储方法。

47、一种文件数据分级存储电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器运行计算机程序时实现上述提及的任一文件数据分级存储方法。

48、与现有技术相比,本发明的有益效果为:

49、本技术在响应数据访问请求时,记录数据访问日志,采集并解析数据访问日志,分析访问特征,依据预设分级策略,决策文件数据是否迁移和迁移方向,根据预设迁移策略和迁移时间窗口,启动迁移任务按照决策完成数据的迁移,在迁移过程中监控存储设备的负载,根据负载高低调整数据迁移的性能限制,从而保持高效的存储管理;根据不同的分级策略,使得高频访问的文件被存储在高速存储设备上,提高了访问速度,降低了访问延时,从而改善用户体验,低频访问的文件采用低成本、高容量的存储设备上,避免浪费昂贵的存储资源,提高整体系统利用效率;并且能够管理和接入多种不同的数据存储系统,并且不依赖于数据存储的内部功能,提高系统的可扩展性。


技术特征:

1.一种文件数据分级存储方法,其特征在于:所述文件数据分级存储方法包括如下步骤:

2.如权利要求1所述的文件数据分级存储方法,其特征在于:所述分级策略包括两级存储设备,分别记为第一级存储设备和第二级存储设备,具体如下:

3.如权利要求1所述的文件数据分级存储方法,其特征在于:所述文件数据分级存储方法还包括:

4.如权利要求1所述的文件数据分级存储方法,其特征在于:所述记录数据访问日志,具体如下:

5.如权利要求4所述的文件数据分级存储方法,其特征在于:所述采集并解析数据访问日志,统计文件访问日志,具体如下:

6.如权利要求1所述的文件数据分级存储方法,其特征在于:所述文件数据分级存储方法还包括如下步骤:

7.如权利要求6所述的文件数据分级存储方法,其特征在于:所述负载状态包括cpu、内存、磁盘、访问操作数、带宽、时延的状态,且当至少其一超过对应预设阈值时,认为存储设备处于高负载状态,根据负载状态动态调整文件数据的迁移速率,使得存储设备不陷入高负载状态;所述增缩文件数据单位时间内迁移读写请求的次数采用令牌桶算法。

8.一种文件数据分级存储装置,其特征在于:所述文件数据分级存储装置包括配置模块、代理模块、统计模块、迁移决策模块和迁移控制模块,其中:

9.一种文件数据分级存储介质,其特征在于:所述文件数据分级存储介质用于存储计算机程序,所述计算机程序被处理器执行时实现上述权利要求1至7任一所述的文件数据分级存储方法。

10.一种文件数据分级存储电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时实现上述权利要求1至7任一所述的文件数据分级存储方法。


技术总结
本发明公开了一种文件数据分级存储方法、装置、介质及电子设备,包括:配置分级策略;响应数据访问请求,并记录数据访问日志;采集并解析数据访问日志,统计文件访问日志;分析文件访问日志中的访问特征,根据访问特征基于分级策略决策文件数据的预设迁移策略,预设迁移策略包括待迁移文件列表和对应的目标存储设备;根据预设迁移策略和预设迁移时间窗口,启动迁移任务按照预设迁移策略进行文件数据的迁移,并在迁移过程中监控存储设备的负载状态,根据负载状态动态调整文件数据的迁移速率,完成文件数据的分级存储。能够提高访问速度,降低访问延时,改善用户体验,避免浪费昂贵的存储资源,提高整体系统利用效率和可扩展性。

技术研发人员:高利娟,杨佳东,孙涛,王卫伟,李望望,周浩
受保护的技术使用者:杭州计算机外部设备研究所(中国电子科技集团公司第五十二研究所)
技术研发日:
技术公布日:2024/9/23

最新回复(0)