一种索引库更新方法及装置的制造方法
【技术领域】
[0001]本发明涉及索引技术领域,特别涉及一种索引库更新方法及装置。
【背景技术】
[0002]索引服务是一项系统服务(IndexingService),使用文档筛选器读取整个文档,并提取文档和属性传递给索引程序,这个过程称为“索引”。索引服务可以从一组文档中提取并组织信息,以便通过Windows搜索功能、索引服务查询表或Web浏览器快速容易地访问该信息,该信息可以包含文档中的文本(内容)、文档的特征和参数(属性)。通过索引可以对信息进行快速访问。
[0003]目前,更新索引库的方法为:将每次获取到的数据添加在索引库中。
[0004]但是,应用上述的方法更新索引库,较占用系统存储空间,需要运维人员每隔一段时间对系统存储空间进行扩容。
【发明内容】
[0005]本发明实施例的目的在于提供一种索引库更新方法及装置,以减少存储空间的占用。
[0006]为达到上述目的,本发明实施例公开了一种索引库更新方法,预先建立用于存储目标数据类型的数据的索引库;方法包括:
[0007]从互联网中获得所述目标数据类型的第一数据;
[0008]根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
[0009]删除所述第一数据和所述第二数据中的待删除数据;
[0010]将所获得的第一数据中的非待删除数据,添加在所述索引库中。
[0011 ]可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
[0012]利用爬虫技术,从互联网中获得所述第一数据。
[0013]可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
[0014]每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
[0015]可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
[0016]从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
[0017]可选的,所述根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,包括:
[0018]将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
[0019]将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
[0020]为达到上述目的,本发明实施例公开了一种索引库更新装置,包括:建立模块、获得模块、确定模块、删除模块和更新模块,其中,
[0021]所述建立模块,用于预先建立用于存储目标数据类型的数据的索引库;
[0022]所述获得模块,用于从互联网中获得所述目标数据类型的第一数据;
[0023]所述确定模块,用于根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
[0024]所述删除模块,用于删除所述确定模块确定的待删除数据;
[0025]所述更新模块,用于将所述获得模块获得的第一数据中的非待删除数据,添加在所述建立模块建立的索引库中。
[0026]可选的,所述获得模块,具体用于:
[0027]利用爬虫技术,从互联网中获得所述第一数据。
[0028]可选的,所述获得模块,具体用于:
[0029]每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
[0030]可选的,所述获得模块,具体用于:
[0031]从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
[0032]可选的,所述确定模块,具体用于:
[0033]将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
[0034]将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
[0035]由上述的技术方案可见,本发明实施例提供了一种索引库更新方法及装置,预先建立用于存储目标数据类型的数据的索引库;方法包括:从互联网中获得所述目标数据类型的第一数据;根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;删除所述第一数据和所述第二数据中的待删除数据;将所获得的第一数据中的非待删除数据,添加在所述索引库中。
[0036]应用本发明实施例所提供的技术方案,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
[0037]当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
【附图说明】
[0038]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本发明实施例提供的一种索引库更新方法的流程示意图;
[0040]图2为本发明实施例提供的一种索引库更新装置的结构示意图。
【具体实施方式】
[0041]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]为了解决现有技术问题,本发明实施例提供了一种索引库更新方法及装置。下面首先对本发明实施例所提供的一种索引库更新方法进行介绍。
[0043]需要说明的是,本发明的实施例优选适用于电子设备,在实际应用中,该电子设备可以为服务器,本发明对此不作限定。
[0044]对索引库进行更新,需要预先建立用于存储目标数据类型的数据的索引库;其中,在实际应用中,目标数据类型可以为文本、图片、视频、音频、网页等等,本发明并不对目标数据类型进行限定;并且索引库当且仅当被建立一次,当对索引库进行更新时,无需重新建立索引库,对索引库的更新操作全部针对该索引库。
[0045]图1为本发明实施例提供的一种索引库更新方法的流程示意图,可以包括:
[0046]S101:从互联网中获得目标数据类型的第一数据;
[0047]S102:根据目标数据类型的数据的有效时长,确定第一数据和第二数据中待删除数据;
[0048]其中,第二数据为索引库中存储的目标数据类型的数据;
[0049]S103:删除第一数据和第二数据中的待删除数据;
[0050]S104:将所获得的第一数据中的非待删除数据,添加在索引库中。
[0051]具体的,在实际应用中,从互联网中获得目标数据类型的第一数据,可以利用爬虫技术,从互联网中获得目标数据类型的第一数据,即利用针对目标数据类型的数据的抓取程序,从互联网中抓取目标数据类型的数据。其中,利用爬虫技术,从互联网中抓取数据为现有技术,本发明实施例在此不对其进行赘述。
[0052]在实际应用中,可以每隔预设时间,从互联网中获得目标数据类型的第一数据,例如:每隔1小时或1天从互联网中获得目标数据类型的第一数据;也可以每达到预设时间点,从互联网中获得目标数据类型的第一数据,例如:预设时间点为每日的8:00,11:00,13:00,17:00,则每到达上述时间点时,从互联网中获得目标数据类型的第一数据。
[0053]示例性的,假设目标数据类型为新闻。预设新闻数据的有效时长为1天。
[0054]假设索引库中当前存储的新闻类型的数据分别为新闻X、新闻y和新闻z,抓取到的新闻类型的数据分别为新闻a、新闻b、新闻c,则针对新闻X、新闻y、新闻z、新闻a、新闻b和新闻c中的每一新闻数据,分别根据新闻数据的有效时长,判断其是否为待删除数据。
[0055]假设确定出当前存储的数据中待删除数据为新闻y;所抓取到的数据中待删除数据为新闻a和新闻c,则将新闻y、新闻a和新闻c删除。
[0056]将所抓取到的数据中非待删除数据,添加在索引库中。
[0057]在实际应用中,每个数据均有数据创建时间属性,因此根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,可以将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;将所述第二数据中、当前时间与数据创建时间之差不小于所述有效
时长对应的数据,确定为所述第二数据中待删除数据。
[0058]示例性的,以上述的新闻a为例,假设新闻a的创建时间为2015年10月21日18:00;当前时间为2015年10月25日13:00,当前时间与新闻a的创建时间之差大于1天,则将新闻a确定为待删除数据。进而可以确定出第一数据和第二数据中的所有待删除数据。
[0059]具体的,在实际应用中,每个数据均有数据创建时间属性,因此从互联网中获得所述目标数据类型的第一数据,可以从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。即从互联网获得数据时,先判断该数据的创建时间至当前时间是否超过1天,如果超过,则丢弃该数据,仅获得创建时间至当前时间未超过1天的数据,即获得未超过有效时长的数据。
[0060]以上述新闻a、新闻b和新闻c为例,假设当前时间为2015年10月25日13:00;新闻a的创建时间为2015年10月21日18:00;新闻b的创建时间为2015年10月24日17:35;新闻c的创建时间为2015年10月22日8:52;可判断出新闻a和新闻c的创建时间至当前时间超过1天,新闻b的创建时间至当前时间未超过1天,则仅获得新闻b。由于获得的数据均未超过有效时长,因此在确定待删除数据时,仅需确定索引库中存储的数据中待删除数据即可。
[0061]需要说明的是,上述以目标数据类型为新闻,新闻X、新闻y、新闻z、新闻a、新闻b和新闻c为例进行说明,仅为本发明的一具体实例,并不够成对本发明的限定。
[0062]应用本发明图1所示实施例,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
[0063]与上述的方法实施例相对应,本发明实施例还提供一种索引库更新装置。
[0064]图2为本发明实施例提供的一种索引库更新装置的结构示意图,可以包括:建立模块201、获得模块202、确定模块203、删除模块204和更新模块205,其中,
[0065]建立模块201,用于预先建立用于存储目标数据类型的数据的索引库;
[0066]获得模块202,用于从互联网中获得所述目标数据类型的第一数据;
[0067]在实际应用中,本发明实施例所示的获得模块202,具体可以用于:
[0068]利用爬虫技术,从互联网中获得所述第一数据。
[0069]在实际应用中,本发明实施例所示的获得模块202,具体可以用于:
[0070]每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
[0071]在实际应用中,本发明实施例所示的获得模块202,具体可以用于:
[0072]从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
[0073]确定模块203,用于根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
[0074]在实际应用中,本发明实施例所示的确定模块203,具体可以用于:
[0075]将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
[0076]将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
[0077]删除模块204,用于删除确定模块203确定的待删除数据;
[0078]更新模块205,用于将获得模块202获得的第一数据中的非待删除数据,添加在建立模块201建立的索引库中。
[0079]应用本发明图2所示实施例,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
[0080]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0081]本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0082]本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:R0M/RAM、磁碟、光盘等。
[0083]以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
【主权项】
1.一种索引库更新方法,其特征在于,预先建立用于存储目标数据类型的数据的索引库;方法包括: 从互联网中获得所述目标数据类型的第一数据; 根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据; 删除所述第一数据和所述第二数据中的待删除数据; 将所获得的第一数据中的非待删除数据,添加在所述索引库中。2.根据权利要求1所述的方法,其特征在于,所述从互联网中获得所述目标数据类型的第一数据,包括: 利用爬虫技术,从互联网中获得所述第一数据。3.根据权利要求1所述的方法,其特征在于,所述从互联网中获得所述目标数据类型的第一数据,包括: 每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。4.根据权利要求3所述的方法,其特征在于,所述从互联网中获得所述目标数据类型的第一数据,包括: 从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,包括: 将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据; 将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。6.—种索引库更新装置,其特征在于,包括:建立模块、获得模块、确定模块、删除模块和更新模块,其中, 所述建立模块,用于预先建立用于存储目标数据类型的数据的索引库; 所述获得模块,用于从互联网中获得所述目标数据类型的第一数据; 所述确定模块,用于根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据; 所述删除模块,用于删除所述确定模块确定的待删除数据; 所述更新模块,用于将所述获得模块获得的第一数据中的非待删除数据,添加在所述建立模块建立的索引库中。7.根据权利要求6所述的装置,其特征在于,所述获得模块,具体用于: 利用爬虫技术,从互联网中获得所述第一数据。8.根据权利要求6所述的装置,其特征在于,所述获得模块,具体用于: 每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。9.根据权利要求6所述的装置,其特征在于,所述获得模块,具体用于: 从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。10.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于: 将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据; 将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
【专利摘要】本发明实施例公开了一种索引库更新方法及装置,预先建立用于存储目标数据类型的数据的索引库;方法包括:从互联网中获得所述目标数据类型的第一数据;根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;删除所述第一数据和所述第二数据中的待删除数据;将所获得的第一数据中的非待删除数据,添加在所述索引库中。应用本发明实施例,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
【IPC分类】G06F17/30
【公开号】CN105488167
【申请号】CN201510857602
【发明人】虞航仲
【申请人】北京金山安全软件有限公司
【公开日】2016年4月13日
【申请日】2015年11月30日