专利名称:一种对海量url进行存储和查询方法
技术领域:
本发明涉及海量数据结构化存储和查询领域,特别涉及一种对海量结构化 URL(Uniform Resource Locator)进行快速存储和查询的方法。
背景技术:
随着互联网的普及,世界范围内的互联网网站个数和互联网的使用用户都在不断的增加,从而使得互联网的数据在以指数级的速度增长,而和互联网息息相关的便是网站的URL和相应的内容。URL即统一资源定位符(Uniform Resource Locator),也被称为网页地址,是因特网上标准的资源的地址。它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址的,现在它已经被万维网联盟编制为因特网标准RFC1738。URL是对可以从因特网上得到的资源的位置和访问方法的一种简洁的表示。URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、 替换和查找其属性。URL相当于一个文件名在网络范围的扩展。因此URL是与因特网相连的机器上的任何可访问对象的一个指针。URL的一般形式是<URL的访问方式> //<主机 > 〈端口 >/<路径>URL就像一个人的身份证号,它是一个互联网页面的唯一标识,同时也是一个互联网页面的唯一入口,无论是手动输入URL和是通过其他连接转入一个互联网页面,它们进入页面是都需要这个全球唯一的URL。对于互联网信息搜索应用领域,需要记录下每个收集到的页面信息,页面信息包括页面的URL和其他的页面内容。那么,面对如此大量的URL信息该如何快速的根据URL进行检索呢?目前主要有以下两种解决方法1.通过对URL建立全文索引进行检索。2.通过对URL建立普通的树形索引进行检索。在面临海量结构化URL的查询中,上述方法都不够完善。第一种方法的优点是数据加载速度快,查询速度快,但是因为全文索引要把URL 进行拆分处理,所以不能对URL数据进行精确查询和后模糊匹配查询。例如如果要检索 URL 等于"www. hostname, com/house/beijing/dongcheng. html” 的信息,在使用全文索引进行检索的时候,会返回包含以上URL中的一个或是多个单词的URL(如会返回包含 hostname或是bei jing的URL),而不能只返回完全匹配的URL,从而不能实现精确匹配的查询。同样的道理,对URL后模糊匹配全文索引也不能实现。第二种方法的优点是支持精确和后模糊查询,但查询性能一般。因为要对很长的字符串建索引,建立索引的数据的行数多,字符串长度大,造成数据加载性能低下,不能满足海量数据的处理要求
发明内容
本发明的目的在于提供一种对URL数据进行存储和查询的方法,用以解决海量 URL的快速存储和精确、后模糊匹配查询。本发明的技术方案如下一种对海量URL进行存储和查询的方法,首先设计如下数据表(表1)用于存储 URL信息表
权利要求
1. 一种对海量URL进行存储和查询的方法,首先将海量URL信息存入下述信息表中
2.如权利要求1所述的方法,其特征在于,信息表中除URL、MD5和keywords字段外,其他与URL关联的信息包括URL的更新时间、URL的作者和URL对应的内容摘要。
3.如权利要求1所述的方法,其特征在于,N= 10。
全文摘要
本发明公开了一种对海量URL进行存储和查询的方法,首先利用数据表存储URL的MD5值和特征字符串,其中特征字符串是先将URL原始字符串开头到“//WWW.”部分去除,再将剩余字符串按照“/”分割为多个字符串,取前N个分割后字符串的第一个和最后一个字符顺序拼接组成(N为8~12的整数);分别对数据表中的特征字符串和MD5值建立树形索引。精确查询时,计算待查询URL的MD5值,查询数据表中的MD5字段即可;后模糊匹配查询时,根据待查询URL的特征字符串,先查询对数据表中的特征字符串字段,取特征字符串相符的URL值,再将待查询URL与这些URL值进行实际匹配查询。
文档编号G06F17/30GK102411617SQ20111033820
公开日2012年4月11日 申请日期2011年10月31日 优先权日2011年10月31日
发明者李建明 申请人:北京锐安科技有限公司