一种Web日志预处理中基于UUID的会话合并方法

xiaoxiao2020-7-22  14

一种Web日志预处理中基于UUID的会话合并方法
【专利摘要】本发明涉及一种Web日志预处理中基于UUID的会话合并方法,其特征在于,步骤为:第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系;第二步、在用于Web日志挖掘的数据中,为每一行标记有会话ID的web日志记录增加一个UUID字段;第三步、将含有相同UUID字段值的会话合并至一个会话中。本发明提出了一种Web日志预处理中基于UUID的会话合并方法,创新性地提出了自动识别UUID字段标识符,然后将UUID相同的会话合并成一个大集合的会话。
【专利说明】—种Web日志预处理中基于UUID的会话合并方法
【技术领域】
[0001]本发明涉及Hadoop云计算平台以及web日志预处理中基于通用唯一识别码(Universally Unique Identifier,UUID)的合并会话,属于云计算以及web日志预处理两大领域。
【背景技术】
[0002]云计算是一种基于互联网的计算方式,是处理大数据的非常有效的解决方案。通过云计算这种方式,共享的软硬件资源和信息可以高效率地按需求提供给计算机和其他设备。Hadoop是Apache基金会下的一款开源软件,是一种针对大数据处理和分析的开源分布式计算平台,它实现了包括分布式文件系统和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。
[0003]通常,Web日志挖掘包含三大步骤:数据预处理、模式识别和模式分析,其中数据预处理是关键和首要任务。Web日志挖掘的数据预处理包括数据清洗、用户识别、会话识别,会话合并等步骤,其结果决定着Web日志挖掘的效率和准确性。
[0004]会话识别的结果是短时间内具有连续访问特点的日志被分配一个唯一的会话ID (session ID),同一个用户的所有访问记录往往由多个会话组成,会话合并是重要的预处理步骤,其目的就是将属于同一个用户的会话合并在一起,分配一个相同用户标记字段,使得属于同一个用户的访问记录的用户标记字段相同,不同的用户访问记录的用户标记字段不同。根据方法的不同会话合并可分为基于相同账户的用户识别,基于浏览器UUID的会话合并。
[0005]UUID是指web服务器在客户端浏览器在请求服务器资源时生成的用于唯一标识浏览器的数字,它保证对在同一时空中的所有机器浏览器的标识都是唯一的。用户在访问网站时,网站服务器将UUID嵌入到Cookie中以标识同一个浏览器,如果某两条web日志的Cookie中的UUID相同,贝U说明他们是同一个人在同一个浏览器上访问的web日志。

【发明内容】

[0006]本发明的目的是提供一种基于UUID进行会话合并的方法。
[0007]为了达到上述目的,本发明的技术方案是提供了一种Web日志预处理中基于UUID的会话合并方法,其特征在于,步骤为:
[0008]第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系:
[0009]通过特定浏览器实例访问不同的指定网站,收集每个网站的Cookie数据,对Cookie数据的集合进行UUID预处理,从UUID预处理得到的结果中筛选出符合UUID特征的当前网站Cookie中用于标识UUID的UUID字段名称,获取某一网站S的用于标识UUID的UUID字段名称的具体步骤为:[0010]步骤1.1、用户使用特定浏览器实例循环访问指定的网站S至少N次,N≥2,每次访问时,提取特定浏览器实例中与该网站S相关的Cookie数据组成集合,第i次访问时,提取到的集合记为Ci,则可得到N个集合,Cl,…,CN ;
[0011]步骤1.2、计算得到N个集合的交集D,则有D = Cl H…H CN;
[0012]步骤1.3、重置特定浏览器实例中的Cookie数据,重新访问网站S,提取该特定浏览器实例中与网站S相关的Cookie数据组成集合Cx ;
[0013]步骤1.4、计算交集D与集合Cx的差,得到集合E,则有E = D-Cx ;
[0014]步骤1.5、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS:
[0015]步骤1.6、在集合E中去除集合CS中用户代理UserAgent不同但域值相同的字段域,生成集合E (a);
[0016]步骤1.7、在集合E(a)中去除集合CS中同时存在的相同域值与不同域值的不同部分,生成集合E (b);
[0017]步骤1.8、在集合E (b)中选取生存时间TTL最大且最长的识别串作为与当前网站S的域名相对应的UUID字段名称;
[0018]第二步、在用于Web日志挖掘的数据中,为每一行标记有会话ID的web日志记录增加一个UUID字段,其中,为第i行标记有会话ID的web日志记录增加UUID字段的步骤为:
[0019]步骤2.1、第i行标记有会话ID的web日志记录的URL字段提取网站域名;
[0020]步骤2.2、找到与当前网站域名相对应的UUID字段名称;
[0021]步骤2.3、从第i行标记有会话ID的web日志记录的Cookie字段找到步骤2.2得到的UUID字段名称所对应的UUID字段值;
[0022]步骤2.4、为第i行标记有会话ID的web日志记录增加一个以步骤2.2得到的UUID字段名称命名的UUID字段,其值为通过步骤2.3获得的UUID字段值;
[0023]第三步、将含有相同UUID字段值的会话合并至一个会话中。
[0024]优选地,在所述步骤1.8中、在集合E(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名,其他识别串作为候选UUID字段名,先将基本UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将该基本UUID字段名作为与当前网站S的域名相对应的UUID字段名称,否则,将候选UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将能成功匹配的那个候选UUID字段名作为与当前网站S的域名相对应的UUID字段名称。
[0025]优选地,所述第三步的具体步骤为:遍历标识有UUID字段的所有web日志记录,将相同UUID字段值的web日志记录归为同一组web日志记录组,再遍历所有web日志记录组,将同一 web日志记录组内的会话ID字段设置为相同的值。
[0026]本发明提出了一种Web日志预处理中基于UUID的会话合并方法,创新性地提出了自动识别UUID字段标识符,然后将UUID相同的会话合并成一个大集合的会话。
【专利附图】

【附图说明】
[0027]图1为本发明会话合并的流程图; [0028]图2为本发明为Web日志每一行记录标识UUID字段值的流程图;[0029]图3为本发明合并相同UUID到同一个会话的流程图;
[0030]图4为本发明第一步骤UUID预处理模块数据流图;
[0031]图5为本发明第一步骤UUID筛选模块数据流图。
【具体实施方式】
[0032]为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0033]如图1所示,本发明提供了一种Web日志预处理中基于UUID的会话合并方法,其步骤为:
[0034]步骤101、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系:
[0035]为了实现本步骤,需要使用到两个模块,一个模块为UUID预处理模块,另一个模块为UUID筛选模块。
[0036]结合图4,采用UUID预处理模块对指定网站S进行操作的具体实现步骤为:
[0037]步骤1、在域名库中读取指定网站S的域名后,通过特定浏览器实例循环访问指定的网站S —共2次,每次访问时,提取特定浏览器实例中与网站S相关的Cookie数据组成集合,第1次访问时,提取到的集合记为C1,C1 = (a, b, c,d,e),第2次访问时,提取到的集合记为 C2, C2 = (a, b , c, f, g);
[0038]步骤2、计算 Cl 与 C2 的交集 D1,则有 Dl = Cl H C2 = (a, b, c):
[0039]步骤3、重置特定浏览器实例中的Cookie数据,重新访问网站S,提取该特定浏览器实例中与网站S相关的Cookie数据组成集合C3 = (b, e, f, g);
[0040]步骤4、计算交集Dl与集合C3的差,得到集合E1,则有El = D1-C3 = (a, c):
[0041]结合图5,采用UUID筛选模块对指定网站S进行操作的具体实现步骤为:
[0042]步骤1、获取特定浏览器访问网站S的所有历史Cookie数据的集合CSl ;
[0043]步骤2、在集合El中去除集合CSl中用户代理UserAgent不同但域值相同的字段域,生成集合El (a);
[0044]步骤3、在集合El (a)中去除集合CSl中同时存在的相同域值与不同域值的不同部分,生成集合El (b);
[0045]步骤4、在集合El (b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名pUUID,其他识别串作为候选UUID字段名cUUID,先将基本UUID字段名pUUID与当前网站S的Cookie数据相匹配,若能匹配成功,则将该基本UUID字段名pUUID作为与当前网站S的域名相对应的UUID字段名称,否则,将候选UUID字段名cUUID与当前网站S的Cookie数据相匹配,若能匹配成功,则将能成功匹配的那个候选UUID字段名cUUID作为与当前网站S的域名相对应的UUID字段名称。
[0046]通过步骤101得到的几个网站域名与其UUID字段名称的对应关系如表1所示。
[0047]
【权利要求】
1.一种Web日志预处理中基于UUID的会话合并方法,其特征在于,步骤为: 第一步、识别和收集各个网站Cookie中用于标识UUID的UUID字段名称,建立不同网站域名与UUID字段名称之间的对应关系: 通过特定浏览器实例访问不同的指定网站,收集每个网站的Cookie数据,对Cookie数据的集合进行UUID预处理,从UUID预处理得到的结果中筛选出符合UUID特征的当前网站Cookie中用于标识UUID的UUID字段名称,获取某一网站S的用于标识UUID的UUID字段名称的具体步骤为: 步骤1.1、用户使用特定浏览器实例循环访问指定的网站S至少N次,N > 2,每次访问时,提取特定浏览器实例中与该网站S相关的Cookie数据组成集合,第i次访问时,提取到的集合记为Ci,则可得到N个集合,Cl,…,CN ; 步骤1.2、计算得到N个集合的交集D,则有D = Cl η…n CN; 步骤1.3、重置特定浏览器实例中的Cookie数据,重新访问网站S,提取该特定浏览器实例中与网站S相关的Cookie数据组成集合Cx: 步骤1.4、计算交集D与集合Cx的差,得到集合E,则有E = D-Cx ; 步骤1.5、获取特定浏览器访问网站S的所有历史Cookie数据的集合CS: 步骤1.6、在集合E中去除集合CS中用户代理UserAgent不同但域值相同的字段域,生成集合E (a); 步骤1.7、在集合E(a)中去除集合CS中同时存在的相同域值与不同域值的不同部分,生成集合E (b); 步骤1.8、在集合E (b)中选取生存时间TTL最大且最长的识别串作为与当前网站S的域名相对应的UUID字段名称; 第二步、在用于Web日志挖掘的数据中,为每一行标记有会话ID的web日志记录增加一个UUID字段,其中,为第i行标记有会话ID的web日志记录增加UUID字段的步骤为:步骤2.1、第i行标记有会话ID的web日志记录的URL字段提取网站域名; 步骤2.2、找到与当前网站域名相对应的UUID字段名称; 步骤2.3、从第i行标记有会话ID的web日志记录的Cookie字段找到步骤2.2得到的UUID字段名称所对应的UUID字段值; 步骤2.4、为第i行标记有会话ID的web日志记录增加一个以步骤2.2得到的UUD字段名称命名的UUID字段,其值为通过步骤2.3获得的UUID字段值; 第三步、将含有相同UUID字段值的会话合并至一个会话中。
2.如权利要求1所述的一种Web日志预处理中基于UUID的会话合并方法,其特征在于,在所述步骤1.8中、在集合E(b)中选取生存时间TTL最大且最长的识别串作为基本UUID字段名,其他识别串作为候选UUID字段名,先将基本UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将该基本UUID字段名作为与当前网站S的域名相对应的UUID字段名称,否则,将候选UUID字段名与当前网站S的Cookie数据相匹配,若能匹配成功,则将能成功匹配的那个候选UUID字段名作为与当前网站S的域名相对应的UUID字段名称。
3.如权利要求1所述的一种Web日志预处理中基于UUID的会话合并方法,其特征在于,所述第三步的具体步骤为:遍历标识有UUID字段的所有web日志记录,将相同UUID字段值的web日志记录归为同一组web日志记录组,再遍历所有web日志记录组,将同一 web日志记录组内的会 话ID字段设置为相同的值。
【文档编号】G06F17/30GK103970843SQ201410174533
【公开日】2014年8月6日 申请日期:2014年4月28日 优先权日:2014年4月28日
【发明者】陈德华, 沈昌干, 潘乔, 罗昕 申请人:东华大学, 上海云屹信息技术有限公司

最新回复(0)