数据预测方法和系统以及报警方法和系统的制作方法
【技术领域】
[0001] 本发明涉及一种对网站多种指标的数据预测以及网站的运营状况的衡量,特别涉 及一种网站指标的数据预测方法和数据预测系统以及报警方法和报警系统。
【背景技术】
[0002] 目前很多网站监控只针对个别指标,且只能发现较为明显的异常,使用的方法也 比较单一,比如聚类、箱线图等。现有技术中,针对网站指标例如浏览量的数据预测这一块, 许多学者提出众多预测方法,比如利用一般的ARIMA模型(AutoregressiveIntegrated MovingAverageModel,差分自回归移动平均模型),但这一类模型很少考虑季节、节假日等 因素对数据预测的影响,所以较为简单的ARIMA模型预测出的数据相对不准确。并且其他 很多数据预测模型仅仅停留在理论讨论阶段,由于没有考虑到真实数据的杂乱性,这些数 据预测模型很少应用于实际应用中。另外还有类似卡尔曼滤波算法,但此类算法适用于实 时数据以及变化比较稳定的数据预测,并不适用于旅游网站(周末数据明显较低)等网站流 量的数据预测及监控。
【发明内容】
[0003] 本发明要解决的技术问题是为了克服现有技术中对网站指标的数据进行预测的 方法有些算法简单,预测出的数据不准确,有些算法无法应用至实际场合中的缺陷,提供一 种具有准确预测出网站指标的数据及多种指标出现异常时及时报警的功能的网站指标的 数据预测方法和系统以及报警方法和系统。
[0004] 本发明是通过下述技术方案来解决上述技术问题的:
[0005] 本发明提供一种网站指标的数据预测方法,其特点在于,其包括以下步骤:
[0006] Si、采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行 分类,且每一时间周期内的历史数据按照日期先后顺序分类;
[0007] S2、将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据 对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;
[0008] S3、根据该些历史优化数据通过ARIMAX模型(带有输入序列的一般ARIMA模型被 称为ARIMAX模型)计算一预测日期该指标的预测数据。
[0009] 历史数据是某一预测日期的数据预测的基础,例如网站的浏览量历史数据,由于 周末或国家法定节假日时浏览网页的用户明显减少,即这些时间的浏览量历史数据明显偏 低,这些明显偏低的数据的出现是不可避免的。若是通过未修正的浏览量历史数据进行预 测日期的数据预测,则会使得预测出的数据相对不准确,无法精确的反映出预测日期的浏 览量,影响预测体系的预测精度。因此在步骤S2中,对历史数据进行了修正。
[0010] 将修正后的历史优化数据带入ARIMAX模型进而预测出一预测日期某一指标例如 浏览量的预测数据,且预测出的该预测数据较为准确,能够相对真实的反映出该预测日期 的浏览量情况。
[0011] 较佳地,在步骤s2中,对于任一时间周期内的任一待修正数据,修正操作包括:
[0012] 利用公式
计算该待修正数据的修正参数,其中r为该时间周期内 标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且 1 ^k^r;
[0013] 修正后的数据为该待修正数据与该修正参数的乘积;
[0014] 在步骤s3之后,包括以下步骤:
[0015] S4、判断该预测数据是否需要修正,若是则进入步骤S5,若否则结束流程;
[0016] S5、利用公式
计算该预测数据的预测修正参数,其中S为该预测日期对 应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标准数据,s为正整数且1 <m<s;
[0017] s6、该预测日期该指标的实际预测数据为该预测数据与该预测修正参数的商。
[0018] 较佳地,在步骤s2之后包括以下步骤,设定Xi为该预测日期之前的第i天的历史 优化数据,i为遍历1至n的整数,针对任一i:
[0019] 通过公式
计算该第i天对应的平均数,其中,yij表示该第i天所处时 间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1彡j彡J;
[0020] 将历史优化数据yn至按照从小到大或从大到小顺序进行排序以形成一数据序 列;
[0021] 当J为奇数时,该第i天对应的中位数乂为该数据序列中处于中间位置的历史优 化数据,当J为偶数时,Mi为该数据序列中处于中间位置的两个历史优化数据的平均值;
[0022] 计算第一平均值
[0023] 计算第一相关性
、第二相关性
'并取A和r2中的较大值作为先验指标xt ;
[0024] 在步骤S3 中,利用模型 (B)C>s(Bs)yt =ii而+? (B) ?S(BS)eV(〇.of)计 算该预测数据,其中,〇(B)为自回归算子且〇(B) =l-chB-小忑2-…-ctpBp,p为自回归项 数,〇s(Bs)为季节性自回归算子且〇s(Bs) = --小PBPS,?⑶为移动平均 算子且?⑶=1-e0 2B2-- 0qB%q为移动平均项数,?s (Bs)为季节性移动平均算子 且?S(BS) = 1- 0 0 2B2s-0qB9S,yt为该预测数据,y和@ :为预设参数。
[0025] 其中,预设参数U和^均是一种经验值,通过R(R是一套完整的数据处理、计 算和制图软件系统)程序不断地训练可以实现对U和的预测。
[0026] 模型 〇 ⑶ 〇s (Bs)yt =ii+ 3 lXt+ ? ⑶ ?s (Bs)et 是对ARIMAX模型的优化,在 ARIMAX模型中加入了影响因子PlXt,将根据平均数计算出的第一相关性和根据中位数计 算出的第二相关性进行比较,并将比较出的较大值作为xt带入上述模型。
[0027] 较佳地,在步骤S2之后包括以下步骤,设定每年被划分为V个时间段,该预测日期 所处的时间段为第a个时间段,V为正整数且1彡a彡V:
[0028] 计算该预测日期所处时间段对应的时间段指数
[0029] 其中, U为正整数且1彡u彡U,1彡v彡V; f
[0030] Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,Uj该预 测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日 期所处年份之前的第u年第v个时间段的历史优化数据,万为该预测日期所处年份之前的 U年中各年各时间段的历史优化数据的总平均值;
[0031 ] 在步骤S3中,利用模型①⑶①s (Bs)yt =ii+ @而+ @ 2ft+ ?⑶?s (Bs)et计算该 预测数据,其中,为预设参数,通过R程序预测出。
[0032] 模型①⑶ 〇s (Bs)yt =ii+ 3 lXt+ 3 2ft+ ? ⑶ ?s (Bs)et 是对ARIMAX模型的进一 步优化,在ARIMAX模型中又加入了影响因子P2ft。
[0033] 较佳地,在步骤S2之后包括以下步骤:
[0034] 判断该预测日期是否为一设定日期,若是则设定日期因子的信号指标gt为1,若否 则该信号指标gt为〇 ;
[0035] 在步骤S3中,利用模型①⑶①s(Bs)yt =ii+3而+3 2ft+3 3gt+?⑶?S(BS)et计 算该预测数据,其中,0 3为预设参数,通过R程序预测出。
[0036] 模型 〇 ⑶ 〇s (Bs)yt =ii+ 3 lXt+ 3 2ft+ 3 3gt+ ? ⑶ ?s (Bs)et 是对ARIMAX模型的 进一步优化,在ARIMAX模型中又加入了影响因子P3gt。
[0037] 较佳地,在步骤S3之后包括以下步骤:
[0038] 计算该预测日期对应的标准误差 则该预测数据的置信区间 f 为[F- 0Se,F+ 0SJ,其中W为正整数且1彡w彡W,Xw为该预测日期之前的第w天的历史优 化数据,FWS该预测日期之前的第w天的预测数据,F为该预测数据,0为标准正态分布的
分位数,a为置信度;
[0039] 判断该预测日期该指标的实际数据是否在该置信区间内,若是则输出一表示该指 标正常的第一信息,若否则输出一表不该指标异常的第二信息。
[0040] 较佳地,判断该实际数据是否在[(F-eSe) (l-stl),(F+ 0Se) (1+Stl)]内,若是则输 出该第一信息,若否则输出该第二信息,其中,stl为一第一设定阈值。
[0041] 较佳地,设该指标的现有置信区间为[cn,ci2],判断该实际数据是否同时在 [(
[email protected]) (1-St2),(
[email protected]) (1+St2)]和[Cn(l-St2),Ci2(l+St2)]外,若是则输出该第二信息, 若否则输出该第一信息,其中,st2为一第二设定阈值。
[0042] 本发明还提供一种报警方法,其特点在于,一预测日期N个指标中每一指标的置 信区间均通过上述的数据预测方法实现、每一指标均具有一现有置信区间,判断该N个指 标中是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该 d个指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于 一第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第 四设定阈值,若是则输出报警信息;
[0043] 其中,d和N均为正整数。
[0044] 较佳地,指标为网页跳出率、转化率、浏览量、网页浏览率、浏览器浏览率或主要来 源浏览率。
[0045] 较佳地,每一指标的现有置信区间的获取方法为标准差方法、周次规律侦测方法 或分位数方法。
[0046] 本发明还提供一种网站指标的数据预测系统,其特点在于,其包括一分类模块、一 修正模块和一第一计算模块;
[0047] 该分类模块用于采集一预设区域内的一指标的历史数据,按照时间周期对该些历 史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类;
[0048] 该修正模块用于将每一时间周期内的历史数据划分为标准数据和待修正数据,根 据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;
[0049] 该第一计算模块用于根据该些历史优化数据通过ARIMAX模型计算一预测日期该 指标的预测数据。
[0050] 较佳地,该修正模块包括一第二计算模块和一第三计算模块,对于任一时间周期 内的任一待修正数据,该第二计算模块用于利用公式
计算该待修正数据的修正 参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,1为正整数且1 <k< 1,该第三计算模块用于通过该待修正数据与该修正参 数的乘积计算修正后的数据;
[0051] 该数据预测系统还包括一第一判断模块、一第四计算模块和一第五计算模块,该 第一判断模块用于判断该预测数据是否需要修正,若是则调用该第四计算模块;
[0052] 该第四计算模块用于利用公式
计算该预测数据的预测修正参数,其中 s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应 的时间周期内第m个标准数据,s为正整数且1彡m彡s;
[0053] 该第五计算模块用于通过该预测数据与该预测修正参数的商计算该预测日期该 指标的实际预测数据。
[0
054] 较佳地,该数据预测系统还包括一第六计算模块、一排序模块、一第一赋值模块、 一第七计算模块和一第八计算模块,设定\为该预测日期之前的第i天的历史优化数据,i 为遍历1至n的整数,针对任一i:
[0055]该第六计算模块用于通过公式
计算该第i天对应的平均数,其中,yij 表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数 且1彡j彡J;
[0056] 该排序模块用于将历史优化数据yn至按照从小到大或从大到小顺序进行排序 以形成一数据序列;
[0057] 该第一赋值模块用于在当J为奇数时,将该第i天对应的中位数^赋值为该数据 序列中处于中间位置的历史优化数据,当J为偶数时,将乂赋值为该数据序列中处于中间 位置的两个历史优化数据的平均值;
[0058] 该第七计算模块用于计算第一平均值
第三平 均值
[0059] 该第八计算模块用于计算第一相关性
'第二相关 性
5并取h和r2中的较大值作为先验指标xt ;
[0060]该第一计算模块用于利用模型cHB)〇s(Bs)yt =i!+eiXt+???s(Bs)et、 V(0,g)计算该预测数据,其中,①⑶为自回归算子且①⑶=l-c^BU2-- -小PBP,p为自回归项数,〇s (Bs)为季节性自回归算子且〇s (Bs) = 1-小小2B2s--小pBps, ?⑶为移动平均算子且?⑶=l-ee2B2--0qBq,q为移动平均项数,?S(BS)为季 节性移动平均算子且?s(Bs) = 1- 0忑3- 0 2B2s-0qB9S,yt为该预测数据,y和0 :为预 设参数。
[0061] 较佳地,该数据预测系统还包括一指数计算模块,设定每年被划分为V个时间段, 该预测日期所处的时间段为第a个时间段,V为正整数且1彡a彡V;
[0062] 该指数计算模块用于计算该预测日期所处时间段对应的时间段指数
[0063] 其中 U为正整数且1彡u彡U,1彡v彡V;
*9
[0064] Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,瓦为该预 测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日 期所处年份之前的第u年第v个时间段的历史优化数据,F为该预测日期所处年份之前的 U年中各年各时间段的历史优化数据的总平均值;
[0065] 该第一计算模块用于利用模型①(B)C>s(Bs)yt =ii而
[email protected] 2ft+? (B) ?S(BS)et 计算该预测数据,其中,为预设参数。
[0066] 较佳地,该数据预测系统还包括一第二判断模块、一第二赋值模块和一第三赋值 模块;
[0067] 该第二判断模块用于判断该预测日期是否为一设定日期,若是则调用该第二赋值 模块,若否则调用该第三赋值模块;
[0068] 该第二赋值模块用于将设定日期因子的信号指标gt赋值为1 ;
[0069] 该第三赋值模块用于将该信号指标gt赋值为0 ;
[0070] 该第一计算模块用于利用①(B)C>s(Bs)yt =ii而
[email protected] [email protected] 3gt+? (B) ?S(BS) et计算该预测数据,其中,为预设参数。
[0071] 较佳地,该数据预测系统还包括一误差计算模块、一第四赋值模块、一第三判断模 块、一第一输出模块和一第二输出模块;
[0072] 该误差计算模块用于计算该预测日期对应的标准误差
[0073]该第四赋值模块用于将该预测数据的置信区间赋值为[F- 0Se,F+ 0Se],其中W为 正整数且1 <w<W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前 的第w天的预测数据,F为该预测数据,0为标准正态分布的
?分位数,a为置信度;
[0074] 该第三判断模块用于判断该预测日期该指标的实际数据是否在该置信区间内,若 是则调用该第一输出模块输出一表不该指标正常的第一信息,若否则调用该第二输出模块 输出一表不该指标异常的第二信息。
[0075] 较佳地,该第三判断模块用于判断该实际数据是否在[(F-PSe) (l_Stl),(F+3Se) (1+Stl)]内,若是则调用该第一输出模块输出该第一信息,若否则调用该第二输出模块输出 该第二信息,其中,stl为一第一设定阈值。
[0076] 较佳地,设该指标的现有置信区间为[Cn,Ci2],该第三判断模块用于判断该实际 数据是否同时在[(F-PSe) (l_St2),(F+PSe) (1+St2)]和[Cn(l-St2),Ci2(l+St2)]外,若是则 调用该第二输出模块输出该第二信息,若否则调用该第一输出模块输出该第一信息,其中, st2为一第二设定阈值。
[0077] 本发明还提供一种报警系统,其特点在于,一预测日期N个指标中每一指标的置 信区间均通过上述的数据预测系统实现、每一指标均具有一现有置信区间,该报警系统包 括一第四判断模块和一第三输出模块;
[0078] 该第四判断模块用于判断该N个指标中是否存在d个指标的每一指标的实际数据 在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信 区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间 的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则调用该第三输出模块输出 报警信息;
[0079] 其中,d和N均为正整数。
[0080] 较佳地,指标为网页跳出率、转化率、浏览量、网页浏览率、浏览器浏览率或主要来 源浏览率。
[0081] 较佳地,每一指标的现有置信区间的获取方法为标准差方法、周次规律侦测方法 或分位数方法。
[0082] 在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实 例。
[0083] 本发明的积极进步效果在于:
[0084] 本发明提供一种网站指标的数据预测方法和系统以及报警方法和系统,按照时间 周期对历史数据进行分类,将每一时间周期内的历史数据划分为标准数据和待修正数据, 再根据标准数据对待修正数据进行修正,然后根据修正后的数据和标准数据通过ARIMAX 模型计算出一预测日期某一指标的预测数据。本发明能够准确预测出某一指标的预测数 据,显著提高了预测的准确性,并且在衡量网站运营状况的多个指标同时满足一定条件时 实现报警,使得用户及时地了解到网站运营状况。
【附图说明】
[0085] 图1为本发明实施例1的数据预测方法的流程图。
[0086] 图2为本发明实施例1的数据预测系统的结构框图。
[0087] 图3为本发明实施例2的数据预测方法中选取先验指标的操作的流程图。
[0088] 图4为本发明实施例2在实施例1基础上数据预测系统还包括的部件的结构框 图。
【具体实施方式】
[0089] 下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实 施例范围之中。
[0090] 实施例1
[0091] 如图1所示,本实施例提供一种网站指标的数据预测方法,从预测本身来看,这是 一个复杂的过程,并不仅仅像直观概念中的仅由预测算法决定,网站指标的数据预测包括 数据采集、数据分类、数据修正、数据分析、预测算法等在内的复杂问题。该数据预测方法包 括以下步骤:
[0092] 步骤101、采集一预设区域(如上海地区)内的一指标的历史数据,按照时间周期 (例如按照周)对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序 分类。
[0093] 其中,衡量网站运营情况的指标大致有93个,该指标包括网页跳出率、转化率、浏 览量、网页浏览率、浏览器浏览率或主要来源浏览率等。
[0094] 步骤102、将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准 数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据。
[0095] 在本步骤中,对于任一时间周期内的任一待修正数据,修正操作包括:
[0096] 利用公式
计算该待修正数据的修正参数,其中r为该时间周期内 标准数据的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且 1 ^k^r;
[0097] 修正后的数据为该待修正数据与该修正参数的乘积。
[0098] 步骤103、根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标(如浏 览量)的预测数据。
[0099] 步骤104、判断该预测数据是否需要修正,若是则进入步骤105,若否则结束流程。
[0100] 步骤105、利用公式
计算该预测数据的预测修正参数,其中s为该预测 日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期 内第m个标准数据,s为正整数且1彡m彡s。
[0101] 步骤106、该预测日期该指标的实际预测数据为该预测数据与该预测修正参数的 商。
[0102] 如图2所示,本实施例还提供一种网站指标的数据预测系统,其包括一分类模块 1、一修正模块2、一第一计算模块3、一第一判断模块4、一第四计算模块5和一第五计算模 块6。
[0103] 上述介绍了该数据预测系统包括的部件,下面具体介绍每一部件实现的功能:
[0104] 该分类模块1用于采集一预设区域内的一指标的历史数据,按照时间周期对该些 历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类。
[0105] 该修正模块2用于将每一时间周期内的历史数据划分为标准数据和待修正数据, 根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据。
[0106] 进一步地,该修正模块2包括一第二计算模块21和一第三计算模块22,对于任一 时间周期内的任一待修正数据,该第二计算模块21用于利用公式
计算该待修 正数据的修正参数,其中r为该时间周期内标准数据的个数,R为该待修正数据,Rk为该时 间周期内第k个标准数据,r为正整数且1 <k<r,该第三计算模块22用于通过该待修正 数据与该修正参数的乘积计算修正后的数据。
[0107] 该第一计算模块3用于根据该些历史优化数据通过ARIMAX模型计算一预测日期 该指标的预测数据。
[0108] 该第一判断模块4用于判断该预测数据是否需要修正,若是则调用该第四计算模 块5。
[0109] 该第四计算模块5用于利用公式
计算该预测数据的预测修正参数,其 中s为该预测日期对应的时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对 应的时间周期内第m个标准数据,s为正整数且1彡m彡s。
[0110] 该第五计算模块6用于通过该预测数据与该预测修正参数的商计算该预测日期 该指标的实际预测数据。
[0111] 下面举一具体的例子来说明本实施例,以使得本领域技术人员更好地理解本发 明:
[0112] 本实施例的数据预测过程分为预测前的预处理过程和预测中的计算过程。
[0113] 该预处理过程包括:
[0114] 采集上海地区2011年至2013年携程旅行网的网页的浏览量的历史数据,按照周 对该些历史数据进行分类,且每一周内的历史数据按照日期先后顺序分类。分类后的历史 数据按照2011年、2012年、2013年进行排序,各年中的历史数据按照第1周至第52周的顺
序进行排序,每周中按照周一至周日的顺序进行排列。
[0115] 将每周的历史数据划分为标准数据和待修正数据,周一至周五的历史数据为标准 数据,周六和周日的历史数据为待修正数据,根据周一至周五的历史数据对该周中周六和 周日的历史数据进行修正,修正后的周六和周日的历史数据和周一至周五的历史数据构成 历史优化数据。
[0116] 例如,参考表1,其示出了 2013年6月3日至2013年6月9日(即2013年第23周 的周一至周日)的历史数据,表1中的第一比值分别为周一的历史数据与周六的历史数据间 的比值、周二的历史数据与周六的历史数据间的比值、周三的历史数据与周六的历史数据 间的比值、周四的历史数据与周六的历史数据间的比值及周五的历史数据与周六的历史数 据间的比值;表1中的第二比值分别为周一的历史数据与周日的历史数据间的比值、周二 的历史数据与周日的历史数据间的比值、周三的历史数据与周日的历史数据间的比值、周 四的历史数据与周日的历史数据间的比值及周五的历史数据与周日的历史数据间的比值。
[0117] 表 1
[0119] 则周六的修正参数=(1. 53+1. 50+1. 50+1. 49+1. 43)/5=1. 49;周日的修正参数=(1 .59+1. 57+1. 56+1. 56+1. 49)/5=1, 55〇
[0120] 周六的历史数据经修正后的数据=441188*1. 49=657370. 1 ;周日的历史数据经修 正后的数据=422858*1. 55=655429. 9。
[0121] 计算过程包括:
[0122] 在将2011年至2013年历史数据中所有的周六和周日的历史数据进行修正后获得 历史优化数据,根据该些历史优化数据通过ARIMAX模型计算一预测日期(如2014年2月20 日)该浏览量的预测数据。
[0123] 预测出某一预测日期的浏览量后,还需判断浏览量的数值是否需要修正,例如若 当前的日期为2014年2月19日(周三),预测日期为2014年2月20日(周四),由于周一 至周五对应的数据为标准数据,所以无需对预测出的浏览量进行修正。若预测日期为2014 年2月22日(周六),由于对历史数据中所有的周六和周日的历史数据进行了修正,所以通 过ARIMAX模型计算出的浏览量不准确,还需要对预测出的浏览量进行进一步的修正,具体 为:
[0124] 计算周一的历史数据和周二的历史数据分别与周六的预测数据的比值,计算周三 的预测数据、周四的预测数据和周五的预测数据分别与周六的预测数据的比值,将上述计 算出的各个比值相加后再除以5则计算出该预测数据的预测修正参数,则修正后的预测数 据即实际预测数据为该预测数据与该预测修正参数的商。
[0125] 实施例2
[0126] 本实施例的数据预测方法包括实施例1中的数据预测方法的全部内容,本实施例 的数据预测系统包括实施例1中的数据预测系统的全部部件和各部件的功能,而且在此基 础上本实施例的数据预测方法及系统增加的技术内容及细化的技术内容具体如下:
[0127] 在步骤102之后包括选取先验指标、计算时间段指数以及设定信号指标的操作, 下面对这三种操作进行详细描述,且需要说明的是,这三种操作的先后执行顺序不受本实 施例的限制,即先执行这三种操作中任一操作均可。
[0128] 如图3所示,选取先验指标xt的操作包括以下步骤:
[0129] 设定\为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数:
[0130] 对于任一i,包括步骤201-203:
[0131] 步骤201、通过公式
计算该第i天对应的平均数,其中,表示该 第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且 1 ^j^J;
[0132] 步骤202、将历史优化数据yn至按照从小到大或从大到小顺序进行排序以形 成一数据序列;
[0133] 步骤203、当J为奇数时,该第i天对应的中位数乂为该数据序列中处于中间位置 的历史优化数据,当J为偶数时,Mi为该数据序列中处于中间位置的两个历史优化数据的平 均值;
[0134] 对于所有i,i为遍历1至n的整数,包括步骤204和205:
[0135] 步骤204、计算第一平均值
第三平均值
[0136] 步骤205、计算第一相关性
、第二相关性
,并取h和r2中的较大值作为先验指标xt。
[0137] 计算时间段指数ft的操作包括以下步骤:
[0138] 设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正 整数且1彡a彡V:
[0139] 计算该预测日期所处时间段对应的时间段指数
[0140] 其中, U为正整数且1彡u彡U,1彡v彡V; * f
[0141] Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,^为该预 测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日 期所处年份之前的第u年第v个时间段的历史优化数据,7为该预测日期所处年份之前的 U年中各年各时间段的历史优化数据的总平均值。
[0142] 设定信号指标gt的操作包括以下步骤:
[0143] 判断该预测日期是否为一设定日期(如法定节假日的日期),若是则设定日期因子 的信号指标gt为1,若否则该信号指标gt为〇。
[0144] 在选取先验指标、计算时间段指数以及设定信号指标的操作完成之后,对步骤103 中的ARIMAX模型进行优化,即将影响预测数据的多种因素加入至ARIMAX模型中,使得预测 出的数据更加准确。具体为:
[0145] 利用模型 〇 ⑶=ii+3 2ft+3 3gt+? ⑶ ?S(BS)et、& 4)计 算该预测数据,其中,〇(B)为自回归算子且〇(B) =l-chB-小忑2-…-ctpBp,p为自回归项 数,〇s(Bs)为季节性自回归算子且〇s(Bs) = --小PBPS,?⑶为移动平均 算子且?⑶=1-e0丨-…-0qB%q为移动平均项数,?s (Bs)为季节性移动平均算子 且〇s (Bs) = 1- 0 9 2B2s-----Qyt为该预测数据,ii、3i、P2和P3为预设参数,通 过R程序预测出。
[0146]如图4所示,本实施例的数据预测系统还包括一第六计算模块7、一排序模块8、一 第一赋值模块9、一第七计算模块10、一第八计算模块11、一指数计算模块12、一第二判断 模块13、一第二赋值模块14和一第三赋值模块15。
[0147] 上述介绍了该数据预测系统除了实施例1包括的部件外还包括的部件,下面具体 介绍每一部件实现的功能:
[0148] 设定\为该预测日期之前的第i天的历史优化数据,i为遍历1至n的整数, 设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且 1 ^a^V;
[0149] 该第六计算模块7用于通过公式
计算该第i天对应的平均数,其中, yij表示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整 数且1彡j彡J;
[0150] 该排序模块8用于将历史优化数据yn至按照从小到大或从大到小顺序进行排 序以形成一数据序列;
[0151] 该第一赋值模块9用于在当J为奇数时,将该第i天对应的中位数仏赋值为该数 据序列中处于中间位置的历史优化数据,当j为偶数时,将Mi赋值为该数据序列中处于中 间位置的两个历史优化数据的平均值;
[0152] 该第七计算模块10用于计算第一平均值
第 三平均值
[0153] 该第八计算模块11用于计算第一相关性
'第二相 关性
'并取^和r2中的较大值作为先验指标xt ;
[0154] 该指数计算模块12用于计算该预测日期所处时间段对应的时间段指数
[0155] 其中: U为正整数且1彡u彡U,1彡v彡V; >
[0156]Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,瓦为该预 测日期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日 期所处年份之前的第u年第v个时间段的历史优化数据,F为该预测日期所处年份之前的 U年中各年各时间段的历史优化数据的总平均值;
[0157] 该第二判断模块13用于判断该预测日期是否为一设定日期,若是则调用该第二 赋值模块14,若否则调用该第三赋值模块15 ;
[0158] 该第二赋值模块14用于将设定日期因子的信号指标gt赋值为1;
[0159] 该第三赋值模块15用于将该信号指标gt赋值为0;
[0160] 该第一计算模块 3 用于利用①(B)①s (Bs)yt =ii+ @pt+ @ 2ft+ @ 3gt+ ? (B) ?s (Bs) et计算该预测数据。
[0161] 下面举一具体的例子来说明本实施例,以使得本领域技术人员更好地理解本发 明:
[0162] 接着实施例1中的例子,在对2011年至2013年的历史数据进行修正后,进行选取 先验指标xt的操作,具体为:
[0163] 设定\为该预测日期之前的第i天的历史优化数据,i为遍历1至180的整数,通 过公式
计算该第i天对应的平均数,yij表示该第i天所处时间周期之前的第j 个时间周期对应日期的历史优化数据。
[0164] 例如J=4,预测日期为2014年2月20日,当i=l、j=l时,yn表示该预测日期之前 的第1天(即2014年2月19日)所处时间周期之前的第1个时间周期对应日期(即2014年 2月12日)的历史优化数据,当i=l、j=2时,y12表示该预测日期之前的第1天所处时间周 期之前的第2个时间周期对应日期(即2014年2月5日)的历史优化数据,当i=l、j=3时, y13表示2014年1月29日的历史优化数据,当i=l、j=4时,y14表示2014年1月22日的历 史优化数据。则2014年2月19日对应的平均数=(yn+y12+y13+y14)/4。
[0165] 当i=2、j=l时,y21表示该预测日期之前的第2天(即2014年2月18日)所处时 间周期之前的第1个时间周期对应日期(即2014年2月11日)的历史优化数据,当i=2、 j=2时,y22表示该预测日期之前的第2天所处时间周期之前的第2个时间周期对应日期(即 2014年2月4日)的历史优化数据,当i=2、j=3时,y23表示2014年1月28日的历史优化 数据,当i=2、j=4时,y24表示2014年1月21日的历史优化数据。则2014年2月18日对 应的平均数=(y21+y22+y23+y24)/4。
[0166] 同理,该预测日期之前的第3-180天对应的平均数按照上述方法计算,具体过程 这里就不再一一赘述。
[0167] 然后,将历史优化数据yn至(例如yn、y12、y13、y14)按照从小到大顺序进行排 序以形成一数据序列,其中i为遍历1至180的整数,j为遍历1至4的整数。札为yn、y12、 y13、y14按从小到大顺序形成的数据序列中(如{y12、y14、y13、y12})处于中间位置的两个历史 优化数据的平均值,S卩(y14+y13)/2。
[0168] 计算第一平均值.
[0169] 其中,XiS2014年2月19日的历史优化数据,&为2
014年2月18日的历史优化 数据,&为2014年2月17日的历史优化数据,依次类推;AiS2014年2月19日对应的平 均数,4为2014年2月18日对应的平均数,^为2014年2月17日对应的平均数,依次类 推;为2014年2月19日对应的中位数,11 2为2014年2月18日对应的中位数,113为2014 年2月17日对应的中位数,依次类推。
[0170] 计算第一相关性
、第二相关性
,并取h和r2中的较大值作为先验指标xt。
[0171] 接着,由于月份不同携程旅行网的网页的浏览量也不同,存在淡旺季现象,例如每 年的5月和10月,由于法定节假日的存在,网页的浏览量显著减小(见表2) :
[0172]表 2
[0175] 该预测日期为2014年2月20日,a=2,V=12,月份季节指数 , -?
[0176] 其中,u=l时,F21为2013年2月的历史优化数据,u=2时,F22为2012年2月的历 史优化数据,u=3时,F23为2011年2月的历史优化数据,则2011年至2013年中各年2月 的历史优化数据的平均值
[0177]v=l、u=l时,Fn为2013年1月的历史优化数据,v=l、u=2时,F12为2012年1月 的历史优化数据,v=l、u=3时,F13为2011年1月的历史优化数据,v=2、u=l时,F21为2013 年2月的历史优化数据,v=2、u=2时,F22为2012年2月的历史优化数据,v=2、u=3时,F23为 2011年2月的历史优化数据,以此类推。则2011年至2013年中各年各月的历史优化数据 的总平均值
[0178] 接着,判断该预测日期2014年2月20日是否为法定节假日,并判断出2014年2 月20日不是法定节假日则gt为0。
[0179] 最后,利用模型 〇(B)〇s(Bs)yt
[email protected]+e2ft+e3gt+? (B) ?S(BS)et、 ~~M〇,erf)计算2014年2月20曰的预测数据yt。
[0180] 实施例3
[0181] 接着实施例2,在计算出预测数据(具体参见实施例1中步骤101-106)后,计算该 预测数据的置信区间以及根据该置信区间判断该指标是否异常,具体步骤包括:
[0182] 步骤107、计算该预测日期对应的标准误差
则该预测数据的 置信区间为[F-PSe,F+PSj。其中,W为正整数且1彡w彡W,XwS该预测日期之前的第w天的历史优化数据,FWS该预测日期之前的第w天的预测数据,F为该预测数据,0为标准 正态分布的
分位数,a为置信度。
[0183] 步骤108、判断该预测日期该指标的实际数据是否在该置信区间内,若是则输出一 表示该指标正常的第一信息,若否则输出一表示该指标异常的第二信息。进一步地,判断该 实际数据是否在[(F-PSJ(1-Stl),(F+PSJ(1+Stl)]内,若是则输出该第一信息,若否则输 出该第二信息,其中,Stl为一第一设定阈值。
[0184] 本实施例的数据预测系统还包括一误差计算模块、一第四赋值模块、一第三判断 模块、一第一输出模块和一第二输出模块。
[0185] 该误差计算模块用于计算该预测日期对应的标准误差
[0186] 该第四赋值模块用于将该预测数据的置信区间赋值为[F-0Se,F+0SJ,其中W为 正整数且1 <w<W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前 的第w天的预测数据,F为该预测数据,0为标准正态分布的
吩位数,a为置信度;
[0187] 该第三判断模块用于判断该预测日期该指标的实际数据是否在该置信区间内,若 是则调用该第一输出模块输出一表不该指标正常的第一信息,若否则调用该第二输出模块 输出一表示该指标异常的第二信息。进一步地,该第三判断模块用于判断该实际数据是否 在[(F-PSJ(1-Stl), (F+PSe) (1+Stl)]内,若是则调用该第一输出模块输出该第一信息,若 否则调用该第二输出模块输出该第二信息,其中,Stl为一第一设定阈值。
[0188] 实施例4
[0189] 实施例3中的步骤108也可通过以下技术内容实现:
[0190] 通过现有方法(标准差方法、周次规律侦测方法或分位数方法)获得的该指标的 现有置信区间为[cn,ci2],判断该实际数据是否满足既在该置信区间内又在该现有置信区 间内,若是则输出该第一信息,若否则进一步判断该实际数据是否同时满足既在[(F-3Se) (1-St2),(F+PSe) (1+St2)]又在[Cn(l-St2),Ci2(l+St2)]外,若是则输出该第二信息,若否则 输出该第一信息,其中,st2为一第二设定阈值。
[0191] 本实施例数据预测系统包括的第三判断模块与实施例3中的第三判断模块实现 的功能不同,具体为:
[0192] 该第三判断模块用于判断该实际数据是否同时在[(F-PSe)(l-St2),(F+3Se) (1+St2)]和[Cn(l-St2),Ci2(l+St2)]外,若是则调用该第二输出模块输出该第二信息,若否 则调用该第一输出模块输出该第一信息,其中,st2为一第二设定阈值。
[0193] 实施例5
[0194] 接着实施例3,本实施例还提供一种报警方法,一预测日期N个指标(例如网页跳 出率、转化率、浏览量、网页浏览率)中每一指标的置信区间均通过实施例3所述的数据预测 方法实现、每一指标的现有置信区间均通过现有方法实现,判断该N个指标中是否存在d个 指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指 标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一第三设定阈值 同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四设定阈值,若是 则输出报警信息;其中,d和N均为正整数。
[0195] 本实施例还提供一种报警系统,一预测日期N个指标中每一指标的置信区间均通 过实施例3所述的数据预测系统实现、每一指标的现有置信区间均通过现有方法实现,该 报警系统包括一第四判断模块和一第三输出模块;
[0196] 该第四判断模块用于判断该N个指标中是否存在d个指标的每一指标的实际数据 在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信 区间的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间 的左区间或右区间的差值的绝对值大于一第四设定阈值,若是则调用该第三输出模块输出 报警信息;其中,d和N均为正整数。
[0197] 下面举一具体的例子来说明本实施例,以使得本领域技术人员更好地理解本发 明:
[0198] 接着实施例2中的例子,假设该预测日期2014年2月20日某一指标的预测数据 为A,该指标对应的置信区间为[Ai,A2],该指标对应的现有置信区间为[Q,C2],第三设定阈 值和第四设定阈值相同均为St2,则衡量网站运营状况的93个指标中,若有任意5个或5个 以上的指标满足下述条件:A均在[ApA2]和[Q,C2]外,且|A-Aj>St2或|A-A2| >St2、 同时|A-C」>St2或|A-C2| >St2,则实现报警。
[0199] 当然,本发明也可以分等级报警,如将报警分为一级报警和二级报警。在一级报警 中,第一种技术方案为判断N个指标中是否存在d个指标的每一指标的实际数据在对应的 置信区间或现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间的左 区间或右区间的差值的绝对值大于一设定值或与对应的现有置信区间的左区间或右区间 的差值的绝对值大于该设定值,若是则实现报警;第二种技术方案为判断该N个指标中是 否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个指 标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值小于一设 定值同时与对应的现有置信区间的左区间或右区间的差值的绝对值小于该设定值,若是则 实现报警。
[0200] 在二级报警中,技术方案为判断该N个指标中是否存在d个指标的每一指标的实 际数据在对应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应 的置信区间的左区间或右区间的差值的绝对值大于一设定值同时与对应的现有置信区间 的左区间或右区间的差值的绝对值大于该设定值,若是则实现报警。
[0201] 本发明中的各个功能模块均能够在现有的硬件条件下结合现有的软件编程手段 加以实现,故在此对其具体实现方法均不做赘述。
[0202] 虽然以上描述了本发明的【具体实施方式】,但是本领域的技术人员应当理解,这些 仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背 离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更 和修改均落入本发明的保护范围。
【主权项】
1. 一种网站指标的数据预测方法,其特征在于,其包括以下步骤: 51、 采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类, 且每一时间周期内的历史数据按照日期先后顺序分类; 52、 将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待 修正数据进行修正,修正后的数据和标准数据构成历史优化数据; 53、 根据该些历史优化数据通过ARIMX模型计算一预测日期该指标的预测数据。2. 如权利要求1所述的数据预测方法,其特征在于,在步骤S2中,对于任一时间周期内 的任一待修正数据,修正操作包括: 利用公另计算该待修正数据的修正参数,其中r为该时间周期内标准数据 的个数,R为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且1彡k彡r ; 修正后的数据为该待修正数据与该修正参数的乘积; 在步骤S3之后,包括以下步骤: 54、 判断该预测数据是否需要修正,若是则进入步骤S5,若否则结束流程; 55、 利用公式计算该预测数据的预测修正参数,其中s为该预测日期对应的 时间周期内标准数据的个数,F为该预测数据,Fm为该预测日期对应的时间周期内第m个标 准数据,s为正整数且1彡m彡s ; 56、 该预测日期该指标的实际预测数据为该预测数据与该预测修正参数的商。3. 如权利要求1所述的数据预测方法,其特征在于,在步骤S2之后包括以下步骤,设定 Xi为该预测日期之前的第i天的历史优化数据,i为遍历1至η的整数,针对任一 i : 通过公式计算该第i天对应的平均数,其中,表示该第i天所处时间周 期之前的第j个时间周期对应日期的历史优化数据,J为正整数且1彡j彡J ; 将历史优化数据yn至按照从小到大或从大到小顺序进行排序以形成一数据序列; 当J为奇数时,该第i天对应的中位数Mi为该数据序列中处于中间位置的历史优化数 据,当J为偶数时,Mi为该数据序列中处于中间位置的两个历史优化数据的平均值;计算第一平均值 第二平均值 第三平均值 k 计算第一相关性?第二相关性^并取J和r2中的较大值作为先验指标x t ; 在步骤S3中,利用模型Φ⑶Φ s (Bs) yt = μ + β Α+ Θ⑶Θ s (Bs) ε t、&~雜,σ!Η十算该 预测数据,其中,Φ(Β)为自回归算子且Φ(Β) =I-Ct1B-Ct2B2-…_ΦρΒ ρ,ρ*自回归项数, Os(Bs)为季节性自回归算子且Os(Bs) = H1Bs-Ct2B2s--ΦΡΒ Ρ3, Θ⑶为移动平均算子 且〇⑶=1- θ ιΒ- θ 2Β2-…-Θ,,q
为移动平均项数,Os(Bs)为季节性移动平均算子且 0s(Bs) = 1- Θ jB3- Θ 2B2s-----Θ ^Bqs, yt为该预测数据,μ和β i为预设参数。4. 如权利要求3所述的数据预测方法,其特征在于,在步骤S2之后包括以下步骤, 设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为正整数且 I ^ a ^ V : 计算该预测日期所处时间段对应的时间段指数其中: U为正整数且1彡u彡U,1彡V彡V ; J Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,g为该预测日 期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所 处年份之前的第u年第V个时间段的历史优化数据,为该预测日期所处年份之前的U年 中各年各时间段的历史优化数据的总平均值; 在步骤S3中,利用模型Φ⑶Φ s (Bs) yt = μ + β Jt+ β 2ft+ Θ⑶Θ s (Bs) ε t计算该预测 数据,其中,β2为预设参数。5. 如权利要求4所述的数据预测方法,其特征在于,在步骤S2之后包括以下步骤: 判断该预测日期是否为一设定日期,若是则设定日期因子的信号指标gt为1,若否则该 信号指标gt为〇 ; 在步骤 S3 中,利用模型 Φ ⑶ C>s(Bs)yt = μ +β Λ+β 2?;+β 3gt+? ⑶ Qs(Bs) ε t 计算 该预测数据,其中,β3为预设参数。6. 如权利要求1所述的数据预测方法,其特征在于,在步骤S3之后包括以下步骤: 计算该预测日期对应的标准误差则该预测数据的置信区间为 [F-i3Se,F+PSJ,其中W为正整数且1彡w彡W,XwS该预测日期之前的第w天的历史优 化数据,FwS该预测日期之前的第w天的预测数据,F为该预测数据,β为标准正态分布的分位数,α为置信度; 判断该预测日期该指标的实际数据是否在该置信区间内,若是则输出一表示该指标正 常的第一信息,若否则输出一表示该指标异常的第二信息。7. 如权利要求6所述的数据预测方法,其特征在于,判断该实际数据是否在[(F-β Se) (I-Stl), (F+β Se) (1+Stl)]内,若是则输出该第一信息,若否则输出该第二信息,其中,Stl为 一第一设定阈值。8. 如权利要求6所述的数据预测方法,其特征在于,设该指标的现有置信区间 为[Cil, Ci2],判断该实际数据是否同时在[(F-β Se) (I-St2), (F+β Se) (1+St2)]和 [Cil(I-St2), Ci2(1+St2)]外,若是则输出该第二信息,若否则输出该第一信息,其中,St2为一 第二设定阈值。9. 一种报警方法,其特征在于,一预测日期N个指标中每一指标的置信区间均通过如 权利要求6所述的数据预测方法实现、每一指标均具有一现有置信区间,判断该N个指标中 是否存在d个指标的每一指标的实际数据在对应的置信区间和现有置信区间外、且该d个 指标的每一指标的实际数据与对应的置信区间的左区间或右区间的差值的绝对值大于一 第三设定阈值同时与对应的现有置信区间的左区间或右区间的差值的绝对值大于一第四 设定阈值,若是则输出报警信息; 其中,d和N均为正整数。10. 如权利要求9所述的报警方法,其特征在于,指标为网页跳出率、转化率、浏览量、 网页浏览率、浏览器浏览率或主要来源浏览率,和/或,每一指标的现有置信区间的获取方 法为标准差方法、周次规律侦测方法或分位数方法。11. 一种网站指标的数据预测系统,其特征在于,其包括一分类模块、一修正模块和一 第一计算模块; 该分类模块用于采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数 据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类; 该修正模块用于将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标 准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据; 该第一计算模块用于根据该些历史优化数据通过ARIMX模型计算一预测日期该指标 的预测数据。12. 如权利要求11所述的数据预测系统,其特征在于,该修正模块包括一第二计算模 块和一第三计算模块,对于任一时间周期内的任一待修正数据,该第二计算模块用于利用 公式计算该待修正数据的修正参数,其中r为该时间周期内标准数据的个数,R 为该待修正数据,Rk为该时间周期内第k个标准数据,r为正整数且I 该第三计 算模块用于通过该待修正数据与该修正参数的乘积计算修正后的数据; 该数据预测系统还包括一第一判断模块、一第四计算模块和一第五计算模块,该第一 判断模块用于判断该预测数据是否需要修正,若是则调用该第四计算模块; 该第四计算模块用于利用公式计算该预测数据的预测修正参数,其中s为 该预测日期对应的时间周期内标准数据的个数,F为该预测数据,FmS该预测日期对应的时 间周期内第m个标准数据,s为正整数且1彡m彡s ; 该第五计算模块用于通过该预测数据与该预测修正参数的商计算该预测日期该指标 的实际预测数据。13. 如权利要求11所述的数据预测系统,其特征在于,该数据预测系统还包括一第六 计算模块、一排序模块、一第一赋值模块、一第七计算模块和一第八计算模块,设定Xi为该 预测日期之前的第i天的历史优化数据,i为遍历1至η的整数,对于任一 i : 该第六计算模块用于通过公式计算该第i天对应的平均数,其中,Yij表 示该第i天所处时间周期之前的第j个时间周期对应日期的历史优化数据,J为正整数且 I ^ j ^ J ; 该排序模块用于将历史优化数据yn至yg按照从小到大或从大到小顺序进行排序以形 成一数据序列;该第一赋值模块用于在当J为奇数时,将该第i天对应的中位数Mi赋值为该数据序列 中处于中间位置的历史优化数据,当J为偶数时,将Mi赋值为该数据序列中处于中间位置 的两个历史优化数据的平均值; 该第七计算模块用于计算第一平均值 第二平均值 第三平均值 ? %该第八计算模块用于计算第一相关性'第二相关性'并取A和r2中的较大值作为先验指标X t ; 该第一计算模块用于利用模型Φ⑶Φ s (Bs) yt = μ + β Jt+ Θ⑶Θ s (Bs) ε t、£·,.~Λ(0,<τΓ:)计算该预测数据,其中,Φ⑶为自回归算子且Φ⑶=Ι-φρυ 2-··· -Φ ΡΒΡ,ρ为自回归项数,Φ s (Bs)为季节性自回归算子且Φ s (Bs) = 1- Φ Ps- Φ 2B2s--Φ pBps, θ⑶为移动平均算子且θ⑶=1- θ θ 2Β2--θ,,q为移动平均项数,Os(Bs)为季 节性移动平均算子且Os(Bs) = 1- Θ lBs- Θ 2B2s-Θ yt为该预测数据,μ和β i为预 设参数。14. 如权利要求13所述的数据预测系统,其特征在于,该数据预测系统还包括一指数 计算模块,设定每年被划分为V个时间段,该预测日期所处的时间段为第a个时间段,V为 正整数且1彡a彡V ; 该指数计算模块用于计算该预测日期所处时间段对应的时间段指数其中U为正整数且1彡u彡U,1彡V彡V ; Fau为该预测日期所处年份之前的第u年第a个时间段的历史优化数据,万为该预测日 期所处年份之前的U年中各年第a个时间段的历史优化数据的平均值,Fvu为该预测日期所 处年份之前的第u年第V个时间段的历史优化数据,7为该预测日期所处年份之前的U年 中各年各时间段的历史优化数据的总平均值; 该第一计算模块用于利用模型Φ (B) C>s(Bs)yt = μ + β Α+βΑ+Θ (B) ?s(Bs) ε t计算 该预测数据,其中,β2为预设参数。15. 如权利要求14所述的数据预测系统,其特征在于,该数据预测系统还包括一第二 判断模块、一第二赋值模块和一第三赋值模块; 该第二判断模块用于判断该预测日期是否为一设定日期,若是则调用该第二赋值模 块,若否则调用该第三赋值模块; 该第二赋值模块用于将设定日期因子的信号指标gt赋值为1 ; 该第三赋值模块用于将该信号指标gt赋值为〇 ; 该第一计算模块用于利用 Φ (B) Φ s (Bs) yt = μ + β Jt+β 2ft+β 3gt+Θ (B) Θ s (Bs) ε t 计 算该预测数据,其中,β3为预设参数。16. 如权利要求11所述的数据预测系统,其特征在于,该数据预测系统还包括一误差 计算模块、一第四赋值模块、一第三判断模块、一第一输出模块和一第二输出模块; 该误差计算模块用于计算该预测日期对应的标准误差该第四赋值模块用于将该预测数据的置信区间赋值为[F-β Se,F+β SJ,其中W为正整 数且I < w < W,Xw为该预测日期之前的第w天的历史优化数据,Fw为该预测日期之前的第 w天的预测数据,F为该预测数据,β为标准正态分布的^分位数,α为置信度; £ 该第三判断模块用于判断该预测日期该指标的实际数据是否在该置信区间内,若是则 调用该第一输出模块输出一表不该指标正常的第一信息,若否则调用该第二输出模块输出 一表不该指标异常的第二信息。17. 如权利要求16所述的数据预测系统,其特征在于,该第三判断模块用于判断该实 际数据是否在[(F-PSe) (I-Stl), (F+β Se) (1+Stl)]内,若是则调用该第一输出模块输出该 第一信息,若否则调用该第二输出模块输出该第二信息,其中,Stl为一第一设定阈值。18. 如权利要求16所述的数据预测系统,其特征在于,设该指标的现有置信区间为 [Cn,Ci2],该第三判断模块用于判断该实际数据是否同时在[(F-i3Se)(l_S t2),(F+i3Se) (1+St2)]和[Cil(I-St2), Ci2(1+St2)]外,若是则调用该第二输出模块输出该第二信息,若否 则调用该第一输出模块输出该第一信息,其中,St2为一第二设定阈值。19. 一种报警系统,其特征在于,一预测日期N个指标中每一指标的置信区间均通过如 权利要求16所述的数据预测系统实现、每一指标均具有一现有置信区间,该报警系统包括 一第四判断模块和一第三输出模块; 该第四判断模块用于判断该N个指标中是否存在d个指标的每一指标的实际数据在对 应的置信区间和现有置信区间外、且该d个指标的每一指标的实际数据与对应的置信区间 的左区间或右区间的差值的绝对值大于一第三设定阈值同时与对应的现有置信区间的左 区间或右区间的差值的绝对值大于一第四设定阈值,若是则调用该第三输出模块输出报警 信息; 其中,d和N均为正整数。20.如权利要求19所述的报警系统,其特征在于,指标为网页跳出率、转化率、浏览量、 网页浏览率、浏览器浏览率或主要来源浏览率,和/或,每一指标的现有置信区间的获取方 法为标准差方法、周次规律侦测方法或分位数方法。
【专利摘要】本发明提供一种网站指标的数据预测方法和系统以及报警方法和系统,该数据预测方法包括:采集一预设区域内的一指标的历史数据,按照时间周期对该些历史数据进行分类,且每一时间周期内的历史数据按照日期先后顺序分类;将每一时间周期内的历史数据划分为标准数据和待修正数据,根据标准数据对待修正数据进行修正,修正后的数据和标准数据构成历史优化数据;根据该些历史优化数据通过ARIMAX模型计算一预测日期该指标的预测数据。本发明能够准确预测出某一预测日期某一指标的预测数据,显著提高了预测的准确性,并且在衡量网站运营状况的多个指标同时满足一定条件时实现报警,使得用户及时地了解到网站运营状况。
【IPC分类】G06F19/00, G06F17/30
【公开号】CN104899405
【申请号】CN201410077416
【发明人】卢孔敏, 周秀凤, 聂强强, 康伟华
【申请人】携程计算机技术(上海)有限公司
【公开日】2015年9月9日
【申请日】2014年3月4日