基于时间序列预测模型适用性量化的预测模型选择方法

xiaoxiao2020-10-23  14

基于时间序列预测模型适用性量化的预测模型选择方法
【技术领域】
[0001] 本发明涉及时间序列预测模型适用性量化评价指标体系。属于时间序列预测模型 预测领域。
【背景技术】
[0002] 对于时间序列预测而言,预测结果的评价十分重要,是预测模型针对当前时间序 列的适用性的一种量化描述方式。然而,现有的时间序列预测研宄中,大多采用单一或少量 的几个指标对预测模型输出的预测结果进行评价,评价角度较为单一,无法实现对预测模 型性能的全面、综合的评价和描述。因此,需要构建一个时间序列预测模型适用性量化评价 指标体系,涵盖不同的模型适用性评价角度、每个角度下涵盖若干不同指标,构建一个较为 完备的指标体系,为全面的模型适用性评价奠定基础。该研宄暂时处于空白状态,因此本发 明创造主要为填补本空白而提出。

【发明内容】

[0003] 本发明是为了解决现有的时间序列特性预测方法对预测模型输出的预测结果预 测角度单一,无法实现对预测模型性能的全面、综合的预测,导致预测效果差的问题。现提 供基于时间序列预测模型适用性量化的预测模型选择方法。
[0004] 基于时间序列预测模型适用性量化的预测模型选择方法,所述方法是基于m个预 测模型实现的,它包括以下步骤:
[0005] 步骤一:根据每个预测模型的预测步长P、真实值xk和预测模型输出结果%,获得 各预测模型的误差和预测效率,其中,误差包括整体误差、局部误差、无量纲准则误差和多 次试验性能误差,预测效率为对预测模型输入时间序列到预测模型输出结果所用的时间, 所用的时间越短,则预测模型效率越高;
[0006] 步骤二:根据预测需求,在m个预测模型中,结合步骤一获得各预测模型的误差和 预测效率,选取满足预测需求的最优预测模型,若满足预测需求的预测模型为一个预测模 型,则该预测模型为最优预测模型,若满足预测需求的预测模型为多个预测模型,则将多个 预测模型两两进行预测能力差异性检验,获得一个最优的预测模型。
[0007] 本发明的有益效果为:通过整体误差、局部误差、无量纲准则误差、多次试验性能 误差和预测模型预测效率对m个预测模型进行误差检验,在m个预测模型中选取误差和预 测效率最优的预测模型,当某个预测模型的误差和预测效率均最优,则该预测模型为最优 预测模型,当最优误差的预测模型和最优预测效率的预测模型不同时,将不同的最优预测 模型进行预测能力差异性检验,从而获得最优的预测模型。其中,对预测模型进行了 6个角 度的预测,其中共计27个预测指标,为全面的模型适用性评价提供基础,建立了完善的评 价体系,实现对预测模型性能的全面、综合的预测,同比现有的预测效果好5倍以上。
【附图说明】
[0008] 图1为【具体实施方式】一所述的基于时间序列预测模型适用性量化的预测模型选 择方法的流程图。
【具体实施方式】
【具体实施方式】 [0009] 一:结合图1说明本实施方式,本实施方式所述的基于时间序列预 测模型适用性量化的预测模型选择方法,所述方法是基于m个预测模型实现的,它包括以 下步骤:
[0010] 步骤一:根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获得 各预测模型的误差和预测效率,其中,误差包括整体误差、局部误差、无量纲准则误差和多 次试验性能误差,预测效率为对预测模型输入时间序列到预测模型输出结果所用的时间, 所用的时间越短,则预测模型效率越高;
[0011] 步骤二:根据预测需求,在m个预测模型中,结合步骤一获得各预测模型的误差和 预测效率,选取满足预测需求的最优预测模型,若满足预测需求的预测模型为一个预测模 型,则该预测模型为最优预测模型,若满足预测需求的预测模型为多个预测模型,则将多个 预测模型两两进行预测能力差异性检验,获得一个最优的预测模型。
【具体实施方式】 [0012] 二:本实施方式是对一所述的基于时间序列预测模型 适用性量化的预测模型选择方法作进一步说明,本实施方式中,步骤二中,将多个预测模型 两两进行预测能力差异性检验的过程:
[0013] 采用差异性检验Diebold-Mariano对两个预测模型进行预测能力差异性检验,输 出两个结果,分别为Diebold-Mariano统计量和假设机率p-value,
[0014] 设两个预测模型分别为第一预测模型和第二预测模型,当Diebold-Mariano统计 量为负,则第一预测模型的预测能力比第二预测模型的预测能力强;当Diebold-Mariano 统计量为为正,则第二预测模型的预测能力比第一预测模型的预测能力强;
[0015] 假设机率p-value小于0. 05,贝丨」两个预测模型间差异明显,
[0016] 假设机率p-value小于0. 01,则两个预测模型间差异非常明显。
[0017] 本实施方式中,通过整体误差和局部误差的计算结果,来评价预测模型的准确度, 通过多次试验性能误差的计算结果,来评价预测模型的精确率,通过预测模型输出结果所 用的时间,来评价预测模型的计算效率,通过无量纲准则误差的计算结果,来评价预测模型 的准确度和建模的复杂度,通过预测模型预测能力的检验结果,来评价预测模型间的预测 能力。
【具体实施方式】 [0018] 三:本实施方式是对一所述的基于时间序列预测模型 适用性量化的预测模型选择方法作进一步说明,本实施方式中,整体误差包括含符号绝对 误差、无符号绝对误差、含符号相对误差和无符号相对误差,
[0019] 含符号绝对误差由平均误差ME组成,
[0020] 平均误差ME,用于预测预测模型的输出结果相对于真实值偏大或偏小的平均程 度,
[0021] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果%,获 得各预测模型的平均误差ME的过程为:
[0022] 根据公式:
[0024] 获得平均误差ME,
[0025] 式中,k表示预测时间序列的序号索引,取值范围从1到P,表示第1个到第P个预 测点的序号,
[0026] 某个预测模型的平均误差ME的绝对值相对其他预测模型的平均误差ME的绝对值 大,表示该预测模型残余的误差相对其他预测模型残余的误差多,即该预测模型的预测结 果大于或者小于真实值;
[0027] 某个预测模型的平均误差ME的绝对值相对其他预测模型的平均误差ME的绝对值 小,则该预测模型的预测结果大于真实值和小于真实值的几率相同,即没有系统性预测偏 差;
[0028] 平均误差ME越接近0,即相应预测模型均衡性越好;
[0029] 无符号绝对误差包括均方误差MSE、均方根误差RMSE、对数均方误差MSEL和平均 绝对误差MAE,
[0030] 均方误差MSE、均方根误差RMSE、对数均方误差MSEL和平均绝对误差MAE,均用于 预测预测模型的输出结果与真实值之间的偏差距离的平均数值,
[0031] MSE用于预测预测模型的输出结果与真实值之间的偏差距离平方的平均数值, RMSE和MSE均用于预测预测模型的输出结果与真实值之间的偏差距离的平均数值,MSEL用 于预测预测模型的输出结果与真实值对数尺度下偏差距离的平均数值;
[0032] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果足,获 得各预测模型的均方误差MSE的过程为:
[0033] 根据公式:
[0035] 获得均方误差MSE;
[0036] 某个预测模型的均方误差MSE的计算结果相对其他预测模型的计算结果大,则该 预测模型的预测结果与真实值的偏差大,即整体的偏差程度大,
[0037] 某个预测模型的均方误差MSE的计算结果相对其他预测模型的计算结果小,则该 预测模型的预测结果与真实值的偏差小,即预测结果接近真实值,
[0038] 均方误差MSE的计算结果取值为0,表明预测模型能够给出完全准确的预测结果;
[0039] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的均方根误差RMSE的过程为:
[0040] 根据公式:
[0042] 获得均方根误差RMSE;
[0043] 某个预测模型的均方根误差RMSE的计算结果相对其他预测模型的计算结果大, 则该预测模型的预测结果与真实值的偏差大,即整体的偏差程度大,
[0044] 某个预测模型的均方根误差RMSE的计算结果相对其他预测模型的计算结果小, 则该预测模型的预测结果与真实值的偏差小,即预测结果接近真实值, [0045] 均方根误差RMSE的计算结果取值为0,表明预测模型能够给出完全准确的预测结 果;
[0046] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的对数均方误差MSEL的过程为:
[0047] 根据公式:
[0049] 获得对数均方误差MSEL;
[0050] 某个预测模型的对数均方误差MSEL的计算结果相对其他预测模型的计算结果 大,则该预测模型的预测结果与真实值的偏差大,即整体的偏差程度大,
[0051] 某个预测模型的对数均方误差MSEL的计算结果相对其他预测模型的计算结果 小,则该预测模型的预测结果与真实值的偏差小,即预测结果接近真实值,
[0052] 对数均方误差MSEL的计算结果取值为0,表明预测模型能够给出完全准确的预测 结果;
[0053] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各相应预测模型的平均绝对误差MAE的过程为:
[0054] 根据公式:
[0056] 获得平均绝对误差MAE;
[0057] 某个预测模型的平均绝对误差MAE的计算结果相对其他预测模型的计算结果大, 则该预测模型的预测结果与真实值的偏差大,即整体的偏差程度大,
[0058] 某个预测模型的平均绝对误差MAE的计算结果相对其他预测模型的计算结果小, 则该预测模型的预测结果与真实值的偏差小,即预测结果接近真实值,
[0059] 平均绝对误差MAE的计算结果取值为0,表明预测模型能够给出完全准确的预测 结果;
[0060] 含符号相对误差包括平均百分比误差MPE和相对容量误差RVE,
[0061] 相对容量误差RVE和平均百分比误差MPE,均用于计算每个预测点相对误差的总 体平均水平,
[0062] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的平均百分比误差MPE的过程为:
[0063] 根据公式:
[0065] 获得平均百分比误差MPE;
[0066] 某个预测模型的平均百分比误差MPE的绝对值相对其他预测模型的平均百分比 误差MPE的绝对值大,则该预测模型的预测结果大于真实值或者小于真实值;
[0067] 平均百分比误差MPE取值的绝对值接近0,则正负误差出现的几率和大小相同,系 统偏差小;
[0068] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的相对容量误差RVE的过程为:
[0069] 根据公式:
[0071] 获得相对容量误差RVE;
[0072] 某个预测模型相对其他预测模型的相对容量误差RVE的绝对值大,则预测模型存 在系统偏差大,则该预测模型预测结果大于真实值或者小于真实值;
[0073] 相对容量误差RVE取值的绝对值接近0的,则预测结果与真实值之间出现正负误 差的几率和大小相同,系统偏差小;
[0074] 无符号相对误差包括均方相对误差MSRE、平均绝对百分比误差MAPE、平均绝对尺 度误差MASE和归一化均方根误差NRMSE,
[0075] 均方相对误差MSRE,用于计算预测模型总体的平均相对预测偏差,
[0076] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果%,获 得各预测模型的均方相对误差MSRE的过程为:
[0077] 根据公式:
[0079] 获得均方相对误差MSRE;
[0080] 平均绝对百分比误差MAPE,计算每个预测点绝对误差相对于数据点的大小,再计 算所有计算结果的平均值,用来预测预测结果相对于真实值的相对偏差的平均水平,
[0081] 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获 得各预测模型的平均绝对百分比误差MAPE的过程为:
[0082] 根据公式:
[0084] 获得平均绝对百分比误差MAPE;
[0085] 平均绝对尺度误差MASE,用于计算预测偏差相对于数据自身增幅的大小,
[0086] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的平均绝对尺度误差MASE的过程为:
[0087] 根据公式:
[0089] 获得平均绝对尺度误差MASE;
[0090] 平均绝对尺度误差MASE超出数据自身的平均增长速度,则预测结果的偏差过大;
[0091] 归一化均方根误差NRMSE,是归一化后的RMSE指标,用来预测预测模型输出结果 相对于输入时间序列的平均偏差水平,
[0092] 归一化均方根误差NRMSE的取值范围为0至正无穷,
[0093] 归一化均方根误差NRMSE为0,表示预测模型性能好,
[0094] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的归一化均方根误差NRMSE的过程为:
[0095] 根据公式:
[0097] 获得归一化均方根误差NRMSE。
[0098] 本实施方式中,ME指标评估所有预测点预测偏差的平均水平,由于含有正负符号, 因此得到的是经过正负抵消后的结果,能够描述预测模型输出结果相对于真实数值偏大或 偏小的平均程度。恰恰由于计算过程中存在正负符号相互抵消的情况,因此,即使ME取值 较小也并不一定意味着模型的预测性能良好,需要借助其他类别的指标综合判断模型性 能。
[0099] MSRE与MPE相似,刻画的是预测模型总体的平均相对预测误差,较大的相对误差 将出现在相对本身取值较小的数据位置,而这里由于MSRE对误差进行了平方处理,在去掉 符号影响的同时也增加了指标对于误差的敏感程度。MAPE是MPE的相对化指标,通过计算 每个预测点绝对误差相对于数据点的大小,再计算所有计算结果的平均值,来刻画预测结 果相对于真实数据的相对偏差的平均水平。由于MAPE的计算过程中没有对偏差进行平方 处理,因此,其对于取值较大、相对误差较小的预测点的偏差的敏感程度要更低,但是MAPE 与原始数据是同量纲的。NRMSE是归一化的RMSE结果,适合平稳数据的预测评价,评价误差 的均方根与每个点和总体数据期望的均方根之比,消除了数据之间的差异性。但是,由于需 要计算每个点与总体数据期望的均方根,就要求数据本身不存在趋势性,即要求数据平稳, 避免趋势特性引入的较大偏差。
【具体实施方式】 [0100] 四:本实施方式是对一所述的基于时间序列预测模型 适用性量化的预测模型选择方法作进一步说明,本实施方式中,局部误差包括最大绝对误 差AME、最大峰值误差roiFF、相对最大峰值误差PEP和误差符号变化次数NSC,
[0101] 误差符号变化次数NSC主要记录误差序列符号发生变化的次数,用来预测预测结 果中是否存在系统误差,预测结果是否大于真实值或者小于真实值,
[0102] 误差符号每变化一次则NSC计数增加1,NSC取值为0则说明符号没有发生变化, 表示预测模型大于真实值或者小于真实值,
[0103] 预测误差符号是一致的,整体预测结果在实际数据结果的上方或下方,存在系统 偏差,
[0104] 误差符号变化次数NSC取值等于真实值,则表示误差符号在不断变化,预测结果 中不存在恒定的系统偏差,
[0105] 最大绝对误差AME,用于计算最大预测偏差,最大绝对误差AME取值为0,模型最 优,
[0106] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的最大绝对误差AME的过程为:
[0107] 根据公式:
[0109] 获得最大绝对误差AME;
[0110] 最大峰值误差H)IFF,用于判断在预测结果中是否存在系统偏差使得预测结果大 于真实值或小于真实值,
[0111] 最大峰值误差roiFF取值为正,则表明预测模型的预测结果小于真实值,
[0112] 最大峰值误差roiFF取值为负,则表明预测模型的预测结果大于真实值,
[0113] 步骤一中,根据预测模型的预测步长、输入时间序列和预测模型输出结果,获得各 预测模型的最大峰值误差roiFF的过程为:
[0114] 根据公式:
[0116] 获得最大峰值误差roiFF;
[0117] 相对最大峰值误差PEP,用于预测当前的峰值状态的误差, [0118] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的相对最大峰值误差PEP的过程为:
[0119] 根据公式:
[0121] 获得相对最大峰值误差PEP。
[0122] 本实施方式中,ME指标评估所有预测点预测偏差的平均水平,由于含有正负符号, 因此得到的是经过正负抵消后的结果,能够描述预测模型输出结果相对于真实数值偏大或 偏小的平均程度。恰恰由于计算过程中存在正负符号相互抵消的情况,因此,即使ME取值 较小也并不一定意味着模型的预测性能良好,需要借助其他类别的指标综合判断模型性 能。
[0123] 无符号绝对误差指标,主要刻画预测结果与真实数据之间的整体匹配水平即预测 结果与真是数值之间总体偏差的平均水平,预测误差协方差较大的点在指标计算中占有更 大的权重,这就导致其取值主要由预测偏差最大的点所决定,而对于取值较小的误差点不 再敏感。
【具体实施方式】 [0124] 五:本实施方式是对一所述的基于时间序列预测模型 适用性量化的预测模型选择方法作进一步说明,本实施方式中,无量纲准则误差包括最小 信息准则AIC、贝叶斯信息准则BIC、确定系数、有效系数CE、匹配指数IoAd和持久系数PI,
[0125] 最小信息准则AIC和贝叶斯信息准则BIC,均用于在含有N个数据点的时间序列集 中,获得含有最少自由参数且能够对数据进行解释的最小模型,即最低阶次模型,N为正整 数,
[0126] 某个预测模型相对其他预测模型的最小信息准则AIC和贝叶斯信息准则BIC的取 值越小,表示模型越优,
[0127] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的最小信息准则AIC的过程为:
[0128] 根据公式:
[0129] AIC= 2 ?p+N?ln(RMSE),(公式 15)
[0130] 获得最小信息准则AIC;
[0131] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的贝叶斯信息准则BIC的过程为:
[0132] 根据公式:
[0133] BIC=p?ln(N)+N?ln(RMSE),(公式l6)
[0134] 获得贝叶斯信息准则BIC;
[0135] 最小信息准则AIC和贝叶斯信息准则BIC的取值越小代表模型越优;
[0136] 确定系数RSqr,用于预测预测模型的数据统计特性的比例大小,取值区间为0到 1,取值越大于〇越优,最优模型取值为1,
[0137] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的确定系数的过程为:
[0138] 根据公式:
[0140] 获得确定系数RSqr;
[0141] 有效系数CE,用于预测预测模型整体的预测效果,通常CE取值在0到1之间,偶尔 会出现负值情况,有效系数CE的取值为1,表示预测模型最优,
[0142] 有效系数CE的取值为0,表明预测模型的性能不优于均值模型,均值模型为以数 据均值作为后续每个点的预测结果,
[0143] 有效系数CE的取值为负值,表明预测模型的性能劣于均值模型;
[0144] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的有效系数CE的过程为:
[0145] 根据公式:
[0147] 获得有效系数CE;
[0148] 匹配指数IoAd,用来量化预测模型输出结果与输入时间序列之间的匹配程度, IoAd取值范围在0到1之间,越接近1则表明模型性能越好,
[0149] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的匹配指数IoAd的过程为:
[0150] 根据公式:
[0152] 获得匹配指数IoAd;
[0153] 持久系数PI,用于预测预测模型对于整体的预测效果,取值范围是0到1,或者出 现负值的情况,
[0154] 持久系数PI的取值为1,表示预测模型最优,
[0155] 持久系数PI的取值为0,表明预测模型的性能不优于均值模型,均值模型为以数 据均值作为后续每个点的预测结果,
[0156] 持久系数PI的取值为负值,表明预测模型的性能劣于均值模型;
[0157] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的持久系数PI的过程为:
[0158] 根据公式:
[0160] 获得持久系数PI。
[0161] 本实施方式中,确定系数、CE、I〇Ad和PI主要刻画预测模型对于数据的解释能力。 确定系数即为皮尔森积矩相关系数的平方值,为真实数据以及预测数据各自的离散程度的 比值。确定系数刻画了预测模型所能够解释的数据统计特性的比例大小,取值区间为〇到 1,对于最优模型取值为1。确定系数建立在线性系统假设之上,并由数据集的均值和方差对 指标进行归一化处理。确定系数对于预测值和真实值之间固定的加性误差及比例误差并不 敏感,因此可能造成性能并不是最优的模型也获得较高的分数。此外,确定系数对于离群点 会异常敏感,可能使得即便整体预测效果很好、部分离群点造成指标计算结果较小,模型评 价为劣。
[0162] 与CE相同,IoAd对于预测值和真实值之间均值和方差的差异十分敏感,对于峰值 误差更为敏感而往往会忽略较小的误差值。PI与CE十分相近,取值范围是0到1,同样可 能出现负值的情况,PI不同取值的情况与CE对应相同,最优模型对应1,而PI为0时表明 模型与均值模型性能相近,如果出现负值则表明模型极端不匹配。
【具体实施方式】 [0163] 六:本实施方式是对一所述的基于时间序列预测模 型适用性量化的预测模型选择方法作进一步说明,本实施方式中,多次实验性能误差包 括M次重复实验的平均误差水平特性Timeliness、离散特性Precision、参量重复特性 Repeatability和模型准确性Accuracy,
[0164] M次重复实验的平均误差水平特性Timeliness,用于预测M次重复预测实验预测 模型的输出结果相对于输入时间序列偏大或偏小的平均程度,
[0165] 离散特性Precision,用于预测M次重复预测实验预测模型的输出结果离散度的 平均水平,即对预测结果是否存在较大波动性的预测,
[0166] 重复特性Repeatability,用于预测预测模型输出结果是否可重复的,用于预测预 测模型的鲁棒性,
[0167] M次重复实验的平均误差水平特性Timeliness为0,表示M次重复预测实验中平 均误差水平为〇,
[0168] 离散特性Precision为0,表示预测误差离散程度小,
[0169] 重复特性Repeatability为0,表示重复性高,
[0170] 模型准确性Accuracy,用于综合预测M次重复实验中预测模型的预测性能,即包 含了对预测模型多次重复实验下输出结果的平均偏大或偏小的程度的预测、每次实验预测 误差序列离散度平均水平的预测和预测结果可重复性三个方面的综合预测,
[0171] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的M次重复实验的平均误差的平均水平时间特性Timeliness的过程为:
[0172] 定义第i次实验的平均误差为:
[0174] 其中,尤是第i次实验第k个点的预测值,
[0175] 然后,定义第i次实验的标准差参量:
[0177] 结合(公式21)和(公式22),根据公式:
[0179] 获得M次重复实验的平均误差水平特性Timeliness;
[0180] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果夫,获 得各预测模型的精确特性Precision的过程为:
[0181] 根据公式:
[0183] 获得离散特性Precision;
[0184] 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果毛,获 得各预测模型的参量重复特性R印eatability的过程为:
[0185] 根据公式:
[0187] 获得参量重复特性Repeatability;
[0188] 其中,〇 (std)和〇 (E)分别为std和E的 标准差,
[0189] 结合公式23、公式24和公式25,根据公式:
[0191] 获得模型准确性Accuracy。
[0192] 本实施方式中,参量重复特性R印eatability指标反映出多次预测实验误差的离 散程度以及每次预测结果离散程度的离散程度,通过标准差的形式给出考虑了每次实验误 差和离散度两个因素在内的重复性指标。
[0193] 模型准确性Accuracy是综合了多次预测实验的平均误差水平、离散度水平和可 重复性水平在内给出的指标,其取值越大代表模型预测准确度和可重复性越高,离散程度 越低,模型性能越好,模型准确性Accuracy取值没有上界。
【主权项】
1. 基于时间序列预测模型适用性量化的预测模型选择方法,其特征在于,所述方法是 基于m个预测模型实现的,它包括以下步骤: 步骤一:根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各预 测模型的误差和预测效率,其中,误差包括整体误差、局部误差、无量纲准则误差和多次试 验性能误差,预测效率为对预测模型输入时间序列到预测模型输出结果所用的时间,所用 的时间越短,则预测模型效率越高; 步骤二:根据预测需求,在m个预测模型中,结合步骤一获得各预测模型的误差和预测 效率,选取满足预测需求的最优预测模型,若满足预测需求的预测模型为一个预测模型,则 该预测模型为最优预测模型,若满足预测需求的预测模型为多个预测模型,则将多个预测 模型两两进行预测能力差异性检验,获得一个最优的预测模型。2. 根据权利要求1所述的基于时间序列预测模型适用性量化的预测模型选择方法,其 特征在于,步骤二中,将多个预测模型两两进行预测能力差异性检验的过程: 采用差异性检验Diebold-Mariano对两个预测模型进行预测能力差异性检验,输出两 个结果,分别为Diebold-Mariano统计量和假设机率p-value, 设两个预测模型分别为第一预测模型和第二预测模型,当Diebold-Mariano统计量为 负,则第一预测模型的预测能力比第二预测模型的预测能力强;当Diebold-Mariano统计 量为为正,则第二预测模型的预测能力比第一预测模型的预测能力强; 假设机率p-value小于0. 05,则两个预测模型间差异明显, 假设机率p-value小于0. 01,则两个预测模型间差异非常明显。3. 根据权利要求1所述的基于时间序列预测模型适用性量化的预测模型选择方法,其 特征在于,整体误差包括含符号绝对误差、无符号绝对误差、含符号相对误差和无符号相对 误差, 含符号绝对误差由平均误差ME组成, 平均误差ME,用于预测预测模型的输出结果相对于真实值偏大或偏小的平均程度, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的平均误差ME的过程为: 根据公式:获得平均误差ME, 式中,k表示预测时间序列的序号索引,取值范围从1到P,表示第1个到第P个预测点 的序号, 某个预测模型的平均误差ME的绝对值相对其他预测模型的平均误差ME的绝对值大, 表示该预测模型残余的误差相对其他预测模型残余的误差多,即该预测模型的预测结果大 于或者小于真实值; 某个预测模型的平均误差ME的绝对值相对其他预测模型的平均误差ME的绝对值小, 则该预测模型的预测结果大于真实值和小于真实值的几率相同,即没有系统性预测偏差; 平均误差ME越接近0,即相应预测模型均衡性越好; 无符号绝对误差包括均方误差MSE、均方根误差RMSE、对数均方误差MSEL和平均绝对 误差MAE, 均方误差MSE、均方根误差RMSE、对数均方误差MSEL和平均绝对误差MAE,均用于预测 预测模型的输出结果与真实值之间的偏差距离的平均数值, MSE用于预测预测模型的输出结果与真实值之间的偏差距离平方的平均数值,RMSE和 MSE均用于预测预测模型的输出结果与真实值之间的偏差距离的平均数值,MSEL用于预测 预测模型的输出结果与真实值对数尺度下偏差距离的平均数值; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的均方误差MSE的过程为: 根据公式:获得均方误差MSE ; 某个预测模型的均方误差MSE的计算结果相对其他预测模型的计算结果大,则该预测 模型的预测结果与真实值的偏差大,即整体的偏差程度大, 某个预测模型的均方误差MSE的计算结果相对其他预测模型的计算结果小,则该预测 模型的预测结果与真实值的偏差小,即预测结果接近真实值, 均方误差MSE的计算结果取值为0,表明预测模型能够给出完全准确的预测结果; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的均方根误差RMSE的过程为: 根据公式:获得均方根误差RMSE ; 某个预测模型的均方根误差RMSE的计算结果相对其他预测模型的计算结果大,则该 预测模型的预测结果与真实值的偏差大,即整体的偏差程度大, 某个预测模型的均方根误差RMSE的计算结果相对其他预测模型的计算结果小,则该 预测模型的预测结果与真实值的偏差小,即预测结果接近真实值, 均方根误差RMSE的计算结果取值为0,表明预测模型能够给出完全准确的预测结果; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的对数均方误差MSEL的过程为: 根据公式:获得对数均方误差MSEL ; 某个预测模型的对数均方误差MSEL的计算结果相对其他预测模型的计算结果大,则 该预测模型的预测结果与真实值的偏差大,即整体的偏差程度大, 某个预测模型的对数均方误差MSEL的计算结果相对其他预测模型的计算结果小,则 该预测模型的预测结果与真实值的偏差小,即预测结果接近真实值, 对数均方误差MSEL的计算结果取值为0,表明预测模型能够给出完全准确的预测结 果; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 相应预测模型的平均绝对误差ME的过程为: 根据公式:获得平均绝对误差ME ; 某个预测模型的平均绝对误差ME的计算结果相对其他预测模型的计算结果大,则该 预测模型的预测结果与真实值的偏差大,即整体的偏差程度大, 某个预测模型的平均绝对误差ME的计算结果相对其他预测模型的计算结果小,则该 预测模型的预测结果与真实值的偏差小,即预测结果接近真实值, 平均绝对误差ME的计算结果取值为0,表明预测模型能够给出完全准确的预测结果; 含符号相对误差包括平均百分比误差MPE和相对容量误差RVE, 相对容量误差RVE和平均百分比误差MPE,均用于计算每个预测点相对误差的总体平 均水平, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果%,获得各 预测模型的平均百分比误差MPE的过程为: 根据公式:获得平均百分比误差MPE ; 某个预测模型的平均百分比误差MPE的绝对值相对其他预测模型的平均百分比误差 MPE的绝对值大,则该预测模型的预测结果大于真实值或者小于真实值; 平均百分比误差MPE取值的绝对值接近0,则正负误差出现的几率和大小相同,系统偏 差小; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的相对容量误差RVE的过程为: 根据公式:获得相对容量误差RVE ; 某个预测模型相对其他预测模型的相对容量误差RVE的绝对值大,则预测模型存在系 统偏差大,则该预测模型预测结果大于真实值或者小于真实值; 相对容量误差RVE取值的绝对值接近O的,则预测结果与真实值之间出现正负误差的 几率和大小相同,系统偏差小; 无符号相对误差包括均方相对误差MSRE、平均绝对百分比误差MAPE、平均绝对尺度误 差MASE和归一化均方根误差NRMSE, 均方相对误差MSRE,用于计算预测模型总体的平均相对预测偏差, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的均方相对误差MSRE的过程为: 根据公式:获得均方相对误差MSRE ; 平均绝对百分比误差MAPE,计算每个预测点绝对误差相对于数据点的大小,再计算所 有计算结果的平均值,用来预测预测结果相对于真实值的相对偏差的平均水平, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的平均绝对百分比误差MPE的过程为: 根据公式:获得平均绝对百分比误差MPE ; 平均绝对尺度误差MASE,用于计算预测偏差相对于数据自身增幅的大小, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的平均绝对尺度误差MSE的过程为: 根据公式:获得平均绝对尺度误差MASE ; 平均绝对尺度误差MSE超出数据自 身的平均增长速度,则预测结果的偏差过大; 归一化均方根误差NRMSE,是归一化后的RMSE指标,用来预测预测模型输出结果相对 于输入时间序列的平均偏差水平, 归一化均方根误差NRMSE的取值范围为O至正无穷, 归一化均方根误差NRMSE为0,表示预测模型性能好, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的归一化均方根误差NRMSE的过程为: 根据公式:获得归一化均方根误差NRMSE。4.根据权利要求1所述的基于时间序列预测模型适用性量化的预测模型选择方法,其 特征在于,局部误差包括最大绝对误差AME、最大峰值误差H)IFF、相对最大峰值误差PEP和 误差符号变化次数NSC, 误差符号变化次数NSC主要记录误差序列符号发生变化的次数,用来预测预测结果中 是否存在系统误差,预测结果是否大于真实值或者小于真实值, 误差符号每变化一次则NSC计数增加1,NSC取值为O则说明符号没有发生变化,表示 预测模型大于真实值或者小于真实值, 预测误差符号是一致的,整体预测结果在实际数据结果的上方或下方,存在系统偏差, 误差符号变化次数NSC取值等于真实值,则表示误差符号在不断变化,预测结果中不 存在恒定的系统偏差, 最大绝对误差AME,用于计算最大预测偏差,最大绝对误差AME取值为0,模型最优, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的最大绝对误差AME的过程为: 根据公式:获得最大绝对误差AME ; 最大峰值误差roiFF,用于判断在预测结果中是否存在系统偏差使得预测结果大于真 实值或小于真实值, 最大峰值误差roiFF取值为正,则表明预测模型的预测结果小于真实值, 最大峰值误差roiFF取值为负,则表明预测模型的预测结果大于真实值, 步骤一中,根据预测模型的预测步长、输入时间序列和预测模型输出结果,获得各预测 模型的最大峰值误差roiFF的过程为: 根据公式:获得最大峰值误差roiFF; 相对最大峰值误差PEP,用于预测当前的峰值状态的误差, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的相对最大峰值误差PEP的过程为: 根据公式:获得相对最大峰值误差PEP。5.根据权利要求1所述的基于时间序列预测模型适用性量化的预测模型选择方法,其 特征在于,无量纲准则误差包括最小信息准则AIC、贝叶斯信息准则BIC、确定系数、有效系 数CE、匹配指数IoAd和持久系数PI, 最小信息准则AIC和贝叶斯信息准则BIC,均用于在含有N个数据点的时间序列集中, 获得含有最少自由参数且能够对数据进行解释的最小模型,即最低阶次模型,N为正整数, 某个预测模型相对其他预测模型的最小信息准则AIC和贝叶斯信息准则BIC的取值越 小,表示模型越优, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的最小信息准则AIC的过程为: 根据公式: AIC = 2 · p+N · In (RMSE), (公式 15) 获得最小?目息准则AIC ; 步骤一中,根据每个预测模型的预测步长Ρ、真实值Xk和预测模型输出结果毛,获得各 预测模型的贝叶斯信息准则BIC的过程为: 根据公式: BIC = ρ · In (N)+N · In(RMSE), (公式 16) 获得贝叶斯信息准则BIC ; 最小信息准则AIC和贝叶斯信息准则BIC的取值越小代表模型越优; 确定系数RSqr,用于预测预测模型的数据统计特性的比例大小,取值区间为0到1,取 值越大于〇越优,最优模型取值为1, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的确定系数的过程为: 根据公式:获得确定系数RSqr ; 有效系数CE,用于预测预测模型整体的预测效果,通常CE取值在0到1之间,偶尔会出 现负值情况,有效系数CE的取值为1,表示预测模型最优, 有效系数CE的取值为0,表明预测模型的性能不优于均值模型,均值模型为以数据均 值作为后续每个点的预测结果, 有效系数CE的取值为负值,表明预测模型的性能劣于均值模型; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果4,获得各 预测模型的有效系数CE的过程为: 根据公式:获得有效系数CE ; 匹配指数IoAd,用来量化预测模型输出结果与输入时间序列之间的匹配程度,IoAd取 值范围在0到1之间,越接近1则表明模型性能越好, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果%,获得各 预测模型的匹配指数IoAd的过程为: 根据公式:获得匹配指数IoAd ; 持久系数PI,用于预测预测模型对于整体的预测效果,取值范围是〇到1,或者出现负 值的情况, 持久系数PI的取值为1,表示预测模型最优, 持久系数PI的取值为〇,表明预测模型的性能不优于均值模型,均值模型为以数据均 值作为后续每个点的预测结果, 持久系数PI的取值为负值,表明预测模型的性能劣于均值模型; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果毛,获得各 预测模型的持久系数PI的过程为: 根据公式:获得持久系数PI。6.根据权利要求1所述的基于时间序列预测模型适用性量化的预测模型选择方法,其 特征在于,多次实验性能误差包括M次重复实验的平均误差水平特性Timeliness、离散特 性Precision、参量重复特性Repeatability和模型准确性Accuracy, M次重复实验的平均误差水平特性Timeliness,用于预测M次重复预测实验预测模型 的输出结果相对于输入时间序列偏大或偏小的平均程度, 离散特性Precision,用于预测M次重复预测实验预测模型的输出结果离散度的平均 水平,即对预测结果是否存在较大波动性的预测, 重复特性R印eatability,用于预测预测模型输出结果是否可重复的,用于预测预测模 型的鲁棒性, M次重复实验的平均误差水平特性Timeliness为0,表示M次重复预测实验中平均误 差水平为〇, 离散特性Precision为0,表示预测误差离散程度小, 重复特性Repeatability为0,表示重复性高, 模型准确性Accuracy,用于综合预测M次重复实验中预测模型的预测性能,即包含了 对预测模型多次重复实验下输出结果的平均偏大或偏小的程度的预测、每次实验预测误差 序列离散度平均水平的预测和预测结果可重复性三个方面的综合预测, 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果%,获得各 预测模型的M次重复实验的平均误差的平均水平时间特性Timeliness的过程为: 定义第i次实验的平均误差E (i)为:其中,^是第i次实验第k个点的预测值, 然后,定义第i次实验的标准差参量std(i):结合(公式21)和(公式22),根据公式:获得M次重复实验的平均误差水平特性Timeliness,M为正整数; 步骤一中,根据每个预测模型的预测步长P、真实值Xk和预测模型输出结果:?,获得各 预测模型的精确特性Precision的过程为: 根据公式:获得离散特性Precision ; 步骤一中,根据每个预测模型的预测步长P、真实值xk和预测模型输出结果Λ,获得各 预测模型的参量重复特性R印eatability的过程为: 根据公式:获得参量重复特性Repeatability ; 其中,σ (std)和σ (E)分别为std和E的标准差, 结合公式23、公式24和公式25,根据公式:获得模型准确性Accuracy
【专利摘要】基于时间序列预测模型适用性量化的预测模型选择方法,涉及时间序列预测模型预测领域。本发明是为了解决现有的时间序列特性预测方法对预测模型输出的预测结果预测角度单一,无法实现对预测模型性能的全面、综合的预测,导致预测效果差的问题。本发明根据每个预测模型的预测步长P、真实值xk和预测模型输出结果获得各预测模型的误差和预测效率,根据预测需求在m个预测模型中,结合各预测模型的误差和预测效率,选取满足预测需求的最优预测模型,若满足预测需求的预测模型为一个,则该预测模型为最优预测模型,若满足预测需求的预测模型为多个,则将多个预测模型两两进行预测能力差异性检验,获得一个最优的预测模型。它可用于对预测模型进行预测。
【IPC分类】G06Q10/04
【公开号】CN104899658
【申请号】CN201510324353
【发明人】彭宇, 刘大同, 郭力萌, 彭喜元
【申请人】哈尔滨工业大学
【公开日】2015年9月9日
【申请日】2015年6月12日

最新回复(0)