预测lte网络性能指标的新型回归系统的制作方法
【技术领域】
[0001] 本发明设及一种预测LTE网络性能指标的新型回归系统。
【背景技术】
[0002] 随着LTE网络飞速发展,人们所创造的网络数据呈现几何倍数增加。W数据为基础 的消费服务方式也变得更加多样化,如网络浏览,视频通信或流媒体,W及智能的终端普及 等。然而,由于受限于网络容量的基础设施部署W及人们过度消耗的网络资源,导致网络的 可访问性也在进一步恶化。因此移动运营商必需合理规划网络容量。考虑到网络基础设施 投入成本大,网络容量亦不可无限放大,为了避免网络过载现象,网络容量局部部署必须可 控。因此,利用大数据预测方式对移动运营商收集的大量数据进行网络容量评估已经成为 最经济、最有效方法,其目的就是为用户评估和预测LTE的网络性能。该方法可识别出可网 络性能不足的区域,W便集中投入建设,有的放矢。
[0003] 随着移动通信技术不断发展,通信技术向LTE的过渡将追随UMTS的步伐。在接下来 的几年中,正如从2G过渡到3G,3G到4G的过渡也将会全面实现。因此,为了应对运种变化,移 动运营商深切考虑4G业务潜在的需求。预测LTE KPI、评估LTE访问性能是目前的主要挑战, 其中关键的需求是执行多种功能的预测,W便适应特定的或新的行为。例如,一些网络小区 可能承载着比其他小区更高的负荷,或不同于其他小区的服务行为。另一个需求是收集足 够的数据,为了有效获取更多的数据,需要使用复杂的算法,进行更准确地预测。因此,整合 可用的数据,开发出一种新的预测方法,W满足运营商对网络规划的迫切需要。
[0004] 规划网络容量的传统方法是仅仅考虑一个小区网络容量的规划。对于每个小区来 说,用户数量和网络资源是可W独立考虑和研究的。因此,大数据分析可被用于处理无线网 络的可测量数据,W掲示数据背后的移动网络资源的使用情况。运些大数据算法需要大量 的可信数据,才能可靠地反映当前网络的真实使用情况,且数据量越大,算法的精度越高。 [000引将所有小区数据聚集在一起是增加数据量的一种方法。然而,当聚集所有的小区 数据时,却缺失了小区间的不同行为。例如,有些小区位于用户密集的区域,而其他小区可 能存在于用户稀疏的区域。另外,某些小区的用户可能比其他小区更关注一些基于数据的 服务,例如查询电子邮件,浏览网页,流媒体音乐或电影,使用宽带电话或视频通话等。因 此,将所有的小区集中在一起后做数据的平均会导致测量数据出现信息匿乏现象。
【发明内容】
[0006] 本发明的目的是提供一种预测LTE网络性能指标的新型回归系统W解决现有技术 中存在的当合并所有的小区数据时,却丢失了小区间的差异性,将所有的小区集中在一起 后做数据的平均会导致测量数据出现信息匿乏现象等问题。
[0007] 本发明的技术解决方案是:
[0008] -种预测LTE网络性能指标的新型回归系统,包括:
[0009] 聚类模块:对小区进行聚类,聚类后得到k个集群;
[0010]回归模块:准备回归数据,对每个集群分别执行多种不同的回归算法,并选择每个 集群最小误差率的算法为该集群的最优回归算法;
[0011 ]选择模块:通过误差率邸与集群分离度汇总值Sep的结合,得到误差值较低并且分 离度较高的最佳集群数k;
[0012] 预测模块:利用所得最佳集群数k与每个集群的最优回归算法,对小区的网络资源 消耗的LTE KPI值进行预测。
[0013] 进一步地,在回归模块中,准备回归数据具体过程为,对资源消耗网络特征采用机 器学习算法进行筛选,首先,删除非信息特征;其次,通过线性回归的穷举捜索确定若干个 LTE KPI相关特征。
[0014] 进一步地,在回归模块中,将资源消耗网络特征进行筛选后得到的特征变量数据 集分为训练集与测试集。
[0015] 进一步地,在回归模块中,将资源消耗网络特征进行筛选后得到的特征变量数据 集分为训练集与测试集。
[0016] 进一步地,在回归模块中,执行多种不同的回归算法,,包括广义可加模型GAM、梯 度升压法GBM、神经网络方法、多元自适应回归样条法MARS中等。
[0017] 进一步地,在回归模块中,选择集群的最优回归算法具体为,
[0018] 选择测试集,并计算该测试集的不同回归预测的误差率ER,误差率ER由式(3)得 出,选择误差率ER最低的回归算法;
[0019]
[0020] 式(3)中,(yi)代表测试集的LTE KPI数据,化)为在测试集上对消耗的网络特征 KPI的回归预测。
[0021] 本发明的有益效果是:该种预测LTE网络性能指标的新型回归系统,在考虑到每个 小区差异性的前提下,不仅可W获取每个网络小区在移动通信中的网络资源消耗情况,还 可W通过选择回归算法来预测LTE KPI。
【附图说明】
[0022] 图1是本发明实施例预测LTE网络性能指标的新型回归系统的流程说明示意图;
[0023] 图2给出了系统运行时如何预测LTE关键性能指标的流程说明示意图。
【具体实施方式】
[0024] 下面结合附图详细说明本发明的优选实施例。
[002引实施例给出一种使用回归算法预测选定LTE关键性能指标的方法。假定已知小区 的网络聚类指标。选择与每个小区相关的网络资源消耗指标,选择相关集群中划分小区的 集群数值,对每个聚类执行多元回归算法。推导出已知小区的新网络资源消耗的LTE关键性 能指标。
[0026]使用传统方法来规划网络容量,会考虑小区之间的同质性,因此选择一种回归算 法进行预测,如果选择的回归算法不适用于拟合数据,那么只使用一种回归算法预测可能 会导致算法的缺陷。在本实施例中,通过谨慎地选用回归算法来适应不同集群小区的不同 行为。因此,实施例w多功能的方式避免了现有方法的缺陷。
[0027] 实施例
[0028] -种预测LTE网络性能指标的新型回归系统,如图1,包括:
[0029] 聚类模块:对小区进行聚类,聚类后得到k个集群;
[0030] 回归模块:准备回归数据,对每个集群分别执行多种不同的回归算法,并选择每个 集群最小误差率的算法为该集群的最优回归算法;
[0031] 选择模块:通过误差率ER与集群分离度汇总值Sep的结合,得到误差值最低的最佳 集群数HI;
[0032] 预测模块:利用所得最佳集群数k与每个集群的最优回归算法,对小区的网络资源 消耗的LTE KPI值进行预测。
[0033] 在回归模块中,准备回归数据具体为,对资源消耗网络特征采用机器学习算法进 行筛选,首先,删除非信息特征;其次,通过线性回归的穷举捜索确定若干个LTE KPI相关特 征。
[0034] 在回归模块中,将资源消耗网络特征进行筛选后得到的特征变量数据集分为训练 集与测试集。
[0035] 在回归模块中,将资源消耗网络特征进行筛选后得到的特征变量数据集分为训练 集与测试集。
[0036] 在回归模块中,执行多种不同的回归算法,,包括广义可加模型GAM、梯度升压法 GBM、神经网络方法、多元自适应回归样条法MARS等。
[0037] 在回归模块中,选择集群的最优回归算法具体为,
[0038] 选择测试集,并计算该测试集的不同回归预测的误差率ER,误差率ER由式(3)得 出,选择误差率ER最低的回归算法;
[0039]
[0040] 式(3)中,(yi)代表测试集的LTE KPI数据,化)为对测试集使用消耗网络特征的回 归预测。
[0041] 假定选取了一种聚类小区的方法,聚类是用来分类的一种数据挖掘算法,它可W 实现将有相似行为的小区归结为一类的能力。每一个类被称为一个集群。像通常的聚类算 法一样,运种方法需要输入一个k值,运个k值与聚类个数相关,执行聚类后最终会得到k-集 群。运个集群数字一般很难直接获得。在本实施例中,k值由系统选择,因此不需要猜测该参 数。
[0042] 实施例需要获取两个输入项。第一个是前面提到的聚类算法,它为一定范围内的 每个k值提供了k-集群的聚类。第二个是每个小区中网络资源历史消耗的数据,W及每个测 量所定义的LTE KPI值。每个小区的记录周期是四个月,Ξ十分钟粒度,被消耗的网络资源 是指网络中直接访问的特征,如拥塞率、建立连接的平均时间或用户所花费的平均信贷。
[0043] 图1给出了实施例系统的流程图。概括地说,该过程是在数据准备的基础上,对每 个可用集群执行不同的回归系统,然后在对每个集群分析计算的基础上,选择一个回归方 法。最后,选择最佳的k值并预测LTE KPI值,赋予新的网络资源消耗。
[0044] 初始时在"开始"步,重新获取输入项。k的初始值为2,运是最低的可能值。运意味 着,首先,在同一个集群的所有小区内计算。运个过程是迭代的,k值每次迭代增加1。接下 来,对在k及其最大范围之间的每个k值进行如附图1所示的多元回归算法,并得到误差值最 低的最佳集群数k值。
[0045] 如图1,在"聚类集成"步骤中,采用参数k执行聚类算法,使得小区划分为k-集群。
[0046] 每个集群i从巧化被称为"集群i的小区"。对于每个i从巧化来说,如图1所示,都是 一个独立运行的过程。
[0047] 在"准备回归数据"时,获取建模数据。由于具备许多消耗网络的特征,需要对资源 消耗网络特征进行筛选。特征变量筛选是一种机器学习算法,它包括对原有特征变量集子 集的选择。此选择通过删除非信息特征的方式,可防止应用模型时的过度拟合问题。运些删 除的特征分为2个类别,不相关特征和冗余特征。首先,无论采用什么LTE KPI,需除去W下 特征变量:拥有超过98 %的非有效值,超过98 %的零值,仅取相同值的特征变量。其次在第 二选择步骤中确定6个最佳的LTE KPI相关特征,该选择技术称为线性回归的穷举捜索。该 步骤消除了冗余特征KPI(通过检查是否高度相关)或者不应该被预测的LTE KPI。总的来 说,选取6个KPI进行如下回归诊断。
[0048] 选择特征变量后的另一步准备工作是:将整体数据集分成训练集和测试集。训练 集是发
现独立变量与目标LTE KPI之间潜在预测关系的数据集。训练集中的独立变量和LTE KPI,与回归算法一起用于训练独立变量与LTE KPI之间的关系,响应值为6个选定特征LTE KPI的预测值。训练过程使其匹配模型,该模型可W利用第二步中选择的独立变量来预测目 标网络资源。测试集是一组独立于训练集的数据集,它包含相同的独立变量和目标LTE KPI 变量。测试集遵循与训练集相似的概率分布。测试集是用来评估由训练集得出的预测关系 的强度和实用程序。如果一个模型匹配训练集,也准确匹配测试集,那么过度拟合的可能性 会很小,该模型被认为是准确的。如果模型匹配训练集的程度高于测试集,则会发生过度拟 合。在运里,70%的数据被分配到训练集,30%的数据被分配到测试集。
[0049] W训练集为例,不同的回归算法用来匹配网络资源消耗特征与LTE KPI特征。回归 算法的选择涵盖了多种方法,由于网络资源消耗和LTE KPI之间的一般行为通常是未知的, 因此选择非线性回归算法,运样可W灵活的适应LTE KPI。每个回归方法均给出了预测功 能,该LTE KPI预测功能仅来源于消耗网络特征的指标。运里使用了四个回归算法:广义可 加模型或GAM,梯度升压法或GBM,神经网络方法和多元自适应回归样条法或MARS。在图1中, "回归算法Γ至"回归算法N"即运四种算法。
[0050] 回归算法1:在GAM中,LTE KPI响应变量y及网络消耗资源输入变量xi,X2,. . .,xd, 与式(1)相关联,其中E(.)代表预期值。在该模型中,假设响应变量y来自指数族分布。左边 的g代表广义线性连接函数。右边的. . .,fd代表输入变量之间的非线性联系,?3〇是常 数项。函数。可W用非参数回切算法估算。该算法是迭代的,每一步中函数。近似使用Ξ次 第Ξ样条。本文中,y是LTE ΚΡΙ指标并假定服从高斯分布(属于指数族),g=id,且XI, X2, ...,Xd是六个网络消耗特征的数据。
[0051] g化(y))=0〇+fi(xi)+. . .+fd(Xd)式(1)
[0052] 回归算法2:在GBM中,采用决策树集成方法进行回归,运是一个连续的回归方法, 在运个意义上,每一步都将一个要素(称为基础函数)添加到先前的要素上。对于每个步骤 来说,基础函数的建立均使用树,通过拟合前几步的残差来进行。因此,每个树的建立都是 通过减少损失的函数,对前树弱点的补偿。对于显式计算,每个基础函数构造时均最大限度 地与损失函数的负梯度相关联。
[0053] 回归算法3:神经网络是一种机器学习模型,通过在相互关联的"神经元"系统中的 输入来使输出更精确。每一个神经元在一个层中,其值是从之前层中的神经元,使用所定义 的非线性行为W权重总结出来的。当一个输入通过整个系统时,运些权重被修改,从而提高 整个学习算法。权重通常使用反向传播算法更新,从最后一层到第一层。该算法尝试通过最 小化定义的损失函数的梯度来更新权重。
[0054] 回归算法4:在MARS中,回归与较链函数的线性组合或产品相适配。式(2)定义了较 链函数,是非线性的,指向一个全程性非线性模型。全局来说,整个空间被划分为子空间,每 个子空间拥有多项式响应。通过两个步骤来划分空间和执行回归。首先,通过减少加总平方 残余误差,来进行迭代方式的向前传递计算新的基础函数与较链函数。然后,通过消除最低 有效项向后传递修剪该模式。运后一步的执行是用来减少过度拟合问题的。
[005引 X一max(0,x-C)or X一max(0,C-x) ;CER 式(2)
[0056] 在获得所有方法的预测结果后,其目的是为了得到此群集的最佳回归算法,即图1 所示的"选择误差最小的最佳回归算法"。首先,选择测试集。然后,计算该测试集的四种回 归预测的误差率化R)。邸方程如式(3)所示,(yi)代表从测试集LTE KPI数据,巧,)为使用消 耗网络特征对测试集的回归预测。最后,选择ER最低的进行回归。
[0057]
[0058] 为从巧化的每个群集i选择一个回归算法。此外,集群的最低ER写做ERQ)。
[0059] 下一步是检查所有集群是否执行恰当,运是为所有群集计算全局指标。运将使能 够选择集群k的最佳值。此外,k的选择要考虑MER值和被称为集群分离的数量。集群分离要 考虑集群间的距离,检查每个集群是否指向特定客户行为相关的具体预测。集群分离量检 查是否考虑到不同的集群提供了更好的结果,而不是只取一个集群。运个数量是Sep数量的 所有集群i的平均值,Sep数量是式(4)中为集群i而定义的。所有集群,k},:(乂) 为集群i测试集的LTE KPI值,(义-')为〇,?)的拟合值,该拟合值使用集群j获得的最好预测函 数。
[0060]
[0061] 要理解式(4),就可W看一个预测不依赖于集群的情况。然后,在分子和分母的每 个总和而言是平等的,并导致最终值为1。但假如所有的预测都能很好地拟合并导致不同的 预测结果,那么可W预期所有集群i的游兴50)小于1。还有一点要注意的是:如果其中一个 预测(即i)函数匹配效果非常差,那么其他集群j的沁/W.ri'))可能非常接近0,集群j预测是 好的也没有意义。那么,聚类分离不能单独用于选择集群k的最佳值。
[0062] 此,最佳k-集群的选择是通过ER值和S邱值结合推出的。如式(5)所示,k-群集数值 的每次选择,都是从误差率和集群分离汇总值计算而得。
[0063] Err.化)=meam(邸(i))+meam(Sep(i))式巧)
[0064] 如果k-集群选择了较小的数值,大量的数据可用于每个群集,但集群非特定并可 能导致一个高偏差的预测。因此,m?和S邱值首先随着k-集群数值的增大而减小(当数据训 练集足够大时)。但是,如果k-选择一个较大的数值,每个集群是基于同样的行为,可用的数 据很少,预测结果的方差高。然后,ER值将开始增大,此外,当集群间没有更多的分离时,分 离值也将增加。总的来说,在两种极端情况之间折衷选择误差值最低的k。
[0065] 一旦该系统被执行输入,因为k是已知的,且每个集群的回归预测可用。因此,如图 2所示,系统用来预测定义LTE KPI的新值。
[0066] 在步骤210中,给出了一个已知小区的网络资源消耗的新数据。其目的是预测那些 与网络资源消耗相关的未知的LTE KPI。前面所训练的该系统,可W直接用来进行运些预 测。
[0067] -方面,从网络资源消耗数据来看,在步骤212中完成了选定网络特征的预测。
[0068] 另一方面,从小区信息来看,在运步骤222中推导出小区所在的集群。然后,在步骤 224中重新获取此群集的回归公式。
[0069] 最后,在步骤216中对选择的网络特征使用回归公式,得出LTE KPI预测。
[0070] 总之,整个系统是由基于LTE KPI数据,使用大量的流量测量值数据进行算法过 程,运些数据在特征提取步骤中选取。考虑到小区之间的异质性,聚类算法提高了预测的可 信度。此外,通过组合多类型的回归系统,可W准确地拟合每个集群的数据。因此,通过专注 于客户的特殊性,移动运营商可W为每一种类型的小区制定详细的战略发展(购买,建造, 安装)。^运种方式,可W建立更高效的、定制的网络。
【主权项】
1. 一种预测LTE网络性能指标的新型回归系统,其特征在于,包括: 聚类模块:对小区进行聚类,聚类后得到k个集群; 回归模块:准备回归数据,对每个集群分别执行多种不同的回归算法,并选择每个集群 最小误差率的算法为该集群的最优回归算法; 选择模块:通过误差率ER与集群分离度汇总值Sep的结合,得到误差值较低并且分离度 较高的最佳集群数k; 预测模块:利用所得最佳集群数k与每个集群的最优回归算法,对小区的网络资源消耗 的LTE KPI值进行预测。2. 如权利要求1所述的预测LTE网络性能指标的新型回归系统,其特征在于:在回归模 块中,准备回归数据具体过程为,对资源消耗网络特征采用机器学习算法进行筛选,首先, 删除非信息特征;其次,通过线性回归的穷举搜索确定若干个LTE KPI相关特征。3. 如权利要求1所述的预测LTE网络性能指标的新型回归系统,其特征在于:在回归模 块中,将资源消耗网络特征进行筛选后得到的特征变量数据集分为训练集与测试集。4. 如权利要求3所述的预测LTE网络性能指标的新型回归系统,其特征在于:在回归模 块中,将资源消耗网络特征进行筛选后得到的特征变量数据集分为训练集与测试集。5. 如权利要求1-4任一项所述的预测LTE网络性能指标的新型回归系统,其特征在于: 在回归模块中,执行多种不同的回归算法,,包括广义可加模型GAM、梯度升压法GBM、神经网 络方法、多元自适应回归样条法MARS等。6. 如权利要求4所述的预测LTE网络性能指标的新型回归系统,其特征在于:在回归模 块中,选择集群的最优回归算法具体为, 选择测试集,并计算该测试集的不同回归预测的误差率ER,误差率ER由式(3)得出,选 择误差率ER最低的回归算法;式(3)中,(yi)代表测试集LTE KPI的真实数据,(j\)为在测试集上对消耗的网络特征 KPI的回归预测。
【专利摘要】本发明提供一种预测LTE网络性能指标的新型回归系统,包括聚类模块、回归模块、选择模块、预测模块,先对小区进行聚类,聚类后得到k个集群;准备回归数据后,对每个集群分别执行多种不同的回归算法,并选择每个集群最小误差率的算法为该集群的最优回归算法;通过误差率ER与集群分离度汇总值Sep的结合,得到误差值较低并且分离度较高的最佳集群数k;利用所得最佳集群数k与每个集群的最优回归算法,对小区的网络资源消耗的LTE?KPI值进行预测;该方法,在考虑到每个小区差异性的前提下,不仅可以获取每个网络小区在移动通信中的网络资源消耗情况,还可以通过选择回归算法来预测LTE?KPI指标的未来趋势。
【IPC分类】H04W24/02
【公开号】CN105491599
【申请号】CN201510971021
【发明人】吴冬华, 欧阳晔, 胡岳, 胡曼恬
【申请人】南京华苏科技股份有限公司
【公开日】2016年4月13日
【申请日】2015年12月21日