一种基于集成学习的pm2.5预报方法

xiaoxiao2020-7-22 11

一种基于集成学习的pm2.5预报方法
【专利摘要】本发明公开了一种基于集成学习的PM2.5预报方法，通过选择不同类型和结构的神经网络构造多个弱学习机，然后使用集成学习AdaBoost算法将多个弱学习机组合成强学习机，完成PM2.5预报工作，有效改善了PM2.5预报精度，利用集成学习AdaBoost算法对多个不同类型和不同结构的神经网络进行加权学习，生成强学习机模型；采用本发明对PM2.5进行预报，可有效提高预报精度和泛化能力，方法简单，操作方便，较好地解决了传统神经网络弱学习机存在易陷入局部极小值、预测误差较大、泛化能力较弱不足的问题。
【专利说明】—种基于集成学习的PM2.5预报方法
【技术领域】
[0001]本发明属于PM2.5预报【技术领域】，尤其涉及一种基于集成学习的PM2.5预报方法。【背景技术】
[0002]为公众普遍关注的社会问题。PM2.5是对空气中直径小于或等于2.5的固体颗粒或液滴的总称，又叫细颗粒物或入肺颗粒物。这些颗粒粒径小，质量轻，悬浮于空气的时间长，传播距离远，并可携带有毒有害物质进入呼吸道和肺部，可对人体心、肺等健康构成直接威胁。因此对PM2.5空气污染物监测和预报显得很重要。
[0003]空气污染系统是一个开放的、复杂的、非线性的大系统，同时又是一个动态的非平衡的复合系统，空气质量的变化过程受物理、化学、生物、气象以及人类活动等多种因素的影响，表现出貌似随机变化的复杂非线性特性。目前人工神经网络在环境空气质量预报领域的应用仍处于研究、探索阶段。今年有研究将BP神经网络应用到环境空气质量预测，建立起了环境空气质量预测模型，取得了较好地预测效果。但传统BP神经网络也存在一些缺陷，主要表现为容易陷入局部极小值、算法收敛速度较慢、隐藏单元的数目选择尚无一般性指导原则、新加入的学习样本对已学完样本的学习结果影响较大等问题。也有研究使用遗传算法优化BP网络预测大气污染，使网络训练收敛到全局的最优，以解决了 BP算法易陷入局部极小值的问题，但该类算法只能有限提高原有BP神经网络的预测精度，并不能把预测误差较大的BP神经网络优化为能够准确预测的BP网络，且对样本数量少、样本分布不均匀而造成预测误差大的问题，优化后的网络预测能力一般得不到明显提高。

【发明内容】

[0004]本发明实施例的目的在于提供一种基于集成学习的PM2.5预报方法，旨在解决传统神经网络弱学习机存在易陷入局部极小值、预测误差较大、泛化能力较弱不足的问题。
[0005]本发明实施例是这样实现的，一种基于集成学习的PM2.5预报方法，该基于集成学习的PM2.5预报方法包括以下步骤:
[0006]步骤一，数据采集及数据预处理，得到初始数据集；
[0007]步骤二，将初始数据集构造成AdaBoost算法的弱学习算法人工神经网络可读的样本集；
[0008]步骤三，选定不同类型和结构的神经网络作为集成学习中的弱学习算法；
[0009]步骤四，利用AdaBoost算法对训练样本集进行迭代训练得到满足误差要求的弱学习机序列，再利用弱学习机序列加权求和的方法得到强学习机；
[0010]步骤五，利用强学习机完成PM2.5值预报。
[0011 ] 进一步，在步骤一中，对PM2.5数据进行预处理，包括:填补缺失数据，修正噪声数据，归一化处理；
[0012]PM2.5数据通过室外的采样设备，24小时连续采集室外的环境空气，然后将数据传回自动监测分析设备，经过仪器的自动实时分析，生成数据并传输到环境监测中心；监测中心根据传回的数据进行统计和综合分析，得出空气质量状况报告，每小时通过网络向公众发布实时监测结果。
[0013]进一步，采用回归填补法实现填补缺失数据，通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(xk，k= 1，2，...，!()的回归模型，然后利用已知变量Xk的信息和回归模型，对缺失变量Y的缺失数据进行估计的方法；即通过回归模型推出第i个缺失数据的估计值可以表示为:
[0014]
【权利要求】
1.一种基于集成学习的PM2.5预报方法，其特征在于，该基于集成学习的PM2.5预报方法包括以下步骤: 步骤一，数据采集及数据预处理，得到初始数据集；步骤二，将初始数据集构造成AdaBoost算法的弱学习算法人工神经网络可读的样本集; 步骤三，选定不同类型和结构的神经网络作为集成学习中的弱学习算法；步骤四，利用AdaBoost算法对训练样本集进行迭代训练得到满足误差要求的弱学习机序列，再利用弱学习机序列加权求和的方法得到强学习机；步骤五，利用强学习机完成PM2.5值预报。
2.如权利要求1所述的基于集成学习的PM2.5预报方法，其特征在于，在步骤一中，对PM2.5数据进行预处理，包括:填补缺失数据，修正噪声数据，归一化处理； PM2.5数据通过室外的采样设备，24小时连续采集室外的环境空气，然后将数据传回自动监测分析设备，经过仪器的自动实时分析，生成数据并传输到环境监测中心；监测中心根据传回的数据进行统计和综合分析，得出空气质量状况报告，每小时通过网络向公众发布实时监测结果。
3.如权利要求2所述的基于集成学习的PM2.5预报方法，其特征在于，采用回归填补法实现填补缺失数据，通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(Xk, k = 1，2，…，K)的回归模型，然后利用已知变量Xk的信息和回归模型，对缺失变量Y的缺失数据进行估计的方法；即通过回归模型推出第i个缺失数据的估计值可以表示为:
4.如权利要求2所述的基于集成学习的PM2.5预报方法，其特征在于，采用回归填补法来修正噪声数据，基本思想是对噪声数据清除，然后采用回归填补法填补，通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(Xk，k = 1，2，…，K)的回归模型，然后利用已知变量Xk的信息和回归模型，对缺失变量Y的缺失数据进行估计的方法；即通过回归模型推出第i个缺失数据的估计值可以表示为:
5.如权利要求2所述的基于集成学习的PM2.5预报方法，其特征在于，数据归一化的目的是将不同量纲和不同数量级大小的数据转变成相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据，归一化处理能有效地去除由于测量值大小不同所导致的数据集的方差；采用的归一化方法是平均数方差法，公式SYi = (Y1-Ymean)/%?，式中，Yπ_为数据序列的均值，Yvar为数据的方差。
6.如权利要求1所述的基于集成学习的PM2.5预报方法，其特征在于，步骤四的具体步骤为: 第一步，初始化弱学习机类型和结构；第二步，选取样本子集；第三步，用弱学习机对样本子集进行训练；第四步，判断是否达到最大迭代次数，是，则执行第七步；否，则执行下一步；第五步，用子学习机模型对样本进行预测；第六步，更新样本集的概率分布，返回第二步；第七步，加权组合预测模型。
7.如权利要求1所述的基于集成学习的PM2.5预报方法，其特征在于，该基于集成学习的PM2.5预报方法包括: 步骤一:PM2.5数据采集及数据预处理，包括:填补缺失数据，修正噪声数据，归一化处理，得到初始历史数据样本集S ；步骤二:将初始历史数据样本集S构造成集成学习AdaBoost算法中弱学习算法可读的训练样本集Strain和测试样本集Stest ；步骤三:选定不同类型和结构的神经网络作为集成学习中的弱学习算法，利用AdaBoost算法对训练样本集Strain进行迭代训练得到满足误差要求的弱学习机序列h，再利用弱学习机序列h加权求和的方法得到强学习机H ；步骤四:利用强学习机H对PM2.5值进行预报。
8.如权利要求7所述的基于集成学习的PM2.5预报方法，其特征在于，步骤三具体包括: 第一步:设定集成学习AdaBoost算法最大迭代次数为T，并选取不同类型和结构的神经网络作为AdaBoost算法调用的弱学习算法；第二步:初始化测试数据分布权值；分布权值Dt(i)的计算公式为:

【文档编号】G06N3/02GK103955742SQ201410174323
【公开日】2014年7月30日申请日期:2014年4月28日优先权日:2014年4月28日
【发明者】李翔, 朱全银, 王留洋申请人:淮阴工学院

2012-2014专利技术

最新回复(0)