本发明涉及一种水质预测方法和系统,尤其涉及一种基于自适应随机森林的多光谱水质预测方法和系统,属于水质预测。
背景技术:
1、随着我国工业化农业化和城镇化的快速发展,水污染变得日益严重,已经一定程度的危害到了社会的发展和人民的日常生活,因此我国现阶段致力于水质的监测与处理,达到缓解水资源紧缺、保护人类健康的目的。
2、由于自然水体中生物化学过程的复杂性和不确定性,水质变化是一种具有典型非线性和时变特征的动力学过程,预测水质变化是环境研究中一个具有挑战性的问题。光谱遥感可以在不接触水体的情况下利用多个离散波段的光学传感器获取水体反射光谱信息,随后采用随机森林能够有效地处理多个离散波段的高维数据集,而不需要过多的特征选择或特征工程。而数据往往包含各种复杂的非线性关系,随机森林能够捕捉这些复杂的关系,从而提高模型的预测能力。
3、目前,水质预测的方法中的灰色预测方法和支持向量机;灰色预测模型主要用于趋势性强、波动不大的短期水质预测问题,在数据较少的情况下,可以获得比较准确的预测结果。而svm算法对大规模训练样本难以实施,对参数调节和和函数的选择敏感。
技术实现思路
1、发明目的:本发明的目的是提供一种能够提高预测准确性和稳健性的基于自适应随机森林的多光谱水质预测方法和系统。
2、技术方案:本发明所述的一种基于自适应随机森林的多光谱水质预测方法,包括:
3、步骤1:获取待测水体预设时间段的实测数据和多光谱遥感影像;
4、步骤2:对获取的实测数据和多光谱遥感影像进行预处理;
5、步骤3:根据预处理的结果,生成综合数据集,划分训练集和测试集;选取训练集,基于随机森林rf算法进行训练,并调节模型参数,得到优化后的rf模型;
6、步骤4:以优化后的rf模型为弱回归器,进行训练得到训练后的rf模型,采用boosting方法进行集成学习,得到自适应随机森林rf_adaboost模型作为强回归器,完成rf_adaboost模型的训练;
7、步骤5:选取测试集的数据,分别利用训练后的rf模型和训练后的rf_adaboost模型进行预测,并基于预测结果,对训练后的rf模型和训练后的rf_adaboost模型进行精度验证和评价,确定水质预测模型;
8、步骤6:使用水质预测模型对待测水体进行预测。
9、进一步地,步骤1所述获取待测水体预设时间段的实测数据,具体为,在预设时间段内,通过分光光度法的多参数水质测定仪对待测水体取样,并进行过滤和酸化处理、仪器校准、制备标准曲线以及测量吸光度操作,计算得到样品中的检测物质的浓度数据。
10、进一步地,步骤1所述获取待测水体预设时间段的多光谱遥感影像,具体为,使用多光谱遥感传感器,在预设时间段内对待测水体进行影像采集。
11、进一步地,所述步骤2具体方法为:
12、步骤2.1:检查实测数据中的缺失值和异常值,将异常值删除并同样视为缺失值,采用插值法填补所有缺失值,统一所有数值的单位,随后进行数据归一化处理;
13、步骤2.2:对多光谱遥感影像进行几何校正、辐射定标、大气矫正、特征提取和空间分析操作,获得待测水体影像数据。
14、进一步地,步骤2.1所述采用插值法填补所有缺失值,具体方法为:
15、给定两个已知数据点(x1,y1)和(x2,y2),设x是要进行插值的缺失值的横坐标,x1<x<x2;
16、计算缺失值对应的横坐标x在已知数据点之间的位置所占比例t:
17、
18、根据已知数据点的纵坐标和t的值估计缺失值的纵坐标y,线性插值的公式如下:
19、y=y1+(y2-y1)×t
20、进一步地,步骤2.1所述的归一化处理中,归一化相应方程和反归一化方程分别为:
21、
22、q=(qmax-qmin)·pi′+qm@n
23、式中,q为归一化后的数据,pi是经过插值法填补后的数据,pmin和pmax分别为插值法填补后数据的最小值和最大值,qmin和qmax为参数。
24、进一步地,所述步骤3具体方法为:
25、步骤3.1:将相同时间段的预处理后的实测数据与多光谱遥感影像进行匹配,对实测数据进行插值,使实测数据与多光谱遥感影像的时间点对齐;从多光谱遥感影像中提取不同波段的光谱特征,并与插值后的实测数据进行拼接合并,生成综合数据集;
26、步骤3.2:将综合数据集按照预设比例划分训练集和测试集;
27、步骤3.3:基于rf算法,设置rf初始参数,以不同光谱波段的光谱数据作为随机森林模型的输入量,以相应的水质参数作为随机森林模型的输出量,选取训练集进行训练;
28、步骤3.4:基于rf决策树的数量和最小叶子数,通过网格搜索方法,优化模型性能,得到优化后的rf模型。
29、进一步地,所述步骤4具体方法为:
30、步骤4.1:以训练后的rf模型为弱回归器,初始化rf参数,设置弱回归器的数量k;初始化每个弱回归器的权重d,使初始权重均匀分布;
31、步骤4.2:弱回归器回归,循环迭代k次,每次迭代训练一个弱回归器k;
32、步骤4.3:使用treebagger函数训练一个基于决策树的弱回归器,传入训练集数据、决策树的数量和最小叶子数,对优化后的rf模型训练;
33、步骤4.4:使用训练好的rf模型分别对训练集和测试集进行预测;计算预测误差,计算预测值与实际值之间的误差;
34、步骤4.5:根据误差调整弱回归器的权重,具体为当误差大于预设阈值时,增加相应权重,否则保持不变,并归一化处理,使得权重和为1;
35、步骤4.6:对所有弱回归器的输出进行加权平均,使用调整后的权重对所有弱回归器的预测结果进行加权求和,得到以自适应随机森林rf_adaboost模型作为的强回归器,完成rf_adaboost模型的训练;
36、步骤4.7:使用mapminmax函数将归一化的输出反向映射到预处理后的数据范围。
37、进一步地,所述步骤5具体方法为:
38、步骤5.1:使用训练后的rf模型对测试集数据进行预测;
39、步骤5.2:使用训练后的rf_adaboost模型对测试集数据进行预测;
40、步骤5.3:分别计算步骤5.1和步骤5.2的预测结果的rmse、r2和mae;
41、步骤5.4:根据就算结果评估预测性能,选取预测性能更好的结果对应的模型作为水质预测模型;所述评估方法具体为,当rmse和mae越小,r2越接近1,则对应的模型的预测性能越好。
42、基于相同的发明构思,本发明还提供了一种基于自适应随机森林的多光谱水质预测系统,包括:
43、采集模块,用于获取待测水体预设时间段的实测数据和多光谱遥感影像;
44、预处理模块,对获取的实测数据和多光谱遥感影像进行预处理;
45、优化模块,用于根据预处理的结果,生成综合数据集,划分训练集和测试集;选取训练集,基于随机森林rf算法进行训练,并调节模型参数,得到优化后的rf模型;
46、训练模块,用于以优化后的rf模型为弱回归器,进行训练得到训练后的rf模型,采用boosting方法进行集成学习,得到自适应随机森林rf_adaboost模型作为强回归器,完成rf_adaboost模型的训练;
47、对比模块,用于选取测试集的数据,分别利用训练后的rf模型和训练后的rf_adaboost模型进行预测,并基于预测结果,对训练后的rf模型和训练后的rf_adaboost模型进行精度验证和评价,确定水质预测模型;
48、预测模块,用于使用水质预测模型对待测水体进行预测。
49、有益效果:与现有技术相比,本发明具有如下显著优点:1、本发明利用多光谱遥感技术检测水质,其数据具有广域覆盖和高时空分辨率的特点,可以实现对大范围水域的监测;2、本发明利用随机森林和adaboost算法能够有效处理高维数据,适用于多光谱遥感提供的大量光谱特征数据,不需要进行过多的特征选择或降维处理;3、随机森林和adaboost算法都是基于集成学习的方法,能够结合多个基模型,减少了过拟合的风险,提高了预测准确性和稳健性;4、随机森林和adaboost算法对异常值和噪声具有较强的鲁棒性,能够有效地处理多光谱遥感数据中存在的噪声和异常情况。
1.一种基于自适应随机森林的多光谱水质预测方法,其特征在于,包括:
2.根据权利要求1所述的水质多光谱遥感预测方法,其特征在于,步骤1所述获取待测水体预设时间段的实测数据,具体为,在预设时间段内,通过分光光度法的多参数水质测定仪对待测水体取样,并进行过滤和酸化处理、仪器校准、制备标准曲线以及测量吸光度操作,计算得到样品中的检测物质的浓度数据。
3.根据权利要求1所述的基于自适应随机森林的多光谱水质预测方法,其特征在于,步骤1所述获取待测水体预设时间段的多光谱遥感影像,具体为,使用多光谱遥感传感器,在预设时间段内对待测水体进行影像采集。
4.根据权利要求1所述的基于自适应随机森林的多光谱水质预测方法,其特征在于,所述步骤2具体方法为:
5.根据权利要求4所述的基于自适应随机森林的多光谱水质预测方法,其特征在于,步骤2.1所述采用插值法填补所有缺失值,具体方法为:
6.根据权利要求4所述的基于自适应随机森林的多光谱水质预测方法,其特征在于,步骤2.1所述的归一化处理中,归一化相应方程和反归一化方程分别为:
7.根据权利要求1所述的基于自适应随机森林的多光谱水质预测方法,其特征在于,所述步骤3具体方法为:
8.根据权利要求1所述的基于自适应随机森林的多光谱水质预测方法,其特征在于,所述步骤4具体方法为:
9.根据权利要求1所述的基于自适应随机森林的多光谱水质预测方法,其特征在于,所述步骤5具体方法为:
10.一种基于自适应随机森林的多光谱水质预测系统,其特征在于,包括: