一种适应噪声条件下的抽样学习机遥感定量反演方法
【技术领域】
[0001] 本发明涉及遥感应用领域,具体涉及一种适应噪声条件下的抽样学习机遥感定量 反演方法。
【背景技术】
[0002] 遥感技术作为一种重要的地球系统观测手段,能提供持续的全球地表变化信息。 近年来,基于遥感数据定量反演水、大气及生态环境参数的应用需求愈发突出,对定量反演 精度提出了日益迫切的要求。定量遥感所要解决的主要问题是如何利用遥感数据精确估算 地表参量,实现遥感数据行业应用模型的链接,提高模型的预报精度。以水质遥感定量反演 应用为例,首先建立遥感观测指标与具体水质参量(如总悬浮物浓度、无机悬浮物浓度等) 间的数学模型,然后估计模型参数,最后定量推演预测解决水质监测的行业需求。目前,较 为常用的定量反演算法主要有最小二乘线性回归法、偏最小二乘法等。这类算法具有较严 密的数学理论基础,模型简单且效率高,在遥感定量反演应用中亦取得良好的效果,但对解 决遥感观测指标与地表参量间非线性关系的能力稍显不足,实用性受限。
【发明内容】
[0003] 本发明要解决的技术问题是:提供一种更具有适应性的遥感定量反演方法,同时 解决遥感定量反演应用中呈现的非线性和噪声干扰的问题。
[0004] 本发明为解决上述技术问题所采取的技术方案为:一种适应噪声条件下的抽样学 习机遥感定量反演方法,其特征在于:它包括以下步骤:
[0005] S1、利用极限学习机中固定小数量级权值的特点模拟遥感定量反演中影响因子与 反演对象间的非线性的复杂数学关系,将其转化为求解一个线性系统=Tt;其中,H为 网络隐含层输出矩阵,由输入层、隐含层及激励函数决定;TT为输出层输出矩阵,由输出层 决定邛为网络模型参数;
[0006] 其中影响因子为遥感观测指标,反演对象为建模过程中采用的地面实测数据;
[0007] S2 :根据网络模型参数0的维度自适应选取模型参数估计算法,维度高时选择 NAPSAC算法,维度低时选择RANSAC算法;预设相应的标准判断维度的高和低;
[0008] S3 :利用S2中选取的模型参数估计算法,实现对Hf3 =Tt中网络模型参数e的 求解。
[0009] 按上述方法,所述的H通过选择激励函数与神经元个数来确定。
[0010] 按上述方法,所述的S2以RANSAC算法确定0所需的迭代运算次数为标准,若迭 代运算次数高于^次则判定维度为高维,否则维度为低维。
[0011] 按上述方法,当选择NAPSAC算法时,通过计算H中所有两两向量间的欧氏几何距 离,将其欧氏几何距离均值作为相邻点的阈值半径r。
[0012] 按上述方法,当选择NAPSAC算法时,根据实际样本数据的计算确定是否为局内点 阈值e,进而判定模型参数估计收敛所需的最少局内点的数量G,其中G与实际样本数据中 噪声所占的比例相关。
[0013] 按上述方法,G的取值小于或等于通过局内点阈值e划分得到的局内点个数的最 大值。
[0014] 本发明的有益效果为:通过建立遥感定量反演中影响因子与反演对象间的复杂数 学关系模型;在模型参数求解过程中,能过滤样本数据噪声的干扰,自适应选取模型参数估 计算法,从而能快速获取模型最优的参数结果;本发明能够快速获取模型参数,学习效率 高,并且能够有效排除噪声影响,提高定量反演精度,泛化能力强。。
【附图说明】
[0015] 图1为本发明一实施例的控制流程图。
【具体实施方式】
[0016] 人工神经网络(artificialneuralnetwork,ANN)作为一种非线性、统计建模工 具,被广泛应用于遥感定量反演中。该模型通过神经结构与连接权值的设定,能充分逼近任 意复杂的非线性关系。然而,由于ANN模型自身的缺陷,如学习收敛速度慢、易陷入局部极 值以及网络结构难以确定等问题,使得反演精度难于满足应用需求。Huang等改进了传统 ANN模型,提出了一种极限学习机(ExtremeLearningMachine,ELM)算法。ELM算法是一 种新型的单隐层前向神经网络,其学习速度与泛化能力比ANN模型均具有较大幅度提升。 这主要取决于两方面的改进:(1)随机产生小数量级的值作为输入层与隐含层间的连接权 值和隐含层神经元阈值,突破了ANN模型网络结构难以确定的缺陷;(2)采用最小二乘法求 解模型隐含层与输出层间的连接权值,解决了传统ANN模型易陷入局部最优解的问题,并 提升了最优参数获取的学习效率。然而,ELM模型在遥感定量反演应用中,同样遇到新的问 题,即ELM模型参数估计的精度受制于样本数据质量。遥感影像受到数据获取时传感器系 统噪声、光照、天气条件、云层等的干扰,而地面同步测量数据同样因仪器偏差、实验人员的 主观操作等引入噪声。若用夹杂噪声的样本数据训练ELM模型参数,会产生较大的误差,将 无法达到业务应用精度的需求。
[0017] 由上述可知,常规ELM模型主要采用最小二乘法求解模型隐含层与输出层间的连 接权值,这将难于排除噪声干扰。为了提升ELM模型对数据噪声的鲁棒性,可考虑利用随 机抽样一致性(RandomSampleConsensus,RANSAC)或N邻近点抽样一致性(NAdjacent PointsSampleConsensus,NAPSAC)算法改进模型参数估计过程。RANSAC算法和NAPSAC 算法均可以排除局外点(噪声数据)、选择局内点进行模型参数求解,能有效地排除样本数 据中噪声的影响。当ELM模型隐含层与输出层间连接权值参数维度较低的情况下,RANSAC 算法与NAPSAC算法达到相同模型精度所需的循环次数差异较小。但NAPSAC的算法复杂度 要远高于RANSAC算法,故RANSAC算法更为合适。而当参数维度相对较高时,模型初始化需 要的样本点数量也将随之增多。RANSAC算法需大量的迭代运算方能获得较为准确的模型参 数;而NAPSAC算法考虑了相邻的样本点(空间几何距离度量)具有相似特征的特性,在模 型初始化时利用邻近点特征选取替代RANSAC算法随机选取的方法,能有效地提升模型参 数获取的速度与模型参数估计的精度,故NAPSAC算法更为适合。
[0018] 本发明提供一种适应噪声条件下的抽样学习机遥感定量反演方法,如图1所示, 它包括以下步骤:
[0019] S1、利用极限学习机中固定小数量级权值的特点模拟遥感定量反演中影响因子与 反演对象间的非线性的复杂数学关系,将其转化为求解一个线性系统=Tt;其中,H为 网络隐含层输出矩阵,由输入层、隐含层及激励函数决定;TT为输出层输出矩阵,由输出层 决定邛为网络模型参数;其中影响因子为遥感观测指标,反演对象为建模过程中采用地 面实测数据。所述的H通过选择激励函数与神经元个数来确定。
[0020] S2 :根据网络模型参数0的维度自适应选取模型参数估计算法,维度高时选择 NAPSAC算法,维度低时选择RANSAC算法;预设相应的标准判断维度的高和低。
[0021] 本实施例中,以RANSAC算法确定0所需的迭代运算次数为标准,若迭代运算次数 高于^ (如ni= 1000,也可根据情况另外设置其它值)次则判定维度为高维,否则维度为 低维。
[0022] 当选择NAPSAC算法时,通过计算H中所有两两向量间的欧氏几何距离,将其欧氏 几何距离均值作为相邻点的阈值半径r。根据实际样本数据的计算确定是否为局内点阈值 e,进而判定模型参数估计收敛所需的最少局内点的数量G,其中G与实际样本数据中噪声 所占的比例相关。通常情况下,G的取值小于或等于通过局内点阈值e划分得到的局内点 个数的最大值。
[0023] S3 :利用S2中选取的模型参数估计算法,实现对Hf3 =Tt中参数0的求解。
[0024] 本实施例中,具体的实施步骤如下:
[0025] 1、遥感观测指标与地面实测数据的时空配准
[0026] 主要实现遥感观测指标与地面实测数据在时间尺度上和空间尺度上配准,具体步 骤为:
[0027] ①根据遥感卫星的轨道参数计算卫星的过境时间,开展针对地表参量观测卫星的 野外同步观测试验;
[0028] ②对遥感影像进行数据预处理,包括辐射定标、大气校正、几何校正等,并对地面 实测数据进行归一化处理,即统一量纲、数量级等;
[0029] ③根据每个地面实测点的空间坐标获取相同位置对应遥感数据上所有波段信息 (如亮度、辐射率或反射率);
[0030] ④计算地面实测地表参量与遥感影像各个波段间的相关系数,据此选取最优的波 段组合以表征地表参量的特性;
[0031] ⑤将选取的波段信息与地面实测地表参量值一一对应,形成特征向量,构成样本 数据集。
[0032] 2、非线性关系至线性模型的映射
[0033] 假设输入层有n个输入变量、隐含层含有1个神经元、输出层有m个输出变量。输 入层与隐含层间连接权值、隐含层与输出层间的连接权值以及隐含层神经元的阈值分别记 为w、|3、b,那么,《、|3和b可表示为:
[0034]
[0035] 式中,《 ^表示输入层第i个变量与隐含层第j个神经元间的连接权值;0 jk表示 隐含层第j个神经元与
输出层第k个变量间的连接权值;bi为隐含层第i个神经元的阈值。
[0036] 接着,选取适宜的神经元个数与激励函数g(x)。其中神经元个数的选取主要由网 络模型输入层的输入矩阵与输出层的输出矩阵的关系决定。通常的选择方法为:首先,将 神经元的个数作为一个变量,选定激励函数,利用样本数据分别形成输入矩阵与输出矩阵, 构建网络模型;然后,采用神经元个数依次增大的循环算法,计算不同神经元个数下网络模 型训练精度评价指标决定系数的值,选择决定系数最大所对应神经元的个数作为网络模型 的神经元个数条件;其中,激励函数包括:Radialbasis函数、Sigmoidal函数、Sine函数、 Hardlim函数等。
[0037] 假设有Q个样本的训练集,则输入矩阵X(遥感影像波段信息)与输出矩阵Y(地 面实测的地表参量值),分别为:
[0039]假设隐含层神经元的激励函数为g(x),则网络的输出T为:
[0040] T=[tlt2 . . .tQ]mXQ (3)
[0042] 式中,j= 1,2,…,Q%=[wnwi2 ? ? ?win],Xj=[xux2j ? ? ?xnj]T。则上式可 简化为
[0043] H0 =Tt (5)
[0044] 其中,矩阵T的转置为TT;f3为网络模型参数;H为网络隐含层的输出矩阵。H由 输入层、隐含层和激励函数决定,TT由输出层决定。其中H的具体形式为:
[0046] 通过上述矩阵运算,即将定量反演中影响因子与反演对象间复杂的非线性数学关 系,转换为线性关系模型。
[0047] 3、网络模型参数0估计算法的自适应选取
[0048] 输入样本数据,利用固定小数量级权值思路,即可确定Hf3 =Tt线性模型中的H和 TT参数。接下来,需利用已确定的H和Tt参数求解网络模型参数0。考虑到样本数据噪声 及模型复杂度因素,本发明采用自适应选取参数估计算法,求解网络模型参数0。即根据网 络模型参数0的维度,自适应选取RANSAC算法或NAPSAC算法估算参数0。该方法能过滤 样本中噪声数据的干扰,利用非噪声数据可获取网络模型参数0的最优解。具体步骤为:
[0049] (1)根据模型Hf3 =Tt确定网络模型参数0的维度,记为d;
[0050] (2)利用RANSAC算法作为网络模型参数0的估计算法,并对模型进行初始化,即 随机的在H中选取d个向量形成H0,同时在Tt中选取对应位置向量形成T0,则模型初始化 为:
[0051] 0 0 =H0+T0t (7)
[0052] 式中,H0+为隐含层输出矩阵H0的Moore-Penrose广义逆,通常存在两种形式,即:
[0054](3)将H中剩余的向量逐个带入初始化模型中进行计算,得到输出结果T',并与原 始结果T求相对误差AT(-般为差的平方,便于计算);
[0055](4)将相对误差AT的结果作为阈值e的判定标准,g卩:若AT〈e,则对应的H中 的向量满足初始化模型,即为局内点(非噪声点),并与-起构成局内点数据集S1* ;
[0056] (5)计算局内点数据集S1*中向量的个数s,并与设定的阈值G进行比较。若s> =G,则找到了正确的模型参数;否则,转至步骤(2)直至在最多迭代次数ni (如ni= 1000) 内找到正确模型,并记录迭代总次数C;
[0057] (6)对RANSAC算法迭代总次数C进行判定,若C〈ni,则网络模型参数0维度属于 低维,选择RANSAC算法作为网络模型参数0的估计算法是合适的,直接转至步骤(8);否 贝1J,网络模型参数0维度属于高维,选RANSAC算法作为网络模型参数0的估计算法失效, 将采用NAPSAC算法估计网络模型参数0 ;
[0058](7)重新选取NAPSAC算法估计网络模型参数0,具体步骤为:
[0059] ①随机在H中选取一个向量h,计算H中剩余的所有向量到h的空间欧氏距离s;
[0060] ②根据邻近点的阈值条件1来获取向量h的所有邻近点,若s〈r,则判定对应的向 量为h的邻近点;
[0061] ③若向量h的邻近点个数大于d,则继续,否则返回步骤①;
[0062] ④在向量h的所有邻近点集合(包括h)中随机抽取d个向量组成H0,同时在Tt 中选择对应位置的向量形成T0,则模型初始化为:
[0063] 0 0 =H0+T0t (9)
[0064] 式中,H0+为隐含层输出矩阵H0的Moore-Penrose广义逆,一般有两种形式,分别 为:
[0066]⑤将H中剩余的向量逐个带入初始化模型中进行计算,得到输出结果T',并与原 始结果T求相对误差AT(-般为差的平方,便于计算);
[0067]⑥将相对误差AT的结果根据阈值e进行选择,若AT〈e,则对应的H中的向量 满足初始化模型,即为局内点(非噪声点),并和-起构成局内点数据集S1* ;
[0068] ⑦计算局内点数据集S1*中向量的个数s,并与设定的阈值G进行比较。若s> = G,则找到了正确的模型参数;否则,转至步骤①直至找到正确模型参数;
[0069] (8)将数据集S1*中所有的向量形成H1,并获取Tt中对应位置的向量形成T1,则 模型参数为:
[0070] 0 =H1+T1t (11)
[0071] 式中,H1+为隐含层输出矩阵HI的Moore-Penrose广义逆,一般有两种形式,分别 表示为:
[0073] 则模型参数被正确估计。
[0074] 通过上述操作,能有效解决遥感定量反演应用中呈现的非线性、噪声干扰等问题, 从而得到准确的模型及参数。
[0075] 4、从点扩展到面,实现整个研宄区的地表参量定量反演
[0076] 将研宄区域的对应的遥感影像波段信息作为输入,利用上述确定的反演模型及参 数,计算得到地面参量的预测值,从而实现对整个研宄区域的地表参量定量反演,并得到反 演结果的专题图。
[0077] 以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术 人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依 据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
【主权项】
1. 一种适应噪声条件下的抽样学习机遥感定量反演方法,其特征在于:它包括以下步 骤: S1、利用极限学习机中固定小数量级权值的特点模拟遥感定量反演中影响因子与反演 对象间的非线性的复杂数学关系,将其转化为求解一个线性系统He=Tt;其中,H为网络 隐含层输出矩阵,由输入层、隐含层及激励函数决定;Tt为输出层输出矩阵,由输出层决定; 0为网络模型参数; 其中影响因子为遥感观测指标,反演对象为建模过程中采用地面实测数据; 52 :根据网络模型参数0的维度自适应选取模型参数估计算法,炜度高时选择NAPSAC 算法,炜度低时选择RANSAC算法;预设相应的标准判断炜度的高和低; 53 :利用S2中选取的模型参数估计算法,实现对Hf3 =Tt中网络模型参数0的求解。2. 根据权利要求1所述的一种适应噪声条件下的抽样学习机遥感定量反演方法,其特 征在于:所述的H通过选择激励函数与神经元个数来确定。3. 根据权利要求1所述的一种适应噪声条件下的抽样学习机遥感定量反演方法,其特 征在于:所述的S2以RANSAC算法确定0所需的迭代运算次数为标准,若迭代运算次数高 于H1次则判定炜度为高维,否则炜度为低维。4. 根据权利要求1所述的一种适应噪声条件下的抽样学习机遥感定量反演方法,其特 征在于:当选择NAPSAC算法时,通过计算H所有两两向量间的欧氏几何距离,将其欧氏几何 距离均值作为相邻点的阈值半径r。5. 根据权利要求1所述的一种适应噪声条件下的抽样学习机遥感定量反演方法,其特 征在于:当选择NAPSAC算法时,根据实际样本数据的计算确定是否为局内点阈值e,进而 判定模型参数估计收敛所需的最少局内点的数量G,其中G与实际样本数据中噪声所占的 比例相关。6. 根据权利要求5所述的一种适应噪声条件下的抽样学习机遥感定量反演方法,其特 征在于:G的取值小于或等于通过局内点阈值e划分得到的局内点个数的最大值。
【专利摘要】本发明提供一种适应噪声条件下的抽样学习机遥感定量反演方法,利用极限学习机中固定小数量级权值的特点模拟遥感定量反演中影响因子与反演对象间的非线性的复杂数学关系,将其转化为求解一个线性系统Hβ=TT;根据网络模型参数β的维度自适应选取模型参数估计算法;利用选取的模型参数估计算法,实现对Hβ=TT中网络模型参数β的求解。本发明通过建立遥感定量反演中影响因子与反演对象间的复杂数学关系模型;在模型参数求解过程中,能过滤样本数据噪声的干扰,自适应选取模型参数估计算法,从而能快速获取模型最优的参数结果。
【IPC分类】G06F19/00
【公开号】CN104899464
【申请号】CN201510342376
【发明人】沈永林, 艾烨霜
【申请人】中国地质大学(武汉)
【公开日】2015年9月9日
【申请日】2015年6月19日