一种Fast RVM污水处理故障诊断方法
【技术领域】
[0001 ] 本发明涉及污水处理领域,特别涉及一种Fast RVM污水处理故障诊断方法。
【背景技术】
[0002] 随着我国工农业经济的迅猛发展,城市进程不断加快,工业、农业废水及生活污水 排放量与日倶增,不仅加剧了市政污水处理负荷,还使得人类赖以生存的水资源遭到了极 大的破坏,各大湖泊出现了不同程度的富营养化,城市水环境安全已经成为了大众关注的 焦点。污水处理厂作为自然水体的关键保护屏障,其运行好坏将直接影响水环境的安全程 度。污水生化处理工艺复杂,影响因素非常多,污水处理厂在实际运行过程中难以保持长期 稳定的运行,一旦发生运行故障常常会引起出水水质不达标、运行费用增高和环境二次污 染等严重问题。因此,必须对污水处理厂运行状态进行监控,及时诊断出污水处理过程故障 并予以处理。污水处理运行状态的故障诊断本质上是一个模式分类问题,而在实际状态运 行分类中,常常会遇到污水数据集的分布不均衡问题,传统的机器学习方法在用于不平衡 数据分类时,模型分类正确率无法满足要求,给污水生化处理的故障诊断带来了极大的困 难。
[0003] 故障诊断技术是一种通过可见、可测量的关键指标所反映的异常状态,找出具体 故障和原因,并提出相应的解决措施的技术。故障诊断技术产生之初,是基于传感器和动态 测试技术,通过信号处理技术进行设备的故障分析与诊断。随着科技的不断进步,生产设备 或工艺系统朝着复杂化、多元化、大型化发展,传统的故障诊断技术已不能满足现代设备的 诊断需求。而人工智能发展为故障诊断注入了新的活力,通过组织相关领域的专业知识、模 拟人类思维的推理方式、建立故障诊断模型,将故障诊断技术引向智能化、系统化、网络化, 它在故障诊断领域中的进一步应用,推动了智能故障诊断技术的迅速发展。目前,在污水生 化处理系统故障诊断方面,国内外专家学者所采用的技术主要有,基于知识的专家系统技 术、支持向量机方法、粗糙集理论、基于神经网络的方法等。但是这些技术也存在一定的局 限性,专家系统存在知识获取瓶颈问题,若建立的专家知识库不完备,则有可能导致推理混 乱;支持向量机受到核函数必须满足Mercer条件和惩罚参数C及不敏感参数计算量过大等 限制;粗糙集理论在处理异常或噪声数据方面常常会显得无能为力,并且在建立模型时需 要大量的数据样本;神经网络容易陷入局部最优,且有过拟合及收敛速度慢的缺点;而且关 于如何处理污水数据类型之间的平衡性,并且不影响故障诊断的性能,在目前的污水故障 诊断研究中较少提及。
【发明内容】
[0004] 本发明的目的在于克服现有技术的缺点与不足,提供一种Fast RVM污水处理故障 诊断方法,通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样的对 少数类数据扩充,降低了污水数据的不平衡性,同时采用FastRVM对污水生化处理过程建立 分类模型,有效地提高了对污水生化处理系统的故障诊断精度。
[0005] 本发明的目的通过以下的技术方案实现:
[0006] -种Fast RVM污水处理故障诊断方法,包含以下顺序的步骤:
[0007] si.剔除污水输入和输出的数据中的异常点,由于各输入变量量纲的不同,对其进 行归一化处理,归一化到[0,1 ]区间中;
[0008] S2.基于聚类的快速相关向量机多数类数据压缩模块,将训练样本中的多数类样 本数据采用K-means方法进行聚类;
[0009] S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据 采用SMOTE(虚拟少数类向上采样方法)进行数据扩充;
[0010] S4.将处理后的所有类的样本数据重新组合构成新的训练集,建立"一对一"的快 速相关向量机多分类模型,对建好的分类模型输入测试集进行投票,得到测试结果,从而实 现对污水处理的整体运行状态的识别。
[0011] 所述的步骤S2,具体为:
[0012] S201、假设多数类样本集X={X1,X2,…,Xl,…,Xn}为r^R d空间的数据,从η个数据 对象中随机选择k个对象作为初始的聚类中心;
[0013] S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相 近的聚类中心中;计算距离的公式如下,假设c伪第j个类的中心,则^与^的距离为:
[0015] S203、根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为
Φ包含了如个样本,则该类的聚类中心戈
其中< 为类中心Cj的第m个属性,计算公式如下: j
[0017] S204、不断重复S202、S203步骤,直到标准测度函数收敛为止(从表现形式上看即 更新后的类中心与更新前一致,具体就是预先给标准测度函数设定精度,将更新后的数据 与更新前数据带入标准测度函数能够达到精度则停止更新),采用均方差作为计算标准测 度函数,其形式为:
[0019] 将多数类样本聚类后,对聚类后的样本类别进行快速相关向量机分类建模,从而 通过建模获取相关向量。因为相关向量代表的是该类样本数据的核心数据,所以用得到相 关向量作为该多数类新的训练集,从而在压缩多数类数据的同时也能最大程度上的保留数 据的有效信息。
[0020] 所述的步骤S3,具体为:
[0021] S301、对少数类中的每一个样本X,以欧几里得距离为标准计算它到少数类样本集 中每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标,这里k取5;
[0022] S302、根据向上采样的倍率N,对每一个少数类样本X,从其k个最近邻中随机选取N 个样本,记为yi,y2,…,yN;
[0023] S303、在原样本x与yj( j = l,2,···,N)之间进行随机线性插值,构造新的少数类样 本Pj,即新样本:
[0025] 其中rand(0,l)表示区间(0,1)内的一个随机数。
[0026] 步骤S4中,"一对一"的快速相关向量机多分类模型,其建立过程如下:
[0027] 相关向量机是通过最大化边际似然函数p(t |α,σ2)的方法确定超参数α和方差σ2 的,等价于最大化为其对数;记以幻=1吨[?(〖|0,02)],整理有 :
[0030]为了便于最大化L(c〇,对矩阵C进行等价变换,如下:
[0032] 其中< ' _ ^ ~此矩阵表示当ai =⑴时,相应的基向量Φ?被移除后样
τηΦ? 本对应的协方差矩阵,根据矩阵相关性质整理可得
(7)
[0035]因此公式(5)可以改写为
[0037]其中L(cui)表示为当ai = TO时,相应的基本向量(^被移除后所对应的边界似然函 数的对数,而1(h)表示边界似然的对数函数中只与αι有关的独立部分;
[0038] 式子(8)对ai求偏导有
[0041]所以公式(9)可改写为
[0043]令公式(11)等于零,考虑到"是方差值必须为正,所以当g>S;时有
[0045]对L(a)关于ai求二阶偏导有
[0047]综合公式(11)和(12)进行分析可知
[0049]所以当这>$时,公式(14)左边的表达式是恒小于零的,并对以上推导公式分析 可得,L(a)有唯一最大值点为
[0051] 根据上面的分析,通过以下方法最大化贝叶
斯L(a):
[0052] A、当基向量Φ i在模型中,即ai〈TO,但有β:' ,则将φ i从模型中删除,即令ai = °°,这样可以增大贝叶斯L(a);
[0053] B、当基向量(^在模型中,gpai =⑴,但有这 >各,则将(^添加到模型中并利用公 式(15)更新Ql,这样可以增大贝叶斯L(a);
[0054] C、当基向量(^在模型中,即αι〈%,但有β.3>.ν,则用公式(15)更新 αι,这样可以增 大贝叶斯L(a);
[0055] 综上所述,快速相关向量机分类基本算法步骤如下:
[0056] (1)初始化〇2 = 〇;
[0057] (2)用单个基向量Φ?初始化h,由公式(15)分析整理可得< 丰 设置其他的am(m矣i)为无穷大;
[0058] (3)计算Σ、μ并对所有Μ个基函数(K初始化Sm和Qm;
[0059] (4)从所有Μ个基函数(K集合中选择候选的基向量Φ i; * -
η. 、,+
[0061 ] (6)若Θi>0且ai〈(基向量φ i在模型中),重新估计cti;
[0062] (7)若0i>〇且ai = TO(基向量h不在模型中),添加 h到模型中并重新估计ai;
[0063] (8)若< 〇且ai〈〇〇,删除 φ i并设置ai = 〇〇 ;
[0064] (9)用Laplace逼近方法重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中 的Sm和Qm;
[0065] (10)若收敛或者达到最大迭代次数,则终止程序;否则转步骤(4);终止条件为:任 意在模型中的基函数对应的<^,有<^〈1612且,,
[0066] "一对一"分类法又叫"投票法",设待分类样本为k个类别,这k类中的任意两类都 可以组成一个基本的快速相关向量机二分类器,对所有的训练样本进行两两分类,这样k个 类别两两之间共计可以构Η
快速相关向量机二分类器,每一个快速相关向量机
分类器只在各自对应的样本子集上进行训练。对未知样本进行分类测试时,采用投票的方 法,把每一个待测样本都经过全部 个分类器进行判别。例如,样本在i、j两类之间分 类时,机器判别结果其属于第i类,类上增加1票,否则对第j类投票加1,直到所有的 分类器分类完成,最后统计得票最多的类即为测试样本所属类别。
[0067] 设分类函数fu(X)用来判别i、j两类样本,若f^(X)〈0,则判别X属于第i类,记i类 得1票,否则判X属于第j类,记j类得1票,最后决策时,比较哪一类得到的票最多,则将测试 样本规划为该类。
[0068] 本发明与现有技术相比,具有如下优点和有益效果:
[0069] 1、本发明建立了一种基于不平衡数据聚类的Fast RVM污水故障诊断模型,通过基 于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样方法对少数类数据扩 充,降低了污水数据的不平衡性,同时采用泛化能力强的Fast RVM对污水生化处理过程建 立多分类模型,提高了对污水生化处理系统的故障诊断精度,效果显著,性能也得到了改 善。
[0070] 2、本发明的模型是基于Fast RVM方法的,在离线情况下获得良好效果,在此基础 上对于展开基于不平衡数据聚类的Fast RVM污水故障的在线诊断研究也是很有意义。
[0071] 3、本发明中的相关向量机(RVM)是一种新的监督性学习方法,与支持向量机基于 结构风险最小化不同,RVM是在贝叶斯框架下的概率模型学习,相关向量个数更少,模型更 为稀疏,核函数不需要满足Mercer条件,并且模型中的自由参数数量更少。但是相关向量机 在计算复杂度大,所需内存开销大,而快速边界似然算法(Fast RVM)通过设置一个空的模 型,在训练过程中以一定该准则,不断向该模型中添加或删基函数,直到边际似然函数不在 出现明显变化且达到规定的迭代次数为止,从而来改善其分类效率,并且保证其分类准确 率。
[0072] 所以,本发明采用基于聚类的快速相关向量机方法对多数类样本进行压缩,利用 虚拟少数类向上采样方法对少数类样本进行扩充,使得原始污水样本数据的不平衡性降 低,然后采用Fast RVM建立污水处理故障诊断模型,有效地提高了污水处理系统的故障诊 断精度。
【附图说明】
[0073] 图1为本发明所述一种Fast RVM污水处理故障诊断方法的流程图。
[0074] 图2为本发明模型"一对一"的快速相关向量机多分类模型示意图。
[0075] 图3为本发明模型基于聚类的快速相关向量机多数类数据压缩流程图。
[0076] 图4为本发明模型虚拟少数类向上采样的少数类数据扩充流程图。
[0077] 图5为本发明模型快速相关向量机分类算法流程图。
[0078]图6为测试样本分类示意图。
【具体实施方式】
[0079]下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0080] 如图1,一种Fast RVM污水处理故障诊断方法,包含以下顺序的步骤:
[0081 ] S1.剔除污水输入和输出的数据中的异常点,由于各输入变量量纲的不同,对其进 行归一化处理,归一化到[0,1 ]区间中;
[0082] S2.采用基于聚类的快速相关向量机方法对多数类数据压缩,其计算公式如下:
[0083] 将训练样本中的多数类样本数据采用K-means方法进行聚类,假设多数类样本集X ={XI,X2,…,Xi,…,Xn}为η个Rd空间的数据。首先,从η个数据对象中随机选择k个对象作为 初始的聚类中心(本发明中取k = 2,便于后面使用基本快速相关向量机建模),对剩余的样 本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中。计算距离的公 式如下,假设W为第j个类的中心,则^与^的距离为:
[0085]然后,根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为
即包含了叫个样本,则该类的聚类中心为&:
其中< 为类中心cj的第m个属性,计算公式如下:
(2)
[0087]然后不断重复上述过程,直到标准函数收敛为止,本发明采用均方差作为计算准 则函数,其形式为: L0089」将多数类样本聚类后,然后对聚
类后的样本类别进行快速相关向量机分类建模, 从而通过建模可以获取一定数量的相关向量,因为相关向量代表的是该类样本数据的核心 数据,所以用得到相关向量作为该多数类新的训练集,从而在压缩多数类数据的同时也能 最大程度上的保留数据的有效信息,具体的流程图如图2所示。
[0090] S3.将训练样本中的少数类样本数据采用SMOTE(虚拟少数类向上采样方法)进行 数据扩充,算法的具体描述如下:
[0091] 1)对少数类中的每一个样本X,以欧几里得距离为标准计算它到少数类样本集中 每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标,这里k取5;
[0092] 2)根据向上采样的倍率N,对每一个少数类样本X,从其k个最近邻中随机选取N个 样本,记为yi,y2,…,yN;
[0093] 3)在原样本X与yj( j = l,2,···,N)之间进行随机线性插值,构造新的少数类样本pj。 即新样本: - - J
u .丄 \ 丄 /
丄、/,J ) > 丄, \ 1 /
[0095]其中:rand(0,l)表示区间(0,1)内的一个随机数,算法流程图如图3所示。
[0096] S4.将处理后的所有类的样本数据重新组合构成新的训练集,建立"一对一"的快 速相关向量机多分类模型,对建好的分类模型输入测试集进行投票,得到测试结果,从而实 现对污水处理的整体运行状态的识别。其计算公式如下:
[0097]相关向量机是通过最大化边际似然函数p(t |α,σ2)的方法确定超参数α和方差σ2 的,等价于最大化为其对数。记以幻=1吨[?(〖|0,02)],整理有 :
[0100]为了便于最大化L(c〇,对矩阵C进行等价变换,如下:
[0102] 其_
比矩阵表示当时,相应的基向量Φ?被移除后样 m科 本对应的协方差矩阵,根据矩阵相关性质整理可得
[0105]因此公式(5)可以改写为
[0107]注意L(cui)表示为当ai = TO时,相应的基本向量φ-移除后所对应的边界似然函 数的对数,而1(h)表示边界似然的对数函数中只与〇1有关的独立部分。式子(8)对〇1求偏导 有
[0110]所以公式(9)可改写为
[0112]令公式(11)等于零,考虑到^是方差值必须为正,所以当这时有 LUVI4」 对Ua)天feu豕二阶偏寺有
[
[0116]综合公式(11)和(12)进行分析可知
[0118]所以当β2 >5:.时,公式(14)左边的表达式是恒小于零的,并对以上推导公式分析 可得,L(a)有唯一最大值点为
[0120] 根据上面的分析,可以通过以下方法最大化贝叶斯L(a):
[0121] 1)当基向量Φ i在模型中,即ai〈TO,但有β2 ,则将Φ i从模型中删除,即令ai = °°,这样可以增大贝叶斯L(a);
[0122] 2)当基向量(^在模型中,即αι = %,但有则将(^添加到模型中并利用公 式(15)更新Ql,这样可以增大贝叶斯L(a);
[0123] 3)当基向量(^在模型中,gpai〈~,但有迖>4,则用公式(15)更新cu,这样可以增 大贝叶斯L(a);
[0124] 综上所述,如图4所示,快速相关向量机分类基本算法步骤如下:
[0125] 1)初始化 σ2 = 〇;
[0126] 2)用单个基向量Φ,初始化cu,由公式(15)分析整理可彳4「并设 置其他的am(m矣i)为无穷大;
[0127] 3)计算Σ、μ并对所有Μ个基函数(K初始化Sm和Qm;
[0128] 4)从所有Μ个基函数<K集合中选择候选的基向量Φ i;
[0129] 5)计算 5;;
[0130] 6)若0i>〇且ai〈TO(基向量(}μ在模型中),重新估计a i;
[0131] 7)若0i>〇且ai = TO(基向量h不在模型中),添加 h到模型中并重新估计ai;
[0132] 8)若0i < 〇且ai〈〇〇,删除 φ i并设置ai = 〇〇 ;
[0133] 9)用Laplace逼近方法重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中的 Sm 和 Qm;
[0134] 10)若收敛或者达到最大迭代次数,则终止程序;否则转4)。(终止条件为:任意在 模型中的基函数对应的ai,有ai〈lel2且
[0135] 设待分类样本为k个类别,这k类中的任意两类都可以组成一个基本的快速相关向 量机二分类器,对所有的训练样本进行两两分类,这样k个类别两两之间共计可以构成
卜快速相关向量机二分类器,每一个快速相关向量机分类器只在各自对应的样本 子集上进行训练。对未知样本进行分类测试时,采用投票的方法,把每一个待测样本都经过 全剖
个分类器进行判别。设分类函数fuU)用来判别i、j两类样本,若fuUXo,则 判别X属于第i类,记i类得1票,否则判X属于第j类,记j类得1票,最后决策时,比较哪一类得 到的票最多,则将测试样本规划为该类,具体示意图如图5、6所示。
[0136] 污水数据来自UCI数据库,是一个污水处理厂的日常监控数据,整个数据集包括不 完整记录在内一共有527个记录,每个样本维数为38(即38个测量变量,对应各个指标的 值),全部属性值都完整的记录有380个,被监测的水体一共有13种状态,根据样本类别的性 质污水处理过程的整体运行状态主要分成6大类,类别1为正常情况,类别2为性能超过平均 值的正常情况,类别3为进水流量低的正常情况,类别4为二沉池故障,类别5为暴雨引起的 非正常状态,类别6为固体溶度过负荷,为了实验方便,把类别4、5、6归为故障状态类别4。正 常情况的类别1样本的个数比较多,属于多数类;而类别3和类别4由于样本个数比较少,故 属于少数类。样本集
,是第η个输入值,^是样本的类别,m是样本的
类别数,快速相关向量机污水故障诊断具体建模步骤如下:
[0137] 1、剔除掉污水数据中属性不完整的数据,然后将数据按式弓 归一化处理,按2 : 1的比例确定训练集Xtrain和测试集Xtest。
[0138] 2、将训练集中的多数类样本采用K-means算法进行聚类,这里lu = 2。
[0139] 3、将聚成两类的多数类样本根据基本的快速相关向量机算法进行分类建模,选用 RBF核函数!<
> a,核函数宽度lu根据多次实验取经验值从而获取适 当数量的相关向量,并由该相关向量集合代替该多数类样本。
[0140] 4、采用SMOTE向上采样方法来扩充少数类样本,最近邻个数k2取5,向上采样倍率N 一般取1~5倍。
[0141] 5、将处理后的所有类的样本数据重新组合构成新的训练集Xtreain_ new,如表1所示:
[0142] 表1
[0143]
[0144] 6、建立"一对一"的快速相关向量机多分类模型
[0145] 1)模型选用RBF核函数,核宽度参数h2通过对新的训练集xtreain_ new采用5折交叉验 证的网格搜索方法来确定。
[0146] 2)构届
t快速相关向量机二分类器
[0147] For i = l:m
[0148] For j = (i+1) :m
[0149] 类别i与类别j建立快速相关向量机二分类模型;
[0150] End for
[0151] End for
[0152] 7、X
个分类器分别输入测试集xtest,进行投票,得到测试结果,从而实现 对污水处理的整体运行状态的识别。
[0153] 仿真实验首先使用相同的未经处理的训练集Xtrain和测试集以^直接按上面第6、7 步进行实验,然后与经过上面数据处理的训练集x treain」胃和测试集xtest的实验结果对比,实 验进行10次,取10次实验测试精度的平均值对个分类进行评估,得到结果如表2所示,其中 "R X acc"表示的是类别X的分类正确率,"Total acc"表示总的分类正确率,"G-mean"表示 所有类的召回率的几何平均值,
[0154] 表2
[0155]
[0156] 然后实验再使用表1中相
同的训练集Xtre3ain_ne3W和测试集Xte3St分别对相关向量机 (RVM)、支持向量机(SVM)、BP神经网络模型进行建模和分类测试。其中RVM模型的核宽度参 数同样采用5折交叉验证的网格搜索方法来确定,并同样建立"一对一"来建立RVM分类模 型;SVM模型的训练和测试均采用Libsvm软件包,同样选用RBF函数作为核函数,参数C和核 宽度使用网络搜索在[_10,10]区间内5折交叉验证获得;BP神经网络模型设计为三层结构, 输入层有38个节点,输出层有4个节点,隐含层的节点个数用网格搜索来寻找,寻优范围为 [1,30],进行5折交叉验证,实验进行10次,取10次实验测试精度的平均值对个分类进行评 估,四种模型的分类测试结果如表3所示,
[0157] 表3
[0159] 由表2和表3可以看出,污水数据经过本发明上述方法处理后,Fast RVM模型对于 污水状态的分类效果更好,并且基于本文不平衡数据处理方法的Fast RVM模型的总体分类 性能要优于RVM模型、SVM模型、BP模型。本发明提出的基于不平衡数据聚类的Fast RVM污水 故障诊断方法在污水处理过程中的故障诊断当中能够取得不错的效果。
[0160] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的 限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化, 均应为等效的置换方式,都包含在本发明的保护范围之内。
【主权项】
1. 一种Fast RVM污水处理故障诊断方法,其特征在于,包含以下顺序的步骤:51. 剔除污水输入和输出的数据中的异常点,对其进行归一化处理,归一化到[0,1]区 间中;52. 基于聚类的快速相关向量机多数类数据压缩模块,将训练样本中的多数类样本数 据采用K-means方法进行聚类;53. 虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据采用 SMOTE进行数据扩充;54. 将处理后的所有类的样本数据重新组合构成新的训练集,建立"一对一"的快速相 关向量机多分类模型,对建好的分类模型输入测试集进行投票,得到测试结果,从而实现对 污水处理的整体运行状态的识别。2. 根据权利要求1所述的Fast RVM污水处理故障诊断方法,其特征在于,所述的步骤 52, 具体为: 5201、 假设多数类样本集X= {X1,X2,…,X1,…,χη}为I^R d空间的数据,从η个数据对象 中随机选择k个对象作为初始的聚类中心; 5202、 然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的 聚类中心中;计算距离的公式如下,假设W为第j个类的中心,则^与^的距离为:I S20 3、根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为即包含了个样本,则该类的聚类中心为其中< 为类中心Cj的第m个属性,计算公式如下:S204、不断重复S202、S203步骤,直到标准测度函数收敛为止,采用均方差作为计算标 准测度函数,其形式为:将多数类样本聚类后,对聚类后的样本类别进行快速相关向量机分类建模,从而通过 建模获取相关向量。3. 根据权利要求1所述的Fast RVM污水处理故障诊断方法,其特征在于,所述的步骤 53, 具体为: 5301、 对少数类中的每一个样本X,以欧几里得距离为标准计算它到少数类样本集中每 个样本的距离,获得其中k个最近邻,并记录近邻样本的下标,这里k取5; 5302、 根据向上采样的倍率N,对每一个少数类样本X,从其k个最近邻中随机选取N个样 本,记为yi,y2,···,yN; 5303、 在原样本x与yj (j = I,2,…,N)之间进行随机线性插值,构造新的少数类样本pj, 即新样本: Pj = x+rand(0, l)*(yj-x), j = l ,2,··· ,N (4) 其中rand(0,l)表示区间(0,1)内的一个随机数。4.根据权利要求1所述的Fast RVM污水处理故障诊断方法,其特征在于,步骤S4中,所 述"一对一"的快速相关向量机多分类模型,其建立过程如下: 相关向量机是通过最大化边际似然函数P(t|a,〇2)的方法确定超参数α和方差〇 2的,等 价于最大化为其对数;记以幻=1吨[?(〖|〇,〇2)],整理有 :对矩阵C进行等价变换,如下:其中此矩阵表示当ai= 〇〇时,相应的基向量Φ?被移除后样本对 应的协方差矩阵,根据矩阵相关性质整理可得I 因此公式(5)可以改写为其中L(Cui)表示为当Cii = 〇〇时,相应的基本向量φ i被移除后所对应的边界似然函数的 对数,而Ka1)表示边界似然的对数函数中只与Ct1有关的独立部分; 公式(8)对Cti求偏导有所以公式(9)可改写为令公式(11)等于零,考虑到~是方差值必须为正,所以当>5;时有对L(a)关于Cti求二阶偏导有综合公式(11)和(12)进行分析可知所以当泛> &时,公式(14)左边的表达式是恒小于零的,并对以上推导公式分析可得, L(a)有唯一最大值点为根据上面的分析,通过以下方法最大化贝叶斯L(a): A、 当基向量Φ i在模型中,即,但有这2 < 5;,则将Φ i从模型中删除,即令ai = TO ; B、 当基向量(iM在模型中,即Ct1 = W,但有Q2 >5',.,则将(J)1添加到模型中并利用公式 (15)更新 Cti; C、 当基向量Φ i在模型中,即Cti〈⑴,但有g2 >豕,则用公式(15)更新Cti; 综上所述,快速相关向量机分类基本算法步骤如下: (1) 初始化。2 = 〇; (2) 用单个基向量(J)1初始化Ct1,由公式(15)分析整理可得并设置 其他的am(m矣i)为无穷大; (3) 计算Σ、μ并对所有M个基函数Φ m初始化; (4 )从所有M个基函数Φ m集合中选择候选的基向量Φ i ; (5) 计算辑 ; (6) 若0i>〇且ai〈〇〇,重新估计ai; ⑴若9,〉。且ai=TO,添加(J)1到模型中并重新估计a 1; (8) 若Qi < 〇且ai〈〇〇,删除(J)i并设置Qi = OO; (9) 用Laplace逼近方法重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中的SjP Qm ; (10)若收敛或者达到最大迭代次数,则终止程序;否则转步骤(4);终止条件为:任意在 模型中的基函数对应的ai,有ai〈lel2且
【专利摘要】本发明公开的本发明公开了一种Fast?RVM污水处理故障诊断方法,包括以下顺序的步骤:1)剔除掉污水数据中待识别样本中属性不完整的样本,由于各样本属性量纲的不同,对其进行归一化处理,归一化到[0,1]区间中;2)基于聚类的快速相关向量机多数类数据压缩模块;3)虚拟少数类向上采样的少数类数据扩充模块;4)“一对一”的快速相关向量机多分类模型;5)快速相关向量机污水故障诊断建模。本发明通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样方法对少数类数据扩充,降低了污水数据的不平衡性,同时采用Fast?RVM对污水生化处理过程建立多分类模型,有效提高了对污水生化处理系统的故障诊断精度。
【IPC分类】G05B23/02
【公开号】CN105487526
【申请号】CN201610009907
【发明人】许玉格, 邓文凯, 陈立定
【申请人】华南理工大学
【公开日】2016年4月13日
【申请日】2016年1月4日