一种基于改进支持向量机的太赫兹谱分类识别方法
【技术领域】
[0001] 本发明属于太赫兹光谱识别技术领域,具体涉及一种基于改进支持向量机的太赫 兹谱分类识别方法。
【背景技术】
[0002] 太赫兹时域光谱技术是近年来发展起来的光谱测量新技术。它采用太赫兹脉冲透 射样品或在样品上产生反射,测量由此产生的电磁场在时间上的变化,通过傅里叶变换获 得频域上幅值与位相的变化,进而得到样品信息。太赫兹脉冲的典型脉宽在皮秒量级,通 过电光采样测量技术能够有效抑制背景噪声干扰,信噪比远远高于傅里叶变换红外光谱技 术。同时,太赫兹光子只有毫电子伏特能量而且对于非极性绝缘物质具有很高的穿透性, 可以做到对样品的无损检测。因此,太赫兹光谱技术可以成为傅里叶变换红外光谱技术和 X射线技术的重要补充。
[0003] 太赫兹吸收谱的分类识别技术是太赫兹光谱检测技术的一个重要环节,目前在世 界范围内对太赫兹吸收谱的分类识别有的纯粹靠人工识别,识别效率低,浪费劳动力。其它 的使用软件算法进行识别,使用的算法一般为人工神经网络算法、模糊识别算法、分层聚类 算法等,由于受到噪声的影响,太赫兹谱可能在高维空间中成复杂的非线性分布,这些算法 识别正确率低,运算量大,对计算机硬件要求较高。
[0004] 另外,国内外相关的太赫兹吸收谱分类识别算法包括,Mittliman利用全极点 滤波器对太赫兹吸收谱进行滤波,将滤波系数作为分类特征值;Hadjiloucas等人采用 Karhunen-Loeve变换进行特征提取,利用欧式距离进行分类;Galvao等人将太赫兹吸收谱 经过小波变换后得到的小波系数应用于太赫兹谱的分类。刘文涛等用模糊识别方法对常见 的爆炸物和毒品的太赫兹吸收光谱进行模糊聚类并进行了分类识别。Brun等利用PCA分析 切片组织的太赫兹吸收谱,通过聚类分析来区别健康细胞和癌变细胞。贾燕等人使用三层 网络结构的BP神经网络抗生素的吸收光谱分别进行了训练和识别。
[0005] 现有的与太赫兹光谱相关专利主要有以下几项发明专利,下面分别作介绍。一种 太赫兹波吸收光谱识别方法(【申请号】CN201410432955.4),该方法根据待测物质的太赫兹 波吸收谱曲线,生成吸收谱曲线的基线,用吸收谱曲线减去吸收谱基线得到去斜率后的太 赫兹吸收谱光谱,从而排除样品掺杂,样品粉末对太赫兹的散射以及太赫兹高频部分衰减 对光谱识别带来的影响,提高光谱的识别正确率。一种基于太赫兹光谱的固体农药鉴别方 法(【申请号】CN201310242987. 3),用C-支持向量机对样品太赫兹吸收光谱进行识别。一 种基于太赫兹时域光谱的中药样品真伪初筛方法(【申请号】CN201310033656.9),利用系统 聚类分析的方法,将待测的中药样品与中药太赫兹谱图数据库中已存的真品吸收数据进行 聚类分析,鉴别中药的真伪。基于太赫兹时域光谱的峰谷位鉴别转基因稻米的方法(申请 号:CN20120553025. 5)利用太赫兹时域光谱峰值和谷值出现的时间判断转基因稻米。
[0006] 由于大气中水蒸气和二氧化碳等气体吸收以及探测器噪声的影响,太赫兹吸收谱 容易受到噪声的干扰,专利CN201310242987. 3用C-支持向量机对样品太赫兹吸收光谱进 行识别前缺乏必要的去噪处理,导致有时鉴别效果不理想。同时本发明对支持向量机算法 进行了改进,包括使用了一种新型的核函数和对训练样本进行预选,从而避免了过学习现 象并加快了样品的识别速度。
【发明内容】
[0007] 针对上述技术问题,本发明提供了一种对物质识别具有广泛的适应性,且能取得 较好效果的识别方法,识别率受噪声干扰时程度较小。具体技术方案如下:
[0008] -种基于改进支持向量机的太赫兹谱分类识别方法,包括以下步骤:
[0009] (1)测量样品时域谱:准备待测量样品,利用太赫兹时域光谱系统测量未放置样 品和放置样品两种情况下的太赫兹时域波形数据,记作参考信号和样品信号;
[0010] (2)获得频域信号:将参考信号和样品信号进行快速傅立叶变换,得到参考信号 和样品信号的频域信号;
[0011] (3)去噪处理:设置信噪比值区间,将区间之外的信噪比频段信号作为噪声去除; 对剩余的频段信号采用小波软阈值去噪方法进行去噪,得到去除噪声后的样品频域信号
[(?)和参考信号的频域信号叻;
[0012] (4)计算样品的太赫兹吸收谱;
[0013] (5)生成领域图:将获得的太赫兹吸收谱分成两组,记为训练样本和识别样本;对 训练样本的太赫兹吸收谱,计算各条谱之间的距离,建立距离矩阵;对距离矩阵使用领域图 生成算法生成领域图;
[0014] (6)采用Dijkstra算法,根据邻域图建立测地距离矩阵;
[0015] (7)建立核矩阵
,其中S为调节参数,D表示测地距离矩阵;
[0016] (8)将邻域图中不同样本中直接相连的样本预选为支持向量样本;
[0017] (9)根据支持向量样本、核矩阵,使用C-SVC算法对太赫兹吸收谱训练,获得支持 向量参数;
[0018] (10)依据支持向量参数用C-SVC算法对识别样本进行识别。
[0019] 进一步地,所述步骤(1)中准备准备待测量样品,具体为:将样品研磨均匀并用压 片机压成片状。
[0020] 进一步地,所述信噪比区间取值为2THZ-50THZ。
[0021] 进一步地,所述步骤(3)小波软阈值去噪方法具体为:选择db3小波基对剩 余的频段信号进行小波分解,进行若干层分解得到各层小波系数;采用的阙值函数
,其中S是正的常数,阙值T,对阙值处理后的 小波系数进行重构得到去除噪声后的样品和参考信号的频域信号7;(叻和7;(叫。
[0022] 进一步地,所述步骤(4)的计算样品的太赫兹吸收谱a(?)具体过程为:
[0023]
,其中d是样品的厚度,忑(岭和!;.〇)表示去除噪声后的样品 和参考信号的频域信号。
[0024] 为更好的理解本发明,先将传统的太赫兹吸收谱计算方法介绍如下:对各参考信 号和样品信号分别进行快速傅里叶变换,得到参考信号和样品信号的频域信号和 Is(?)。太赫兹吸收谱可以由下式得出:
,其中Ir(?)和Is(?)分别是 参考信号和样品信号的频域信号,d是样品的厚度,《代表频率。由于测量时太赫兹光谱 往往受到噪声的影响,计算得到的样品太赫兹吸收谱信噪比通常很低,吸收谱的特征被噪 声所掩盖,导致无法用于识别。
[0025] 采用本发明获得的有益效果,本发明在计算吸收谱之前首先对频域信号进行了去 噪处理,抗噪性能好;本发明样品处理简单,重复性好。步骤可行,识别正确率比传统支持向 量机更高,而且训练速度更快。
【附图说明】
[0026] 图1本发明的方法步骤示意图;
[0027] 图2哈药的太赫兹时域谱;
[0028] 图3珠海联邦的太赫兹时域谱;
[0029] 图4哈药的太赫兹频域谱;
[0030] 图5珠海联邦的太赫兹频域谱;
[0031] 图6哈药的太赫兹吸收谱;
[0032] 图7珠海联邦的太赫兹吸收谱。<
br>【具体实施方式】
[0033] 如图1所示,一种基于改进支持向量机的太赫兹谱分类识别方法,本发明待测物 质可以是药物、爆炸物等物品,下面,结合附图和具体实施例对本发明作进一步说明。
[0034] (1)测量样品时域谱:准备待测量样品,实验采用Teraview公司的太赫兹时域光 谱系统TPSspectra1000。实验中样品选择阿莫西林胶囊生产厂家分别为哈药集团和珠 海联邦制药(为便于说明,下文称作哈药、珠海联邦)。将药品在研体中研磨至颗粒直径约 60ym-80ym,再用压片机,在500Mpa下压制成直径10mm,厚度为1mm的圆片。
[0035] 首先,测量太赫兹时域光谱系统的辐射源发出信号,样品腔(系统中测试样品时, 放置样品的位置)中不放任何样品,记录太赫兹参考信号民(t);然后分别将哈药、珠海联 邦样品放入样品腔,记录各自的太赫兹样品信号Es (t),实验对每种样品反复测量200组数 据。如图2所示,哈药的太赫兹时域谱;如图3所示,为珠海联邦的太赫兹时域谱。
[0036] (2)获得频域信号:分别对参考信号和样品信号进行快速傅立叶变换,得到参考 信号和样品信号的频域信号仁(《)和Is(?);如图4所示,为哈药的太赫兹频域谱;如图5 所示为珠海联邦的太赫兹频域谱。
[0037](3)去噪处理:设置信噪比值区间2THz~50THz,将区间之外的信噪比频段 信号作为噪声估计噪声的方差;把频域信号中2THz~50THz之间的高信噪比频段作 为有用信号,把50THz以上的低信噪比频段作为噪声剔除。选择db3小波基对频域信 号中2THz~50THz之间的高信噪比频段信号进行小波分解,本实施例选择三层,得到 各层小波系数。使用改进的软阙值法对各小波系数进行阙值处理,改进的阙值函数 为
,S是正的常数,本实施例取1,阙值
0是噪声的方差,N是有用信号的维数。维数根据实际情况确定,本实施例 中信号的维数为480,对处理后的小波系数进行重构得到去除噪声后的样品和参考信号的 频域信号厂(叫和((叫。
[0038] (4)计算样品的太赫兹吸收谱
;如图6所示,为哈药的太赫兹吸 收谱,如图7所示,为珠海联邦的太赫兹吸收谱。
[0039] (5)生成领域图:将两种药物随机各选取50组作为训练样本,每种药物对应剩下 的150组作为待识别样本;对训练样本的太赫兹吸收谱,计算各条谱之间的距离,建立距离 矩阵,其中距离采用欧式距离;对距离矩阵用最小生成树算法生成一个基本的领域图,然后 在这个基本的邻域图上用k近邻算法生成一个新的邻域图,本实施例中k取5。
[0040] (6)利用图论中的Dijkstra算法计算邻域图中每两点间的最短路径,建立测地距 离矩阵D;
[0041] (7)建立核矩阵
,其中S为调节参数,D表示测地距离矩阵,exp表 示以自然常数e为底的指数函数;
[0042] (8)选出支持向量样本:将邻域图中不同样本中直接相连的样本预选为支持向量 样本;
[0043] (9)根据支持向量样本、核矩阵,使用C-SVC算法对太赫兹吸收谱训练,获得支持 向量参数;C-SVC算法是本领域中的常用算法。
[0044] (10)依据支持向量参数对识别样本进行识别,最终哈药的识别正确率为94. 7%, 珠海联邦的识别正确率为96. 8 %,比目前现有的识别率有所提高。
[0045] 本发明并不仅限于对实施例中的两种药物进行识别,对本发明的适当改进或参数 调整都应属于本发明所附权利要求的保护范围。本发明部分算法亦可以用于包括但不限于 高光谱、红外光谱、声波、心电图等的分类识别。
【主权项】
1. 一种基于改进支持向量机的太赫兹谱分类识别方法,其特征在于,包括以下步骤: (1) 测量样品时域谱:准备待测量样品,利用太赫兹时域光谱系统测量未放置样品和 放置样品两种情况下的太赫兹时域波形数据,记作参考信号和样品信号; (2) 获得频域信号:将参考信号和样品信号进行快速傅立叶变换,得到参考信号和样 品信号的频域信号; (3) 去噪处理:设置信噪比值区间,将区间之外的信噪比频段信号作为噪声去除;对剩 余的频段信号采用小波软阈值去噪方法进行去噪,得到去除噪声后的样品频域信号7;@) 和参考信号的频域信号7:(叫; (4) 计算样品的太赫兹吸收谱; (5) 生成领域图:将获得的太赫兹吸收谱分成两组,记为训练样本和识别样本;对训练 样本的太赫兹吸收谱,计算各条谱之间的距离,建立距离矩阵;对距离矩阵使用领域图生成 算法生成领域图; (6) 采用Dijkstra算法,根据邻域图建立测地距离矩阵; (7) 建立核矩阵,其中δ为调节参数,D表示测地距离矩阵; (8) 将邻域图中不同样本中直接相连的样本预选为支持向量样本; (9) 根据支持向量样本、核矩阵,使用C-SVC算法对太赫兹吸收谱训练,获得支持向量 参数; (10) 依据支持向量参数对识别样本进行识别。2. 如权利要求1所述的一种基于改进支持向量机的太赫兹谱分类识别方法,其特征在 于,所述步骤(1)中准备准备待测量样品,具体为:将样品研磨均匀并用压片机压成片状。3. 如权利要求1所述的一种基于改进支持向量机的太赫兹谱分类识别方法,其特征在 于:所述信噪比区间取值为2ΤΗζ-50ΤΗζ。4. 如权利要求1所述的一种基于改进支持向量机的太赫兹谱分类识别方 法,其特征在于:所述步骤(3)小波软阈值去噪方法具体为:选择db3小波基剩余 的频段信号进行小波分解,进行若干层分解得到各层小波系数;采用的阙值函数I其中S是正的常数,阙值T,对阙值处理后的 小波系数进行重构得到去除噪声后的样品和参考信号的频域信号7:(叻和7:(叫。5. 如权利要求1所述的一种基于改进支持向量机的太赫兹谱分类识别方法,其特征在 于:所述步骤(5)的计算样品的太赫兹吸收谱具体过程为:?其中d是样品的厚度,^叻和表示去除噪声后的样品和参 考信号的频域信号。6. 如权利要求4所述的一种基于改进支持向量机的太赫兹谱分类识别方法,其特征在 于,所述小波分解层数为3层。
【专利摘要】本发明属于太赫兹光谱识别技术领域,具体涉及一种基于改进支持向量机的太赫兹谱分类识别方法,包括以下步骤:(1)测量样品时域谱;(2)获得频域信号;(3)去噪处理;(4)计算样品的太赫兹吸收谱;(5)生成领域图;(6)采用Dijkstra算法,根据邻域图建立测地距离矩阵;(7)建立核矩阵其中δ为调节参数,D表示测地距离矩阵;(8)将邻域图中不同样本中直接相连的样本预选为支持向量样本;(9)根据支持向量样本、核矩阵,获得支持向量参数;(10)依据支持向量参数用C-SVC算法对识别样本进行识别。本发明在计算吸收谱之前首先对频域信号进行了去噪处理,抗噪性能好;样品处理简单,步骤可行,识别正确率比传统支持向量机更高。
【IPC分类】G01N21/3586
【公开号】CN104897605
【申请号】CN201510332572
【发明人】李飚, 刘坤, 曾祥鑫, 王鲁平, 王平, 高颖慧, 张路平, 傅睿罡
【申请人】中国人民解放军国防科学技术大学
【公开日】2015年9月9日
【申请日】2015年6月16日