玉米种子品种真实性鉴别模型的构建方法及其应用

xiaoxiao2021-3-4  172

玉米种子品种真实性鉴别模型的构建方法及其应用
【技术领域】
[0001] 本发明设及玉米种子鉴别,具体地说,设及玉米种子品种真实性鉴别模型的构建 方法及其应用。
【背景技术】
[0002] 玉米品种真实性在种子的生产、加工、销售等领域都有很重要的作用,随着玉米产 业的扩大及其重要性进一步提高,玉米育种研究步伐加快,育出的新品种层出不穷。不法分 子利用运个有利可图的机会,W假乱真,有的W其他品牌的种子冒充本品牌的种子;有的仅 仅利用知名品牌的包装,里面装的却是不知名的种子;有的用本品牌种子同父异母或同母 异父的种子替代本品牌种子;再加上现在种子资源的共享,我国骨干自交系的重复利用,使 得现在品种父母本的亲缘关系较近,雷同的品种数目较多。在种子生产过程中因为亲本纯 度不高、去雄、去杂、去劣等不及时,或是隔离不完全,或是收获、脱粒过程出现的机械混杂, 抑或是人员操作不专业或是故意造成混杂,导致所生产种子中出现自交种、回交种等。所W 玉米种子纯度和真实性的鉴定尤为重要。
[0003] 传统的种子真实性鉴别方法有:幼苗形态鉴定法对于特征有显著差异的品种区别 时有较高的准确性,而且简单、易行、较直观、节省时间、经济(不需要购买仪器设备)、但是 性状易受环境影响,很多性状在幼苗期未表现出来,能用于鉴别的性状较少,有的父母本特 征接近的组合及亲缘关系较近的品种鉴别准确性较差,因此,适用范围较窄,同时巧粒的饱 满程度也对鉴别有影响,而且鉴别时间较长。(刘德强,2011;石爱丽,2011;解明伟,2013)。 分子标记鉴定技术,如简单重复序列SSR技术(Simple Sequence Repeat)SSR具有很多优 点,比如多态性信息非常广泛、重复性好、结果比较稳定,技术较简单,是鉴定种子纯度和真 实性较好的技术,但该技术的应用有局限性,应用此技术必须知道重复序列两端的信息才 能设计引物,筛选引物,而且设计引物需要一定费用,并且鉴定或测玉米种子真实性时,对 样品有损坏。可见,现有的玉米品种真实性鉴别方法都存在一定的局限性,不能成为一种兼 具成本低、无损、检测快速、操作简便、环境友好型的检测方法,也不能做到对鉴定的样本的 筛选。
[0004] 近红外光谱技术在种子方面研究目前相对较少,如王若兰等研究了利用近红外分 析技术检测小麦脂肪酸值,W化学分析数据为依据建立近红外分析模型。使用近红外技术 检测的脂肪酸值的含量与标准方法之间的T检验结果为Τ= 1.345,两种检测结果的差异性 不显著(Ρ<0.05)。两种方法所得值得平均绝对偏差很小,近红外检测脂肪酸值的分析模型 具有很好的预测准确性,能够满足快速无损检测小麦脂肪酸值得需要(王若兰,2013)。但其 发明为对种子进行定量分析,不能针对种子做定性分析,进行种子真实性鉴别。
[0005] 再如贾仕强等(2012)运用近红外光谱测量方法对玉米种子单巧粒真实性做了判 另IJ,从玉米巧粒正反面、短波透射和中长波漫反射、进样方式Ξ个方面研究,希望探索出最 好的近红外光谱的采集方式,通过预处理及特征提取,然后建立模型,研究发现,直接照射 玉米胚面的结果要好于照射玉米非胚面,漫反射更适合此实验,小样品附件的结果要优于 光阔。用最好组合建立模型,发现对自身样品的正确识别率为94.6%,对非本身样品的正确 拒识率为96.5%。但由于其只针对单巧粒进行进样方式研究,并且对于降维方式的和维度 的选取不当导致正确识别率未能达到更为理想的程度。
[0006] 现有的品种真实性鉴定的方法存在鉴定的时间较长、花费高、准确性差、损坏样品 等缺点,只能对种子做出鉴定而无法进行筛选,所W亟需一种快速、无损、对环境友好的方 法来对玉米种子品种真实性进行鉴定。

【发明内容】

[0007] 为了解决现有技术中存在的问题,本发明的目的是提供一种玉米种子品种真实性 的鉴别方法。
[0008] 为了实现本发明目的,本发明技术方案如下:
[0009] 本发明首先提供了玉米种子品种真实性鉴别模型的构建方法,包括如下步骤:
[0010] S1.采集样品漫反射光谱;
[0011] S2.光谱预处理:选择有效波长,增大信噪比,消除干扰;
[001。S3.光谱特征提取:利用PCA、PLS、PCA+LDA或化S+LDA对数据降维;
[0013] S4.采用仿生模式识别方法建立模型。
[0014] 进一步地,采集样品漫反射光谱后,剔除异常光谱,获得样品的原始光谱。
[0015] 采集漫反射光谱时仪器为傅里叶变换近红外漫反射光谱仪,
[0016] VECT0R22/N型,产自德国服UK邸公司。仪器的分辨率:8cm-i,扫描的次数:64次,扫 描谱区范围:12000cm 1~4000cm 1。光谱采集所用软件与数据转换所用软件为本光谱仪自 带的德国化址6'公司的0?115 6.5。数据分析软件为1曰11曰6 201化。
[0017] 作为优选,所述样品为同一时间收获、含水量在10~11%的成熟种子。当样品满足 上述条件时,能提高模型精度。采集样品图谱时设多次重复,W平均光谱近似作为该样品光 谱。
[0018] 进一步地,所述S1为采集450个样本W上的样品,进行至少30次的重复。能够更好 的使构建的鉴别模型具有更高的容变性,稳定性,适用于更广泛的样品W及更复杂的样品 真实性鉴别。
[0019] 进一步地,所述有效波长为llOOnm~1676nm。在多次测试和研究中发现,该波段对 于玉米真实性分析中,噪声信息已减少到最佳范围,所剔除的一些波段的噪声信息已经大 于有用信息。本方法所选取的有效波长是后期模型达到最优预测能力和高稳定性的必要前 提。
[0020] 进一步地,选择有效波长后,依次进行移动窗口平均(平滑)、一阶差分导数、矢量 归一化处理。用移动窗口平均处理降低噪声及随机误差,有效的获取有用信息,增大信噪 比,用一阶差分导数处理消除基线的平移和其他干扰,用矢量归一化处理可有效使同一个 品种的多次测量间产生的差异得到降低。
[0021] 经过多次测试和研究,在该处理方式和处理顺序下,对于所需要的玉米样品的弱 信息提取效果最明显,在复杂W及变动的背景信息中,本方法按照移动窗口平均(平滑)、一 阶差分导数、矢量归一化处理光谱数据,可W消除仪器因素、光谱扫描背景、进样或是样品 性质(溫度等)、测量的误差、光的散射等因素的影响,对于后期增强建模效果,该预处理流 程是必要前提。
[0022] 作为优选,移动窗口平均处理中,平滑窗口设为9; 一阶差分导数处理中,差分宽度 设为9。在该设定下,平滑能使噪声的单独数据点降低,信号数据点也发生变化,邻数据点低 于Bit的会被提升,平滑可获得更多的数据信息,能使分析变的更灵活,因此会获得更加平 滑的信号。本方法平滑的选用窗口移动最小二乘平滑,此方法可有效的提取有用的信息,去 除噪声干扰,平滑时,经多次测试和研究,窗口的大小设定为9时,平滑效果最好,并且有用 信息损失最小,同时能有效的剔除噪音。一阶差分倒数经过多次测试和研究,在差分宽度为 9时对本方法中,基线平移的消除效果最明显,可W有效放大品种间的差别,将重叠的谱峰 分辨出来。
[0023] 进一步地,所述样品为自交系时,S3具体为利用PCA将数据降到10维,或利用化S将 数据降到9维。作为优选,利用化S将数据降到9维。
[0024] 进一步地,所述样品为杂交种时,S3具体为:方法(1):利用PCA将数据降到10维,或 方法(2):利用化S将数据降到9维,或方法(3):利用PCA将数据降到10维后,再利用LDA将数 据降到5维,或方法(4):利用化S将数据降到9维后,再利用LDA将数据降到5维。优选方法(3) 或方法(4)。
[0025] 进一步地,所述样品为回交种时,S3具体为:方法(1):利用PCA将数据降到10维,或 方法(2):利用化S将数据降到9维,或方法(3):利用PCA将数据降到10维后,再利用LDA将数 据降到5维,或方法(4):利用化S将数据降到9维后,再利用LDA将数据降到5维。优选方法(3) 或方法(4),更优选为方法(3)。
[0026] 对所建定性模型的评价指标有W下几种:正确识别率(Correct Acceptance Rate,CAR),正确拒识率(Correct Rejection Rate,CRR),平均正确识别率(Average Correct Acceptance Rate,ACAR),平均正确拒识率(Average Correct Rejection Rate, AQ?R)来表示。
[0027] 详细算法如下面公式所示:
[00%]正确识别率=正确识别的样本个数/应当被识别的样本个数;
[0029] 正确拒识率=正确拒识的样本个数/应当被拒识的样本个数;
[0030] 平均正确识别率为所有材料正确识别率的平均值;
[0031] 平均正确拒识率为所有材料正确拒识率的平均值。
[0032] 当平均正确识别率和平均正确拒识率高于95%时,所述模型可W达到真实性鉴 另IJ,并且可W满足市场玉米种子真实性鉴别标准。
[0033] 本发明还进一步提供了一种玉米种子品种真实性的鉴别方法,包括如下步骤:
[0034] 步骤1、利用前述方法对特定样品建立鉴别模型;
[0035] 步骤2、将疑似特定样品在同样条件下获得的近红外光谱数据,并对该数据进行预 处理、特征提取,最后利用所建立的定性分析模型进行快速鉴别,判断真实性。即是否为特 定样品。 [0036] 进一步解释如下,当疑似特定样品为某自交系品种时,利用前述方法构建该自交 系品种的鉴别模型,构建模型时选择适宜自交系的降维方法。之后对疑似特定样品进行相 同处理,进行样品光谱数据采集,获得原始光谱数据,并进行预处理和特征提取,W上操作 与建立鉴别模型所使用的方法相同。之后将处理后的光谱数据录入鉴别模型进行鉴别分 析。当平均正确识别率和平均正确拒识率高于所设定的检测指标时,判断为真实,否则判断 为渗假。
[0037] 本发明的有益效果在于:
[0038] 本发明提供了一种玉米种子品种真实性的鉴别方法。
[0039] 本发明运用近红外光谱技术对遗传亲缘关系较近的不同玉米自交系的真实性进 行鉴定:通过化S、PCA降维,BPR建模,结果表明化S降维时WR模型训练和测试结果都优于 PCA。选择PLS+Bra方法对不同遗传亲缘关系的玉米自交系进行真实性辨识,测试集平均正 确识别率为97.33%,平均正确拒识率为97.57%。
[0040] 本发明运用近红外光谱技术对遗传亲缘关系较近的玉米杂交种的真实性进行鉴 定:用?〔4、?1^5、?〔4+0^、化5+0^降维,?〔4、?1^5加上0^后的效果都明显好于不加0^的结 果,因此选择PCA+LDA或是化S+LDA降维,BPR建模,测试集平均正确识别率为95.36 % W上, 平均正确拒识率为91.73% W上。
[0041] 本发明在大样本量条件下,运用近红外光谱技术对自交系、杂交种、回交种的真实 性进行鉴定:用PCA、PLS、PCA+LDA、PLS+LDA四种方法降维,BPR建模,得出PCA、PLS加上LDA的 效果好于不加 LDA,其中PCA表现的比较明显,两种加上LDA方法测试集的平均正确识别率都 在96 % W上,平均正确拒识率都在92 % W上。
【附图说明】
[0042] 图1为本发明实施例1中5个重组自交系材料的获得(1)。
[0043] 图2为本发明实施例1中5个重组自交系材料的获得(2)。
[0044] 图3为本发明实施例1中NIL88材料的获得。
[0045] 图4为本发明实施例1中VECT0R22/N型傅里叶变换漫反射近红外光谱仪。
[0046] 图5为本发明实施例1中近红外光谱整杯采集附件。
[0047] 图6为本发明实施例1中玉米近红外光谱采集图。
[0048] 图7为本发明实施例1中近红外光谱技术采集光谱平滑后图谱。
[0049] 图8为本发明实施例1中近红外光谱技术采集光谱一阶差分后图谱。
[0050] 图9为本发明实施例1中近红外光谱技术采集光谱矢量归一化后图谱。
[0051] 图10为本发明实施例1中建模流程图。
[0052] 图11为本发明实施例1中自交系真实性最优模型的降维方法对比;1-平均正确识 别率,2-平均正确拒识率,3-平均正确识别率,4-平均正确拒识率。
[0化3 ]图12为本发明实施例2中PCA降维方法训练集及测试集的CAR、CRR。
[0054] 图13为本发明实施例2中PLS降维方法训练集及测试集的CAR、CRR。
[0055] 图14为本发明实施例帥PCA+LDA降维方法训练集及测试集的CAR、CRR。
[0化6]图15为本发明实施例2中化S+LDA降维方法训练集及测试集的CAR、CRR。
[0057]图16为本发明实施例2中四种降维方法所建模型平均正确识别率与平均正确拒识 率,其中,ACAR-平均正确识别率,ACRR-平均正确拒识率。
[005引图17为本发明实施例3中化tics MPA型傅里叶变换漫反射近红外光谱仪。
[0059]图18为本发明实施例3中四种降维方法训练集及测试集的CAR、CRR。
【具体实施方式】
[0060]下面将结合实施例对本发明的优选实施方式进行详细说明。需要理解的是W下实 施例的给出仅是为了起到说明的目的,并不是用于对本发明的范围进行限制。本领域的技 术人员在不背离本发明的宗旨和精神的情况下,可W对本发明进行各种修改和替换。
[0061 ]下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
[0062] 下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0063] 实施例1近红外光谱技术对遗传亲缘关系较近的玉米自交系真实性鉴定
[0064] ( -)、材料
[0065] 玉米材料:本实验使用的玉米材料共15个自交系,由李建生教授实验室提供,本实 验室进行田间授粉来繁种进行保存。实验材料于2011年在中国农业大学上庄实验站进行播 种(用种衣剂拌种)、自交授粉获得,W保证所需要的材料在同样的种植、收获、管理等条件 下得到,生长期按时诱水、施肥,统一管理,W排除其他因素的影响。行距0.5m,株距0.25m。
[0066] 两套系的父母本来源见表1,两套系的来源及编号见图1、图2。
[0067] 实验材料由两套RIL系及综31、RIL88组成,共15个自交系材料:
[006引1、B73为母本、BY804为父本,自交10代W上所得到的的5个自交系,加上父母本共7 个材料。
[0069] 2、综3为母本、87-1为父本,经过10代W上自交所得到的的5个自交系,由于87-1花 期不育未完成授粉,加上父母本共6个材料。
[0070] 3、综31与综3是来自于综合种SynD选出的同一单株。
[0071] 4、RIL88的来源见图3。
[0072] 表1两套重组自交系父母本的来源
[0073]
[0074] 仪器设备:傅里叶变换近红外漫反射光谱仪,VECT0R22/N型,产自德国B抓KER公 司,见图4。
[0075] (二)、方法
[0076] 1.实验仪器的参数设置
[0077] 仪器的分辨率:8cm 1,扫描的次数:64次,扫描谱区范围:12000cm 1~4000cm 1。 光谱采集所用软件与数据转换所用软件为本光谱仪自带的德国化uker公司的OPUS 6.5。数 据分析软件为Matlab 201化。
[0078] 2.光谱数据采集
[0079] 2.1样品的处理
[0080] 虽然实验材料在同一条件下种植及生产、收获、惊晒,但是种子水分含量、霉变种 子与有损坏的种子对近红外光谱影响较大,为了去除运种影响,对成熟期收获的玉米巧粒, 同一条件下风干脱水保存,对经过自然晒干的15个自交系进行含水量的测定,测定所用方 法为烘干法,每个样品测Ξ次重复。经测定两套自交系的含水量在10%~11%之间,可W用 于光谱采集,两套自交系所测水分数据如表2、表3所示,然后光谱采集前将霉变、有损坏种 子剔除掉。
[0081 ] 表2 B73、BY804及其重组自交系的含水量
[0082]
[00化]2.2仪器的预热
[0086] 本实验所用仪器在固定的实验室,环境影响因素较小,为了使每次测量都在相同 的条件下,在采集光谱前,都会对仪器预热半小时。
[0087] 2.3光谱采集
[0088] 对15个玉米自交系采集其漫反射光谱,采集光谱时对样品进行随机取样,装载到 同一个样品杯,每次所取的样本量相同,W尽量保证样品的厚度、均匀度及密度相同,采集 时用的整杯测量方法。本方法使用整杯加旋转进行光谱采集,所用样品杯见图5。共15个自 交系,每个自交系采集30次,由于B0263有9条异常光谱,将其剔除,所W共441个样本。样本 的原始光谱图如图6所示。
[0089] 3.光谱数据处理
[0090] 选择llOOnm~1676nm的有效波长。
[0091] 3.1 移动窗口平均(Moving Window Average,MWA)
[0092] 本实验首先用移动窗口进行平滑,W降低噪声及随机误差,有效的获取有用信息, 增大信噪比,平滑的窗口设为9,平滑图谱见图7。
[0093] 3.2-阶差分导数(First Derivative,FD)
[0094] 用一阶差分导数消除基线的平移和其他干扰,放大品种间的差别,将重叠的谱峰 分辨出来,差分宽度为9,一阶差分图谱见图8。
[00巧]3.3矢量归一化(Vector Normalization'VN)
[0096] 用矢量归一化可有效使同一个品种的多次测量间产生的差异得到降低,矢量归一 化图谱见图9。
[0097] 4.光谱特征提取方法
[0098] 本实验用主成分分析(PCA)的方法将数据的维数降到10维;偏最小二乘法(PLS)将 数据的维数降到9维。
[0099] 5.模型的建立
[0100] 5.1采用仿生模式识别方法建立模型
[0101] 用仿生模式识别方法建立模型并进行测试,二权值神经元作为基本的覆盖单元, 最小生成树将单元连接。随机用前20个样本进行模型的训练,剩余后10个样本进行测试, B0263用14个样本训练,7个样本测试,训练集与测试集的比例为2:1。
[0102] 仿生模式识别(Bionic Pattern Reco即ition,BPR)
[0103] 5.2模型建立的过程图
[0104] 将近红外光谱技术对玉米纯度及真实性模型建立流程总结如图10所示。
[0105] (Ξ)结果与分析
[0106] 对所建定性模型的评价指标有W 下几种:正确识别率(Correct Acceptance Rate,CAR),正确拒识率(Correct Rejection Rate,CRR),平均正确识别率(Average Correct Acceptance Rate,ACAR),平均正确拒识率(Average Correct Rejection Rate, AQ?R)来表示。
[0107] 详细算法如下面公式所示
[0108] 正确识别率=正确识别的样本个数/应当被识别的样本个数
[0109] 正确拒识率=正确拒识的样本个数/应当被拒识的样本个数
[0110] 平均正确识别率为所有材料正确识别率的平均值
[0111] 平均正确拒识率为所有材料正确拒识率的平均值
[0112] 1.近红外光谱技术对玉米自交系真实性判别结果分析
[0113] 由于样本量并不是很大,首先选用PCA、PLS对样本进行特征空间提取,BPR来建模。 PCA和化S降维,BPR模型的识别率及拒识率结果见表4、表5。
[0114] 表4用PCA降维(10维),BPR建模的结果分析
[0117]由表4可W看出用PCA降维,BPR建模。对训练集,15个亲缘关系较近的自交系对本 样品的平均正确识别率为99.33%,对非本样品的平均正确拒识率为94.53%;对测试集,15
[0115]
[0116] 个自交系对本样品的平均正确识别率92.38 %,对非本类样品的平均正确拒识率为 92.33 %,其中在测试集中对本样本的正确识别率,有7个材料达到100 %,5个材料达到 90%,2个材料在80%~90%之间,1个材料为70% ;对非本样本的正确拒识率,有3个材料达 到100 %,7个材料在90 %~100 %之间,5个材料在80 %~90 %之间。
[0118] 可W看出PCA降维后,BPR建模测试集中,正确识别率只有一个70%的两个80%~ 90 %的,其他的都在90% W上,结果比较理想,正确拒识率只有5个在80 %~90 %之间,其他 都在90% W上,结果也比较理想。无论是平均正确识别率还是平均正确拒识率的结果都在 90%W 上。
[0119] 表5用PLS降维(9维),BPR建模的结果分析
[0120]
[0121]
[0122] 用化S降维,BPR建模。对训练集,15个亲缘关系较近的自交系对本样品的平均正确 识别率为100%,对非本样品的平均正确拒识率为99.10% ;对测试集,15个自交系对本样品 的平均正确识别率97.33%,对非本类样品的平均正确拒识率为97.57%。在测试集中,对本 样本的正确识别率,有11个材料达到100%,4个材料达到90% ;对非本样本的正确拒识率, 有4个材料达到100%,11个材料在90%~100%之间。PCA与PLS具体结果分布情况见表6。
[0123] 表6测试集不同降维方法CAR、CRR在不同范围的个数
[0124]
[0125] 可W看出化S降维后,BPR建模测试集中,正确识别率、正确拒识率都在90% W上, 此方法的建模结果都非常理想。运说明PCA、PLS降维方法,BPR建模都能将亲缘关系较近的 两套RIL系及其近缘种区分开来,特别是化S的结果尤为明显,所有结果都在90% W上,所W 此方法可用于对市场上常规自交系的真实性检测。
[0126] 2.PCA、PLS两种降维方法对所建模型结果的影响
[0127] 用训练集对本样本的15个自交系的平均正确识别率与对非本样本的平均正确拒 识率,测试集对本样本的15个自交系的平均正确识别率与对非本样本的平均正确拒识率来 作对比,研究两种降维方法对模型的结果有何影响及建立最优自交系真实性模型的降维方 法,所得结果见图11。
[012引由图11可W看出,经过PCA、PLS的降维后,15个自交系的平均建模效果都较理想, 训练集与测试集的平均正确识别率与平均正确拒识率都在92% W上。同时可W看出无论是 训练集还是测试集,平均正确识别率与平均正确拒识率的结果都是化S降维的结果略好于 PCA的降维结果,由此可W选择此模型的最优建模方法是用化S降维,BPR建模的组合来建立 自交系真实性的判别模型,且结果比较理想。
[0129] 通过此实验,可W得出近红外光谱技术对亲缘关系较近的自交系真实性鉴别的最 优模型,即用化S降维,BPR建模。由较高的鉴别率也可W得出结论,即近红外光谱技术非常 灵敏,它能将亲缘关系较近的材料间的细小差别区分出来,也能用于市场上常规自交系真 实性的检测。
[0130] 实施例2近红外光谱技术对遗传亲缘关系较近的玉米杂交种真实性鉴定
[0131] ( -)、材料
[0132] 玉米材料:用李建生老师提供的两套自交系在做自交繁种时,同时用两套系进行 交叉杂交,2012年在中国农业大学上庄实验站对自交系进行杂交授粉,W创造不同亲缘关 系的实验材料,所获得材料包括同母异父种子、同父异母种子及亲缘关系很近的父母本杂 交所得种子,实验材料共28份。实验保证所需的材料在同样的条件下得到,排除其他因素的 影响。行距0.5m,株距0.25m。材料见表7,AXB代表A(母本)与B(父本)杂交产生的杂交种。
[0133] 表7亲缘关系较近的28份杂交种材料
[0134]
[0135]
[0136] 由上表可W看出有11个杂交种有相对应的反交材料。WB73为母本的材料有7个, WB73为父本的材料也有7个;W综3为母本的材料有6个,W综3为父本的材料有8个。所获得 材料有同父异母的、有同母异父的,也有其他亲缘关系较近,运些材料可W满足实验要求。
[0137] (二)、方法
[0138] 实验仪器及参数设置同实验一。
[0139] 1.光谱数据采集
[0140] 1.1样品的处理
[0141 ] 28份实验材料在同一地点种植,统一管理,统一收获、惊晒。前面15份自交系充分 自然惊晒后,所测得含水量的差异不大,可见充分自然惊晒可W消除水分的差异,所W对28 份材料进行自然惊晒,风干保存,光谱采集前将霉变、损坏的种子去掉,W消除此类因素的 影响,增加建模结果的准确性。
[0142] 1.2光谱采集
[0143] 扫描28个玉米材料的漫反射光谱,用同一样品杯进行装样,装样时,尽量消除所装 样品在杯中的深度、密度等的差异,进行随机取样,所用方法同自交系采样方法一致,用整 杯加旋转来采集光谱,每一个杂交种采集30次,共28个杂交种,样本量为540。
[0144] 2光谱数据处理
[0145] 平滑(窗口 9) 一一阶导(宽度为9) 一矢量归一化。
[0146] 3光谱特征提取方法
[0147] 分别用主成分分析结合线性判别分析的方法,偏最小二乘法结合线性判别分析的 方法进行特征提取,主成分分析(PCA)将数据降到10维;偏最小二乘法(PLS)将数据降到9 维;线性判别分析(LDA)将数据降至化维。
[014引 4模型的建立
[0149] 用WR建立模型,随机用前20个样本进行模型的训练,后10个样本进行测试,训练 集与测试集的样本量比例为2:1。
[0150] (立)、结果与分析
[0151] 评价模型指标同实施例1
[0152] 1、用?〔4、?1^5、?〔4+0^、?1^5+0^四种方法对28个亲缘关系较近的杂交种真实性鉴 别结果分析
[0153] 横坐标1-28的标号代表的材料名称分别为:B0222 X 87-1、B0222 X综3、B0238 X B73、B0251XB73、B0263XB73、B0710X综3、B0721X综3、B0757X综3、B0776XB73、B0776X 综3、B73 X 87-1、B73 XB0238、B73 XB0251、B73 X B0263、B73 X BY804、B73 X 综3、B73 X 综31、 BY804 X B73、RIL88 X 综3、综31 X B73、综31 X 综3、综3 X B0222、综3 X B0710、综3 X B0721、综 3 XB0751、综3 XB0776、综3 XB73、综3 XBY804。用PCA降维方法所得的实验结果(见图12)。
[0154] 从图12可W看出PCA训练集的正确识别率为100%的有23个,80%~90%的有4个, 70%有1个;正确拒识率为90的有15个,80%~90%的有9个,70%有2个,不到70%的只有一 个。PCA测试集的正确识别率为100 %的有13个,90 %~100 %的有10个,80 %~90 %有4个, 70%的有1个;正确拒识率为90%~100%的有6个,80%~90%有18个,70%的有4个。
[01巧]由图13得出化S训练集的正确识别率为100%的有26个,90%有1个,80%~90%的 有1个;正确拒识率为100%有2个,90%~100%的有19个,80%~90%的有7个。PLS测试集 的正确识别率为100 %的有19个,90 %~100 %的有5个,80 %的有4个;正确拒识率为90 %~ 100%的有22个,80%~90%有6个。
[0156]由图14得出PCA+LDA训练集的正确识别率为100%的有26个,90%有2个;正确拒识 率为100 %有2个,90 %~100 %的有17个,80 %~90 %的有9个。PCA+LDA测试集的正确识别 率为100%的有15个,90%的有9个,80%的 有3个,70%的有1个;正确拒识率为90%~100% 的有16个,80 %~90 %有12个。用化S+LDA降维方法所得实验结果(见图15)
[0157] 由图15得出化S+LDA训练集的正确识别率为100%的有27个,80%有1个;正确拒识 率为100%有3个,90 %~100 %的有16个,80 %~90 %的有7个,70%~80%的有1个。PLS+ L D A测试集的正确识别率为10 0 %的有18个,9 0 %的有9个,8 0 %的有1个;正确拒识率为 100%的有2个,90%~100%的有16个,80%~90%有10个。
[0158] 将上图四种方法训练集和测试集的CARXRR所在范围的个数进行比较,统计汇总 结果见表8。
[0159] 表8四种降维方法训练集、ii试集CAR、CRR在不同范围的个数
[0160]
[0161] 2、比较四种不同降维方法所建模型的准确率,选出最优模型建立所需的方法
[0162] 28个材料用四种方法降维所得测试集的正确识别率与正确拒识率的平均值进行 比较,W选出建模效果最好的降维方法,结果见图16。
[0163] 由图16可W看出,PCA降维后所建模型的训练集的平均正确识别率与平均正确拒 识率分别为97.30%、89.83%,测试集的ACAR与ACRR分别为92.5%、87.24% ePLS降维后所 建模型的训练集的ACAR与ACRR分别为99.29%、92.44%,测试集的ACAR与ACRR分别为 93.57%、91.04% JCA+LDA降维后所建模型训练集的ACAR与ACRR分别为99.25%、93.47%, ii试集的ACAR与ACRR分别为95.36%、92.51 % dPLS+LDA降维后所建模型训练集的ACAR与 ACRR分别为99.29 %、92.17 %,测试集的ACAR与ACRR分别为96.07 %、91.73 %。
[0164] 训练集无论ACAR与ACRR,PCA+LDA的结果都好于PCA,PLS+LDA与PLS的对比结果不 明显。测试集ACAR的PCA、PLS加上LDA后的效果都明显好于不加 LDA的结果,ACRR的PCA+LDA、 PLS+LDA的效果好于不加 LDA。所W对28份杂交种材料所建模型用的方法选择PCA+LDA或是 PLS+LDA降维,BPR建模来鉴定亲缘关系较近的杂交种真实性,也为近红外光谱技术对市场 上杂交种的鉴定提供借鉴。
[0165] 实施例3近红外光谱技术对遗传亲缘关系较近的玉米杂交种真实性鉴定
[0166] ( -)、材料
[0167] 玉米材料:对2012年授粉所获得杂交种,在2013年5月份在中国农业大学上庄实验 站进行种植,同时将其亲本自交系进行种植,用杂交种再与其父本自交系或是母本自交系 进行回交授粉,回交时W杂交种做为母本,W创造不同的回交种,回交种与自交系的遗传亲 缘关系要比杂交种与自交系亲缘关系近,实验材料共18份,行距0.5m,株距0.25m。材料表示 为,AXBXA代表A(母本)与B(父本)杂交产生杂交种,再W杂交种为母本,W前的母本自交 系为父本进行杂交,A X B X B代表A与B杂交后产生的杂交种为母本,用其父本自交系为父本 进行杂交。回交种实验材料(见表9),由表9可见7个杂交种分别与其母本自交系、父本自交 系回交共14个材料,还有2个杂交种与其母本自交系回交产生的回交种,2个杂交种与父本 自交系回交产生的回交种,共18个材料。加上2012年繁殖的自交系15个材料,所做杂交产生 的杂交种28个材料,回交种18个材料,共61份亲缘关系较近的材料。
[0168] 表9 2013年所获得回交种材料
[0169]
[0170] 仪器设备:对回交种进行光谱采集所用仪器为德国BRUK邸公司生产的化tics MPA 型傅里叶变换漫反射近红外光谱仪(图17)。
[0171] (二)、方法
[0172] 1.实验仪器的参数设置
[0173] 仪器的分辨率:8cm 1,扫描的次数:64次,谱区范围:12000cm 1~4000cm 1。
[0174] 2.光谱数据采集
[0175] 扫描18个玉米材料的漫反射光谱,用整杯加旋转来采集光谱,每一个回交种采集 30次,回交种光谱共540条,加上自交系与杂交种共61个材料,样本量为1830,由于剔除9条 异常光谱,所W总样本量为1821。
[0176] 3.光谱预处理
[0177] 平滑一一阶导一矢量归一化
[0178] 4.光谱特征提取方法
[0179] PCA将数据降到10维;PLS将数据降到9维;在PCA、PLS降维的基础上,用LDA将数据 降到5维。
[0180] 5.模型的建立
[0181] 用WR建模
[0182] ( = )、结果与分析
[0183] 模型的评价指标:正确识别率CAR,正确拒识率CRR,同样用PCA、PLS、PCA+LDA、PLS+ LDA四种方法对数据进行降维,再用WR建模,选出对61个亲缘关系较近材料真实性判别的 最好降维方法,W获得最优模型。图18是不同方法下61个材料的正确识别率与正确拒识率。
[0184] 由图18可一目了然61个不同亲缘关系材料在四种降维方法处理下所建模型的训 练集及测试集中CAR、CRR大小。同时将CAR、CRR的数值在不同范围的个数进行统计W对上图 做出总结(见表10)
[0185] 表10四种方法下训练集、ii试集CAR、CRR在不同范围的个数
[0186]
[0187]同时对四种降维方法所得的训练集与测试集的61个材料的平均正确识别率与平 均正确拒识率做出统计,结果见(表11)
[018引表11四种方法降维所建模型的61份材料CAR、CRR平均值比较
[0189]
[0190] 由表10、11得知,对四种降维方式所建模型结果进行对比发现,加上LDA的效果好 于不加 LDA,其中PCA表现的比较明显,此模型的建立可用化S+LDA、PCA+LDA两种方法降维, 结果都比较理想,测试集的平均正确识别率都在96% W上,平均正确拒识率都在92% W上。
[0191] 虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在 本发明基础上,可W对之作一些修改或改进,运对本领域技术人员而言是显而易见的。因 此,在不偏离本发明精神的基础上所做的运些修改或改进,均属于本发明要求保护的范围。
【主权项】
1. 玉米种子品种真实性鉴别模型的构建方法,其特征在于,包括如下步骤:51. 采集样品漫反射光谱;52. 光谱预处理:选择有效波长,增大信噪比,消除干扰;53. 光谱特征提取:利用PCA、PLS、PCA+LDA或PLS+LDA对数据降维;54. 采用仿生模式识别方法建立模型。2. 根据权利要求1所述的方法,其特征在于,所述样品为同一时间收获、含水量在10~ 11 %的成熟种子。3. 根据权利要求1或2所述的方法,其特征在于,所述S1为采集450个样本以上的样品, 进行至少30次的重复。4. 根据权利要求1或2所述的方法,其特征在于,所述有效波长为1100nm~1676nm。5. 根据权利要求4所述的方法,其特征在于,选择有效波长后,依次进行移动窗口平均、 一阶差分导数、矢量归一化处理。6. 根据权利要求5所述的方法,其特征在于,移动窗口平均处理中,平滑窗口设为9 ; 一 阶差分导数处理中,差分宽度设为9。7. 根据权利要求5或6所述的方法,其特征在于,所述样品为自交系时,S3具体为利用 PCA将数据降到10维,或利用PLS将数据降到9维。8. 根据权利要求5或6所述的方法,其特征在于,所述样品为杂交种时,S3具体为:方法 (1):利用PCA将数据降到10维,或方法(2):利用PLS将数据降到9维,或方法(3):利用PCA将 数据降到10维后,再利用LDA将数据降至IJ5维,或方法(4):利用PLS将数据降至IJ9维后,再利用 LDA将数据降到5维。9. 根据权利要求5或6所述的方法,其特征在于,所述样品为回交种时,S3具体为:方法 (1)利用PCA将数据降到10维,或方法(2)利用PLS将数据降到9维,或方法⑶利用PCA将数据 降到10维后,再利用LDA将数据降到5维,或方法⑷利用PLS将数据降到9维后,再利用LDA将 数据降到5维。10. -种玉米种子品种真实性的鉴别方法,其特征在于,包括如下步骤: 步骤1、利用权利要求1~9任一项所述的方法对特定样品建立鉴别模型; 步骤2、将疑似特定样品在同样条件下获得的近红外光谱数据,并对该数据进行同样的 预处理和特征提取,最后利用所建立的鉴别模型判断真实性。
【专利摘要】本发明涉及玉米种子鉴别,具体公开了玉米种子品种真实性鉴别模型的构建方法及其应用,构建方法具体为采集样品的漫反射光谱,选择有效波长,依次进行移动窗口平均、一阶差分导数、矢量归一化处理,并利用PCA、PLS、PCA+LDA或PLS+LDA降维,BPR建模,对待测样品进行同样处理后比对,判断品种真实性。针对不同品种的样品采用最佳方法降维处理,提高正确识别率。
【IPC分类】G01N21/359
【公开号】CN105486659
【申请号】CN201510818670
【发明人】康定明, 申兵辉, 王宁宁, 赵怡锟, 赵中瑞, 严衍禄
【申请人】中国农业大学
【公开日】2016年4月13日
【申请日】2015年11月23日

最新回复(0)