一种特征选择方法及装置制造方法

xiaoxiao2020-7-22  11

一种特征选择方法及装置制造方法
【专利摘要】本申请提供一种特征选择方法及装置,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
【专利说明】一种特征选择方法及装置
【技术领域】
[0001]本申请涉及医疗诊断【技术领域】,特别是涉及一种特征选择方法及装置。
【背景技术】
[0002]当今的社会中,任何领域都离不开计算机的帮助。医疗诊断领域亦是如此,其利用一些技术来模拟医学专家诊断和治疗疾病,能够有效得解决各种临床问题,起到“医生助手”的作用,特别是可以帮助年轻无经验的医生提高诊断技能,优化诊治方案。机器学习在医疗诊断中的应用由最原始的应用先验知识进行启发式推理,到后来的概率计算方法和人工智能方法,再到现在应用广泛的神经网络技术,模拟技术和遗传算法等,机器学习在该领域的应用越来越广泛。
[0003]特征选择是机器学习等领域的重要研究内容之一。现有技术中特征选择方法主要有如下几种:
[0004]UFilter (过滤)方法,该方法的特征选择过程与学习算法无关,是通过某个适应函数的值来估计某个特征子集的有效性,与具体的分类器无关,虽然该方法可以独立于学习算法,但是,其学习效率并不高。
[0005]2、Wrapper (封装)方法,该方法的特征选择过程与学习算法有关,其是用某个特定的分类器的性能作为特征子集选择的准则,这种直接优化分类器的策略虽然可改进分类器的泛化性、提高学习效率、但是其计算代缴相对较高、推广能力较差。

【发明内容】

[0006]有鉴于此,本申请实施例提供一种特征选择方法及装置,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
[0007]为了实现上述目的,本申请实施例提供的技术方案如下:
[0008]一种特征选择方法,包括:
[0009]A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
[0010]B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
[0011]C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
[0012]D、将所述数量和减I ;
[0013]E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
[0014]F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。[0015]优选的,所述步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
[0016]优选的,计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素,包括:
[0017]计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
[0018]计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
[0019]根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
[0020]优选的,所述根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集,包括:
[0021]剔除所述第一特征索引集中与所述第一元素相同的元素;
[0022]剔除所述第二特征索引集中与所述第二元素相同的元素。
[0023]优选的,所述根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集,包括:
[0024]计算更新后的第一特征索引集以及第二特征索引集的并集;
[0025]获取更新后的第一特征索引集以及第二特征索引集的交集;
[0026]剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
[0027]一种特征选择装置,包括:
[0028]响应单元,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集;
[0029]统计单元,用于执行步骤B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和;
[0030]第一计算单元,用于执行步骤C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素;
[0031]第二计算单元,用于执行步骤D、将所述数量和减I ;
[0032]更新单元,用于执行步骤E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集;
[0033]第三计算单元,用于执行步骤F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
[0034]优选的,所述第三计算单元,用于执行步骤F,该步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
[0035]优选的,所述第一计算单元包括:
[0036]超球体计算单元,用于计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体;
[0037]能量计算单元,用于计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量;
[0038]特征计算单元,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
[0039]优选的,所述更新单元包括:
[0040]第一剔除单元,用于剔除所述第一特征索引集中与所述第一元素相同的元素;
[0041]第二剔除单元,用于剔除所述第二特征索引集中与所述第二元素相同的元素。
[0042]优选的,所述第三计算单元包括:
[0043]并集计算单元,用于计算更新后的第一特征索引集以及第二特征索引集的并集;
[0044]交集计算单元,用于获取更新后的第一特征索引集以及第二特征索引集的交集;
[0045]特征索引集计算单元,用于剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
[0046]本申请提供一种特征选择方法及装置,该方法通过响应接收到的训练样本集,生成第一训练样本集、与该第一训练样本集对应的第一特征索引集、第二训练样本集以及与该第二训练样本集对应的第二特征索引集,根据第一训练样本集计算第一元素,进而完成对第一特征索引集的更新,根据第二训练样本集计算第二元素,进而完成对第二特征索引集的更新,当更新后的第一特征索引集/第二特征索引集中各个特征的数量和满足预设值时,根据得到第一特征索引集以及第二特征索引集计算特征索引集,完成对特征的选择,以实现在特征选择的过程中,在保证学习效率的基础上,降低计算代缴、提高推广能力。
【专利附图】

【附图说明】
[0047]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048]图1为本申请实施例一提供的一种特征选择方法流程图;
[0049]图2为本申请实施例二提供的一种特征选择装置的结构示意图;
[0050]图3为本申请实施例二提供的一种第一计算单元的详细结构示意图;
[0051]图4为本申请实施例二提供的一种更新单元的详细结构示意图;
[0052]图5为本申请实施例二提供的一种第三计算单元的详细结构示意图。
【具体实施方式】
[0053]为了使本【技术领域】的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0054]实施例一:
[0055]图1为本申请实施例一提供的一种特征选择方法流程图。[0056]如图1所示,该方法包括:
[0057] 步骤A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第二训练样本集,并根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集。
[0058]在本申请实施例中,首先,响应接收到的训练样本集,该训练样本集可以为用户通过导入的方式输入的,也可以是通过手动输入的方式输入的,该训练样本集包括多个具有相同特征的训练样本,且优选的,该训练样本集为二元训练样本集。
[0059]在本申请实施例中,响应接收到的训练样本集,其中Xi e Rd, Yi e {+I, -1}
是Xi的标签,表明Xi的类别,N是训练样本的总个数,D是训练样本的维数。
[0060]根据该训练样本集中训练样本的类别,将训练样本集分成第一训练样本集以及第
二训练样本集,如:.[<,_>,,.=+]^为第一训练样本集,& J =H1为第二训练样本集,其
中,n+为第一训练样本集中训练样本的个数,η-为第二训练样本集中训练样本的个数。它们都是训练样本集的子集。
[0061]根据训练样本集中训练样本的特征,生成与第一训练样本集对应的第一特征索引集,以及与第二训练样本集对应的第二特征索引集,在本申请实施例中,因为训练样本集中各个训练样本具有相同的特征,因此,这里生成的第一特征索引集F+与第二特征索引集F-相同,F+ = r= {I,..., D} ο且在本申请实施例中,通过该第一特征索引集确定第一训练
样本集#中的特征,通过该第二特征索引集确定第二训练样本集叾-中的特征。
[0062]步骤B、统计与训练样本集中单个训练样本对应的各个特征的数量和。
[0063]在本申请实施例中,统计与训练样本集中单个训练样本对应的各个特征的数量和d(即:每个训练样本包括d个特征),且该d = D。
[0064]步骤C、计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第
—-711? ο
[0065]在本申请实施例中,优选的,计算与第一训练样本集对应的第一元素,以及与第二训练样本集对应的第二元素,包括:
[0066]1、计算与第一训练样本集对应的第一超球体,以及与第二训练样本集对应的第二超球体。
[0067]在本申请实施例中,优选的,计算与第一训练样本集对应的第一超球体的过程为:
【权利要求】
1.一种特征选择方法,其特征在于,包括: A、响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集; B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和; C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素; D、将所述数量和减I; E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集; F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
2.根据权利要求 1所述的方法,其特征在于,所述步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
3.根据权利要求2所述的方法,其特征在于,计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素,包括: 计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体; 计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量; 根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集,包括: 剔除所述第一特征索引集中与所述第一元素相同的元素; 剔除所述第二特征索引集中与所述第二元素相同的元素。
5.根据权利要求4所述的方法,其特征在于,所述根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集,包括: 计算更新后的第一特征索引集以及第二特征索引集的并集; 获取更新后的第一特征索引集以及第二特征索引集的交集; 剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
6.一种特征选择装置,其特征在于,包括: 响应单元,用于执行步骤A响应接收到的包括多个具有相同特征的训练样本的训练样本集,根据所述训练样本集中训练样本的类别,将所述训练样本集分成第一训练样本集以及第二训练样本集,并根据所述训练样本集中训练样本的特征,生成与所述第一训练样本集对应的第一特征索引集,以及与所述第二训练样本集对应的第二特征索引集; 统计单元,用于执行步骤B、统计与所述训练样本集中单个训练样本对应的各个特征的数量和; 第一计算单元,用于执行步骤C、计算与所述第一训练样本集对应的第一元素,以及与所述第二训练样本集对应的第二元素; 第二计算单元,用于执行步骤D、将所述数量和减I ; 更新单元,用于执行步骤E、根据所述第一元素更新所述第一特征索引集,并根据所述第二元素更新所述第二特征索引集; 第三计算单元,用于执行步骤F、当所述数量和满足预设值时,根据更新后的第一特征索引集以及第二特征索引集,计算特征索引集。
7.根据权利要求6所述的装置,其特征在于,所述第三计算单元,用于执行步骤F,该步骤F还包括:当所述数量和不满足预设值时,返回执行步骤C。
8.根据权利要求7所述的装置,其特征在于,所述第一计算单元包括: 超球体计算单元,用于计算与所述第一训练样本集对应的第一超球体,以及与所述第二训练样本集对应的第二超球体; 能量计算单元,用于计算与所述第一超球体对应的所有特征方向的能量,以及与所述第二超球体对应的所有特征方向的能量; 特征计算单元,用于根据计算得到的与该第一超球体对应的所有特征方向的能量,计算与所述第一训练样本集对应的第一元素,以及根据计算得到的与该第二超球体对应的所有特征方向的能量,计算与所述第二训练样本集对应的第二元素。
9.根据权利要求8所述的装置,其特征在于,所述更新单元包括: 第一剔除单元,用于剔除所述第一特征索引集中与所述第一元素相同的元素; 第二剔除单元,用于剔除所述第二特征索引集中与所述第二元素相同的元素。
10.根据权利要求9所述的装置,其特征在于,所述第三计算单元包括: 并集计算单元,用于计算更新后的第一特征索引集以及第二特征索引集的并集; 交集计算单元,用于获取更新后的第一特征索引集以及第二特征索引集的交集; 特征索引集计算单元,用于剔除所述并集中与所述交集中的元素相同的元素,得到特征索引集。
【文档编号】G06K9/66GK103927560SQ201410177935
【公开日】2014年7月16日 申请日期:2014年4月29日 优先权日:2014年4月29日
【发明者】张莉, 曹晋, 卢星凝, 王邦军, 何书萍, 杨季文, 李凡长 申请人:苏州大学

最新回复(0)