数据分析方法和系统的制作方法

xiaoxiao2020-7-22  16

专利名称:数据分析方法和系统的制作方法
技术领域
本发明涉及一种分析数据的方法,并且特别地涉及使用人工神经网络(ANN)来分析数据并识别输入数据和一个或多个条件之间的关系。
背景技术
人工神经网络(ANN)或“神经网络”是包含相互连接的一组神经元的数学模型或计算模型,该数学模型或计算模型能够处理信息,以便对输入和输出之间的关系进行建模或者发现数据中的模式。因此,神经网络可以被看作一种非线性统计数据建模工具并且通常为能够基于在训练阶段流过网络的外部或内部信息来改变其结构的自适应系统。网络中的连接的强度或权重在训练期间可以更改,以便生成期望的信号流。可以构造各种类型的神经网络。例如,前馈神经网络是最简单类型的ANN中的一种,在前馈神经网络中信息仅沿一个方向移动,并且递归网络为具有双向数据流动的模型。 可使用许多其它神经网络类型。前馈网络的一种特殊变型是多层感知器,所述多层感知器使用具有非线性激活函数的三层或多层神经元(节点),并且多层感知器比单层感知器模型更强大之处在于多层感知器能够判别非线性可分的数据。在学习阶段训练神经网络的能力使得网络的各个节点/神经元之间的加权函数能被改变,使得网络能够用于对输入数据进行处理或分类。各种不同的学习模型可以用于训练神经网络,例如“监督学习”,在监督学习中,与一个或多个结果或条件相关的一组实施例数据用于训练网络,使得网络能够例如对于任何给定的输入数据来预测结果。因此,监督学习可以被看作输入数据和一个或多个结果之间的映射关系的推理。训练一个人工神经网络可包含将网络输出与期望输出进行比较,并且利用两个输出之间的误差来调节网络的节点之间的权重。在一种学习模型中,可定义代价函数C,并且训练可包括改变节点权重,直到不再能使函数C进一步最小化。通过这种方式,可以获得输入数据和结果或一系列结果之间的关系。代价函数的实施例可以为C = E [ (f (χ)-y)2], 此处(X,y)为从某分布D取得的数据对。在一个应用中,可以用来自从健康的患者以及从患有癌症的患者所取到的组织的基因表达数据来训练神经网络。在这个实施例中网络的训练可判别出为癌症的生物标记的基因或基因组。训练的网络可用于基于组织样本的分析结果来预测给定人患癌症的可能性。可使用人工神经网络的另一个技术领域是气象学,例如,在一段时间内一系列地点处的温度或压力数据可用于确定在给定时间、给定地点发生降雨的可能性。使用人工神经网络的已知问题是当网络的容量显著超过所需自由参数时在过复杂或超特化系统中出现过训练问题。该问题可能导致神经网络建议特定参数是重要的,而实际上特定参数不重要。这是由于具有较高重要性的一组参数的判别以及参数的错误检测引起的。当对未见数据/情况进行分类时,这些参数可能具有较差的性能。
本发明的一个目的是提供一种利用克服或基本减轻上述问题的神经网络来分析数据的方法。发明概述根据本发明的第一个方案,提供一种确定输入数据和一个或多个条件之间的关系的方法,所述方法包括如下步骤接收被分类成一个或多个预定类别的条件的输入数据; 使用输入数据训练人工神经网络,所述人工神经网络包括输入层,所述输入层具有设置为接收输入数据的一个或多个输入节点;隐含层,所述隐含层包括两个或多个隐含节点,所述隐含层的节点通过可调节权重的连接连接至输入层的一个或多个节点;以及输出层,所述输出层具有设置为输出与一个或多个条件相关的数据的输出节点,所述输出节点通过可调节权重连接至所述隐含层的节点;确定输入数据和一个或多个条件之间的关系,其中所述人工神经网络具有受约束结构,其中,(i)隐含层内的隐含节点的数量受约束;并且(ii)节点之间的连接的初始权重受限制。本发明提供一种分析方法,所述分析方法强调输入数据中的尤其对于预测是否可得到给定结果有用的那些参数。换句话说,与现有技术系统相比,本发明的方法有效地增大了各种输入参数之间的差别或“对照”,从而识别出从预测能力的观点看最相关的参数。本发明提供一种利用人工神经网络来确定输入数据和一个或多个条件之间的关系的方法。本发明中使用的ANN具有受约束结构,其中,ANN的隐含层内的节点的数量受约束,并且其中节点之间的连接的初始权重受限制。因此,本发明的方法提出了一种与现有技术的普通教导相反地运行的ANN结构。 在现有技术系统中,隐含层的大小在所使用的处理系统的约束最大化,而在本发明中使结构有意受约束以便增加网络的预测能力的有效性和高维系统内的相关和非相关的标记之间的对照。与已知系统相比较,本发明提供的优点在于,提高了对于识别的标记的预测性能,并且由根据本发明的方法所识别的那些标记与系统内的基本处理相关。优选地,为了使本发明的预测有效性最大化,隐含节点的数量在两个至五个的范围内。更优选地,隐含节点的数量设定为两个。优选地,节点之间的连接的初始权重具有在0. 01至0. 5的范围内的标准差。注意的是,降低标准差使得人工神经网络的预测性能较差。提升标准差减少了对网络的约束。更优选地,节点之间的连接的初始权重具有0. 1的标准差。方便的是,输入数据包括被分类成一个或多个条件(例如,癌性或健康)的数据对 (例如,基因或基因表达数据)。在基因数据的实施例中,那么基因可以被看作参数和作为相关参数值的表达数据。此外,输入数据可以被分组成多个样本,每个样本具有等同选择的数据对(例如,基因和基因表达数据可以细分多个个体的条件-健康/癌性)。神经网络的训练可以方便地包括在每个样本中选择特定参数(即,每个样本中的相同参数),并且然后使用与所选择参数相关联的参数值来训练网络。可为所选择参数记录网络的性能,并且然后可依次为样本中的每个参数重复该过程。本发明的第一个方案的确定步骤可包括针对已知条件对每个选择参数的记录性能进行分级,并且然后可以选出最佳表现参数。一旦已经确定多个样本中的最佳表现参数,那么进一步的选择步骤可包括将该最佳表现参数与剩余参数中的一个配对。然后,可以使用与一对所选择参数相关的参数值进一步训练网络并且记录网络的性能。如之前所述,最佳表现参数随后可以依次与剩余参数中的每一个配对。然后,可以重复选择、训练和记录步骤,依次将一个参数添加到已知最佳表现参数中,直到不获得性能的进一步实质的增加。方便的是,注意的是输入数据可以被分组成多个样本,每个样本具有等同选择的数据对,每个数据对被分类成一个或多个条件并且包括参数和相关的参数值,并且本发明的第一个方案的训练和确定步骤可包括在输入数据内选择参数,使用对应的参数值来训练人工神经网络并且记录人工神经网络的性能;对于输入数据内的每个参数重复;确定输入数据中的最佳表现参数;以及重复选择、重复和确定,每次重复将剩余参数中的一个添加到最佳表现参数组合中,直到人工神经网络的性能不再提高。在根据本发明的一个实施方案的方法的一个应用中,参数可表示基因,并且参数值可表示基因表达数据。在另一应用中,参数可表示蛋白质,并且参数值可表示活性函数。在根据本发明的一个实施方案的方法的其它应用中,参数可表示气象参数,例如给定地点处的温度或降雨量,并且参数值可表示相关的温度值或降雨量值。然而,注意的是,根据本发明的方法可应用于存在在一段之间内在不同状态下出现的大量相互作用因素的任何复杂系统。根据本发明的第二个方案,提供一种确定输入数据和一个或多个条件之间的关系的方法,所述方法包括接收被分类成一个或多个预定类别的条件的输入数据;利用神经网络来确定输入数据和一个或多个条件之间的关系,人工神经网络包括输入层,所述输入层具有设置为接收输入数据的一个或多个输入节点;隐含层,所述隐含层包括两个或多个隐含节点,隐含层的节点通过可调节权重的连接连接至输入层的一个或多个节点;以及输出层,所述输出层具有设置为输出与一个或多个条件相关的数据的输出节点,所述输出节点通过可调节权重的连接连接至隐含层的节点,其中人工神经网络具有如下受约束结构 ⑴隐含层内的隐含节点的数量受约束;以及(ii)节点之间的连接的初始权重受限制。根据本发明的第三个方案,提供一种用于确定输入数据和一个或多个条件之间的关系的人工神经网络,所述人工神经网络包括输入层,所述输入层具有设置为接收被分类成一个或多个预定类别的条件的输入数据的一个或多个输入节点;隐含层,所述隐含层包括两个或多个隐含节点,所述隐含层的节点通过可调节权重的连接连接至输入层的一个或多个节点;以及输出层,所述输出层具有设置为输出与一个或多个条件相关的数据的输出节点,所述输出节点通过可调节权重的连接连接至隐含层的节点;其中,所述人工神经网络具有如下受约束结构(i)隐含层内的隐含节点的数量受约束;以及(ii)节点之间的连接的初始权重受限制。本发明延伸到用于确定输入数据和一个或多个条件之间的关系的计算机系统,所述计算机系统包括根据本发明的第三个方案的人工神经网络。将理解的是,可在本发明的第二个和第三个方案中、以及任一个方案单独或在适当的组合中提供本发明的第一个方案的优选的和/或任选的特征。


为了更易于理解本发明,现在通过实施例的方式参考附图,其中
图1示出了典型(已知)人工神经网络的表示;图2图示了神经网络学习的机制;图3为要与依据本发明的一个实施方案的人工神经网络相结合地使用的基因表达数据的表示;图4示出了依据本发明的一个实施方案的人工神经网络;图5为对并入依据本发明的一个实施方案的人工神经网络的系统的运行进行详述的流程图;图6示出了在使用输入数据集时依据本发明的人工网络如何发展;图7(a)_(g)示出了来自本发明的逐步式ANN建模软件的屏幕快照图。每个图 (a)-(g)表示用于模型构建和分析的软件内可提供的不同任选屏幕。图8为示出在分析已吸收缩氨酸数据的每个步骤中添加的离子的逐步概述的曲线图;阶段IV黑素瘤对控制。标记有 点的线表示具有表示为误差条的95%置信间隔的每个步骤的均方误差值。标记有·点的线表示具有表示为误差条的四分位间范围的在分析的每个步骤处的平均模型精度。图9为示出患病组对控制样本的逐步式模型性能的总体概述的曲线图;图10为示出患病组对控制样本的逐步式模型性能的另一总体概述的曲线图;图ll(a)_(c)为示出利用由ANN逐步式方法所识别的生物标记离子的主成分分析的散点图。按点的式样来区分样本组。图12为示出由ANN识别的缩氨酸生物标记离子的平均组强度的柱状图。示出了横跨不同阶段的全部关键生物标记。图13为对于阶段II和阶段III的黑素瘤离子861对离子903的散点图。方形· 表示阶段III的样本,而圆圈眷表示阶段II的样本。图14为示出在分析过程中添加每个输入的情况下模型性能的曲线图。带有■点的线表示具有表示为误差条的下四分位间范围和上四分位间范围的平均模型精度。带有 点的线表示在误差条表示95%的置信间隔的情况下在每个步骤中预测的均方误差。图15(a)_(b)为示出在对于(a)雌激素受体蛋白(ER)状况和(b)淋巴结(LN)状况的分析过程中添加每个输入的情况下模型性能的曲线图。带有■点的线表示具有表示为误差条的下四分位间范围和上四分位间范围的平均模型精度。带有▲点的线表示在误差条表示95%的置信间隔的情况下在每个步骤中预测的均方误差。图16 (a)-(b)为示出对于(a) ER和(b) LN状况对在步骤1中识别的最上面十个基因进行逐步式分析的概述的曲线图。图17为示出随机生成模型的正态分布的曲线图。图18(a)-(c)为示出随机模型与使用本发明的逐步式方法所生成的模型的性能比较的盒式图。发明详述传统线性基ANN模型的一个缺陷是,模型通常不能够对问题进行很好地泛化,并且因此模型可能仅适应于模型最初应用的数据集。仿真实验已经表明,逐步式逻辑回归在小数据集中选择重要变量方面能力有限并且因此具有过拟合的风险(Steyerberg,Ε. W., Eijkemans,M. J.和Habbema,J. D. (1999),在小数据集中的选择逻辑回归分析中的偏差的仿真研究,J Clin Epidemiol,52,935-942)。另外,自动选择程序为非主观性的并且忽略了逻辑约束。由于已经表明模型可应用于用于验证的单个数据集并且因此能够泛化新数据, 并且因此当使用这种方法时没有观察到过拟合,应用的本发明的神经网络逐步式方法不分担现有技术的限制。图1为人工神经网络1的依赖树形表示。可以看出,图中所描绘的网络1分成三个基本层输入层3,其接收输入数据;隐含层5 ;以及输出层7,其返回结果。在图1中的实施例中,存在三个输入级节点、η个隐含层节点(为了简洁起见,仅示出了其中的五个)以及两个输出级节点。注意的是,隐含层的数量可以变化。通过连接箭头9表示图1中节点之间的各种相互连接。对于输入层中的第一个节点,分配到与隐含层节点的连接的各个权重由权重^^^^和^表示。为了简洁,在该图中未示出其余连接上的权重。神经网络被设置为使得输入数据被馈送到输入层3并且随后在从输入层3传递到隐含层5时乘以相互连接的权重。在隐含层5内,数据被合计,然后由非线性函数(例如, 双曲正切函数或反曲传递函数)处理。在处理的数据离开隐含层到输出层7时,数据再次乘以连接权重,随后在输出层内进行合计和处理以生成神经网络的输出。对于多层感知器和许多其它神经网络而言最流行的训练算法中的一个是称为反向传播的算法。通过反向传播,输入数据重复地提供给神经网络。通过每次提供,神经网络的输出与期望输出进行比较,并且计算出误差。该误差随后反馈(反向传播)给神经网络并且用于调节权重,使得误差随着每次迭代而减小并且神经模型越来越靠近生成期望输出。该过程称为“训练”。图2为神经网络1的训练的表示。在训练期间,网络重复地被供给输入数据11 (在这种情况下,为排斥或数据、异或数据)。在每次供给数据11时,计算出网络输出15和期望输出17之间的误差13并且反馈给神经网络1。神经网络1利用该误差来调节其权重以使误差减小。通常重复事件的这一顺序,直到已达到可接受误差或直到网络不再表示为学习。当训练神经网络时,学习率是在许多学习算法中发现的参数,该参数改变网络到达最小解的速度。如果速率太高,那么网络可能围绕解振荡或者背离解。如果速率太低,那么网络可能花费太多时间到达解。在训练人工神经网络期间可改变的另一参数是动量参数,所述动量参数用于防止网络收敛到局部最小值或鞍点上。过高的动量参数过调最小值的风险。太低的动量参数可导致网络不能可靠地避开局部最小值。已经讨论了人工神经网络的使用和训练,下面讨论在本发明的实施方案的背景下神经网络的应用。注意的是,尽管下面讨论的实施例与生物信息学相关,本文说明的发明适应于其它技术领域,例如,气象预测、污染预测、环境预测等。图3为10个个体(样本)的高度概括的一组基因和基因表达数据。对于每个样本,相同组的基因及其相关的基因表达数据连同条件或状态一起被细分,在此情况下为“健康”或“癌性”。与图5中的流程图以及图4和图6的网络表示相关联地说明在本发明的背景下对该数据集的处理。图4描绘了结合本发明的方法使用的人工神经网络20的最初形式。从图中可以看出,与在现有技术系统中发现的20+节点相对,隐含层22仅包括两个节点04,沈)。最初, 存在单一输入节点观,但是下面与图5和图6相关联地说明,输入节点的数量逐渐增加,直到神经网络的性能不能得到进一步提高。如上所述,关于神经网络的已知问题是如下事实神经网络可被过训练,从而实际上对于所有的输入数据参数能够获得输入数据和输出数据之间的关系。在依据本发明的实施方案的人工神经网络中,网络被设置为提高网络识别最相关输入参数的能力。为此目的,隐含层内的节点的数量受限制,优选地在五个节点以下,尤其限制为两个节点。除此之外,节点之间的相互连接的初始权重之间的标准差也受约束。优选地,相互连接的初始权重的标准差σ置于0. 01至0. 5的范围内,最优值为0. 1。图5为示出依据本发明的实施方案分析图3中的数据集的方法的流程图。在步骤40中,识别要用于分析方法中的输入变量和输出变量。在图3的数据集的实施例中,输入数据为与基因相关的基因表达数据,并且输出数据为条件(即,健康对癌性)数据。注意的是,输出节点将返回在“0”至“1”的范围内的数值输出,并且系统可被设置为使得“0”对应于健康且“ 1,,对应于癌性。在步骤42中,选择输入(即,特定基因,例如基因C)作为对图4中所示的ANN的输入(输入1)。在步骤44中,利用随机样本交叉验证来训练ANN。换句话说,总体数据集的子集用于训练神经网络,“训练子集”。在图3的数据集的背景下,这可能意味着,对于从样本1-3 和8-10中选出的基因(基因C)的基因表达数据用于训练网络。在该训练阶段中,来自网络的输出条件(健康对癌性)可与真实条件比较。在步骤46中,记录并存储对于输入1人工神经网络的性能。在步骤48中,选择另一基因作为唯一输入来训练神经网络,并且系统再次循环回到步骤44,从而利用该新数据再次从初始状态训练网络。例如,基因H可为要选择的下一个输入,并且然后来自样本1-3和8-10的对于基因H的基因表达数据可再次用于训练网络。然后,对于作为网络的唯一输入的每个输入(即,图3的实施例中基因及其相关表达数据)重复步骤44和46 (经由箭头50表示),并且对于每个输入记录网络性能。—旦训练子集中的每个输入已用作输入,系统进行到步骤52,在步骤52中,根据来自真实结果的误差对各个输入分级,并且选出最佳表现输入。在步骤M中,系统继续用一对输入来训练网络,一对输入中的一个为在步骤52中识别的最佳表现输入,并且另一个是来自训练子集的其余输入中的一个。记录使用该对输入得到的网络性能。然后,系统依次使用来自训练子集的其余输入中的每一个来重复该过程(经由箭头56表示),即,其余输入中的每一个依次与在步骤48中识别的最佳表现唯一输入配对。一旦已经使用其余输入中的每一个,系统在步骤58中识别最佳表现输入对。然后,系统返回到步骤42 (经由箭头60表示)并且重复整个过程,持续地添加输入,直到未检测到人工神经网络的性能的进一步提高(步骤62)。在这点上,人工神经网络已经识别到与结果最紧密相关的输入。在图3的基因/基因表达数据实施例的情况下,系统已经识别出样本个体中指向患有癌症的数据集的基因生物标记。图6a_c示出了通过图5的流程图的前几个循环人工神经网络20的发展。在图6a中,神经网络如图4中所示。为与输入1相关的基因表达数据提供单个输入观。在图6b中,已经基于未见(模型未见)验证集的性能选出最佳表现单一输入(步骤52),并且系统已经进行到测试输入对的性能。因此,输入层中的节点的数量增加为两个节点08,30)。隐含层中的节点的数量仍限制为两个,并且相互连接的初始权重类似地受约束(按照图4中的设置)以便优化网络性能。在图6c中,已经选出最佳表现输入对(包括来自图6a的最佳唯一输入以及在图 6b中识别的另一个输入),并且系统已经继续到测试三个输入08,30,3 的性能。隐含节点和初始权重构造保持不变。继续添加另一个输入节点,直到未识别到网络性能的进一步提高。本发明的ANN表明了在分析从不同源生成的复杂数据集方面重大的技术利用。在使用本发明的一个实施例中,分析来自癌症患者的临床数据,以便确定癌症的诊断性和预后性基因指示。在使用本发明的另一个实施例中,分析气象测量值以便提供另外天气模式的预测。本发明表明了在洋流测量、金融数据分析、流行病、气候变化预测、社会经济数据的分析和车辆交通移动的领域中的进一步利用,仅列举了几个领域。癌症预测癌症在美国为死亡的第二主要原因。估计10. 1百万美国人之前被诊断出患有癌症而生活着。在2002年,在美国一百万以上的人最新诊断出患有癌症(来自疾病控制防治中心的信息,2004年和2004年,以及国家癌症研究院,2005年)。根据UK的癌症研究,在 2005年,在英国超过150,000的人由于癌症而死亡。在疾病发展的早期阶段中检测出癌症是使得能有效地处理疾病以及延长感染个体的寿命的关键因素。癌症筛查试图检测人群中的(未诊断)癌症,以使能进行早期的治疗干预。用于检测和/或预测癌症的筛查有利地适用于测试大量的对象;可普及;安全;非侵入性;以及精确(即,呈现出低比率的错误肯定)。当前,对于转移性黑素瘤不存在临床性验证标记。已经由来自带有黑素瘤的患者在各个患病阶段的人血清样本的质谱分析(MQ蛋白轮廓获得数据。利用本发明的逐步式 ANN方法,已经识别出蛋白质离子来以超过90%的精度将阶段IV黑素瘤患者与健康控制区分开。利用相同的方法来分析吸收缩氨酸的蛋白轮廓,离子被识别出,这以100%的精度预测样本的验证子集。这里识别的离子组以难以置信高的灵敏度和特异性将阶段IV转移性黑素瘤与健康控制区分开。当理解到常规S-100ELISA通过例行临床和放射照相研究通常在带有可检测转移灶的患者中产生报告的20% ‘错误否定’率时,这点甚至更加重要。之前已经报告了利用SELDI芯片由质谱分析法得到的潜在血清蛋白质黑素瘤生物标记离子(Mian等人(2005),血清蛋白指纹法区分临床阶段并且预测黑素瘤患者的疾病进展,J Clin Oncol,23,5088-5093),其中约11,700的质量区域提供了阶段I和阶段IV黑素瘤样本之间的在强度上高度显著的统计差别。在本发明的实施例中,下面更加详细地说明,MALDIMS方法用于生成具有较高分辨率的更快速数据分析。这些数据随后经过逐步式 ANN分析,并且九个离子被识别出来区分黑素瘤阶段IV和健康控制血清。由血清蛋白质的 ANN进行的这种分析在区分来自阶段IV黑素瘤和控制患者的血清时产生了 92%的平均精度(四分位间范围89. 4% -94.8% )。在m/z 12000处的顶离子能够以64%的平均预测精度(四分位间范围58. 7% -69. 2% )来区分类别。该离子在质量上与还是对于之前报告的阶段IV转移性癌症(Mian等人,2005)利用SELDI技术报告的m/z 11700的生物标记离子类似。差别可归因于如下事实当用于区分阶段I黑素瘤对阶段IV患者时,发现该离子是重要的,而在这里当在IV黑素瘤和未感染健康控制个体之间进行分类时,识别出在m/ ζ 12000处报告的离子。此外,在Mian及其同事的原稿(Mian等人,2005)中,预测性能主要基于利用低分辨率MS装备从与内在低分辨率读出相关的CiphergenSELDI芯片平台获得的谱,而这里利用较高分辨率的MALDI-MS分析仪来执行蛋白质生物标记检测,因此11700 的m/z值可具有与其相关联的某个变型。尽管两个研究使用了 ANN,所应用的方法是不同的;在这里,使用了新颖的逐步式分析方法,这使得可以高预测性能来识别个体质量离子, 而SELDI分析(Mian等人,200 使用了较大的质量范围来识别轮廓的在区分组时重要的区域。因此,重要的是,考虑不同的数据挖掘技术可推导出具有不同重要性的不同标记。六个预测性缩氨酸的生物信息序列分析识别出属于阿尔法1-酸糖蛋白(AGP)前体1/2(AAG 1/2)的两个缩氨酸离子,当在预测模型中一起使用时,该两个缩氨酸离子可解释95% (47/50)的转移性黑素瘤患者。另外,识别出缩氨酸离子中的另一个并且确认与补体C3组分相关联。两个蛋白质之前已经在其它类型的癌症中与转移性疾病相关联 (Djukanovic,D等人Q000),S100蛋白质和作为恶性黑素瘤的血清标记的MIA蛋白质的比较,Anticancer Res,20,2202-2207)。这进一步确认了在本发明中取得的方法的值。其他研究也已表明,在癌症中发现了 AGP的增长级别(例如,参见Duche,J. C.等人(2000),癌症中人阿尔法-1-酸糖蛋白的遗传学变型的表达,Clin Biochem,33,197-202)。AGP,高异质性糖蛋白,为主要在肝中产生的急性期蛋白质。然而,AGP的生理重要性尚未完全理解, 并且因此AGP不代表期望的黑素瘤生物标记。为了进一步评估本发明的方法是否也可被执行用于分析与蛋白性数据相对的基因表达数据,依据本发明来分析两个公共可获得的数据集。这两个数据集与乳腺癌相关。 第一个是由van’ t Veer及其合作者公布的数据集(van’ t Veer等人(2002),基因表达轮廓预测乳腺癌的临床结果,NatUre,415,530-536),并且这里使用的目的是识别基因的子集,这可将在五年内发展了远转移灶的患者和在五年内没有发展远转移灶的患者精确地区分开。由van't Veer及其合作者进行的最初分析(van’ t Veer等人,200 使用了一种形式的非监督聚类和监督分类,由此通过带有疾病结果的表达的相关系数来选择基因。这种方法使得识别出一个70基因分类器,该70基因分类器正确地预测疾病结果达到83%的精度。本发明的ANN逐步式方法使得识别出了二十个基因,这在多个随机样本交叉验证重采样事件中对于盲数据精确地预测患者预后达到100%的平均精度。构成这种表达标志的基因中的一些之前已经与癌症结果相关联。例如,由我们的模型识别出的第一个基因为碳酸酐酶(Carbonic Anhydrase) IX,并且能够通过其自身对70%的样本进行正确地预测。由于碳酸酐酶IX(CA IX)对结肠直肠肿瘤增强了表达和异常定位,碳酸酐酶IX(CA IX)已被建议功能性地包含在发病机理中(Mamio,J.等人(1998),用于表达电位值作为细胞增殖的标记的新颖跨膜碳酸酐酶MN/CA IX的结肠直肠肿瘤的免疫组织化学研究,Am J Pathol, 153,279- 。由于CA IX的表达与颈细胞癌相关,CA IX还已被建议用作诊断性生物标记(Liao,S.Y.等人(1994),识别MN抗原作为颈上皮鳞屑和腺瘤形成和颈肿瘤的诊断性生物标记,AM J Pathol,145,598-609)。意外的是,由本发明的ANN方法识别为重要的二十个基因中的七个代表表达序列标签(EST’s),并且因此相关的基因具有未知的功能。然而,假定这些基因关于残存具有新发现的预测能力,现在证实进一步的临床分析。另一个数据集由West等人公布(West,M.等人(2001),利用基因表达轮廓来预测人乳腺癌的临床状况,Proc Natl Acad Sci USA,98,11462-11467),并且本发明的ANN逐步式方法应用于该数据集以便识别基因组来精确地预测患者的雌激素受体蛋白(ER)状况和淋巴结(LN)状况。West及其合作者的最初分析使用了回归模型,以便计算出对于各种结果的分类概率。在他们的研究中,当分析ER状况时,识别出一个100基因分类器,该分类器精确地且可信地预测了在训练集中使用的38个样本中的34个,并且在交叉验证中表现良好。利用相同的方法,作者识别出一个100基因分类器,该分类器可根据在训练集中使用的样本的淋巴结状况对样本的训练集进行分类。然而,这种方法在交叉验证期间在预测LN状况方面不太成功,其中所有的LN+情况具有近似0. 5的估计概率,表明这些预测包含了很多的不确定性,可能是由于这些样本的表达轮廓的变化的高级别。利用本发明的逐步式方法, 识别出两个基因表达标志。第一个将关于对于ER而言样本是否为正或负的情况100%正确地区分开,并且第二个预测肿瘤是否已扩散到腋淋巴结,也是100%的精度。这里所报告的精度是来自于多个单独验证数据拆分,使用随机样本交叉验证在50个模型中将样本处理为盲数据。显然,本发明的逐步式ANN方法提供了优于之前使用的技术的显著优点,不仅以提高的预测能力对生物标记进行离子识别,而且识别出用于诊断性和预后性癌症预测的新颖生物标记。作物产量预测本发明的运算方法还可应用于作物生产率的应力效应的预测。自然环境包含了许多在一段时间内相互作用的因素,这些因素可对作物产量有影响。这些因素包括气候因素,诸如温度、光和湿度;土壤因素,诸如养分、PH、盐度、和可用水;空气、水和土壤中的污染物;虫害和疾病。这显然是在一段时间内在不同状态下发生极大量的相互作用因素的复杂系统。因素还是非线性的并且可以彼此相互作用。在该背景内,根据本发明的ANN方法可应用于对这些相互作用及其对作为生产率的影响进行去卷积并且因此在给定的一组条件下预测产量。这里所说明的方法的优点在于,该方法可识别出可用其预测产量的参数的最优子集。这些参数可有助于作物管理和产量最优化的应用。通过下面的非限制性实施例进一步阐述本发明。
实施例采用计算方法来分析染色体组数据,以便识别出对应于患有癌症的患者的预后性结果的基因、蛋白质或基因/蛋白质标志。遗传型性状且随后表型性状确定细胞行为,并且在为癌症的情况下,支配细胞对治疗的感受性。由于肿瘤细胞在遗传上是不稳定的,假定细胞的子种群出现的情况是假设更具攻击性的表型,能够满足侵入和转移所需的要求。表示肿瘤攻击的生物标记的检测应当是显然的,并且因此对这些生物标记的识别将对于早期疾病诊断、预后和对治疗的响应具有相当重要的价值。本发明已研究出了用于确定用于在临床实际时间段内预测癌症且不要求过大处理功率的最优染色体组/蛋白形标志的新方法。该方法利用ANN并且以类似于逐步式逻辑回归的形式依次包括基于预测性能和误差选择输入神经元并且将神经元添加到网络中, 以便识别出最优癌症生物标记子集。三个数据集用于测试和验证本发明的方法。第一个询问带有不同阶段黑素瘤的人血清样本。从德国癌症研究中心(DKFZ,Heidelberg,Germany)收集到的样本,在诺丁汉特伦特大学(Nottingham Trent Universitiy)(特伦特,英国)通过MALDI-TOF MS对样本进行分析。其余的两个数据集为公共可获得的数据集,两个均源自于从乳腺癌患者获取的基因表达数据。第一个数据集从用于黑素瘤血清样本的MALDI MS分析中获取。在这里的目的是首先将健康控制患者与那些处于四个不同的临床阶段Ι、Π、ΙΙΙ和IV的患有黑素瘤的患者进行比较,从而识别出表示阶段的生物标记离子。其次,对相邻阶段进行比较性地分析,目的是识别出代表疾病进展的潜在生物标记。然后,在单独从第一个生成的第二组样本轮廓上对开发的所有模型进行验证。该数据集在每个样本中包含了 Μ,000个变量。由van’ t Veer等人公布的第二个数据集(van’ t Veer等人,200 使用了微动脉造影技术来分析与转移的发展相关的主要乳腺瘤组织。作者在78个乳腺癌患者的组群中通过基因表达分析生成了数据,78乳腺癌患者中的34个在五年内发展成远转移,并且44 个在至少五年之后保持不患病。每个患者具有对,482个对应变量,这些对应变量指定单个已知基因或表达序列标签(EST)的Logltl表达率。由West等人(West等人,2001)公布的第三个数据集使用微动脉造影技术,假设提供与转移状态有关的信息,首先分析与雌激素受体蛋白(ER)状况相关的主要乳腺肿瘤, 其次评估肿瘤是否已扩散到腋淋巴结(LN)。该数据集包含13个ER+/LN+肿瘤、12个ER-/ LN+肿瘤、12个ER+/LN-肿瘤、和12个ER-/LN-肿瘤,每个样本具有7,129个对应基因表达值。然后,使用第二个数据集(Huang等人,200 在不同的微动脉造影芯片上运行来验证这里说描述的方法,使得第二个数据集的与第一个数据集相同的组可用,并且第二个数据集包含不同种群的患者。逐步式方法方法论人工神经网络结构ANN建模使用监督学习方法,具有反曲传递函数的多层感知器结构,其中通过反向传播算法来更新权重。学习率和动量分别设定为0. 1和0.5。在训练数据之前,使用最小值和最大值在0和1之间线性地按比例缩放数据。这种结构在单个隐含层中使用了两个隐含节点,并且初始权重在0和1之间随机取值。之前已经表明这种方法是在诸如该系统的高维系统内突出关键输入的重要性、同时生成了具有精确预测度的泛化模型的成功方法(Ball 等人,2002)。人工神经网络模型的开发遍及所有数据集应用相同的方法,唯一的区别是样本的数量和输入变量。这里,作为一个实施例,将对应用于van’ t Veer数据集的方法进行说明。按其原始形式采用来自微动脉造影实验的数据。该数据包含78个样本,每个样本具有指定每个单基因的表达率的M,482个对应变量。在训练每个模型之前,将数据随机地分成三个子集;60%用于训练, 20%用于测试(在训练过程中评估模型的性能),并且20%用于验证(在先前未见的数据上独立地验证模型)。该过程称为随机样本交叉验证并且使得能对于单独盲数据集的预测生成置信间隔,从而生成鲁棒的、泛化的模型。最初,来自微动脉造影数据集的每个基因在网络中用作个体输入,从而生成 η (24, 482)个个体模型。然后,在50个随机选择的子集上训练这些η个模型并进行网络预测,并且关于单个验证集对于每个模型计算出这些预测的均方误差值。基于盲数据的均方误差值按升序对输入进行分级,并且选择表现出最低误差的模型用于进一步训练。因此,在模型开发的每个步骤中训练和测试1,224,100个模型。接下来,然后将剩余输入中的每一个依次添加到之前的最佳输入,生成η-1个模型,每个模型包含两个输入。重复训练并评估性能。然后,选择对数据建模表现出最佳能力的模型并重复该过程,生成η-2个模型,每个模型包含三个输入。重复该过程,直到不再从进一步输入的添加获得显著的提高,使得最终的模型包含对数据进行最精确地建模的基因表达标志ο该过程需要对可能的无数个模型进行训练和测试。为便于实现这点,已经利用微软可视基本生成了自动运行程序的软件。在这里,自动地添加输入,在每个步骤中选择最佳竞争者生物标记。图7(a)-(g)示出了可用于ANN设计和分析的各个选项进行详述的软件设计(注意的是,图7(a)至7(g)的屏幕快照仅为表示性的,并且实际的布局可以不同)。 运行算法的整个过程可概述如下1.识别输入变量和输出变量2.以输入1作为模型的第一个输入开始,输入i3.利用随机样本交叉验证来训练ANN4.记录对于输入i网络的性能5.利用所有输入输入2…输入3…输入4…输入n作为ANN模型的唯一输入来重复步骤3和46.基于测试数据拆分的误差按升序对输入进行分级,以便确定在该步骤中的最佳表现输入,输Ai7.与输入i依次使用ANN模型中的每个输入从步骤2重复8.为该步骤确定最佳表现输入组合从步骤3重复这整个过程,持续地添加输入,直到不再从进一步输入的添加获得提高。结果黑素瘤数据集的分析控制和阶段IV疾病样本的分析蛋白质和缩氨酸数据因为转移性黑素瘤不存在确认性血液标记,我们尝试利用相同的逐步式ANN方法来开发经验证的、鲁棒的和可再现的MALDI MS方法论来描绘血清蛋白质和胰蛋白酶吸收的缩氨酸。将该方法论应用于从MALDI MS分析获取的数据,代表(i)蛋白质,以及(ii)来自控制和患病样本的吸收缩氨酸数据。对这些数据集实施各种分析,以便识别出表示表1中所示的类别的生物标记离子。表1 所做分析的总结(i)
权利要求
1.一种确定输入数据和一个或多个条件之间的关系的方法,所述方法包括下列步骤 接收被分类成一个或多个预定类别的条件的输入数据;使用所述输入数据来训练人工神经网络,所述人工神经网络包括输入层,其具有设置为接收输入数据的一个或多个输入节点;隐含层,其包括两个或多个隐含节点,所述隐含层的节点通过可调节权重的连接连接至所述输入层的所述一个或多个节点;以及输出层,其具有设置为输出与一个或多个条件相关的数据的输出节点,所述输出节点通过可调节权重的连接连接至所述隐含层的节点;确定所述输入数据和所述一个或多个条件之间的关系,其中,所述人工神经网络具有如下受约束结构(i)所述隐含层内隐含节点的数量受约束;以及 ( )节点之间的连接的初始权重受限制。
2.如权利要求1所述的确定输入数据和一个或多个条件之间的关系的方法,其中,所述隐含层中的节点的数量在两个至五个的范围内。
3.如权利要求2所述的确定输入数据和一个或多个条件之间的关系的方法,其中,在所述隐含层中存在两个隐含节点。
4.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法, 其中,节点之间的连接的初始权重具有在0. 01至0. 5的范围内的标准差。
5.如权利要求4所述的确定输入数据和一个或多个条件之间的关系的方法,其中,节点之间的连接的初始权重具有在0. 1的标准差。
6.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法, 其中,所述输入数据包括数据对,每个数据对被分类成所述一个或多个条件并且包括参数和相关的参数值。
7.如权利要求6所述的确定输入数据和一个或多个条件之间的关系的方法,其中,所述输入数据被分组成多个样本,每个样本具有等同选择的数据对。
8.如权利要求7所述的确定输入数据和一个或多个条件之间的关系的方法,其中,所述训练步骤包括(i)在第一个选择步骤中,在每个样本中选择相同的参数; ( )使用与所选参数相关的参数值来训练所述人工神经网络;(iii)对于所选的参数,记录人工神经网络的性能;(iv)对于每个参数,依次重复选择和记录的步骤。
9.如权利要求8所述的确定输入数据和一个或多个条件之间的关系的方法,其中,所述确定步骤进一步包括(i)基于记录的性能,对于每个所选的参数,对所述人工神经网络的性能进行分级,以及;( )在第二个选择步骤中,选择最佳表现参数。
10.如权利要求9所述的确定输入数据和一个或多个条件之间的关系的方法,其中,所述训练步骤进一步包括(i)在另一个选择步骤中,与所述最佳表现参数或者来自之前选择步骤中的参数相结合地从其余的参数选择参数;(ii)使用与所选参数相关的参数值来训练所述人工神经网络;(iii)在另一个记录步骤中,对于所选参数,记录人工神经网络的性能,以及;(iv)对于其余参数中的每一个,依次重复另一个选择和记录的步骤。
11.如权利要求10所述的确定输入数据和一个或多个条件之间的关系的方法,其中, 所述训练步骤进一步包括重复权利要求10中的步骤(i)-(iv),直到不获得性能的进一步实质提高。
12.如权利要求10所述的确定输入数据和一个或多个条件之间的关系的方法,其中, 在所述重复步骤之前,所述确定步骤包括基于记录的性能对于每个所选的参数设置对人工神经网络的性能进行分级,并且选出最佳表现参数。
13.如权利要求10至12中任一项所述的确定输入数据和一个或多个条件之间的关系的方法,其中,每次输入参数的数量增加,输入节点的数量增加一个节点。
14.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法,其中,所述输入数据被分组成多个样本,每个样本具有等同选择的数据对,每个数据对被分离成所述一个或多个条件并且包括参数和相关的参数值,所述训练和确定步骤包括(i)在所述输入数据内选择参数,使用对应的参数值训练所述人工神经网络并且记录人工神经网络的性能;( )对于所述输入数据内的每个参数进行重复;(iii)确定所述输入数据中的最佳表现参数;(iv)重复步骤(i)至(iii),每次重复将其余参数中的一个添加到最佳表现参数的组合中,直到人工神经网络的性能不提高。
15.如任一前述权利要求中所述的确定输入数据和一个或多个条件之间的关系的方法,其中,参数代表基因,并且参数值代表基因表达数据。
16.如权利要求1至14中任一项所述的确定输入数据和一个或多个条件之间的关系的方法,其中,参数代表蛋白质,并且参数值代表活性函数。
17.一种确定输入数据和一个或多个条件之间的关系的方法,所述方法包括 接收被分类成一个或多个预定类别的条件的输入数据;利用神经网络来确定所述输入数据和所述一个或多个条件之间的关系,人工神经网络包括输入层,其具有设置为接收输入数据的一个或多个输入节点;隐含层,其包括两个或多个隐含节点,所述隐含层的节点通过可调节权重的连接连接至所述输入层的一个或多个节点;以及输出层,其具有设置为输出与所述一个或多个条件相关的输出的输出节点,所述输出节点通过可调节权重的连接连接至所述隐含层的节点, 其中,所述人工神经网络具有如下受约束结构 (i)所述隐含层内的隐含节点的数量受约束;以及 ( )节点之间的连接的初始权重受限制。
18.一种用于确定输入数据和一个或多个条件之间的关系的人工神经网络,所述人工神经网络包括输出层,其具有设置为接收输入数据的一个或多个输入节点,所述输入数据被分类成一个或多个预定类别的条件;隐含层,其包括两个或多个隐含节点,所述隐含层的节点通过可调节权重的连接连接至所述输入层的一个或多个节点;以及输出层,其具有设置为输出与所述一个或多个条件相关的输出的输出节点,所述输出节点通过可调节权重的连接连接至所述隐含层的节点; 其中,所述人工神经网络具有如下受约束结构(i)所述隐含层内的隐含节点的数量受约束;以及(ii)节点之间的连接的初始权重受限制。
19. 一种用于确定输入数据和一个或多个条件之间的关系的计算机系统,所述计算机系统包括如权利要求18中所述的人工神经网络。
全文摘要
本发明涉及用于鉴别输入数据和一个或多个条件之间的关系的数据分析。分析这种数据的一个方法是通过使用神经网络,神经网络是非线性统计数据建模工具,神经网络的结构可基于在训练阶段中通过网络的信息而变化。影响神经网络的已知问题是当网络的容量明显超过所需参数时在过复杂或超特化系统中出现的过训练问题。本发明提供一种利用神经网络分析数据的方法,所述神经网络具有减轻与现有技术相关的问题的受约束结构。
文档编号G06F19/24GK102282559SQ200980142624
公开日2011年12月14日 申请日期2009年10月20日 优先权日2008年10月20日
发明者G·巴尔, L·兰卡施里 申请人:诺丁汉特伦特大学

最新回复(0)