确定用于从临床数据获得的标识的可靠性指标的方法和该可靠性指标用于支持一个标识...的制作方法

xiaoxiao2020-7-22  5

专利名称:确定用于从临床数据获得的标识的可靠性指标的方法和该可靠性指标用于支持一个标识 ...的制作方法
技术领域
本发明涉及用于确定可靠性指标的方法和设备,该可靠性指标用于根据从样本群收集的临床数据而获得的至少一组标识(Signature),这些标识是通过检测来自样本群的临床数据中的特性而获得的,其中每个标识生成将样本群分层的第一组分层值。
背景技术
为了临床应用的目的,高吞吐量的分子测量经常经过分析以识别出有助于对生物样本分层的数据集中的模式。一种这样的应用是例如从基因表达数据选择特征子集,该特征子集可以被用作特定类别的患者的诊断标识。这种诊断标识可以用于疾病、疾病病期和/ 或治疗选择(例如针对某些疾病的治疗方案的肯定和否定响应)的临床诊断。应当注意,在发现这样的标识期间患者的临床状态典型地是已知的。该“地面实况”通常作为临床研究的一部分(从中获得样本)而可获得,或者可以通过使用分子测量而不是用于标识发现(例如DNA甲基化作用、蛋白质组学和SNP)的测量来检测某种分子特性来获悉“地面实况”。将多种统计的和机器学习算法应用到这样的数据集以便发现在这些测量中的用于诊断(即, 可用于区分临床状态)的模式是常用的。此外,在生物学家和临床医生中正产生以下意识 对于大多数疾病和所关心的状况而言,将发现单个变量(单变量)标识是不太可能的;多个变量(多变量)标识被认为是必需的,这增加了标识发现的组合的挑战。困扰该领域的一个困难是数据集总是表征为测量有余但案例不足(case poor),即存在明显多于患者的测量。 因此,模式发现方法变得易于发现寄生模式,即基于给定的数据预测良好但基于新案例则预测不佳的模式。这也被称为过拟合。用于通过丢弃某些被认为低质量的或不太可能与临床问题有关的测量来减少测量数量的各种方案,比如用于重采样和交叉验证的方案,已被应用以克服过拟合,但该问题不能完全通过这些方法来克服。

发明内容
本发明的目的是提供一种克服这样的过拟合问题的改进的方法。根据一个方面,本发明涉及一种确定根据从样本群收集的临床数据确定的至少一组标识的可靠性的方法,这些标识是通过检测来自样本群的临床数据中的特性获得的,其中每个标识生成对样本群分层的第一组分层值,该方法包括
提供至少一个附加和平行分层源到从所述样本群获得的标识,所述至少一个平行分层源独立于这些标识并且生成用于样本群的第二组分层值, 对于各个相应样本而言,比较 第一组分层值与真实参考分层值, 第二组分层值与真实参考分层值,
利用相似性度量指标对这些标识赋值,该相似性度量指标指示第一和第二分层值是否与真实参考分层值匹配,并且将该相似性度量指标实现为在确定这些标识的可靠性时的输入。因此,现在有可能针对这些标识的“对准”将这些标识与特定的平行分层标准比较并且因此帮助消除寄生模式。在一个实施例中,将相似性度量指标实现为输入的步骤包括
识别哪些标识具有指示它们的分层值与真实参考分层值不匹配的相似性度量指标,并且对于那些被识别的标识
确定指示这些标识的分层值与至少一个平行分层源的分层值如何对准的对准指标,该对准指标指示这些标识的可靠性。为了说明的目的,参照详细描述中的表I和II,这意味着对于一种标识,确定与真实参考分层值相比,该标识对于哪些样本进行了错误分类(在此情况下,假阴性(FN)或假阳性(FP))。第二步骤是,将这些错误分类与平行分层源比较,即执行另一个“可靠性步骤”。 该比较表明它们中的两个与平行分层源匹配。应当注意,表1和2主要目的用于列出(错误) 分类的所有可能的组合而不描绘具有例如100或200个样本的现实实例。在一个实施例中,确定对准指标的步骤包括确定标识的分层值与由至少一个平行分层源生成的分层值匹配的频率,该数字指示标识的可靠性。参照表III,所述实施例在标识1、2和3三个标识之间进行选择是有利的。应当再次注意,这仅仅是为了说明的目的并且不反映真实的情形,在真实情形中样本的数量典型地将大得多。在该情形中,所有标识表现出仅50%的正确分类(与真实值相比)。在缺少该附加的一个或多个平行分层源时,将不可能区分这三个标识。然而,通过更详细地观看标识 1的表,两个错误分类与平行分层源匹配(样本2和4);对于标识2,也有两个错误分类与平行分层源匹配(样本4和5);但是对于标识3,三个错误分类与平行分层源匹配(样本2、5和 7)。在该特定情况下,对准指标简单地为“计数”(或百分比),即与平行标准匹配的数量,即 “2”、“2”和“3”。因而,标识3将被认为是比其余标识更可靠的标识,因为四个错误分类中的3个与平行分层源匹配。为了进一步说明,假设存在例如从正设法将癌症患者分层为侵略性的和非侵略性的基因表达获得的两个标识Sl和S2。通过仅使用所述标识(基本模态,基因表达),只可能说两个标识产生例如4个错误分类并且因此在哪个标识更可能是临床相关的或生物学相关的这方面不可能有把握前进。平行分层源(例如临床预后指数)也给出了相同患者到侵略性和非侵略性的独立分层。平行分层使得有可能观察到与Sl相比,S2产生与临床预后指数相比较的更多的错误分类。基于此可以断定S1是比S2 “更好的”标识,因为Sl与平行分层更“一致”。因此,与S2相比,Sl将具有更高的可靠性指数。在一个实施例中,平行分层基于一种或多种下述测量 临床信息,或
成像数据,或
从高吞吐量分子测量获得的数据,或分子测量的生物学注解。在一个实施例中,该方法进一步包括连续地重复所述比较步骤、所述赋值步骤和所述实现步骤直到满足预定义的标准为止。在一个实施例中,重复所述比较步骤直到满足了预定义的标准为止是基于实现可靠性指标以在一个步骤中对标识排名并且作为用于选择哪些标识应当在后续步骤中被考虑的选择标准。因此,通过使用可靠性指标的这种迭代应用,依赖于平行标准的分层能力,过拟合的效应被消除或至少被减少。在一个实施例中,预定义的标准包括基于下列一个或多个的一个或多个结束迭代的标准
“固定数量的迭代 “期望的对准性能 “期望的可靠性性能。应注意,这不是穷举性列表。根据另一个方面,本发明涉及一种计算机程序产品,其用于在该产品在计算机上运行时命令处理单元执行上述方法步骤。根据又一个方面,本发明涉及一种用于确定至少一组标识的可靠性指标的设备, 该至少一组标识根据从样本群收集的临床数据而获得,这些标识是通过检测来自样本群的临床数据中的特性而获得的,其中每个标识生成对样本群分层的第一组分层值,该设备包括
用于提供至少一个附加且平行分层源到从所述样本群获得的标识的装置,所述至少一个平行分层源独立于这些标识并且生成用于样本群的第二组分层值, 用于对于各个相应样本进行以下比较的处理器 第一组分层值与真实参考分层值, 第二组分层值与真实参考分层值,
用于利用相似性度量指标对这些标识赋值的处理器,该相似性度量指标指示第一和第二分层值是否与参考分层值匹配,以及
用于将该相似性度量指标实现为确定这些标识的可靠性时的输入的处理器。本发明的各方面中的每一个可以与任意一个其它方面组合。本发明的这些和其它方面将根据下文描述的实施例而清楚并且参照这些实施例而被阐明。


本发明的这些实施例将参照附图仅通过实例的方式予以描述,在附图中图1示出根据本发明的方法的流程图,
图2描绘了将平行标准到添加到标识发现过程,以及图3示出根据本发明的设备。
具体实施例方式图1示出根据本发明的确定至少一组标识的可靠性指标的方法的流程图,该至少一组标识根据从样本群收集的临床数据而获得。在步骤(Si) 101中,通过检测来自样本群的临床数据中的特性生成这些标识。作为实例,样本群可以包括从潜在的癌症患者收集的样本并且临床数据可以是在这些样本上执行的高吞吐量分子测量。对这样的数据的分析结果将给出一组标识,即,为此特定类型的癌症的特性的标识。由于术语标识(或者也称为分子标识)是指临床数据中表示遍及所有样本的共同特征的任何特性。可以应用各种方法获得这样的标识,例如通过使用诸如遗传算法(GA)之类的搜索方法,其产生特征子集,该特征子集用于导出为一组样本提供测试分类的标识。关于这种基于GA的试验的进一步的细节可以在“Schaffer,A. Janevski, and Μ. Simpson, 〃A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data, “ presented at Proceedings of the 2005 IEEE Symposium on Computational Intelligence in Bioinformatics and Computational Biology, CIBCB 2005, La Jolla, CA, USA, 2005”中找到,该文献全文通过引用于此并入。这些标识生成第一分层值,其针对所述标识对样本群分层。这意味着,每个样本仅有一个分层赋值,其中每个样本可以被赋值为“侵略性的”或“非侵略性的”,或标记为“O”或 “1”,或者在甚至特定的数值范围上,例如从1到3。因此,在存在100个样本标识的情况下, 特定标识为这100个样本中的每一个提供比如0或1的分层值。如前所讨论,本发明处理以下情形由于与相对较大数量的测量相比有非常少的样本的原因,数据本身不足以保证“良好”标识。这种数据的分析易于发现偶然地看起来非常好地表征该数据的寄生模式。如稍后将更详细地讨论的,通过另外地表征模式,可能从 “真实”(更有希望的)模式中认出寄生模式。在步骤(S2) 103中,从所述样本群提供至少一个平行分层源,其中所述至少一个平行分层源独立于这些标识并且生成用于样本群的第二组分层值。这意味着,提供了用于表征的附加源,但是其中该附加源是使用不同方法获得的。因此,对于各个相应样本,除了这些标识之外,还提供了平行分层源,并且该平行分层源生成第二分层值,例如“侵略性的” 或“非侵略性的”,或者“0”或“1”。这意味着,利用分层值为样本1赋值,即,例如将样本1分层为“非侵略性的”,并且作为附加源,该平行分层源将样本也分层为“非侵略性的”。因此, 一个源是从临床数据获得的标识,并且平行分层源可以例如是从临床信息获得的,所述临床信息例如为预后指数,比如对于乳腺癌而言的下列指数=Nottingham Prognosis Index (Pinder, Elston等人· 2003) ^National Institutes of Health Consensus (NIH 2001) 禾口 the St. Gallen Consensus Conference (Ciatto, Cecchini 等人· 1990)。添力口这禾中平行分层的原因是,使得能够针对这些标识与特定的平行分层标准的“对准”来比较这些标识。这将在稍后更详细地被讨论。一般地,本发明的目的是通过使用完全不同的方法设法得到相同种类的分层(例如侵略性的对比非侵略性的)。这样的平行分层源的其它实例是从成像数据获得的源,该成像数据是来自任何相关的成像模态(MRI、CT,具有或不具有造影剂)的数据,这种数据可以通过以下方式分析该方式以与对“核心”的分析相似的方式对样本分层,例如高吞吐量分子测量。这典型地通过分析图像特征(形状、纹理等)并输出每个图像/样本的类别(例如侵略性的或非侵略性的) 来完成。其它平行分层源是高吞吐量分子测量基因表达数据、DNA甲基化作用、质谱蛋白质组学。只要来自这样的测量的数据按照与“核心”高吞吐量测量相似地表征样本的方式被分析,则可能使用所述输出来驱动基本的标识发现过程。另一些的平行分层源是注解高吞吐量分子测量中的特征可以例如基于它们的生物属性而被表征。广泛使用的用于注解的源例如是基因本体论(参见geneontology. org),其中基因针对它们的分子功能、生物过程和细胞成分来进行注解。这种注解也可以用于表征关于所述分子功能的一组特征(例如基因)。随后所述数据的该视图可以以与上述对样本分层的其它类型方式相同的方式来使用。在步骤(S3) 105中,针对各个相应样本,执行比较步骤,其中将第一分层值和第二分层值与真实参考分层值比较。真实参考分层值被认为是“地面实况”,因为该数据来自回顾性研究,例如在癌症患者中,将有5年或10年的跟踪并且因此将会知道该癌症是否恢复。 因此,在该步骤中,针对样本n,将样本η的第一分层值和平行分层源的第二分层值(例如基于图像数据)与地面实况值相比较。在步骤(S4) 107中,这些标识利用相似性度量指标来赋值,该相似性度量指标指示第一和第二分层值是否与真实参考分层值匹配。作为实例,如果样本η的参考分层值(地面实况值)为“侵略性的”并且第一分层值和第二分层值分别为“侵略性的”和“非侵略性的”,则相似性度量指标可以是“真”和“假”,或者“真阳性”和“假阳性”。这也可以被标记为“ + ”和“-”。针对所有η个样本,重复该操作,即,针对各个相应样本,将第一分层值和第二分层值与真实参考值比较。表 I
权利要求
1.一种确定至少一组标识的可靠性指标(Si,101)的方法,该至少一组标识根据从样本群收集的临床数据而确定,所述标识是通过检测来自样本群的临床数据中的特性获得的,其中每个标识生成对样本群分层的第一组分层值,该方法包括提供至少一个附加和平行分层源到从所述样本群获得的标识(S2,103),所述至少一个平行分层源独立于所述标识并且生成用于样本群的第二组分层值, 对于各个相应样本而言,比较(S3,105) 第一组分层值与真实参考分层值, 第二分层值与真实参考分层值,利用相似性度量指标对所述标识赋值(S4,107),该相似性度量指标指示第一和第二分层值是否与真实参考分层值匹配,并且将该相似性度量指标实现为在确定所述标识的可靠性时的输入(S5,109)。
2.根据权利要求1的方法,其中将相似性度量指标实现为输入的步骤包括识别哪些标识具有指示它们的分层值与真实参考分层值不匹配的相似性度量指标,并且对于那些被识别的标识确定指示所述标识的分层值与至少一个平行分层源的分层值如何对准的对准指标,该对准指标指示所述标识的可靠性。
3.根据权利要求2的方法,其中确定对准指标的步骤包括确定标识的分层值与由至少一个平行分层源生成的分层值匹配的频率,该数字指示所述标识的可靠性。
4.根据权利要求1的方法,其中平行分层基于一种或多种下述测量 临床信息,或成像数据,或从高吞吐量分子测量获得的数据,或所述分子测量的生物学注解。
5.根据权利要求1或2的方法,进一步包括连续地重复(111)生成标识组的步骤并且重复步骤(S3,105-S5, 109)直到满足预定义的标准为止。
6.根据权利要求5的方法,其中重复步骤直到满足预定义的标准为止是基于实现可靠性指标以在一个步骤中对标识排名并且作为用于选择哪些标识应当在后续步骤中被考虑的选择标准。
7.根据权利要求2或5的方法,其中所述预定义的标准包括基于下列一个或多个的一个或多个结束迭代的标准-固定数量的迭代 -期望的对准性能 -期望的可靠性性能。
8.一种计算机程序产品,其用于在该产品在计算机上运行时命令处理单元执行权利要求1的方法步骤。
9.一种用于确定至少一组标识的可靠性指标的设备,其中该至少一组标识根据从样本群收集的临床数据而获得,所述标识是通过检测来自样本群的临床数据中的特性而获得的,其中每个标识生成对样本群分层的第一组分层值,该设备包括用于提供至少一个附加且平行分层源到从所述样本群获得的标识的装置(301),所述至少一个平行分层源独立于所述标识并且生成用于样本群的第二组分层值, 用于针对各个相应样本进行以下比较的处理器(302) 第一组分层值与真实参考分层值, 第二组分层值与真实参考分层值,用于利用相似性度量指标对所述标识赋值的处理器,该相似性度量指标指示第一和第二分层值是否与参考分层值匹配,以及用于将该相似性度量指标实现为确定所述标识的可靠性时的输入的处理器。
全文摘要
本发明涉及用于确定至少一组标识的可靠性指标的方法和设备,该至少一组标识根据从样本群中收集的临床数据而获得。这些标识是通过检测来自所述样本群的临床数据中的特性获得的,并且每一个标识生成对所述样本群分层的第一组分层值。提供至少一个附加且平行分层源到从样本群获得的这些标识,到所述标识的所述至少一个附加且平行分层源独立于这些标识并且生成第二组分层值。针对各个相应样本进行比较,其中将第一分层值与真实参考分层值相比较,并且其中将第二分层值与真实参考分层值相比较。利用相似性度量指标来对这些标识赋值,该相似性度量指标指示第一和第二分层值是否与真实参考分层值相匹配。随后,这些相似性度量指标被实现为在确定所述标识的可靠性时的输入。
文档编号G06F19/00GK102171699SQ200980139288
公开日2011年8月31日 申请日期2009年9月24日 优先权日2008年10月2日
发明者A·贾尼夫斯基, N·巴纳杰, V·瓦拉丹, Y·H·阿尔萨法迪 申请人:皇家飞利浦电子股份有限公司

最新回复(0)