混合模型密度设门中的邻域阈值选取的制作方法

xiaoxiao2020-7-22 35

混合模型密度设门中的邻域阈值选取的制作方法
【专利摘要】本发明提供可用于在多维数据中对目标群体设门的自动设门方法，其中所述目标群体仅为所述数据中可鉴定的群体的子集。将所述群体建模为多变量概率分布的有限混合，优选正态分布或t分布。使用期望最大化(EM)算法评估为所述数据提供模型分布的最佳拟合的分布参数，期望最大化(EM)算法还包括动态邻域阈值选取，其能够实现对所述数据中存在的群簇的子集设门。
【专利说明】混合模型密度设门中的邻域阈值选取
【背景技术】【技术领域】
[0001]本发明总体上涉及在多维数据中定位群簇(cluster)的方法。本发明尤其可用于鉴定由细胞计量术，更具体地，流式细胞仪生成的数据中对应于细胞或颗粒群体的群簇。
[0002]相关技术描述
[0003]诸如流式细胞仪和扫描细胞仪的颗粒分析仪是众所周知的分析工具，其能实现基于诸如光散射和荧光的光学参数来表征颗粒。在流式细胞仪中，例如，在液体悬浮液中的颗粒(如分子、结合分析物的珠或个体细胞)经过检测区域，在所述检测区域中颗粒暴露于通常来自一个或多个激光器的激发光，测量颗粒的光散射和荧光性质。颗粒或其组分通常被标记有荧光染料以便于检测，通过使用光谱特性不同的荧光染料标记不同颗粒或组分，可同时检测大量不同颗粒或组分。通常，有多个光检测器，其一针对待测量的每个散射参数，其一针对待检测的每种不同染料。获得的数据包括针对每个光散射参数和荧光发射的所测量的信号。
[0004]细胞仪还包括记录所测数据和分析该数据的装置。例如，通常使用连接至检测电子设备的计算机来进行数据存储和分析。数据通常以列表形式存储，其中每一行对应一个颗粒的数据，而列对应于每一测得的参数。使用标准文件形式(如“FCS”文件形式)存储来自流式细胞仪的数据可便于使用单独的程序和机器分析数据。使用当前的分析方法，所述数据通常以二维(2D)图形式展示以便于可视化，但其它方法可用于将多维数据可视化。
[0005]用流式细胞仪测量的参数通常包括颗粒沿着主要向前方散射的激发光，称为前向散射(FSC)，颗粒沿着主要侧向散射的激发光，称为侧向散射(SSC)，以及在光谱的一个或多个频道(频率范围)内由荧光分子发射的光，称为FL1、FL2等，或在该频道内主要检测的荧光染料发射的光。通过来自用染料标记的抗体标记各种细胞蛋白产生的散射参数和荧光发射可以鉴定不同的细胞类型。
[0006]流式细胞仪和扫描细胞仪均可商购，例如可购自BD Biosciences (San Jose, CA)。流式细胞术在本领域的各种文献有详细描述，包括例如，Landy等人(eds.), ClinicalCytometry,Annals of the New York Academy of Sciences Volume 677(1993)；Bauer 等人(eds), Clinical Cytometry!Principles and Applications, Williams& Wilkins(1993 ；Ormerod (ed.), Cytometry: A Practical Approach, Oxford Univ.Press (1997) ；Jaroszeski 等人(eds.) , Cytometry Protocols, Methods inMolecular Biology N0.91, Humana Press (1997)；以及 Practical Cytometry, 4thed., Wiley-Liss (2003);通过引用方式将上述文献全部并入本文。突光显微成像描述于，例如，Pawley (ed)，Handbook of Biological Confocal Microscopy, 2nd Edition, PlenumPress(1989)，通过引用方式将其并入本文。
[0007]通过多色流式细胞术进行细胞(或其它颗粒)分析获得的数据是多维的，其中每个细胞对应于由所测参数确定的多维空间中的一个点。细胞或颗粒群体被鉴定为所述数据空间中的点的群簇。群簇以及群体的鉴定可以通过在所述数据的一个或多个二维图(也称为“散布图”或“点图”)中显示的群周围设门来手动进行。或者，可以鉴定群簇，并可以自动确定限定所述群体的界限的门。文献中描述了许多自动设门的方法。参见，例如，美国专利 4，845，653,5, 627，040,5, 739，000,5, 795，727,5, 962，238,6, 014，904,6, 944，338，以引用的方式将每篇文献并入本文。
[0008]鉴定数据中对应于群体的群簇的混合模型法已经有过描述。混合模型法的分类是基于将数据建模为分布的有限混合，使其中的每个组分分布对应于不同的群体。最常见的是，将所述组分分布假定为多变量高斯(Gaussian)(正态)分布或t分布。使分布的混合适合于所述数据的一种方法学包括使用期望最大化(EM)算法估计对应于群簇的分布的参数。每个事件(来自单个细胞或颗粒的数据)被分类为其最可能归属的群簇的一个成员。使用多变量混合建模来对流式细胞术生成的数据设门描述于例如，Boedgheimer等人，Cytometry 73A:421-429，2008 ；Chan 等人，Cytometry 73A:693-701，2008 ；以及 Lo 等人，Cytometry 73A:321-332，2008，将每篇文献以引用的方式并入本文。更常见的是，使用模式识别来鉴定群体描述于Boddy等人，Cytometry 44:195-209, 2001，将其以引用的方式并入本文。
[0009]发明概述
[0010]本发明提供可用于对多维数据中的群簇或群体设门的自动设门方法。上述方法尤其可用于鉴定多维流式细胞术数据中的细胞或颗粒的群体。本发明方法能够实现对目标群体特定设门，所述目标群体仅为所述数据中可鉴定出的群体子集，这种情况存在于很多流式细胞术应用中。
[0011]在本发明的方法中，将所述数据建模为参数分布的有限混合，其中每个组分分布对应于不同的群体。因此，通过多变量概率分布，优选多变量正态分布或t分布对所述数据中被识别为一个簇的每个目标群体建模。从所述数据中估计对于所述数据提供分布最佳拟合的分布参数。评估对应于目标群体的每个分布的参数后，基于所述分布确定限定具体群的界限的门。
[0012]使用期望最大化(EM)算法评估对数据提供模型分布的最佳拟合的分布参数，期望最大化(EM)算法还包括邻域阈值选取，其能够实现对所述数据中存在的群簇的子集设门。
[0013]EM算法是一种迭代优化方法，其用于根据测量数据估计未知参数。EM方法在期望步骤("E-步骤")和最大化步骤("M-步骤")之间交替。E-步骤(下文会更详细描述)根据模型参数来更新与每个组分相关的每个事件的后验概率。M-步骤根据所有事件的后验概率来更新模型参数。重复该过程直至模型参数的估计值收敛到所需的程度。EM算法(在没有本发明的改进的情况下)是众所周知的，且在文献中广泛描述。例如，参见Basfordand McLachlan, Appl.Statist.34(3):282-289,1985;Peel and McLachlan, Statisticsand ComputinglO:339-348, 2000;Boedgheimer 等人 Cytometry 73A:421-429，2008;Chanet al., Cytometry 73A:693-701，2008;以及Lo et al., Cytometry 73A:321-332，2008,将每篇文献以引用的方式并入本文。
[0014]在本发明的EM方法中，M-步骤(下文会更详细描述)根据仅事件的子集的后验概率来更新模型参数。仅使用来自落入至少一个模型分布的邻域内的事件的数据来实施M-步骤中分布的参数估计值的更新。通过距所述分布中心的预定阈值距离来限定分布的邻域，该距离取决于在此前的M-步骤中估计值的分布参数。在优选的实施方案中，限定邻域，使得所有符合马氏距离(Mahalanobis distance)平方的函数的阈值标准的事件都被确定为位于所述分布的邻域内。更具体地，在一些实施方案中，限定邻域，使得来自一个分布的马氏距离平方小于预定阈值的所有事件都被确定为位于所述分布的邻域内。基于在每个M-步骤期间更新的分布参数，动态地计算邻域。
[0015]在许多流式细胞术应用中，目标群体仅为数据中可鉴定群体的子集。例如，典型的流式细胞术检测用于提供一个或多个具体群体中细胞的计数，而忽略该样本中(例如，血液中)其它类型细胞。本发明方法尤其可用于这类应用，因为通过将分布匹配于数据而仅对目标群体建模，而忽略其它群体。当更新参数估计值时，使用动态计算的邻域阈值选取来排除任何模型分布的邻域之外的任何事件能够实现仅对存在于所述数据集的总体群簇中一个子集有效地建模。
[0016]相比于本发明的方法，在此前描述的基于方法学的混合模型方法中，当更新参数估计值时会考虑所有数据。使用先前的EM方法，如果数据中群簇的数目大于模型中包含的分布的数目，则该参数估计值可能会受到来自远离对应于目标群体的模型分布并可能事实上并不属于被建模的群簇之一的事件的数据的损害，这导致最终结果不准确。本发明的EM方法克服了该局限，并能够实现对存在于所述数据集的总数群簇中一个子集建模。
[0017]通常，在数据集中可鉴定的不同的细胞群体的数目从经验获知，并可通过选择用于标记细胞的荧光抗体来预测。然后，设门方法用于确定群体的界限，从而实现准确计算每个群体中的细胞数目，而不是鉴定此前未知的群体。在本发明方法中假定，目标群体的数目是已知参数，而由于用来忽略不在建模群体邻域内的事件的邻域阈值选取，因此无需知道数据中可鉴定的群体总数。然而，通过目视检查或使用算法数据分析方法，还是可以从数据估计群体数目。估计数据集中群簇数目的方法为本领域所熟知，并可应用于本发明方法中以获得需要设门的细胞群体的数目。
[0018]本发明方法尤其适合于重复地对多个类似样本进行检测的应用，例如，用于对来自多名患者的样本进行的诊断检测。在这种情况下，通常来自每名患者的数据非常相似，且在样本中观察到的细胞群体会一致地在数据图中类似位置中观察到。然而，由于患者(和患者健康)之间的差异以及仪器或仪器设置之间的差异，细胞群体的确切位置和边界通常不同。本发明方法可用于最佳地鉴定每个患者样本的目标群体的位置和边界。
[0019]可以从先前对类似或典型样本的分析估计出对应于每个分布的位置和形状的模型分布的合适的初始参数。例如，可使用本发明方法分析训练样本，从一些估计的初始参数值开始，最终估计的参数值可用作将来检测中起始EM方法的初始参数。或者，可基于过去的表现将合适初始参数值的估计值更新，以用于将来的检测中。优选地，将得到的典型参数值的一些统计度量(如从多个样本估计出的参数平均值)用作将来检测的初始参数值。使用可能接近最终估计值的初始参数值是可取的，从而最小化EM方法所需的迭代次数，从而获得理想的收敛性。
[0020]因此，在一个方面中，本发明提供在含有至少G个群簇的P-维数据中对多个(G个)群簇进行设门的方法，其中所述数据获自对N个事件的组的测量，所述方法包括:
[0021]a)使用G个P-维参数分布的混合对所述数据建模；[0022]b)提供所述P-维参数分布的参数的初始估计值；
[0023]c)使用迭代期望最大化(EM)算法，估计每个所述P-维参数分布函数的更新的参数，其中所述EM方法包括如下步骤:
[0024]i)针对每个事件，计算所述事件是每个所述参数分布的成员的后验概率，
[0025]ii)确定在至少一个所述分布的邻域内所述事件的子集I，
[0026]iii)根据来自步骤i)的子集I中每个事件的后验概率，计算每个所述参数的更新的估计值，其中所述EM算法至少迭代一次；以及
[0027]d)使用更新的参数估计值确定来自每个所述分布的门。
[0028]在优选的实施方案中，如果来自分布的事件的马氏距离平方的单调函数符合预定阈值条件，则该事件被确定为在该分布的邻域内。优选地，所述P-维参数分布为P-维高斯分布或t-分布。
[0029]在另一个方面中，本发明提供了能够使用本发明方法确定多维数据中的群簇的系统。在一个优选实施方案中，所述系统为流式细胞仪系统，其包括流式细胞仪和执行数据分析的计算机。
【专利附图】

【附图说明】
[0030]图1显示了将本发明的设门方法应用于对应于血液样本中单个细胞群体的数据设门，其在实施例1中描述。
[0031]图2显示了使用本发明的设门方法为对应于血液样本中两个细胞群体的数据设门的结果，其在实施例1中描述。
[0032]发明详述
[0033]为清楚的目的提供下述定义。除非另有说明，本文所用所有术语具有本领域通常的含义。将上文和下文中引用的所有参考文献以引用的方式并入本文。
[0034]本文所用的“系统”、“仪器”和“装置”旨在包括硬件(例如，机械硬件和电子硬件)以及相关软件(例如，计算机程序)组件。
[0035]本文所用的“事件”是指从单个颗粒(如细胞或合成颗粒)所测量的数据。通常，从单个颗粒测量的数据包括多个参数，包括一个或多个光散射参数，以及至少一个荧光强度参数。因此，每个事件被表示为参数测量的向量(vector),其中每个测量的参数对应于数据空间的一维。
[0036]本文所用的颗粒(如细胞或其它颗粒)的“群体”或“子群体”是指具有关于一个或多个测量参数的光学性质的一组颗粒，从而所测量的参数数据在数据空间中形成群簇。因此，群体被认定为数据中的群簇。反之，每个数据群簇通常被解释为对应于一个群体，但是通常也能观察到对应于噪音或背景的群簇。可在维度的子集中确定群簇，即，关于所测量参数的子集，其对应于仅在测量参数的子集中不同的群体。
[0037]本文所用的术语“MFI”是指荧光颗粒群体的平均或中位荧光强度。应理解，可使用其它的群体荧光的统计测量，如截尾均值或截尾中位值荧光。
[0038]可将使用流式细胞仪分析颗粒或细胞的获得的数据进行转换，以便于分析或显示。例如，可使用线性变换来转换数据，以使数据位于点图的范围内。可选地或另外地，可用非线性变换(例如对数变换)来重新调整数据，以保持所述数据的范围位于点图的范围内。这些任选的数据转换也便于在显示数据时对数据中的群簇进行肉眼识别。在实践中，通常将荧光强度参数进行对数变换或显示于对数标尺上，而散射参数通常显示于线性标尺上，有时对各自进行修正以便于显示近零数据。例如，荧光MFI数据通常被变换为以10为底的对数标尺，在对数变换前将小于I的MFI值转换为1，以避免获得负值的变换数据。类似地，侧向散射(SSC)数据通常显示在线性标尺上，并且在设门之前去除任何能由于检测系统噪音而产生的测量SSC值小于0的事件。参数值通常标定在一个标准范围内，例如，(0， 1000)。
[0039]优选地，在使用本发明方法进行分析之前，补偿来自细胞或颗粒群体的数据，但是这并非本发明的关键方面，本发明方法可使用未补偿的或部分补偿的数据。补偿可用于使用测量来自多种染料发射的仪器获得的数据，其中使用多个光检测器，每个光检测器被配置为能检测来自其中一种染料的发射，如典型的流式细胞仪。补偿是指有效地从光检测器检测的光总量中去除由于非目标染料的染料的溢发射所贡献光量的过程。因此，补偿后，从单个光检测器检测到的光量表示单种染料发射的光量测量。补偿通过使每种染料的测量独立而便于对来自多重染色颗粒的数据进行分析。补偿的方法为本领域所熟知，其描述于，例如，Bagwell 等人“Fluorescence Spectral Overlap Compensation forany Number of Flow Cytometer Parameters，，，Ann.N.Y.Acad.Sc1.677，167-184 (1993)；Roederer 等人,“Eight Color, 10-Parameter Flow Cytometry to Elucidate ComplexLeukocyte Hetrogene i ty，，，Cytometry 29, 328-339 (1997)；和 Bigos 等人，Cytometry36:36-45(1999)，将上述文献通过引用并入本文。WinList? (Verity SoftwareHouse, Topsham, Maine)是独立软件包,其允许对流式细胞仪存储数据进行软件补偿。还可参见描述 BD FACSVantage SE 流式细胞仪(可购自 BD Biosciences, San Jose, CA)的 BDFACSDiVa?Option的白皮书，将其通过引用并入本文。
[0040]本发明方法是通用的设门方法，可应用于对可用参数概率分布估计其分布的任何细胞群进行设门。通过多变量概率分布来对数据中被鉴定为群簇的每个群体进行建模。
[0041]在优选的实施方案中，通过具有相同的分布而仅参数值不同的多变量概率分布来对待建模的群簇进行建模。例如，可用高斯分布的混合来对数据中的目标群簇进行建模，其中对每个分布的平均向量和协方差矩阵进行估计以使分布匹配其中一个群体。用于对用流式细胞术获得的细胞群数据设门的优选分布包括高斯(正态)分布和t_分布。
[0042]将待建模的群体数目假定为已知参数。通常，在数据集中可鉴定的不同细胞群体数目通过经验得知，并通过选择用于标记细胞的荧光抗体来预测。而且，用于具体应用的目标细胞群体的数目可为数据集中可鉴定的不同细胞群体总数的一个子集。通常将待建模的群体数目限定为目标群体，但如存在，也可包括其它群体。
[0043]待分析的数据(事件组)y包括独立的多变量观测值H…、yN，其中每个观测值是测量参数值的P-维向量，N为事件的总数。使用多变量概率分布的有限混合对数据建模，其中优选通过单独的分布来描述每个群体。将待建模的群体数目假定为已知参数G，其可能小于数据中可鉴定群簇的数目。因此，通过G个组分的混合来对事件组I建模，每个组分对应于目标群体中的一个。
[0044]高斯分布
[0045]在一个优选实施方案中，通过多变量高斯(正态)分布来对每个组分建模。给定数据1，具有G个组分的混合模型的可能性I为:
【权利要求】
1.在含有至少G个群簇的p-维数据中对多个(G个)群簇进行设门的方法，其中所述数据获自对N个事件的组的测量，所述方法包括: a)使用G个P-维参数分布的混合对所述数据建模； b)提供所述p-维参数分布的参数的初始估计值； c)使用迭代期望最大化(EM)算法，估计每个所述P-维参数分布的更新的参数，其中所述EM方法包括如下步骤: i)针对每个事件，计算所述事件是每个所述参数分布的成员的后验概率， ii)确定在至少一个所述分布的邻域内的所述事件的子集I， iii)根据来自步骤i)的子集I中每个事件的后验概率，计算每个所述参数的更新的估计值，其中所述EM算法至少迭代一次；以及 d)使用更新的参数估计值确定来自每个所述分布的门。
2.根据权利要求1所述的方法，其中如果来自一个分布的事件的马氏距离平方值的单调函数符合预定阈值条件，则该事件被确定为在该分布的邻域内。
3.根据权利要求2所述的方法，其中所述P-维参数分布函数为P-维高斯分布。
4.根据权利要求3所述的方法，其中如果来自一个分布的事件的马氏距离平方值小于预定阈值，则该事件被确定为在分布函数的邻域内。
5.根据权利要求2所述的方法，其中所述P-维参数分布函数为P-维t分布。
6.根据权利要求5所述的方法，其中如果如方程式16中所定义的权重大于预定阈值，则事件被确定为在分布函数的邻域内。
【文档编号】G06F19/00GK103562920SQ201280023266
【公开日】2014年2月5日申请日期:2012年3月20日优先权日:2011年3月21日
【发明者】祝远新, 唐孟湘申请人:贝克顿迪金森公司

2012-2014专利技术

最新回复(0)