定量样本中源自细胞凋亡的dna浓度的方法及其应用

xiaoxiao2020-10-23 13

定量样本中源自细胞凋亡的dna浓度的方法及其应用
【技术领域】
[0001] 本发明涉及分子生物学技术领域，特别涉及一种用于定量样本中源自细胞凋亡的 DNA浓度的方法及其应用。
【背景技术】
[0002] 血浆中存在游离DNA (或称循环DNA，也简称cfDNA)，游离DNA来自凋亡细胞，是一种无细胞状态的、片段化的胞外DNA，存在于血液、滑膜液和脑脊液等体液中。CfDNA在正常人的血液中含量甚微，平均值为13ng/ml，而当机体在一些特殊状态时（如患有肿瘤、自身免疫性疾病、感染性疾病、中风、心肌梗死及妊娠等），其含量明显上升，比如恶性肿瘤患者平均值达到180ng/ml。因此，游离DNA在疾病的早期诊断、预后和监测等方面具有重要潜在价值。
[0003] -直以来，由于缺乏高灵敏性和高特异性的实验方法，导致有关游离DNA与疾病相关性的研宄在较长时期内进展缓慢。直到有效分离游离DNA技术的出现，使这一领域的研宄在最近二十多年得到了较迅速发展。但是，游离DNA含量少，而且高度片段化，提取 cfDNA往往成为后续实验成败的关键。
[0004] 组织内DNA片段（gDNA)为机械或其他理化形式打断，其与游离DNA在序列组成上会有差别，cfDNA在提取过程中可能混入gDNA序列片段，大量混入对后续分析造成影响。

【发明内容】

[0005] 本发明的目的在于提供一种定量样本中源自细胞凋亡的DNA浓度的方法，该方法通过DNA片段的碱基组成信息来对样本中源自细胞凋亡的DNA浓度进行定量。
[0006] 本发明的另一目的在于提供上述定量样本中源自细胞凋亡的DNA浓度的方法的应用。
[0007] 为解决上述技术问题，本发明的实施方式所提供的定量样本中源自细胞凋亡的 DNA浓度的方法，包含下述步骤：
[0008] (1)取健康人的血浆游离DNA样本和机械打断的组织DNA样本，分别测序，将测序获得的序列比对到人类参考基因组上，统计差异序列集合，所述差异序列集合中包含若干差异序列；
[0009] 所述差异序列为：比对到人类参考基因组上的测序序列5'端k个碱基的序列，且游离DNA样本的测序片段中5'端为该种差异序列的序列含量比例，与组织DNA样本的测序序列中5'端为同种差异序列的序列含量比例存在显著差异；其中，k为自然数；
[0010] (2)计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值；
[0011] 计算组织DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值；
[0012] (3)对待检样本进行测序，将测序获得的序列比对到人类参考基因组上，计算所有 5'端为差异序列的序列百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值；
[0013] (4)根据上述来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度。
[0014] Cf DNA是来自于骨髓中性粒细胞凋亡的DNA片段，该种DNA片段由细胞内限制性内切酶切割全基因组DNA而来，限制性内切酶对DNA的切割是有一定偏向性的，本发明根据该原理设计了上述定量样本源自细胞凋亡的DNA浓度的方法，在假定血浆游离DNA皆源自细胞凋亡的基础上，以比对到人类参考基因组上的测序序列5'端、可显著区分游离DNA和机械打断的组织DNA的差异序列的含量特征，实现对样本中源自细胞凋亡的DNA浓度的定量。
[0015] 具体地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，步骤（4)中的根据来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度的计算式为：
[0016] p X p/' + (I - p) X p/ = P!
[0017] 其中：
[0018] P为要计算的待检样本中源自细胞凋亡的DNA的浓度；
[0019] Psef为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值；
[0020] P/ Λ来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值；
[0021] /?为待检样本的差异序列对应片段百分比总量的实际值。
[0022] 优选地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，获取步骤（1)中的血浆游离DNA样本和机械打断的组织DNA样本的方法为：抽取健康人的血液，进行第一次离心，得到上清液和沉淀，取沉淀，再进行机械打断，即为机械打断的白细胞样本，作为机械打断的组织DNA样本；对第一次离心得到的上清液进行第二次离心，去掉沉淀，取上清液，即为血浆游离DNA样本。
[0023] 优选地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，步骤（1)中的统计差异序列集合的方法为：
[0024] 记比对到人类参考基因组上的测序序列5'端k个碱基的序列为Kmer，k为自然数；记差异序列集合为S ;记游离DNA样本组为6。{组，记组织DNA样本组为G g组：
[0025] (1)根据Kmer的不同分别对Gef组和G 8组的测序序列进行分组，统计每组序列的比例：
[0027] 其中：
[0028] P^meri表示样本j的测序序列中，5'端以Kmer开始的序列在所有测序序列中的比例、
[0029] 农示样本j的测序序列中，5'端以Kmer开始的序列的条数、
[0030] Σ 表示样本j的所有测序序列的条数；
[0031] (2)统计在GjP G i且中具有显著差异的kmer :
[0035] 其中：
[0036] 依次表示在Grf组和G g组中5'端为特定Kmer的序列在每个样本的测序序列中的含量比例的平均值、
[0037] ?依次表示在Gcf组和Gg组中5'端为特定Kmer的序列在每个样本的测序序列中的含量比例的总和、
[0038] Σ cfj、Σ gj依次表示Gcf组和G g组中样本的个数；
[0039] 比较上述和Zfmer?，选取: iV的所有Kmer作为集合S，其中，N > 1〇
[0040] 优选地，上述K和N的取值优选为：K为1~10，1 < NS 10。更进一步地，对 S集中Kmer的约束为第一个碱基为G或者C ;N的取值方法如下：对于特定的K的取值， ViV e α+χ)，根据步骤⑷可计算出一系列的差异集合S，对于特定的S，计算Grf组的每个样本的Ps，Ps表示样本序列5'端的Kmer属于S集的序列占总序列的百分比，计算所有 Gcf组中P s集的标准差sd ;计算G 8组样本的P s;在保证步骤（4)中G rf组中P s集和G g组中 Ps集显著差异的约束下，取使得sd极小的N值。
[0041] 进一步地，本发明的实施方式所提供的定量样本中源自细胞凋亡的DNA浓度的方法中，步骤（2)中计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：
[0043]其中：
[0044] PsV为要计算的来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值；
[0045] Σ/fmer e S尸表示血浆游离DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和。
[0046] 进一步地，本发明的实施方式所提供的用于定量样本中源自细胞凋亡的DNA浓度的方法中，步骤（2)中计算组织DNA样本组比对到人类参考基因组上的测序序列中，所有5' 端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：
[0048] 其中：
[0049] P/为要计算的来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值；
[0050] 表示组织DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和。
[0051] 更进一步地，本发明的实施方式所提供的用于定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，步骤（3)中计算待检样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值的公式为：
[0053] 其中：
[0054] Ρ?为要计算的待检样本的差异序列对应片段百分比总量的实际值；
[0055] Σ/Oner ￡ 5'枚mer表不待检样本组比对到人类参考基因组上的测序序列中，所有 5'端为差异序列的序列百分比总和。
[0056] 此外，本发明还提供上述定量样本中源自细胞凋亡的DNA浓度的方法的应用，根据计算得到的待检样本中源自细胞凋亡的DNA的浓度值，可以用于对游离DNA样本的质控，或用于检测组织坏死。
【附图说明】
[0057] 图1是实施例1中来自于血浆游离DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图；
[0058] 图2是实施例1中来自于机械打断的组织DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图。
【具体实施方式】
[0059] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。
[0060] 实施例1
[0061] 1.样本采集：
[0062] 对人群随机取样，取得M个健康人的血液，分离得到两种样本，血液中的游离DNA 样本，血液中的白细胞样本。采样方法如下：
[0063] 抽取健康人的血液7ml血液，进行第一次离心，得到上清液和沉淀，取沉淀，再进行机械打断，即为机械打断的白细胞样本，作为机械打断的组织DNA样本；对第一次离心得到的上清液进行第二次离心，去掉沉淀，取上清液，即为血浆游离DNA样本。
[0064] 将游离DNA样本组记为Grf，其中第i个样本记为
[0065] 将白细胞样本组记为Gg，其中第i个样本记为％;
[0066] 2.统计差异序列集合S :
[0067] 将步骤1中获得的样本进行DNA抽提，测序，并将测序获得的序列比对到人类参考基因组上（hg38)，根据比对到hg38上的序列5'端特征可显著分离Grf、6&组样本，G rf、Gg 组样本内部特征值稳定。附图1为采用fastqc获得的来自于血浆游离DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图；附图2为采用fastqc获得的来自于机械打断的DNA样本所有比对到人类参考基因组上的序列位置-碱基百分比分布图。可以看到，在序列中第1~10个碱基长度位置上的碱基百分比分布差异较显著，因此本发明的实施方式中，优选从序列5'端1~10个碱基的序列中筛选差异序列集合，即N优选取值为 1 ~10〇
[0068] 统计差异序列集合S的具体步骤如下：
[0069] 采得第j个样本，记为Gj，对Gj进行DNA测序，得到DNA序列片段r的集合R j，根据序列片段r的5'端k个碱基的序列（记为Kmer)的不同将屮分为4 k组，如：
[0070] k= 1，可以将序列分为4k= 4组，依次记为#，4，
[0071] k = 2,可以将序列分为4k= 16组，依次记为尺^，......;
[0072] k = 3,可以将序列分为 4k= 64 组，依次记为，......；
[0073] ......
[0074] k = 10,可以将序列分为4k= 4 1(1组，依次记为 Καλααααλαλ^ Kaaaaaaaag^ n J nJ nAAAAAAAAAC^ nAAAAAAAAAT?......;
[0075] 统计每组序列的比例，如：
[0077] 表示样本j的测序序列中，5'端以A碱基开始的序列在所有测序序列中的比例；
[0078] iV/表示样本j的测序序列中，5'端以A碱基开始的序列的条数；
[0079] ΣiV/L#表示样本j的所有测序序列的条数。
[0081] 类似地，
[0085] 下面统计在GjP G g组中有显著差异的Kmer，计算方法如下：
[0086] 计算
[0088] 其中，
[0089] 表示在Gef组中5'端为特定Kmer的序列在每个样本的测序序列中的含量比例的平均值；
[0090] 表示在Gci组中5'端为特定Kmer的序列在每个样本的测序序列中的含量比例的总和；
[0091] Σ rfj表示Gef组中样本的个数。
[0092] 类似地，可以计算得到：Pf胃=
[0093] 比较?和P/mer_，选取的2 2的所有Kmer作为特征集合，记为S。
[0094] 当k = 3，N=2时，获得的差异序列集合S包括表1所示Kmer :
[0095] 表1 :差异序列集合
[0096]
[0097] 3.计算 P/f 和/5/:
[0098] 计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值：
[0100] 计算白细胞样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值：
[0102] 当k = 3, N = 2时，Pf和/5/的具体值如下表2所示（表2中，cfDNAl~cfDNA19 对应的是值，gDNAl~gDNA3对应的是Z 3/値。）
[0103] 表 2 : P/值统计
[0104]
[0105] 根据上表结果，本实施例中计算得到:
'
[0106] /^=0.299848179
[0107] P/=() 1037767
[0108] 4.计算P|:
[0109] 计算待检样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的片段的百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值：
[0111] 本实施例中求得：P|=0.2932898
[0112] 5.计算待检测样本中源自细胞凋亡的DNA的浓度p。
[0113] p X + (1 - p) X Pf =
[0114] 根据上式可得：P =
[0115] 其中，将前述步骤中求得的P/f、/5/和/?的值代入上式中，求得本实施例中待检样本中源自细胞凋亡的DNA浓度为：96. 65511%。
[0116] 本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。
【主权项】
1. 一种定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，包含下述步骤： (1) 取健康人的血浆游离DNA样本和机械打断的组织DNA样本，分别测序，将测序获得的序列比对到人类参考基因组上，统计差异序列集合，所述差异序列集合中包含若干差异序列；所述差异序列为：比对到人类参考基因组上的测序序列5'端k个碱基的序列；且游离 DNA样本的测序序列中5'端为该种差异序列的序列含量比例，与组织DNA样本的测序序列中5'端为同种差异序列的序列含量比例存在显著差异；其中，k为自然数； (2) 计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值；计算组织DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值； (3) 对待检样本进行测序，将测序获得的序列比对到人类参考基因组上，计算所有5' 端为差异序列的序列百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值； (4) 根据上述来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度。2. 根据权利要求1所述的定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，步骤（4)中所述的根据来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值以及待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度的计算式为：其中： P为要计算的待检样本中源自细胞凋亡的DNA的浓度； Pse/为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值； P/为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值； Pi为待检样本的差异序列对应片段百分比总量的实际值。3. 根据权利要求1所述的定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，获取步骤（1)中所述的血浆游离DNA样本和机械打断的组织DNA样本的方法为：抽取健康人的血液，进行第一次离心，得到上清液和沉淀，取沉淀，再进行机械打断，即为机械打断的白细胞样本，作为机械打断的组织DNA样本；对第一次离心得到的上清液进行第二次离心，去掉沉淀，取上清液，即为血浆游离DNA样本。4. 根据权利要求1所述的定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，步骤（1)中所述的统计差异序列集合的方法为：记比对到人类参考基因组上的测序序列5'端k个碱基的序列为Kmer，k为自然数；记差异序列集合为S ;记游离DNA样本组为6。{组，记组织DNA样本组为G g组： (1) 根据Kmer的不同分别对Grf组和68组的测序序列进行分组，统计每组序列的比例：其中： P//mer?表示样本j的测序序列中，5'端以Kmer开始的序列在所有测序序列中的比例、表示样本j的测序序列中，5'端以Kmer开始的序列的条数、 ?表示样本j的所有测序序列的条数； (2) 统计在MP G g组中具有显著差异的Kmer : 分别计算和其中： P/SLr·、依次表示在Grf组和G g组中5'端为特定Kmer的序列在每个样本的测序序列中的含量比例的平均值、 Σ?：/ &、Σ?/ 依次表示在Grf组和G g组中5'端为特定Kmer的序列在每个样本的测序序列中的含量比例的总和、 Σ rfj、Σ gj依次表示Grf组和G g组中样本的个数；比较上述和，选取2 iV的所有Kmer作为集合S，其中，N > 1〇5. 根据权利要求4所述的定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，K 为1~10之间的自然数；I < NS 10。6. 根据权利要求4所述的定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，步骤（2)中所述的计算游离DNA样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：其中： Pse/为要计算的来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值； ^iKrner E S 表示血游离DNA样本组比对到人类参组上的测序序列中，所有5'端为差异序列的序列百分比总和。7. 根据权利要求4所述的用于定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，步骤（2)中所述计算组织DNA样本组比对到人类参考基因组上的测序序列中，所有5' 端为差异序列的序列百分比总和，作为来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值的公式为：其中： P/为要计算的来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值；表示组织DNA样本组比对到人类参考基因组上的测序序列中，所有 5'端为差异序列的序列百分比总和。8. 根据权利要求4所述的用于定量样本中源自细胞凋亡的DNA浓度的方法，其特征在于，步骤（3)中计算待检样本比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和，作为待检样本的差异序列对应片段百分比总量的实际值的公式为：其中： 1?为要计算的待检样本的差异序列对应片段百分比总量的实际值；差异序列集合记为S S枚met表示待检样本组比对到人类参考基因组上的测序序列中，所有5'端为差异序列的序列百分比总和。9. 权利要求1至8中的任一项所述的方法的应用，其特征在于，根据计算得到的待检样本中源自细胞凋亡的DNA的浓度值，对游离DNA样本进行质控。10. 权利要求1至8中的任一项所述的方法的应用，其特征在于，根据计算得到的待检样本中源自细胞凋亡的DNA的浓度值，检测组织坏死。
【专利摘要】本发明属于分子生物学技术领域，公开了一种定量样本中源自细胞凋亡的DNA浓度的方法，该方法对正常人的血浆游离DNA和机械打断的组织DNA测序后，统计在血浆游离DNA测序序列和组织DNA测序序列中含量存在显著差异的差异序列集合，并通过计算得出来自于细胞凋亡样本的差异序列对应片段百分比总量的估计值、来自于非细胞凋亡样本的差异序列对应片段百分比总量的估计值，最后结合待检样本的差异序列对应片段百分比总量的实际值，计算得到待检样本中源自细胞凋亡的DNA的浓度。此外，本发明计算得到的待检样本中源自细胞凋亡的DNA的浓度值，还可用于对游离DNA样本的质控以及对组织坏死的检测。
【IPC分类】G06F19/22, G06F19/24, C12Q1/68
【公开号】CN104894268
【申请号】CN201510308841
【发明人】曾丰波, 杨功达, 韩继臣
【申请人】上海美吉生物医药科技有限公司
【公开日】2015年9月9日
【申请日】2015年6月5日

2012-2014专利技术

最新回复(0)