用于综合多种环境与遗传风险因子的方法和系统的制作方法

xiaoxiao2020-7-22  17

专利名称:用于综合多种环境与遗传风险因子的方法和系统的制作方法
用于综合多种环境与遗传风险因子的方法和系统相关申请的交叉引用本申请要求于2008年9月12日提交的美国临时申请61/096,758的优先权,将该申请的全部内容引入本文作为参考。
背景技术
常见疾病和病症的病因通常是由于遗传和环境因素两者的影响。基因分型技术的最新进展极大地提高了对于这些疾病的遗传作用的理解。最近已经完成了许多全基因组相关性研究,旨在发现常见疾病与基因组中常见的遗传变异之间的新关联。这些研究清楚地揭示出疾病的机制以及根据他们的遗传组成揭示出个体在其一生中发生疾病的风险。在生命的早期将遗传风险信息整合到临床决策过程中可以对减轻甚至预防疾病的症状或病症具有重要作用。常见的慢性非传染性疾病的流行度通常掩盖了单基因和传染性疾病相结合的流行度。常见SNP变异占了相当数量(如果不是全部的话)常见疾病的种系基因风险的一部分且在该环境中使用时,可以更好地为个体提供个性化和重点地减轻暴露(exposure mitigation)、早期检测和早期干预方案。基因组中的遗传变异,例如单核苷酸多态性(SNP)、突变、缺失、插入、重复、微卫星等,与多种表型例如疾病或病症有关。可识别和关联个体的遗传变异来确定个体对不同表型的倾向或风险,从而形成个性化的表型谱。低效应尺度的常见SNP变异、罕见的和个体的变异、DNA拷贝数变异和外遗传修饰通常占大部分的遗传风险。准确评估个体的发病风险是一项具有挑战性的任务。风险取决于许多因素,包括遗传风险因子负载、环境因素、性别和年龄。因此,大多数情况下,最准确的风险评估只能提供概率性的风险评估。这些因素可以包括不同的相关变异、其效应尺度、 它们在群体中的频率、影响个体的环境因素(诸如饮食、年龄、家族病史和种族背景)及其相互作用。立刻进行调查所有这些因素的大规模研究是非常昂贵的,而且就我们所知,还没有人进行过这种研究。因此,需要对于生成具有考虑到遗传变异效应的风险评估的个性化表型谱的方法,但并不需要同时评估多种风险因子的大规模的研究结果。此外,需要产生不仅随疾病各不相同,而且可与环境数据结合的风险评估,从而为临床决策(例如具有作为临床分级的预测能力)提供另外的工具。本文公开的公开内容和实施方式满足这些需求并且也具有相关的优势。发明概述本发明提供了生成对于个体的疾病或病症的环境遗传综合指数(Genetic Composite hdex) (EGCI)得分的方法。该方法可以包括从个体的遗传样本生成基因组谱; 从个体获得至少一个环境因子;从该基因组谱和至少一个环境因子生成EGCI得分;并向个体或个体的保健管理者报告EGCI得分。该方法可以进一步包括用补充或修改的环境因子更新EGCI得分。在一些实施方式中,该方法是通过计算机来运行。例如,EGCI得分是通过计算机计算,并可以通过计算机获得和输出结果。环境因子对于疾病或病症的相对风险可以为至少大约1。在一些实施方式中,对于疾病或病症的相对风险至少为大约1. 1、1.2、1.3、1.4或1.5。相对风险可以为至少大约 2、3、4、5、10、12、15、20、25、30、25、40、45或50。在一些实施方式中,环境因子具有至少大约 1的优势比(OR)。在另外的实施方式中,(《为至少大约1.1、1.2、1.3、1.4或1.5。OR可以为至少大约 1. 5、2、3、4、5、10、12、15、20、25、30、25、40、45 或 50。在另一方面,环境因子可以选自个体的出生地、居住地点、生活方式状况;饮食、运动习惯和个人关系。例如,生活方式状况可以为吸烟或饮酒。在一些实施方式中,环境因子是个体的身体测量诸如身体质量指数、血压、心率、葡萄糖水平、代谢物水平、离子水平、体重、身高、胆固醇水平、维生素水平、血细胞计数、蛋白质水平或转录水平。可以使用至少2个环境因子生成EGCI得分,且生成EGCI得分可以假设至少一个或更多的环境因子是对于所述疾病或病症的独立的风险因子。在一些实施方式中,对于具有小于大约95%的遗传度的疾病或病症生成EGCI得分。在一些实施方式中,疾病或病症具有小于大约5%、10%、15%、20%、25%、30%、35%、 40%、45%、50%、55%、60%、65%、70%、75%、80%、85%或 90% 的遗传度。在另一方面,本文所公开的方法可以包括获得个体的遗传样本或生成个体的基因组谱的第三方。遗传样本可以为DNA或RNA,且可以从诸如血液、毛发、皮肤、唾液、精液、尿液、粪便物质、汗液、或口腔样本(buccal sample)的生物样品获得。该方法还包括通过网络传输EGCI得分,通过在线入口、通过纸件或通过电子邮件、通过使用计算机报告EGCI。该报告可以是加密或者非加密的方式。个体的基因组谱可以存入加密的数据库或保险库中,且可以是单核苷酸多态性谱或包括平截、插入、缺失或重复的基因组谱。可以通过使用高密度DNA微阵列、RT-PCR或DNA测序生成基因组谱。在一些实施方式中,通过扩增来自受试者或个体的遗传样本来生成基因组谱。或者,可以不经扩增遗传样本来生成基因组谱。引入的参考内容在说明书中提及的所有出版物、专利和专利申请在此引入作为参考,正如各单个出版物、专利或专利申请特别地和单独地表明引入作为参考一样。


本文公开的实施方式的新颖的特征在权利要求中详细说明。参照下列给出利用了本发明原理的示例性实施方式的详细说明和附图可以更好地理解本发明的特征和优势,在附图中 图1显示对于以下疾病的ROC曲线A)克罗恩病,B) 2型糖尿病和C)类风湿性关节炎。在各个曲线图中,黑线对应于随机预期,当遗传变量已知时,紫线和蓝线对应于理论 (在这两种疾病模型中,进一步说明如下)预期,黄线对应于GCI,绿线对应于逻辑回归。
图2显示具有交互作用的模型和简单积性(multiplicative)模型的ROC曲线A) 克罗恩病,B)类风湿性关节炎和C)2型糖尿病。在各个曲线图中,使用6400的阈值点。
图3描绘A)对于具有25%的终生风险和64%的遗传度的2型糖尿病的优势比和相对风险的比较,B)对于具有42%的终生风险和57%的遗传度的心肌梗塞的优势比和相
5对风险的比较,和C)对于2型糖尿病,均方误差相对于患病的概率的曲线图。
图4显示已知的家族史相对于已知的遗传风险的曲线图。其中遗传风险完全已知的情况下,家族史相对于理论ROC曲线A)克罗恩病,B) 2型糖尿病和C)类风湿性关节炎。 红色曲线显示对于只基于家庭史的分类测试的不同b值的真和假阳性分数。
图5显示已知的遗传和环境因子的效应相对于仅已知的遗传因子的曲线图A)克罗恩病,B) 2型糖尿病和C)类风湿性关节炎。对于克罗恩病,两条曲线的AUC为0.68和 0.72(A)。除了遗传因子,吸烟(相对风险3)被认为是环境变量。对于2型糖尿病,这两条曲线的AUC分别为0. 57和0. 79 (B)。除了遗传因子,身体质量指数(相对风险42. 1)、饮酒 (相对风险1. 75)和吸烟频率(相对风险1. 70)被认为是2型糖尿病的环境因子。对于类风湿性关节炎,两条曲线的AUC是0.685和0.688(C)。吸烟(相对风险1.4)是除了遗传因子之外的环境变量。
图6.A)对于2型糖尿病的GCI计算,基于GCI的平均终生风险和真实的平均风险之间的误差随着假设的终生风险(LTR’ )变化。T2D的真实平均风险=0. 25。B)基于GCI 的平均终生风险和终生风险(LTR’)之间的误差被假设为随着假设的LTR’变化用于GCI计算。
具体实施例方式本发明提供了基于个体的遗传组成进行其基因组谱的风险评估的方法。在一些实施方式中,评估仅基于个体的基因组谱或遗传组成,且所有其他因素是固定的。本文所述的风险评估或风险得分被称为遗传综合指数(GCI),它是一个可量化的(scalable)度量,其可以用于具有任何类型的指导临床决定(诸如对于未来的决定)的遗传风险因子输入的临床环境中。GCI将个体的基因型的信息与平均终生风险、多个风险基因座的优势比信息及参比群体中的基因型频率的分布组合成为一个综合得分,其代表个体发生病症的风险。较高的GCI得分可直观地理解为一种病症的风险增加。GCI基于下面进一步说明的几个假设。 本文也描述了模拟数据以及实际的基因型和临床数据在在不同条件下测试GCI的稳定性。 在一些实施方式中,SNP的效应是独立的,除非存在已在文献中被证明是统计上显著的已知 SNP-SNP相互作用。这种独立性假设通常不影响我们的模型的通用性,因为弱的SNP-SNP相互作用通常不会显著影响其可预测性。
当前风险评估方法提供了开发用于预防医学项目中的风险评估手段的开始点 (starting points) 0然而,这些不同方法的质量和有效性取决于其起源和实施、其理论局限性及其相对优势。例如,接受者操作特性(ROC)曲线用来测量各种风险措施的有效性(例如,参见,Lu 和 Elston,Am. J. of Human Genetics,82 :641-651 (2008))。
ROC曲线也可用于评价GCI得分(例如,通过证明GCI可能是理论上的最佳测试) 和其他风险评估方法。例如,可以模拟不同的疾病模型来计算在理想的“最佳案例”环境 (其中,所有遗传因素是已知的)下这些不同方法的预测能力(例如,GCI相对于其他模型)。这种理想的风险评估取决于一些因素,特别是遗传度和发生病症的平均终生风险等。 通常情况下,遗传度越高,基于单独的基因型信息的风险评估就越好。类似地,平均终生风险一般影响群体中的风险概率的可变性,从而影响理想的风险评估方案的准确性。此外,本文所述的GCI可以在无法获得多种因素诸如遗传因子或环境因子时使用,例如当设计用于同时测试多种因素的大规模研究无法提供时,如对于大量的常见疾病。
基因组谱 基于个体的基因组谱生成GCI。个体基因组谱包括基于遗传变异或遗传标记的有关个体基因的信息。遗传变异可形成基因型,基因型构成基因组谱。这些遗传变异或者遗传标记包括但不限于单核苷酸多态性(SNP)、单和/或多核苷酸重复、单和/或多核苷酸缺失、微卫星重复(通常具有5 1000个重复单元的小量核苷酸重复)、二核苷酸重复、三核苷酸重复、序列重排(包括易位和重复)、拷贝数变异(在特定基因座上的缺失和增加) 等。其他遗传变异包括染色体重复和易位以及着丝粒重复和端粒重复。
基因型也可以包括单体型和二倍体型。在一些实施方式中,基因组谱可以具有至少100000、300000、500000或者1000000个基因型。在一些实施方式中,基因组谱可以是基本上个体的完整基因组序列。在其他实施方式中,基因组谱为个体完整基因组序列的至少 60^^80%或者95%。基因组谱可以为接近个体完整基因组序列的100%。包含靶标的遗传样品包括但不限于未扩增的基因组DNA或RNA样品或者扩增的DNA(或cDNA)。靶标可以为包含特别感兴趣的遗传标记的基因组DNA的特定区域。
为获得基因组谱,可从个体的生物样品中分离个体的遗传样品。生物样品包括可从中分离遗传物质例如RNA和/或DNA的样品。这些生物样品包括但不限于血液、毛发、 皮肤、唾液、精液、尿、粪便物质、汗液、口腔和各种身体组织。组织样品可以由个体直接采集,例如,口腔样品可以由个体用拭子抹拭其颊部内侧而获得。例如唾液、精液、尿、粪便物质或者汗液的其他样品也可以由个体本人提供。其他生物样品可以由医护人员(例如抽血者、护士或者医生)获取。例如,血液样品可以由护士从个体抽取。组织活检可以由医护人员进行,并且医护人员也易于得到商用试剂盒(kit)以有效地获得样品。可以移取皮肤的小柱面或者可以使用针移取小的组织或流体样品。
也可向个体提供样品收集试剂盒。该试剂盒可以包含用于个体生物样品的样品收集容器。该试剂盒也可以提供个体直接采集其自身样品的说明书,例如需提供多少头发、 尿、汗液或者唾液。该试剂盒也可以包括对于要求由医护人员采集组织样品的个体的说明书。该试剂盒可以包括可由第三方采集样品的场所,例如可以将试剂盒提供给随后从个体采集样品的医疗机构。该试剂盒还可以提供用于将样品递送至样品处理机构的返回包装, 在该机构处遗传物质从生物样品中分离。
可以按照一些公知的生物化学和分子生物学方法中的任何一种方法从生物样品中分离DNA或RNA的遗传样品,参见,例如Sambrook,等人,Molecular Cloning =A Laboratory Manual (Cold Spring Harbor Laboratory, New York) (1989)。也有一些用于从生物样品中分离DNA或RNA的市售的试剂盒和试剂,例如但不限于从DNA Genotek, Gentra Systems、Qiagen、Ambion和其他供应商处获得的试剂盒和试剂。口腔样品试剂盒是很容易商购获得的,例如来自 Epicentre Biotechnologies 的 MasterAmp Buccal Swab DNA提取试剂盒,同样还有用于从血液样品中提取DNA的试剂盒,例如来自Sigma Aldrich 的Extract-N-Amp 。源自其他组织的DNA可以通过以下步骤获得用蛋白酶和热消化该组织、离心样品和使用苯酚-氯仿萃取不需要的物质而将DNA留在水相中。然后可以用乙醇沉淀法进一步分离DNA。
例如,可使用购自DNA Genotek的DNA自收集试剂盒从唾液中分离基因组DNA。个体可以使用该试剂盒收集用于临床处理的唾液标本,且该样品可以方便地在室温下存储和运输。在将样品运送至适当的进行处理的实验室之后,通过样品的热变性和蛋白酶消化 (通常使用由采集试剂盒供应商提供的试剂在50°C下处理至少一小时)分离DNA。随后,对样品进行离心,并且对上清液进行乙醇沉淀。将DNA沉淀物悬浮在适合用于后续分析的缓冲液中。
RNA可用作遗传样品,例如可从mRNA鉴定表达的遗传变异。mRNA包括但不限于 前mRNA转录物、转录物加工中间体、准备用于翻译的成熟mRNA和一种或多种基因的转录物或者源自mRNA转录物的核酸。转录物加工可以包括剪接、编辑和降解。当用于本文时,源自 mRNA转录物的核酸是指mRNA转录物或其子序列最终充当其合成模板的核酸。因此,由mRNA 反转录的cDNA、从cDNA扩增的DNA、从扩增的DNA转录的RNA等都源自于mRNA转录物。可以使用本领域已知的方法从几种身体组织中的任意一种分离RNA,例如使用从I^reAnalytiX 获得的PAXgene Blood RNA系统从未分级的(unfractionated)全血中分离RNA。通常, mRNA用于逆转录cDNA,cDNA随后被使用或进行扩增以用于基因变异分析。
可以由遗传样品不经过遗传样品的扩增而生成基因组谱。或者,在基因组谱分析之前,可以由DNA或通过RNA逆转录得到的cDNA扩增遗传样品。可以通过多种方法扩增DNA,这些方法中的许多使用PCR。参见,例如,PCR Technology principles and Applications for DNA Amplification(Ed. H. A. Erlich, Freeman Press, NY,N.Y.,1992); PCRProtocoIs :A Guide to Methods and Applications (Eds. Innis等人,Academic Press, San Diego, Calif. , 1990) ;Mattila 等人,Nucleic Acids Res. 19,4967(1991) ;Eckert 等人,PCR Methods and Applications 1,17(1991) ;PCR(Eds. McPherson ^A, IRL Press, Oxford);和美国专利第 4,683,202,4, 683,195,4, 800,159,4, 965,188 和 5,333,675 号,上述各文献在此以其全部内容引入作为参考。
其他适合的扩增方法包括连接酶链反应(LCR)(例如,Wu和Wallace,Genomics, 4,560(1989),Landegren 等人,Science, 241,1077(1988)以及 Barringer 等人,Gene, 89 :117(1990))、转录扩增(Kwoh 等人,Proc. Natl. Acad. Sci. USA 86 :1173-1177(1989) 和 W088/10315)、自主序列复制(Guatelli 等人,Proc. Nat. Acad. ki. USA,87 1874-1878(1990)和W090/069%)、靶多核苷酸序列的选择性扩增(美国专利第6,410, 276 号)、共有序列引物聚合酶链式反应(CP-PCR)(美国专利第4,437,975号)、任意引物聚合酶链式反应(AP-PCR)(美国专利第5,413,909,5, 861,245号)、基于核酸序列的扩增 (NABSA)、滚环扩增(RCA)、多重置换扩增(MDA)(美国专利第6,124,120和6,323,009号)和环至环扩增(circle-to-circle amplification) (C2CA) (Dahl 等人,Proc. Natl. Acad. Sci 101 :4548-4553(2004)) ο (参见,美国专利第 5,409,818,5, 554,517 和 6,063,603 号,上述各文献在此引入作为参考)。在美国专利第5,242,794,5, 494,810,5, 409,818,4, 988,617、 6,063,603和5,554,517号以及美国专利申请第09/邪4,317号中描述了可以使用的其他扩增方法,上述各文献在此引入作为参考。
基因组谱可使用这些方法中的任意一种生成。本领域已知用以鉴定遗传变异的几种方法,并且这些方法包括但不限于通过几种方法中的任意一种进行的DNA测序、基于PCR的方法、片断长度多态性分析(限制片段长度多态性(RFLP)、裂解片段长度多态性 (CFLP))、使用等位基因特异性寡核苷酸作为模板的杂交方法(例如,在本文中进一步说明的TaqMan分析和微阵列)、使用引物延伸反应的方法、质谱分析法(例如MALDI-T0F/MS法) 等,例如在Kwok,Pharmocogenomics 1 =95-100(2000)中所述的方法。其他方法包括侵入物方法(invader method),例如单丛(monoplex)和双丛(biplex)侵入物分析方法(例如可得自 Third Wave Technologies, Madison, WI 的方法,并在 Olivier 等人,Nucl. Acids Res. 30 :e53(2002)中有说明)。
例如,高密度DNA阵列可用于生成基因组谱。这些阵列可从Affymetrix和 Illumina Wi^ ( Affymetrix GeneChip 500Κ Assay Manual, Affymetrix, Santa Clara,CA(引入作为参考);Sentrix humanHap650Y基因分型微球芯片(genotyping beadchip),Illumina, San Diego, CA)。高密度阵列可用于生成包含作为SNP的遗传变异的基因组谱。例如,可以通过使用Affymetrix Genome Wide Human SNP Array 6. O对超过 900,000个SNP进行基因分型来生成SNP谱。或者,可以通过使用Affymetrix GeneChip Human Mapping 500K Array Set确定全基因组采样分析的超过500,000个SNP。在这些分析中,人类基因组的子集使用限制性内切酶消化的、接头连接的人基因组DNA通过单引物扩增反应进行扩增。通常地,然后扩增的DNA断裂,在变性和标记样品以与在涂覆的石英表面上特定位置具有DNA探针的微阵列进行杂交之前测定样品质量。监测作为扩增的DNA序列的功能与各探针杂交的标记物的量,从而产生序列信息和最终的SNP基因分型。
高密度阵列的使用是本领域公的,且如果商购获得,可根据制造商的指导进行。例如,使用Affymetrix GeneChip可包括用NspI或MyI限制性内切酶消化分离的基因组 DNA0然后消化的DNA与分别与NspI或MyI限制的DNA退火的NspI或MyI接头寡核苷酸连接。然后包含接头的DNA在连接后通过PCR进行扩增以产生在大约200至1100个碱基对之间的扩增DNA片段,这由凝胶电泳所证实。符合扩增标准的PCR产物进行纯化和定量以进行片段化。PCR产物用DNase I进行断裂以达到最佳的DNA芯片杂交。断裂之后,DNA 片段应小于250个碱基对,并且平均为大约180个碱基对,这通过凝胶电泳证实。然后使用末端脱氧核苷酰转移酶以生物素化合物标记符合片段化标准的样品。接着将标记的片段变性,而后杂交到GeneChip 250K阵列中。杂交之后,在扫描前按三步法对阵列进行染色, 所述的三步法由下列步骤组成链霉抗生物素蛋白藻红蛋白(SAPE)染色,随后是利用生物素化的抗链霉抗生物素蛋白抗体(山羊)的抗体扩增步骤,和用链霉抗生物素蛋白藻红蛋白(SAPE)的最终染色。在标记之后,阵列用阵列保持缓冲液覆盖,然后用例如扫描仪(如 Affymetrix GeneChip Scanner 3000)进行扫描。
在扫描高密度阵列后的数据分析可根据制造商的指导进行。例如,使用 Affymetrix GeneChip 时,可使用 GeneChip 操作软件(GCOS)或使用 Affymetrix GeneChip Command Console 获得原始数据。获得初始数据后用GeneChip基因分型分析软件(GTYPE) 进行分析。可排除GTYPE检出率(call rate)小于特定百分比的样品。例如,可排除小于大约70、75、80、85、90或95 %的检出率。然后用BRLMM和/或SNiPer算法分析对样品进行检验。排除BRLMM检出率小于95%或者SNiPer检出率小于98%的样品。最终,进行关联分析,并且排除SNiPer质量指数小于0. 45和/或哈迪-温伯格ρ-值(Hardy-Weinberg p-value)小于 0. 00001 的样品。
作为DNA微阵列分析的替代或者附加于DNA微阵列分析,可以通过其他基于杂交的方法,例如使用iTaqMan方法及其变型来检测遗传变异,例如SNP和突变。TaqManPCR、迭代 TaqMan 和实时 PCR(RT-PCR)的其他变型,例如 Livak 等人,Nature Genet.,9, 341-32(1995)和 Ranade 等人 Genome Res. , 11,1262-1268(2001)中描述的那些,也可用于在此公开的方法中。在一些实施方式中,特定遗传变异(例如SNP)的探针被标记以形成 TaqMan探针。该探针通常为大约至少12、15、18或20个碱基对长度。它们可为大约10_70、 15-60,20-60或18-22个碱基对长度。探针在5’末端标记有报告标记物,例如荧光团,和在3’末端具有该标记物的猝灭剂。报告标记物可为当在猝灭剂附近(例如探针的长度) 时其荧光被抑制或猝灭的任何荧光分子。例如,报告标记物可为荧光团例如6-羧基荧光素 (FAM)、四氯荧光素(TET)或其衍生物,和猝灭剂可为四甲基若丹明(TAMRA)、二氢环吡咯并吲哚三肽(MGB)或其衍生物。
当报告荧光团和猝灭剂处于邻近位置(相隔探针的长度)时,荧光被猝灭。当探针与目标序列(例如样品中包含SNP的序列)退火时,具有5’到3’核酸外切酶活性的DNA 聚合酶(例如Taq聚合物)可延伸引物且核外切酶活性切割探针,从而将猝灭剂与报告荧光团分离,因而报告荧光团可发荧光。该过程可以重复,例如在RT-PCR中。TaqMan探针通常与位于被设计用于扩增序列的两个引物之间的目标序列互补。因此,PCR产物的聚积可与释放的荧光团的聚积相关,这是因为各探针可与新产生的PCR产物进行杂交。释放的荧光团可被测量,因而存在的目标序列的量可被确定。用于高通量基因分型的RT-PCR方法, 例如 遗传变异也可通过DNA测序进行识别。可以使用DNA测序对个体基因组序列的主要部分或者全部进行测序。通常,常用的DNA测序是基于聚丙烯酰胺凝胶分级分离以解析链封端的片段群(Sanger 等人,Proc. Natl. Acad. Sci. USA 74 :5463-5467 (1977))。已经开发了和在继续开发替代方法来提高DNA测序的速度和简便性。例如,高通量和单分子测序平台可从 454Life Sciences (Branford, CT) (Margulies 等人,Nature437 :376-380 (2005)), Solexa/Illumina (Hayward, CA)、Helicos Biosciences Corporation (Cambridge, MA)(美国申请序列号 11/167046,于 2005 年 6 月 23 日提交)和 Li-Cor Biosciences (Lincoln, NE)(美国申请序列号11/118031,于2005年4月四日提交)商购得到,或者正由它们进行开发。
在生成个体基因组谱后,将该谱以数字化形式存储,例如存储在计算机可读介质上。该谱可以以加密的形式数字化存储。基因组谱被编码成计算机可读形式以作为数据集的部分进行存储,例如在计算机可读介质上,并可作为数据库进行存储,其中基因组谱可 “储蓄(banked)”,并且之后可以再次获取。数据集包括多个数据点,其中各数据点涉及个体。各数据点可以具有多个数据元素。一个数据元素为独特的标识符,用于识别个体的基因组谱。独特的标识符可以是条形码。另一数据元素为基因型信息,例如个体基因组的SNP 或核苷酸序列。对应于基因型信息的数据元素也可包括在数据点中。例如,如果基因型信息包括通过微阵列分析识别的SNP,那么其他的数据元素可包括微阵列SNP识别号。或者, 如果基因型信息通过其他方法识别,例如RT-PCR方法(例如TaqMan测试),则数据元素可包括荧光水平、引物信息和探针序列。其他的数据元素可包括但不限于SNP rs号、多态性核苷酸、基因型信息的染色体位置、数据的质量特性、原始数据文档、数据的图像和提取强度得分。
个体的特定因素,例如身体数据、医学数据、种族、家系、地理、性别、年龄、家族史、已知表型、人口数据、暴露数据(exposure data)、生活方式数据、行为数据和其他已知表型,也可以被引入作为数据元素。例如,因素可包括但不限于个体的出生地、父母和/或祖父母、亲缘家系、居住地、祖先的居住地、环境条件、已知的健康状况、已知的药物相互作用、 家庭健康状况、生活方式状况、饮食、运动习惯、婚姻状况和身体测量数据(例如体重、身高、胆固醇水平、心率、血压、葡萄糖水平和本领域已知的其他测量)。个体的亲属或者祖先 (例如,父母和祖父母)的上述因素也可以加入作为数据元素和用于确定个体的表型或病症的风险。
特定因素可以从调查表或者从个体的保健管理者处获得。然后,可以访问“储蓄” 的谱的信息并且按所需进行使用。例如,在个体的基因型相关性的初始评估中,将分析个体的全部信息(通常在整个基因组上的SNP或其他基因组序列,或者从整个基因组取得)以确定基因型相关性。在后续的分析中,可以按需要或适当地从存储的或储蓄的基因组谱中获取全部信息或者其一部分。
相关件和表型谱 基因组谱用于生成表型谱。基因组谱通常以数字化形式存储,并且在任何时间点都易于访问以产生表型谱。通过应用使基因型与表型相关或关联的规则来产生表型谱。通常使用计算机来应用规则。可以基于表明基因型与表型之间的相关性的科学研究来制定规则。该相关性可由一个或多个专家组成的委员会评议(curated)或确定。通过将规则应用于个体的基因组谱,可以确定个体的基因型与表型之间的相关性。个体的表型谱将具有这一确定。该确定可为个体的基因型与给定的表型之间的正相关性,从而个体具有给定的表型或将会产生该表型。或者,也可确定个体不具有或不会产生给定的表型。在其他的实施方式中,该确定可以是风险因子、估计值或者个体具有或将产生表型的概率。
可以基于多种规则进行确定,例如,可以将多种规则应用于基因组谱以确定个体基因型与特定表型的关联。确定过程也可以结合个体特有的因素,例如种族、性别、生活方式(例如,饮食和锻炼习惯)、年龄、环境(例如,居住位置)、家族病史、个体病史和其他已知表型。特定因素的结合可以通过修改现有的规则来包括这些因素。或者,可由这些因素产生单独的规则,且在已应用现有的规则之后应用于个体的表型确定。
表型可以包括任何可测定的性状或者特性,例如对于某种疾病的易感性或者对于药物治疗的反应。可以包括的其他表型是身体和精神性状,例如,身高、体重、头发颜色、眼睛颜色、晒斑敏感性、体形(size)、记忆力、智力、乐观程度和整体性情。表型也可以包括与其他个体或生物体的遗传比较。例如,个体可能对他们的基因组谱与名人的基因组谱之间的相似性感兴趣。他们也可能使他们的基因组谱与其他生物体(例如细菌、植物或其他动物)进行比较。总之,对于个体所确定的相关表型的集合组成该个体的表型谱。
遗传变异和表型之间的关系可从科学文献中获知。遗传变异的相关性由已经对是否存在一种或多种感兴趣的表型性状和对其基因型谱进行了测试的个体的群体所进行的分析确定。对基因型谱中各遗传变异或多态性的等位基因进行检测以确定是否特定的等位基因的存在与感兴趣的性状相关联。可以通过标准统计方法进行相关性分析,并记录遗传变异与表型特征之间的统计学显著的相关性。例如,可以确定,多态性A的等位基因 Al的存在与心脏病相关。作为进一步的例子,可能发现多态性A的等位基因Al和多态性 B的等位基因Bl的组合存在与癌症风险的增大相关。分析的结果可以在同行评论的文献中公布,由其他研究组进行确认,和/或由专家委员会(例如,遗传学家、统计学家、流行病学家和医生)进行分析,并且也可以进行评议。例如,在美国公开20080131887和PCT公开 W0/2008/067551( 二者在此完整引入)中所记载的相关性可用于本文所述的实施方式中。
可选地,可从存储的基因组谱中产生相关性。例如,具有存储的基因组谱的个体也可具有存储的已知的表型信息。存储的基因组谱和已知的表型的分析可产生基因型相关性。例如,具有储存的基因组谱的250位个体也具有之前他们被诊断为患有糖尿病的存储信息。进行他们的基因组谱的分析并与未患有糖尿病的个体对照组进行比较。然后确定出 之前被诊断为患有糖尿病的个体比对照组具有更高的带有特定遗传变异体的比率,因而可在该特定的遗传变异体和糖尿病之间形成基因型关联。
基于遗传变异体与特定的表型之间的确立的相关性来制定规则。规则可以根据在美国公开2008013188和PCT公开W0/2008/067551中所记载相关的的基因型和表型来生成,且一些规则可结合例如性别和种族的其他因素来生成效应评估。由规则产生的其他量度可以评估相对风险增加。效应评估和估计的相对风险增加可以来自公开的文献,或者由公开的文献进行计算。或者,规则可以基于由存储的基因组谱和先前已知的表型产生的相关性。
遗传变异可包括SNP。尽管SNP出现在单个位点处,但在某一位点处携带特定SNP 等位基因的个体通常可预测地在其他的位点处携带特定的SNP等位基因。SNP与使个体易发疾病或病症的等位基因的相关性通过连锁不平衡产生,其中在群体中两个或多个基因座上的等位基因存在非随机关联的频率大于或者小于由通过重组的随机形成而预期的频率。
其他的遗传标记或变异(例如核苷酸重复或插入)也可以与已经显示为与特定的表型相关的遗传标记发生连锁不平衡。例如,核苷酸插入与表型相关,而SNP与核苷酸插入存在连锁不平衡。形成基于SNP与表型之间的相关性的规则。也可以形成基于核苷酸插入与表型之间的相关性的规则。可以将任一规则或者两个规则应用于基因组谱,因为一个 SNP的存在可以给出某一风险因子,另一规则可以给出另一风险因子,并且当它们结合时可以增大风险。
通过连锁不平衡,易发疾病的等位基因与SNP的特定等位基因或者SNP的特定等位基因的组合共分离(cosegregate)。沿着染色体的SNP等位基因的特定组合被称为单体型,它们组合出现的DNA区域被称为单体型区块。尽管单体型区块可由一个SNP组成,但是单体型区块一般代表在个体之间表现出低的单体型多样性且通常具有低重组频率的一串连续2个或多个SNP。可以通过鉴定位于单体型区块中的一个或多个SNP进行单体型的鉴定。因此,SNP谱通常可用于识别单体型区块,而不是必须识别在特定的单体型区块中的所有 SNP。
SNP单体型模式和疾病、病症或身体状态之间的基因型相关性逐渐变得已知。对于特定的疾病而言,将已知具有该疾病的一组人的单体型模式与无该疾病的一组人相比较。 通过分析许多个体,可以确定在群体中多态性的频率,并且随后这些频率或基因型可以与特定的表型(例如疾病或者病症)相关联。已知的SNP-疾病相关性的实例包括在与年龄相关的黄斑变性中补体因子H的多态性(Klein等人,Science :308 =385-389, (2005))和与肥胖症相关的邻近INSIG2基因的变异(Herbert等人,Science 312 =279-283 (2006)) 其他已知的SNP相关性包括含⑶KN2A和B的9p21区中的多态性,例如与心肌梗塞相关的 rsl0757274、rs2383206、rsl3333040、rs2383207 和 rsl0116277 (Helgadottir 等人, Science 316 :1491-1493(2007) ;McPherson 等人,kience 316:1488-1491(2007))。
SNP可为功能性的或非功能性的。例如,功能性的SNP对细胞功能的效应,因此会产生表型,而非功能性的SNP对功能无影响,但可以与功能性SNP发生连锁不平衡。SNP也可以是同义的或者非同义的。同义的SNP是其中不同形式导致相同多肽序列的SNP,且为非功能性SNP。如果SNP导致不同多肽,那么SNP是非同义的并且可以是或不是功能性的。 用于识别二倍体型(其为2个或多个单体型)中的单体型的SNP或其他的遗传标记可用于使表型和二倍体型相关。有关个体的单体型、二倍体型和SNP谱的信息可存在于个体的基因组谱中。
典型地,对于基于与表型关联的另一遗传标记形成连锁不平衡的遗传标记产生的规则,该遗传标记具有大于0. 5的r2或D’得分(该得分通常在本领域中用于确定连锁不平衡)。该得分可大于大约0.5、0.6、0.7、0.8、0.90、0.95或0.99。结果,用于将表型与个体的基因组谱关联的遗传标记可以相同或者不同于与表型相关的功能性的或公开的SNP。在一些实施方式中,测试SNP也可能还未鉴定,但使用公开的SNP信息,可以基于另一分析方法(例如TaqMan)鉴定等位基因差异或SNP。例如,公开的SNP是rsl061170,但测试SNP 尚未鉴定。可以通过利用公开的SNP的LD分析鉴定测试SNP。或者,可以不使用测试SNP, 而是用TaqMan或其他相当的分析方法评价具有该测试SNP的个体基因组。
测试SNP可以是“直接(DIRECT),,或“标签(TAG),,SNP。直接SNP是与公开的或功能性SNP相同的测试SNP。例如,使用欧洲人和亚洲人的SNP rs 1073640 (其中次要等位基因为A且另一等位基因为G),直接SNP也可以用于FGFR2与乳腺癌的相关性(Easton等人,Nature447 1087-1093 (2007))。欧洲人和亚洲人中可以是FGFR2与乳腺癌的相关性的直接SNP的另一公开的或功能性的SNP是rsl219648 (Hunter等人,Nat. Genet. 39 :870-874 (2007))。标签SNP为测试SNP不同于功能性的或公开的 SNP的情况。标签SNP也可以用于其他遗传变异体,例如,对于CAMTAl (rs4908449)、 9p21 (rsl0757274、rs2383206、rsl3333040、rs2383207、rsl0116277)、C0L1A1(rsl800012)、 FVL(rs6025)、HLA-DQAl(rs4988889、rs2588331)、eNOS(rsl799983)、MTHFR(rsl801133)和 APC(rs28933380)的 SNP。
SNP 的数据库可从例如 International HapMap Project (参见 www. hapmap. org, The International HapMap Consortium, Nature426 :789-796(2003),禾口 The International HapMap Consortium, Nature437 :1299-1320 (2005))、Human Gene Mutation Database (HGMD)公开数据库(参见www. hgmd. org)和单核苷酸多态性数据库(dbSNP)(参见mm. ncbi. nlm. nih. rov/SNP/)中公开获得。这些数据库提供了 SNP单体型,或使得能够确定SNP单体型模式。因此,这些SNP数据库使得能够检测作为大范围的疾病和病症(例如癌症、炎性疾病、心血管病、神经变性疾病和传染病)的基础的遗传风险因素。这些疾病或病症可以是可处置的,其中当前存在处理和治疗方法。处理可以包括预防处理以及改善症状和病症的处理,包括改变生活方式。
还可以检验许多其他的表型,例如身体性状、生理性状、精神性状、情绪性状、种族、家系和年龄。身体性状可以包括身高、发色、眼睛颜色、身体或者例如精力、耐力和敏捷性的性状。精神性状可以包括智力、记忆能力或者学习能力。种族和家系可以包括祖先或种族的鉴定,或者个体的祖先源于哪里。年龄可以是确定个体的实际年龄,或者是个体的遗传学特征使其相对于总的群体所处的年龄。例如,个体的实际年龄为38岁,但是其遗传学特征可以确定其记忆能力或身体健康状况可能为平均观岁。另一年龄性状可以是个体的预计寿命。
其他的表型还可包括非医学状况,例如“娱乐”表型。这些表型可以包括与知名个人例如外国贵族、政治家、名人、发明家、运动员、音乐家、艺术家、商业人士和声名狼藉的个体(例如罪犯)的对比。其他“娱乐”表型可以包括与其他生物体例如细菌、昆虫、植物或者非人类的动物的对比。例如,个体可能有兴趣看看其基因组谱与其宠物狗或前任总统的基因组谱对比会如何。
对存储的基因组谱应用规则以生成表型谱。例如,来自公开资源或存储的基因组谱的相关性数据可形成规则或测试的基础,以应用于个体的基因组谱。规则可以包括关于测试SNP和等位基因以及效应评价的信息,例如OR或优势比(95%置信区间)或者平均值。 效应评价可以是基因型风险,例如对于纯合子的风险(homoz或RR)、风险杂合子(heteroz 或RN)和非风险纯合子(homoz或NN)。效应评价也可以是携带者风险,其为RR或RN对 NN。效应评价可以基于等位基因,例如等位基因风险,例如R对N。这里也存在2、3、4或更多个基因座的基因型效应评价(例如,对于两个基因座效应评价的9种可能的基因型组合 RRRR、RRNN 等)。
对于病症的估计风险可基于美国专利公布20080131887和PCT公布 W02008/067551中列举的SNP。在一些实施方式中,对于病症的风险可基于至少1个SNP。 例如,对个体患阿尔茨海默病(AD)、结肠直肠癌(CRC)、骨关节炎(OA)或皮脱落性青光眼(XFG)的风险的评估可基于1个SNP(例如rs4420638用于AD,rs6983267用于CRC, rs4911178用于OA和rs2165241用于XFG)。对于其他的病症而言,例如肥胖(BMIOB)、格雷夫斯病(GD)或血色素沉着症(HEM),个体的估计风险可以基于至少1个或2个SNP (例如 rs9939609 和 / 或 rs^91171 用于 BMIOB ;DRB1*0301 DQA1*0501 和 / 或 rs3087243 用于 GD ; rsl800562和/或rsl29U8用于HEM)。对于例如但不限于心肌梗塞(Ml)、多发性硬化(MS) 或牛皮癣(PS)的病症,1、2或3个SNP可用于评估个体患该病症的风险(例如,rsl866389、 rsl333049 和 / 或 rs6922269 用于 MI ;rs6897932、rsl2722489 和 / 或 DRB1*1501 用于 MS ; rs6859018、rsll209026和/或HLA00602用于PS)。对于评估个体患多动腿综合征(RLS) 或乳糜泻(celiac disease) (CelD)的风险,可使用1、2、3或4个SNP(例如rs6904723、 rs2300478、rsl026732 和 / 或 rs^96249 用于 RLS ;rs6840978、rsll571315、rs2187668 和 / 或DQA1*0301 DQB1*0302用于CelD)。对于前列腺癌(PC)或狼疮(SLE)而言,可使用1、2、 3、4 或 5 个 SNP 来评估个体患 PC 或 SLE 的风险(例如 rs4242384、rs6983267、rsl6901979、 rsl7765344 和 / 或 rs4430796 用于 PC ;rsl2531711、rsl0954213、rs2004640、DRBl*0301 和 /或DRB1*1501用于SLE)。为了评估个体患黄斑变性(AMD)或类风湿性关节炎(RA)的终生风险,可使用 1、2、3、4、5 或 6 个 SNP (例如 rsl0737680、rsl04909M、rs541862、rs2230199、 rsl061170 和 / 或 rs9332739 用于 AMD ;rs6679677、rsll203367、rs6457617、DRB*0101、 DRB1*0401和/或DRB1*0404用于RA)。为了估计个体患乳腺癌(BC)的终生风险,可使用 1、2、3、4、5、6 或 7 个 SNP (例如 rs3803662、rs2981582、rs4700485、rs3817198、rsl7468277、 rs6721996和/或rs3803662)。为了估计个体患克罗恩氏病(CD)或2型糖尿病(T2D)的终生风险,可使用 1、2、3、4、5、6、7、8、9、10 或 11 个 SNP(例如 rs2066845、rs5743293, rsl0883365、rsl7234657、rsl0210302、rs9858542、rsll805303、rsl000113、rsl7221417、 rs2542151 和 / 或 rsl0761659 用于 CD ;rsl3266634、rs4506565、rsl0012946、rs7756992、 rsl0811661、rsl2288738、rs8050136、rsllll875、rs4402960、rs5215 和 / 或 rsl801282 用于T2D)。在一些实施方式中,用作确定风险的基础的SNP可与上述SNP或其他SNP (例如美国专利公布20080131887和PCT公布W02008/067551中)发生连锁不平衡。
个体的表型谱可包括多种表型。特别地,无论在有症状、症状前或无症状的个体 (包括一种或多种疾病/病症的易感等位基因的携带者)中,通过本文公开的方法评估病人患疾病或其他病症(例如,可能的药物反应,包括代谢、功效和/或安全性)的风险使得能够对多种不相关的疾病和病症的易感性进行预后或者诊断分析。因此,这些方法提供了个体对于疾病或病症的易感性的总体评价,而不需要预先设想任何特定疾病或病症的测试。 例如,本发明的方法使得能够基于个体基因组谱对美国专利公布20080131887和PCT公布 W02008/067551中所列的几种病症中的任何一种的个体易感性进行评价。而且,这些方法允许评价一种或多种表型或病症的个体估计终生风险或相对风险。
该评估提供了关于2种或更多种这些病症的信息,并且可以包括至少3种、4种、 5种、10种、15种、18种、20种、25种、30种、35种、40种、45种、50种、100种或甚至更多种这些病症。表型的单一规则可以应用于单基因的表型。多于一条的规则也可以用于单一表型,例如多基因表型或其中单一基因中的多个遗传变异会影响具有该表型的概率的单基因表型。
在个体患者的基因组谱的最初筛选之后,当知道另外的遗传变异时,可以通过与这些另外的遗传变异(例如,SNP)的比较进行(或可以获得)个体基因型相关性的更新。 例如,更新可以由浏览科学文献以寻找新基因型相关性的遗传学领域的一名或多名普通技术人员定期地进行,例如,每天、每周或每月进行。然后,新基因型相关性可以进一步由本领域中的一位或多位专家的委员会确认。
新规则可以包括不存在现有规则的基因型或者表型。例如,未与任何表型关联的基因型被发现与新的或现有的表型相关。新规则也可以用于先前无基因型与其关联的表型间的相关性。也可以确定用于已具有现有规则的基因型和表型的新规则。例如,存在基于基因型A与表型A之间的相关性的规则。新的研究揭示基因型B与表型A相关,因而产生基于这一相关性的新规则。另一个实例为发现表型B与基因型A相关,并因此制定新规则。
规则也可以根据基于已知的但没有在公开的科学文献中进行初始确认的相关性的发现制定。例如,可能有人报道,基因型C与表型C相关。另外的出版物报道,基因型D 与表型D相关。表型C和D是相关的症状,例如表型C可以是呼吸急促,而表型D是较小的肺容量。利用现存储的具有基因型C和D以及表型C和D的个体的基因组谱通过统计学方法,或者通过进一步的研究,可以发现和确认基因型C与表型D或者基因型D与表型C之间的相关性。然后,可以基于新发现的和确认的相关性生成新规则。在另一实施方式中,可以研究存储的具有特定或相关表型的多个个体的基因型谱来确定这些个体共有的基因型,并且可以确定相关性。基于这一相关性可以生成新规则。
也可以制定规则以修改现有规则。例如,基因型与表型之间的相关性可能部分地由已知个体特征确定,例如,种族、家系、地理、性别、年龄、家族史或者个体的任何其他已知表型。可以制定基于这些已知个体特征的规则并且引入现有规则中,以提供修改的规则。选择待应用的修改规则将取决于个体的特定个体因素。例如,规则可能基于当个体具有基因型E时个体具有表型E的概率为35%。但是,如果个体为特定的种族,所述概率是5%。新规则可以基于这一结果制定并且应用于具有该特定种族特性的个体。或者,可以应用确定值为35%的现有规则,然后应用基于该表型的种族特征的另一规则。基于已知个体特征的规则可以由科技文献确定或者基于对存储的基因组谱的研究确定。在产生了新规则时,可添加新的规则并将其应用于基因组谱,或者可以定期地应用它们,例如一年至少一次。
个体的疾病风险的信息也可以随着允许更高分辨率SNP基因组谱的技术进步而得到扩展。如上所述,使用用于扫描500000个SNP的微阵列技术可以很容易地生成初始SNP基因组谱。考虑到单体型区块的特性,这一数字可用于个体基因组中所有SNP的典型谱。但是,在人类基因组中估计通常发生大约1000万个SNP (International HapMap Project ;www. hapmap. org)。随着能够以更高细节水平对SNP进行实用和经济的解析(例如1,000,000、1,500,000,2, 000,000,3, 000,000或更多SNP的微阵列)的或者全基因组测序方面的技术进步,可以生成更详细的SNP基因组谱。同样,计算机分析方法学方面的进展使得能够经济地进行更精细的SNP基因组谱分析和SNP-疾病相关性主数据库的更新。
在一些实施方式中,可以从个体搜集“区域部署(field-cbployed) ”机制,并结合到个体的表型谱中。例如,个体可以具有基于遗传信息生成的初始表型谱。生成的初始表型谱包括不同表型的风险因子,以及个人行动计划中报告的建议处理或预防措施。表型谱可以包括关于对于某一病症的可利用的药物治疗的信息和/或对于饮食变化或锻炼方案的建议。个体可以选择去看医生或遗传顾问或者通过网络入口或电话联系医生或遗传顾问以讨论他们的表型谱。个体可以决定采取某种行动路线,例如,采用特定的药物治疗、改变他们的饮食,以及在其个人行动计划中建议的其他可能的行动。而后,个体可以随后提交生物样品以评估其身体状况的变化和风险因子的可能变化。
个体可以通过直接将生物样品提交给生成基因组谱和表型谱的机构(或者相关机构,例如由生成遗传谱和表型谱的实体签约的机构)确定该变化。或者,个体可以利用 “区域部署”机制,其中个体可以将他们的唾液、血液或者其他生物样品提交到在其家庭处的检测装置中,由第三方进行分析,且数据经传输以引入另一表型谱中。例如,个体可以接收基于其遗传数据的初始表型报告从而向具有增大的心肌梗塞(MI)终生风险的个体报告。该报告也可以具有预防措施的建议以降低MI的风险,例如降胆固醇药物和饮食改变。 个体可以选择联系遗传顾问或医生以讨论该报告和预防措施并且决定改变他们的饮食。在采用新的饮食一段时间之后,个体可以去看他们的个人医生以检测其胆固醇水平。可以将新的信息(胆固醇水平)传送(例如,通过互联网)给具有基因组信息的实体,并且新的信息用于生成具有心肌梗塞和/或其他病症的新的风险因子的该个体的新表型谱。
个体也可以使用“区域部署”机制或者直接机制,以确定其对于具体药物治疗的个体反应。例如,个体可以测量其对药物的反应,并且该信息可以用于确定更有效的治疗。可测量的信息包括但不限于代谢物水平、葡萄糖水平、离子水平(例如,钙、钠、钾、铁)、维生素、血细胞计数、身体质量指数(BMI)、蛋白质水平、转录物水平、心率等,这些信息能够通过容易利用的方法确定并且能够包括在算法中以与初始基因组谱结合来确定修正的整体风险评估评分。风险评估评分可以是GCI得分。
遗传综合指数(GCI) 在一些实施方式中,组合并分析了关于多种遗传标记或变异与一种或多种疾病或病症的相关性的信息以获得遗传综合指数(GCI)得分。例如,GCI得分可以对于表型由不同的遗传变异的存在与否并入一个或多个优势比或相对风险。GCI得分可以合并来自各种遗传变异的至少2、3、4、5、6、7、8、9或10个优势比或相对风险。
这一得分包括了已知的风险因子以及其他信息和假设,例如,等位基因频率和疾病的流行度。GCI可以用于定量评估疾病或者病症与一系列遗传标记的综合效应的关联。 GCI得分可以用于基于现有科学研究向未受过遗传学训练的人提供有关与相关群体相比其个体患病风险的可靠的(例如,稳固的)、可理解的和/或直观的认识。
GCI得分可以用于生成GCI Plus评分。本文公开的方法包括使用此处描述的GCI 得分,且本领域普通技术人员将会容易地认识到使用GCIPlus评分或其变型来代替在此描述的GCI得分。GCI plus评分可包括所有的GCI假设,包括病症的风险(例如,终生风险)、 年龄限定的流行度和/或年龄限定的发病率。然后个体的终生风险可以计算为与个体GCI 得分除以平均GCI得分成比例的GCI Plus评分。平均GCI得分可以由具有相似家系背景的一组个体确定,例如一组高加索人、亚洲人、东印度人或者其他具有共同家系背景的组。 所述组可以由至少5、10、15、20、25、30、35、40、45、50、55或60个个体组成。在某些实施方式中,平均值可以由至少75、80、95或100个个体确定。GCI Plus评分可以通过确定个体的GCI得分,将该GCI得分除以平均相对风险和乘以病症或表型的终生风险来确定。例如, 使用来自美国专利公布20080131887和PCT公布W0/2008/067551的数据,可来确定个体的 GCI或GCI Plus评分。该评分可以用于生成关于个体的表型谱中一种或多种病症的遗传风险(例如估计的终生风险)的信息。该方法允许计算一种或多种表型或者病症的估计终生风险或者相对风险。单个病症的风险可以基于一个或者多个SNP。例如,对于表型或病症的估计风险可以基于至少2、3、4、5、6、7、8、9、10、11或12个SNP,其中用于估计风险的SNP可以为公开的SNP、测试SNP或以上两者。
可对各种感兴趣的疾病或者病症生成GCI得分。可以集中这些GCI得分以形成个体的风险谱。GCI得分可被数字化存储,从而在任何时间点均可容易地获取它们来产生风险谱。风险谱可以按照大的疾病分类进行分类,例如,癌症、心脏病、代谢紊乱、精神紊乱、骨病或者老年病(age on-set disorder)。大的疾病分类可以进一步被分解成子类。例如, 对于如癌症的大的分类,可以例如按类型(肉瘤、癌瘤或者白血病等)或者按组织特异性 (神经、乳腺、卵巢、睾丸、前列腺、骨、淋巴结、胰腺、食道、胃、肝、脑、肺、肾等)列出癌症的子类。进一步,风险谱可以显示如何随个体年龄或者多种风险因子的调整而预测GCI得分的变化的信息。例如,对于特定疾病的GCI得分可以考虑饮食变化或者采取的预防措施(停止吸烟、服药、双侧根治性乳房切除术、子宫切除术等)的效应。
可对个体生成GCI得分,这向他们提供容易理解的关于个体获得至少一种疾病或病症的风险或对于至少一种疾病或病症的易感性的信息。对单种疾病或病症或多种疾病或病症可生成一项或多项GCI得分。该一项或多项GCI得分可以通过在线入口访问。或者, 可以以纸件形式提供一项或多项GCI得分,后续的更新也以纸件形式提供。纸件可邮寄给个体或其保健管理者或面交。
对于不同基因座的组合效应生成可靠GCI得分的方法可以是基于各研究的基因座的已报告的个体风险。例如,鉴定感兴趣的疾病或病症,然后查询信息来源(包括,但不限于数据库、专利出版物和科学文献)以寻找有关疾病或病症与一个或多个遗传基因座的关联的信息。这些信息来源经过评议并使用质量标准进行评估。在一些实施方式中,评估过程包括多个步骤。在其他实施方式中,以多个质量标准评估信息来源。源自信息来源的信息用于对于感兴趣的各疾病或病症的一个或多个基因座鉴定优势比或者相对风险。
在替代的实施方式中,对于至少一个遗传基因座的优势比(OR)或相对风险(RR) 不能由信息来源中提供或获得。然后使用(1)相同基因座的多个等位基因的报告OR、(2) 来自数据集(例如HapMap数据集)的等位基因频率和/或(3)来自可利用资源(例如, CDC、National Center for Health Statistics等)的疾病/病症流行度计算RR以得出所有感兴趣的等位基因的RR。在一个实施方式中,分别或独立地评估相同基因座的多个等位基因的OR。在优选的实施方式中,结合相同基因座的多个等位基因的OR以说明在不同等位基因的OR之间的相依性(cbpendency)。在一些实施方式中,建立的疾病模型(包括但不限于如积性、加性(additive)、Harvard改良的、显性效应的模型)用于生成按照所选模型表示个体风险的中间评分。
可以使用的方法用来分析感兴趣的疾病或病症的多个模型,并且将由这些不同模型得到的结果相关联;这使得可能通过选择特定疾病模型而引入的可能误差最小化。这一方法使得由信息来源得到的流行度、等位基因频率和OR评估中的合理误差对相对风险计算的影响最小化。不受到理论的限制,由于流行度评估对RR的影响的“线性”或单调特性, 不正确地估计流行度对最终排位评分只有很少或没有影响;条件是相同的模型一致地应用于生成报告的所有个体。
本文所述的方法也可考虑将环境/行为/人口数据作为附加的“基因座”。在相关的方法中,这些数据可以获自信息来源,例如医学或科学文献或数据库(例如,吸烟与肺癌的关联或者来自保险业健康风险评估)。本文也公开了对一种或多种复杂疾病产生的GCI 得分。复杂疾病可以被多个基因、环境因素及它们的相互作用影响。当研究复杂疾病时, 需要分析大量可能的相互作用。用于校正多重比较的方法,例如Bonferroni校正,可用于生成GCI得分。或者,当测试是独立的或者显示特定类型的相依性时,可以使用Simes检验来控制整体显著性水平(也称为“族误差率(familywise error rate) ”)(Sarkar S., Ann Stat 26 :494-504 (1998))。如果对于 1,...,K 中的任意 k,p(k)彡 α k/K,那么 Simes 检验拒绝所有K检验特异性零假设为真的全局零假设(Simes,R. J.,Biometrika 73 751-754(1986))。
可在多基因和多环境因子分析的情况中使用的其他实施方式控制误发现率 (false-discovery rate),即错误拒绝的拒绝零假设的预期比例。正如在微阵列研究中,当零假设的一部分可以假定为错误时,这一方法可能是特别有用的。Devlin等人 (Genet. Epidemiol. 25 :36-47(2003))提出了当在多基因座关联研究中测试大量可能的基因X基因相互作用时控制误发现率的Benjamini和Hochberg (J. R. Stat. Soc. Ser. B 57 289-300(1995))步进(step-up)程序的变型。Benjamini 和 Hochberg 程序与 Simes 检验有关;设定k* = maxk以致p(k)彡^^/!(,其拒绝所有对应于?⑴,…,;?^的!^零假设。事实上,当所有零假设为真时,Benjamini和Hochberg程序简化为Simes检验(Benjamini和Yekutieli, Ann. Stat. 29 :1165-1188 (2001)) 本文还提供了对个体的排位,其中个体基于其中间评分与个体的群体比较进行排位以产生最终排位评分,这可以表示为在群体中的排位,例如第99百分位或第99、98、97、 96、95、94、93、92、91、90、89、88、87、86、85、84、83、82、81、80、79、78、77、76、75、74、73、72、 71、70、69、65、60、55、50、45、40、40、35、30、25、20、15、10、5 或 0 百分位。排位评分可以显示为范围,例如第100至第95百分位、第95至第85百分位、第85至第60百分位或者在第 100至第0百分位之间的任何子范围。个体也可按四分法进行排位,例如最高的第75四分位或者最低的第25四分位。个体也可与群体中的平均或中位评分比较而进行排位。
在一个实施方式中,个体与之比较的群体包括大量来自不同地理和种族背景的人,例如全球性群体。或者,个体与之比较的群体限于特定的地理、家系、种族、性别、年龄 (例如,胎儿、新生儿、儿童、少年、青年、成年人、老年人)、或疾病状态(例如,有症状的、无症状的、携带者、早发、迟发)。在一些实施方式中,个体与之比较的群体源自公开和/或私人信息来源报道的信息。
GCI得分可使用多步法生成。例如,开始时,对于要研究的各病症,计算源自各遗传标记的优势比的相对风险。对于P = O. 01,0. 02、. . .、0. 5的每个流行度值,HapMap CEU 群体的GCI得分基于流行度和HapMap等位基因频率计算。如果在变化的流行度下GCI得分不变,则考虑的唯一假设为存在积性模型。否则,可以确定该模型对流行度敏感。对于未检出值(no-call value)的任何组合,获得相对风险和评分在HapMap群体中的分布。对于各新个体,个体得分与HapMap分布比较并且所得评分为个体在这一群体中的排位。由于过程中所作的假设的原因,报告的评分的分辨率可能较低。群体将划分成分位点(3-6个箱元 (bin)),并且报告的箱元将是其中个体排位落入的一个。基于例如对于各疾病的评分的分辨率的考虑,箱元的数量对不同疾病可以是不同的。在不同HapMap个体的评分之间不相上下的情况下,将使用平均排位。
较高的GCI得分可以解释为具有获得或被诊断具有病症或疾病的增大的风险的指示。通常使用数学模型推导出GCI得分。GCI得分可以基于说明作为关于群体和/或疾病或病症的信息的基础的不完全特性的数学模型。数学模型可以包括作为计算GCI得分的部分基础的至少一个假设,其中该假设包括但不限于给定优势比值的假设;病症的流行度已知的假设;群体中的基因型频率已知的假设;和/或消费者来自与研究所使用的群体和与HapMap相同的家系背景的假设;合并风险为个体遗传标记的不同风险因子的积的假设。GCI也可以包括基因型的多基因型频率为各SNP或个体遗传标记(例如,不同SNP或遗传标记在整个群体内是独立的)的等位基因频率的积的假设。
积性模型 可以在归因于遗传标记集合的风险是归因于个别遗传标记的风险的积的假设下计算GCI得分。因此,不同遗传标记与其他遗传标记无关地造成疾病的风险。形式上,存在具有风险等位基因ri.....和非风险等位基因Ii1.....nk的k个遗传标记。在SNP i中,三个可能的基因型值表示为ι·Λ、ηΛ和ηΑ。个体的基因型信息可以通过向量(gl.....gk)描述,其中根据i位置上风险等位基因的数目, 可以是0、1或2。通过由λ 表示与i位置上纯合非风险等位基因相比的相同位置上杂合基因型的相对风险。换言之
权利要求
1.一种生成对于个体的疾病或病症的环境遗传综合指数(EGCI)得分的方法,包括(a)从所述个体的遗传样本生成基因组谱;(b)从所述个体获得至少一个环境因子,其中,所述环境因子对于所述疾病或病症具有至少为大约1的相对风险;(c)使用计算机,从所述基因组谱和所述至少一个环境因子生成EGCI得分;和(d)向所述个体或所述个体的保健管理者报告由所述计算机获得和输出的所述EGCI 得分。
2.根据权利要求1所述的方法,其中,所述相对风险为至少大约1.1、1. 2,1. 3、1. 4或1. 5。
3.根据权利要求1所述的方法,其中,所述相对风险为至少大约2、3、4、5、10、12、15、 20、25、30、25、40、45 或 50。
4.根据权利要求1所述的方法,其中,所述至少一个环境因子具有至少大约1的优势比 (OR)。
5.根据权利要求4所述的方法,其中,所述OR为至少大约1.1、1.2、1.3、1.4或1.5。
6.根据权利要求4所述的方法,其中,所述OR为至少大约2、3、4、5、10、12、15、20、25、 30、25、40、45 或 50。
7.根据权利要求1所述的方法,其中,所述至少一个环境因子选自所述个体的出生地、 居住地点、生活方式状况;饮食、运动习惯和个人关系。
8 根据权利要求7所述的方法,其中,所述生活方式状况为吸烟或饮酒。
9.根据权利要求1所述的方法,其中,所述至少一个环境因子为所述个体的身体测量。
10.根据权利要求9所述的方法,其中,所述个体的所述身体测量选自身体质量指数、 血压、心率、葡萄糖水平、代谢物水平、离子水平、体重、身高、胆固醇水平、维生素水平、血细胞计数、蛋白质水平和转录水平。
11.根据权利要求1所述的方法,其中,生成所述EGCI得分使用至少2个环境因子。
12.根据权利要求1所述的方法,其中,在生成所述EGCI得分中假设所述至少一个环境因子是对于所述疾病或病症的独立风险因子。
13.根据权利要求1所述的方法,其中,所述疾病或病症具有小于大约95%的遗传度。
14.根据权利要求1所述的方法,其中,所述疾病或病症具有小于大约5%、10%、15%、 20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85% 或 90% 的遗传度。
15.根据权利要求1所述的方法,其中,第三方获得所述遗传样本。
16.根据权利要求1所述的方法,其中,由第三方生成所述基因组谱。
17.根据权利要求1所述的方法,其中,所述报告包括通过网络传输所述EGCI得分。
18.根据权利要求1所述的方法,其中,所述报告是通过在线入口进行。
19.根据权利要求1所述的方法,其中,所述报告是通过纸件或通过电子邮件。
20.根据权利要求1所述的方法,其中,所述报告包括以加密方式报告。
21.根据权利要求1所述的方法,其中,所述报告包括以非加密方式报告。
22.根据权利要求1所述的方法,其中,所述遗传样本为DNA。
23.根据权利要求1所述的方法,其中,所述遗传样本为RNA。
24.根据权利要求1所述的方法,其中,所述遗传样本从选自血液、毛发、皮肤、唾液、精液、尿液、粪便物质、汗液和口腔样本的生物样品获得。
25.根据权利要求1所述的方法,其中,所述个体的基因组谱存入加密的数据库或保险库。
26.根据权利要求1所述的方法,其中,所述基因组谱为单核苷酸多态性谱。
27.根据权利要求1所述的方法,其中,所述基因组谱包括平截、插入、缺失或重复。
28.根据权利要求1所述的方法,其中,所述基因组谱使用高密度DNA微阵列来生成。
29.根据权利要求1所述的方法,其中,所述基因组谱使用RT-PCR来生成。
30.根据权利要求1所述的方法,其中,所述基因组谱使用DNA测序来生成。
31.根据权利要求1所述的方法,进一步包括(e)用附加或修改的环境因子更新所述 EGCI得分。
全文摘要
本发明提供了用于将多种环境和遗传风险因子引入个体基因组谱的方法和系统。所述方法包括通过综合多种遗传风险因子、环境风险因子或其组合来评价个体基因型与至少一种疾病或病症之间的关联。
文档编号G06F19/18GK102187344SQ200980140811
公开日2011年9月14日 申请日期2009年9月11日 优先权日2008年9月12日
发明者E·哈尔佩林, J·维瑟尔, M·卡吉尔, D·A·斯特潘 申请人:纳维哲尼克斯公司

最新回复(0)