确定体细胞突变原因的方法
【专利说明】确定体细胞突变原因的方法 技术领域 本发明通常涉及确定诱变剂引起的核酸分子靶向体细胞突变已经发生的可能性的方 法,和确定诱变剂是核酸分子的靶向体细胞突变的原因的可能性的方法。本发明还涉及受 试者患癌症的诊断方法和/或确定受试者患或将患癌症的可能性,治疗癌症患者或癌症高 危人群的方法。在另一方面,本发明涉及识别核酸分子基序的方法,此基序被诱变剂识别或 靶向。 相关申请 本申请要求2012年11月5日提交的题为"体细胞突变相关疾病的诊断方法"的澳大 利亚临时申请2012904826 ;2012年11月13日提交的题为"体细胞突变相关疾病的诊断方 法和数据库系统"的澳大利亚临时申请2012904940和2013年4月12日提交的题为"少量 体细胞突变的诱变相关疾病的诊断方法"的澳大利亚临时申请2013901253的优先权。澳大 利亚临时申请2012904826, 2012904940和2013901253的主题通过引用的方式整体并入本 文。 【背景技术】 正常细胞发展成癌细胞受多种因素的影响,包括免疫系统,激素状态,基因表达和组织 间的信号的改变。癌症的发展的一个特别重要的因素是体细胞突变,它在大多数(如果不 是全部)组织类型的癌症中作用。 各种基因体细胞突变的累积与癌症的发展直接相关。这已经通过体细胞突变增加的 各种动物模型证明,例如,受损的DNA聚合酶的校对或DNA修复与加速肿瘤进展相关(参 加例如 Venkatesan et al. (2007) .Mol. Cell. Biol. 27:7669-7682 ;and Albertson (2009) Proc. Natl. Acad. Sci. U. S. A. 106, 17101-17104)。各种基因体细胞突变的增加的与多种癌 症有关。例如,在TP53基因的体细胞突变是癌症中最常见的基因变异。几乎所有类型的癌 症有TP53体细胞突变,从突变率为38% -50%卵巢癌,食管癌,结肠直肠癌,头颈癌,喉癌 和肺癌,到突变率为5%的初级白血病,肉瘤,睾丸癌,恶性黑色素瘤,和子宫颈癌,和晚期或 侵袭性癌症亚型(如三阴性或HER2扩增的乳腺癌),都与TP53体细胞突变频率增加有关 (reviewed in Olivier et al. (2010)Cold Spring Harb Perspect Biol2:a001008)。与 癌症相关的体细胞基因突变积累包括,例如,BRAF,RAS,KRAS2和NRAS,虽然癌症体细胞获 得性突变在线数据库cosmic包括25000多个基因。 环境因素可引起体细胞突变,例如香烟烟雾、紫外线和辐射,和/或生物因子或进程, 如染色体易位,DNA错配修复或未修复和酶启动体细胞超突变(SHM)。确定体细胞突变的原 因和范围不仅可以帮助诊断与体细胞突变相关的条件或预测开发这样条件的风险,而且还 可以协助发展最合适的治疗或预防方案。因此,需要精确的方法确定体细胞突变的存在和 哪些诱变剂引起受试者体细胞突变。
【发明内容】
本发明部分基于确定诱变剂导致核酸分子一个特定密码子背景发生体细胞突变的偏 好。因此,尽管已经知道一些诱变剂作用于基序,如本文所述这些基序的诱变主要发生在一 个特定密码子背景,这一过程本文称靶向体细胞突变。通过识别所述基序的密码子背景,本 发明人已经制定了用于确定所述类型的靶向体细胞突变已经发生的方法和确定一个或多 个特定诱变剂是核酸分子的靶向体细胞突变的原因的方法。已经建立了。通过评定靶向体 细胞突变的实例确定确定诱变剂靶向的基序的通用方法并在本文描述。 因为体细胞突变的累积与癌症的发生与发展与体细胞突变的累积有关,本文已经确定 了诊断受试者患癌症和/或确定受试者已经或将患癌症的可能性的方法。通过确定致病诱 变剂和/或诊断癌症或癌症发生的可能性,制定适当和具体的治疗方案抑制或减少诱变剂 的活性,和/或治疗或预防癌症。 因此,在一个方面,本发明是针对用于检测或确定诱变剂引起的核酸分子靶向体细胞 突变已经发生的方法,包括分析所述核酸分子的序列,以确定一个或多个基序密码子背景 突变的突变类型,其中,当核酸分子密码子一个位点突变的数量或百分比高于预期时,可以 定确靶向体细胞突变已经发生或可能发生。 通常,通过假设密码子背景的单独突变计算突变的预期数量或百分比。在一些实施方 案中,突变的预期百分比大约是11%或17%,和/或突变的预期数量大约是每9个突变有1 个或每6个突变有1个。在一些实例中,突变的百分比为至少30 %,35 %,40 %,45 %,50 %, 55%,60%,65%,70%,80%,85%,90%,95% 或更多。 确定诱变剂引起的靶向体细胞突变是否已经发生的方法还包括确定哪个诱变剂是靶 向体细胞突变的原因。诱变剂选自,例如,黄曲霉毒素,4-氨基联苯,马兜铃酸,砷化合物, 石棉,硫唑嘌呤,苯,联苯胺,铍和铍的化合物,1,3-丁二烯,二甲基磺酸1,4_ 丁二醇酯,镉 和镉化合物,苯丁酸氮芥,1_(2_氯乙基)-3-(4_甲基环己基)-1_亚硝基脲(MeCCNU),二 氯二甲醚和工业级氯甲基甲醚,铬六价铬化合物,煤焦油沥青,煤焦油,焦炉逸散物,环磷酰 胺,环孢菌素A,己烯雌酚(DES),毛沸石,环氧乙烷,甲醛,美法仑,长波紫外线联合甲氧沙 林(PUVA),芥子气,2-萘胺,中子,镍化合物,氡,结晶二氧化硅(可吸入粒度),太阳辐射, 煤烟,:含有硫酸的强无机酸酸雾,他莫昔芬,2, 3, 7,8_四氯双苯环二恶英(TCDD),塞替 派,二氧化钍,烟草烟雾,氯乙烯,紫外线辐射,木肩,X射线,伽玛辐射,活化诱导胞苷脱氨酶 (AID),载脂蛋白B mRNA编辑酶催化多肽样蛋白(APOBEC)胞苷脱氨酶,和易错DNA聚合酶。 在一些实例,APOBEC 胞苷脱氨酶选自 APOBEC l、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、 APOBEC3F、APOBEC3G 和 APOBEC3H。 在特定的实施例中,所述诱变剂选自AID,APOBEC1,APOBEC3G,APOBEC3H和黄曲霉毒 素如果在核酸分子非转录链密码子第二位点(MC-2位点)GYW基序的G>A突变的数量或百 分比高于预期,可以确定AID是靶向体细胞突变的一个可能的原因;如果核酸分子非转录 链密码子第一位点(MC-1位点)WRC基序的C>T突变的数量或百分比高于预期,可以确定 AID是靶向体细胞突变的一个可能的原因;如果核酸分子非转录链密码子MC-2位点CG基 序的G>A突变的数量或百分比高于预期,可以确定APOBEC3G是靶向体细胞突变的一个可能 原因;如果核酸分子非转录链密码子MC-1位点CG基序的C>T突变的数量或百分比高于预 期,可以确定APOBEC3G是靶向体细胞突变的一个可能原因;如果核酸分子非转录链密码子 MC-1位点CC基序的C>T突变的数量或百分比高于预期,可以确定APOBEC3G是靶向体细胞 突变的一个可能原因;如果核酸分子非转录链密码子MC-1位点GA基序的G>A突变的数量 或百分比高于预期,可以确定AP0BEC3H是靶向体细胞突变的一个可能原因;如果核酸分子 非转录链密码子MC-1位点CA基序的C>T突变的数量或百分比高于预期,可以确定AP0BEC1 是靶向体细胞突变的一个可能原因;如果核酸分子非转录链密码子MC-2位点TG基序的 G>A突变的数量或百分比高于预期,可以确定AP0BEC1是靶向体细胞突变的一个可能原因; 如果核酸分子非转录链密码子MC-3位点GG基序的G>T突变的数量或百分比高于预期,可 以确定黄曲霉毒素是靶向体细胞突变的一个可能原因;其中所述核酸分子来自受试者的生 物样品。 确定靶向体细胞突变是否发生的方法的实施方案还包括确定AID相关的突变过程是 否可以引起所述靶向体细胞突变。例如,如果在核酸分子非转录链密码子MC-2位点WA基 序的A>G突变,MC-2位点GYW基序的G>A突变或MC-1位点WRC基序的C>T突变的数量或 百分比高于预期,可以确定AID相关的突变过程是靶向体细胞突变的一个可能原因。 在本发明方法的具体例子中,如果确定AID是靶向体细胞突变的一个可能原因,该方 法还包括对受试者施用AID抑制剂;如果确定AP0BEC3G是靶向体细胞突变的一个可能原 因,该方法还包括对受试者施用AP0BEC3G抑制剂;如果确定AP0BEC3H是靶向体细胞突变的 一个可能原因,还包括对受试者施用AP0BEC3H抑制剂;如果确定AP0BEC1是靶向体细胞突 变的一个可能原因,还包括对受试者施用AP0BEC1抑制剂。 在进一步的实施方案中,如果确定靶向体细胞突变已经发生和/或诱变剂是靶向体 细胞突变的可能原因,所述方法还包括在受试者中诊断癌症或确定受试者将患癌症的可能 性。 在其它方面,本发明涉及确定受试者已患或将患癌症的可能性的方法,包括分析取自 受试者生物样品的核酸分子,以检测一个或多个诱变剂是否引起靶向体细胞突变,并确定 发生靶向细胞诱变的受试者很可能已经患或发展成癌症。 在一个实例中,检测靶向体细胞突变的时机:核酸分子非转录链密码MC-2位点GYW基 序的G到A突变的数量或百分比高于预期;核酸分子非转录链密码子MC-1位点WRC基序的 C>T突变的数量或百分比高于预期;核酸分子非转录链密码子MC-2位点CG基序的G>A突 变的数量或百分比高于预期;核酸分子非转录链密码子MC-1位点CG基序的C>T突变的数 量或百分比高于预期;核酸分子非转录链密码子MC-1位点CA基序的C>T突变的数量或百 分比高于预期;在核酸分子非转录链密码子MC-1位点GA基序的G>A突变的数量或百分比 高于预期;核酸分子非转录链密码子MC-2位点TG基序的G>A突变的数量或百分比高于预 期;核酸分子非转录链密码子MC-3位点GG基序的G>T突变的数量或百分比高于预期;核酸 分子非转录链密码子MC-1位点CC基序的C>T突变的数量或百分比高于预期;或核酸分子 非转录链密码子MC-2位点WA基序的A>G突变的数量或百分比高于预期。 在具体的实例中,权利要求19所述的方法,如核酸分子非转录链密码子MC-2位点GYW 基序的G>A突变或MC-1位点WRC基序的C>T突变的数量或百分比高于预期,确定所述诱变 剂是AID ;如果核酸分子非转录链密码子MC-2位点CG基序的G>A突变,MC-1位点CG基序 的C>T突变或MC-1位点CG基序的C>T突变的数量或百分比高于预期,其中所述诱变剂是 AP0BEC3G ;如果核酸分子非转录链密码子MC-1位点CA基序检测的C>T突变或MC-2位点TG 基序的G>A突变的数量或百分比高于预期,所述诱变剂是AP0BEC1。如果核酸分子非转录链 密码子MC-1位点GA基序的G>A突变的数量或百分比高于预期,所述诱变剂是AP0BEC3G。 如果核酸分子非转录链密码子MC-3位点GG基序的G>T突变的数量或百分比高于预期,所 述诱变剂是黄曲霉毒素。 所述生物样品包括乳腺、前列腺、肝、结肠、胃、胰腺、皮肤、甲状腺、子宫颈、淋巴、造血、 膀胱、肺、肾、直肠、卵巢、子宫和头颈部的组织或细胞,并且,在一些情况下,所述癌症选自 乳腺癌、前列腺癌、肝癌、结肠癌、胃癌、胰腺癌、皮肤癌、甲状腺癌、子宫颈癌、淋巴癌、血癌、 膀胱癌、肺癌、肾癌、直肠癌、卵巢癌、子宫癌和头颈部癌。在具体的实例中,所述癌症是肝细 胞癌,黑素瘤或腺样囊性癌。 本发明的一些实施方案中,如果所述样品包括前列腺组织或细胞,可以诊断受试者患 有前列腺癌或确定受试者可能已经患或将患癌症。在其他实施方案中,如果所述样品包括 乳腺组织或细胞,可以诊断受试者患有乳腺癌或确定受试者可能患或将患乳腺癌。 本发明的方法还包括治疗受试者,例如,放射疗法,外科手术,化疗,激素消融治疗, 促凋亡疗法和/或免疫疗法。在具体的实例中,所述方法包括对受试者施用AID抑制剂、 AP0BEC3G抑制剂、AP0BEC1抑制剂和/或AP0BEC3H抑制剂。 在另一个方面,本发明涉及通过诱变剂靶向识别核酸基序的方法,包括分析核酸分子 的序列,以确定诱变剂引起的基因突变是体细胞突变;确定突变的密码子背景,以识别发生 突变高于预期频率的优选核苷酸位点;并且识别位于优选核苷酸位点的核苷酸侧翼突变, 以便识别所述突变的共同基序。 本发明涉及识别针对诱变剂的核酸基序的方法,包括:分析核酸分子的序列,以确定所 述核酸分子的体细胞突变;识别密码子优选核苷酸位点上高于预期频率的突变型;并且识 别位于优选核苷酸位点的核苷酸侧翼突变,以便识别所述突变的共同基序。 所述突变类型选自 C>T、C>A、C>G、G>T、G>A、G>C、A>T、A>C、A>G、T>A、T>C 和 T>G 突,所 述优选核苷酸位点选自MC-1,MC-2和MC-3。 在此类方法中,通过假设密码子背景的单独突变计算所述预期频率。例如,所述预期频 率大约是每9个突变有1个或每6突变有1个。在一些实施方案中,所述突变发生在优选核 苷酸位点的至少有 30%、35%、40%、45%、50%、55%、60%、65%、70%、80%、85%、90%、 95%或更多。 本发明方法的一些实施方案中,分析所述核酸分子的非转录链。 所述诱变剂对于获得核酸的细胞来说是内源性的或外源性的。例如,所述诱变剂选 自:4_氨基联苯,马兜铃酸,砷化合物,石棉,硫唑嘌呤,苯,联苯胺,铍和铍化合物,1,3- 丁 二烯,二甲基磺酸1,4_ 丁二醇酯,镉和镉化合物,苯丁酸氮芥,1-(2_氯乙基)-3-(4_甲基 环己基)-1_亚硝基脲(MeCCNU),二氯二甲醚和工业级氯甲基甲醚,铬六价铬化合物,煤焦 油沥青,煤焦油,焦炉逸散物,环磷酰胺,环孢菌素A,己烯雌酚(DES),毛沸石,环氧乙烷,甲 醛,美法仑,长波紫外线联合甲氧沙林(PUVA),芥子气,2-萘胺,胞苷脱氨酶,和易错DNA聚 合酶。本发明方法的具体例子中,所述核酸分子或获得核酸分子的细胞,在分析之前,已经 暴露于诱变剂。 在本发明方法的实施案中还包括第一次分离核酸分子和/或核酸分子的全部或部分 测序。所述核酸分子包含全部或部分单基因或单基因cDNA ;或包含全部或部两个或多个 基因或两个或多个基因cDNA。在一些情况下,所述基因与癌症相关。例如,所述基因选自 TP53、PIK3CA、ERBB2、DIRAS3、TET2和一氧化氮合酶(NOS)基因。在进一步的实施方案中, 分析构成细胞全外显子或全基因组的核酸分子。 本发明涉及一种试剂盒,包含在本文所述的方法中使用的试剂。所述试剂选自,例如, 引物、dNTP和聚合酶。 在本发明方法具体实施方案中,所述方法的全部或部分由处理系统执行。 【附图说明】 图1示出核酸分子非转录链相关区域的靶向体细胞突变。 图2示出核酸分子示范性的分析过程,以确定AID或A0PBEC3G引起的靶向体细胞突变 是否发生。 图3示出的分析用于确定突变是随机发生还是靶向体细胞突变的结果。 图4示出子宫颈癌受试者核酸TP53基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变 发生的统计分析。 图5示出结肠癌受试者核酸TP53基因GYW/WRC位点(AID),CG/CG位点(AP0BEC3G),TG/ CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变发生的统计分 析。 图6示出肝细胞癌受试者核酸TP53基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA位点(AP0BEC1),WA位点和GG位点(黄曲霉毒素)突变的密码子内的 频率和位置,并且示出突变发生的统计分析。 图7示出胰腺癌受试者核酸TP53基因GYW/WRC位点(AID),CG/CG位点(AP0BEC3G),TG/ CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变发生的统计分 析。 图8示出前列腺癌受试者核酸TP53基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变 发生的统计分析。 图9示出恶性黑色素瘤受试者核酸TP53基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变 发生的统计分析。 图10示出宫颈腺癌受试者核酸TP53基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变 发生的统计分析。 图11示出宫颈腺癌受试者核酸N0S基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变 发生的统计分析。 图12示出乳腺癌受试者核酸PI 3CA基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA
位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变 发生的统计分析。 图13示出造血和淋巴组织肿瘤受试者核酸TET2基因GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G),TG/CA位点(AP0BEC1)和WA位点突变的密码子内的频率和位置,并且示出突变 发生的统计分析。(A)受试者H)3185a. (B)受试者H)3181a。 图14示出腺样囊性癌2组受试者组织全外显子组GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G)和WA位点突变的密码子内的频率和位置,并且示出突变发生的统计分析。(A) 受试者 H)3185a,(B)受试者 H)3181a。 图15示出前列腺癌4组受试者组织全外显子组GYW/WRC位点(AID),CG/CG位点 (AP0BEC3G)和WA位点突变的密码子内的频率和位置,并且示出突变发生的统计分析。(A) 受试者 WA7,(B)受试者 WA26,(C)受试者 PR-09-3421,(D)受试者 PR-2762。 图16示出1组膀胱癌受试者核酸全外显子组GA位点(AP0BEC3H)突变的密码子内的 频率和位置,并且示出突变发生的统计分析。 图17示出8组膀胱癌受试者和单膀胱癌受试者个核酸全外显子组CC位点(AP0BEC3G) 突变的密码子内的频率和位置,并且示出突变发生的统计分析。 图18示出处理系统检测核酸分子靶向体细胞突变的过程。 表A 核苷代码
【具体实施方式】 定义部分 除非另外定义,本文所用的所有技术和科学术语有本领域普通技术人员所熟知的相 同的含义。虽然任何类似或等同于本文描述的方法和材料可以应用于本发明的实践或测试 中,但是本文描述了优选的方法和材料。对于本发明的目的,下列术语定义如下。 本文中使用的冠词〃a〃和〃an"是指一个或多于一个(即至少一个)冠词的语法对象。 举个例子,"一个元件"意指一个元件或多于一个元件。 如本文所用的术语"生物样品"是指从受试者或患者萃取,未处理,处理过的,稀释或浓 缩的样品。 如本文所用,关于突变的术语"密码子背景"是指发生突变密码子的核苷酸位置。本发 明的目的,当密码子从5至3读码时,注解为MC-1、MC-2和MC-3的突变密码子核苷酸位点 (MC ;即含有突变的密码子),分别是指第一,第二和第三个核苷酸位点。因此,短语〃确定 突变密码子背景〃或类似短语的意思是确定突变密码子发生突变的核苷酸位点,即MC-1、 MC-2 或 MC-3。 在整个本说明书中,除非上下文另有要求,词语"包括","包含"和"包括"意指包括所 述步骤或元素或一组步骤或元素,不是排除其他的步骤或元素或一组步骤或元素。 "基因"是指基因组中占据特定位点的遗传单位并且包括转录和/或翻译调节序列和/ 或编码区和/或非翻译序列(即,内含子,5'和3'非翻译序列)。 如本文所用,术语"可能性"用来衡量靶向体细胞突变是否发生,特定的诱变剂是否引 起靶向体细胞突变,含有靶向体细胞突变核酸的受体是否已经或将患癌症基于给定的数学 模型。例如增加的可能性可以是相对的或绝对的,并且可以定性或定量表达。例如,根据以 前的人口研宄,受试者患癌症增加的可能性或风险可以表现为简单地确定靶向体细胞突变 的数量(如本文讲解的),并将受试者归为"增加的可能性或风险" 一类。 在一些实施方案中,该方法包括比较所述靶向体细胞突变的数量或百分和预选或阈值 数量或百分比。阈值可以选择提供可接受能力进行预测诊断、可能性或预后风险。在说明 性实施例中,通过在两个群体中,其中第一群具有第一条件或风险和第二群具有第二条件 或风险,绘制一个变量的值与它的相对频率计算受试者工作特征(ROC)曲线(所谓任意,例 如,"健康状况"和"癌症"或"低风险"和"高风险")。 患和未患疾病受试者突变数目的分布很有可能重叠。在这种条件下,测试并不能100% 绝对区分第一条件和第二条件,并且重叠的区域表示其中测试不能区分的第一条件和第二 条件。选择阈值,高于该测试认为是"阳性"和低于该测试认为是"阴性"。ROC曲线下的面 积(AUC)提供了 C-统计,这是一种概率衡量,该感知测量将允许条件正确的识别。术语"曲 线下面积"或"AUC"指的是面积受试者工作特征(ROC)曲线,这两种在本领域是公知的曲 线。AUC措施是用来比较整个完整的内容范围分类器的精确度。较大AUC分类器有更大的 能力,以在两组获益之间进行正确分类未知(例如,健康条件突变状态和癌症突变状态)。 ROC曲线可于用于绘制区分或识别区两个群体的特定功能的性能(如患癌症和控制没有癌 症病例)。通常情况下,基于单个特性的值,整个人口的特征数据(例如,病例和对照)以升 序进行排序。然后,对于该功能的每个值,计算数据的真阳性和假阳性率。灵敏度通过计数 高于该特征值的病例数,然后除以病例的总数。特异性是通过计数低于该特征值的对照数, 然后除以对照的总数。虽然这个定义是指方案中的特征是与对照组相比升高的病例,这一 定义也适用于方案中的特征是与对照组相比降低的病例(在这种情况下,下面将计数该功 能的采样值)。可以用单个特征以及其他单个输出生成ROC曲线,例如,两个或更多个特征 的组合可以在数学上组合(例如,加,减,相乘,等等),以产生一个单一的值,并且这个单个 的值可绘制在ROC曲线。此外,多个特征的任何组合(例如,一个或多个其他后生标记),其 中,所述组合派生一个单独的输出值,可以绘制在R0C曲线。功能的这些组合可以包括一个 测试。R0C曲线是该试验的特异性对测试的灵敏度的曲线图,其中按传统垂直轴给出灵敏度 和水平轴给出特异性。因此,"AUC R0C值"等于分类器随机选择的正面实例高于随机选择 的负面实例的概率。本文认为AUC R0C值可以等同于Mann-Whitney U测试,如果该组是连 续的数据,可以检验两组得到的评分之间的中位数的差异,或用Wilcoxon秩检验。 可替代地,或另外地,阈值可以通过获得来自同一患者的早期突变状态建立,可以用来 比对以后的结果。在这些实施方案中,个人的实际行为充当自己的"对照组。在另一个实施 方案中,可通过分析正常人或患者健康组织的核酸靶向体细胞突变数目并与病变或癌组织 核酸靶向体细胞突变数目比较建立阈值。 术语"诱变剂"是指可引起DNA的诱变的试剂。诱变剂包括内源性诱变剂(即诱变剂 是内源的,或由包含DNA的细胞产生)和外源性诱变剂(即诱变剂是外源性的,或不通过包 含DNA的细胞产生),并且包括例如化学品,蛋白质,酶,辐射和病毒。 如本文所使用的,"突变型"是指包含所述突变的特定核苷酸的取代,并且选自C>T、 C>A、C>G、G>T、G>A、G>C、A>T、A>C、A>G、T>A、T>C 和 T>G 突变。因此,例如,C>T 突变型是指 替代核酸T取代靶向或突变核酸C的突变。 该术语通常指的是长度大于30个核苷酸残基的多核苷酸。 术语"患者"和"受试者"可互换使用并且是指患者和人或其它哺乳动物受试者,包括 期望用本发明的方法检查或治疗中的任何个人。然而,应该理解的是,"患者"并不意味着 症状存在。本发明范围之内的合适哺乳动物包括,但不限于,人类和其他灵长类,家畜动物 (例如,绵羊,牛,马,驴,猪),实验室试验动物(例如,兔,小鼠,大鼠合适的哺乳动物,豚鼠, 仓鼠),伴侣动物(如猫,狗)和捕获的野生动物(如狐狸,鹿,野狗)。 术语"体细胞突变"指的是体细胞DNA中的突变(即不是生殖细胞),受孕后发生。因 此"体细胞突变"指的是体细胞突变发生的过程。 如本文所用,"靶向细胞诱变"指的是从一种或多种诱变剂引起体细胞突变过程,其中 诱变发生在一个基序内的靶向核苷酸,所述的靶向核苷酸存在于密码子内的特定位点(例 如,第一、第二或第三位点,突变的密码子从5'至3'阅读,分别注解为MC-1、MC-2和MC-3), 并且靶向核苷酸突变成特定的替代核苷酸(即突变是一个特定的突变型,例如:C>T,而不 是C>A或C>G)。因此,靶向体细胞突变发生确定需要分析突变的类型(例如,C>T),突变发 生的基序(例如WRC)和突变密码子的背景,即该突变发生的密码子内的位点(例如MC-1, MC-2或MC-3)。因此,"靶向体细胞诱剂"是指靶向体细胞突变引起的突变。 如本文所用,术语"治疗","治疗"和类似术语是指获得期望的药理学和/或生理学效 果。该效果是可以预防的,即完全或部分地预防病症(如癌症)或其症状和/或可能是部 分或完整的治疗方法和/或归因于条件的不利影响。"治疗",如本文所用,涉及治疗任何病 症的哺乳动物,特别是人类,并且包括:(a)预防有发展成该疾病的风险但迄今尚未诊断的 受试者发生疾病;(b)抑制状态,即,阻止其发展;和(c)缓解病情,即,引起病症的消退。 如本文所用,"全显子组",是指基因组中的全部外显子。因此,细胞全外显子组序列分 析是指细胞基因组中的全部外显子序列的分析。 2.诱变剂参与体细胞突变 外源性和内源性因素可以作为诱变剂导致或在体细胞突变发挥作用。外源因苏包 括但不限于,4-氨基联苯,马兜铃酸,砷化合物,石棉,硫唑嘌呤,苯,联苯胺,铍和铍的化 合物,1,3- 丁二烯,二甲基磺酸1,4_ 丁二醇酯,镉和镉化合物,苯丁酸氮芥,1-(2_氯乙 基)-3-(4_甲基环己基)-1_亚硝基脲(MeCCNU),二氯二甲醚和工业级氯甲基甲醚,铬六价 铬化合物,煤焦油沥青,煤焦油,焦炉逸散物,环磷酰胺,环孢菌素A,己烯雌酚(DES),毛沸 石,环氧乙烷,甲醛,美法仑,长波紫外线联合甲氧沙林(PUVA),芥子气,2-萘胺,中子,镍化 合物,氡,结晶二氧化硅(可吸入粒度),太阳辐射,煤烟,:含有硫酸的强无机酸酸雾,他莫 昔芬,2, 3, 7, 8-四氯双苯环二恶英CTCDD),塞替派,二氧化钍,烟草烟雾,氯乙烯,紫外线辐 射,木肩,X射线,伽玛辐射,活化诱导胞苷脱氨酶(AID),载脂蛋白B mRNA编辑酶催化多肽 样蛋白(APOBEC)胞苷脱氨酶,和易错DNA聚合酶,例如DNA。 2. 1 AID 活化诱导胞苷脱氨酶(AID)是在适应性免疫中重要的酶,参与体细胞超突变(SHM)和 B细胞的免疫球蛋白基因的类别转换重组。通过脱氨胞苷生成尿嘧啶(C>U)AID触发SHM, 以多样化免疫球蛋白可变区基因(VDJ),并创建新的抗原结合位点。 本文已经认识到这些引起新的抗原结合位点的SHM进程产生的突变模式不是随机的。 本文已经确定聚类和受相邻碱基序列影响的突变活性热点,和催化特性和从AID产生特异 性突变谱和有记录其参与重排免疫球蛋白可变区基因的AID介导的DNA脱氨。 目前认为该SHM过程发生在两个阶段。在阶段1中,编码AID蛋白的基因在生发中心 B淋巴细胞中表达上调(Muramatsu et al.(2000)Cell 102:553-563)。然后通过在转录 过程中暴露出的DNA转录单链(ss)区域由胞苷直接脱氨基为尿嘧啶(C>U)(Di Noia and Neuberger(2007)Annu Rev Biochem. 76:1-22 ;Teng and Papavasiliou(2007)Annu Rev Genet 41:107-120),在反向互补热点£YW/WR£,AID靶向突变至G :C碱基对(其中Y = C/T, W = A/T,R = AG ;和下划线的核苷酸构成祀向碱基对)。AID脱氨前占据祀向胞苷(Bhutani et al. (2011)Cell 146:866-872)。如果未修复DNA中的尿嘧啶有强致突变性,和它们活化 DNA碱基切除修复(BER)过程涉及尿嘧啶DNA糖基化酶(UNG)引起脱嘌呤嘧啶(AP),或"脱 碱基",位点,导致ssDNA缺口(通过脱嘌呤/脱嘧啶核酸内切酶的活性,APE)和引起进一步 的 DNA 补片修补活性(Peled et al. (2008) Ann Rev Immunol 26:481-511)。一旦 UNG触发 BER途径以除去尿喃啶,在复制和修复中广生的脱喊基位点可以由喊基A,G,C或T取代。 与第1阶段相关联的主链偏好突变模式的特点是占主导地位的C>T和G>A转换,并且G 的突变的总数超过C的数目Steele(2009)Mol Immunol 46:305-320)。本文已推断出链偏 好突变模式是与哺乳动物RNA聚合酶II复制模板DNA链携带的AID病变,尿嘧啶和AP位 点是一致的(see e. g. Steele (2009)Mol Immunol 46:305-320)。 在第2阶段中,突变主要是针对WA-热点基序的A :T碱基对在和A超过突变T2-3倍的 链-偏好突变(see e.g. Steele (2009) Mol Immunol 46:305-320)。在第 2 阶段,G:U 错配 募集错配DNA结合修复异二聚体MSH2-MSH6复合物,在很短的补丁容易出错的DNA修复过 程中反过来募集易出错的Y家族跨损伤蛋白DNA聚合酶-eta到VDJ靶序列的区域的WA-位 点和其他一些序列延伸。 一些研宄表明,异常的AID发起SHM过程可能会导致生发中心环境之外DNA中C>U的 转化,从而有助于发现在其他基因癌变(Beale et al.(2004)J Mol.Biol 337:585-594; Marusawa H. (2008)Int J Biochem Cell Biol 40:1399-1402)。已经发现发生在各 种基因具有SHM样活性如人扁桃体B细胞的BCL-6(Yavuz et al.(2002)Mol Immunol 39:485-493),T-淋巴瘤中的 CD5/4,、P1M 1 和 CMYC 基因(otani et al. (2005) PNAS 102:4506-451 1),和 B-淋巴瘤中的 BCL-6 和 C-MYC(Nilsen et al. (2005)Oncogene 24:3063-3066)。也研宄了 AID-启动SHM活性,作为许多研宄中TP53突变的潜在来源。 在一个这样的研宄中,发现B细胞慢性淋巴细胞白血病(B-CLL)TP53的靶向突变表现出 SMH 过程的特征特性(Malcikova et al. (2008)Molecular Immunology 45:1525-9)。虽 然两个患者中观察到的突变数是低,该数据显CG碱基对点突变的显著偏好,及第一和第 二例的RGYW/WRCY基序的著偏好(第一和第二患者分别为28%和44%,)。第二患者,发 现6/8的点突变影响WA/TW基序A :T对碱基对在WA/TW基序,这是SHM单点突变谱的标志 特征。发现第一患者高表达AID,但不是在IgVH基因突变的第二患者发现。如本文示出 和 Lindley 和 Steele 描述(ISRN Genomics (2013) 921418) and Lindley (Cancer Genet. (2013) 206 (6) : 222-6),链偏好的SHM样变过程与癌症相关。 也有传染性病原体诱导AID表达并导致TP53突变,它与免疫球蛋白基因SHM活性的已 知特性一致的例子。实例包括C型肝炎病毒(Machida et al. (2004) Proc Natl Acad Sci U.S. A. 101:4262-4267),EB病毒(Epeldegui et al. (2007)M〇1. Immunol 44:934-942)和幽 门螺杆菌(Matsumoto et al. (2007) Nat Med. 13:470-476)。AID 与 B 细胞肿瘤和其他癌症 相关(Honjo et al. (2012)Adv Cancer Res. 2012 ;1 13:1-44),小鼠转基因表达肿瘤形成 (Okazaki et al. (2003)J Exp Med 197:1173-1 181)〇 2. 2 APQBEC胞苷脱氨酶 除了 AID,人类基因组编码几个同源APOBEC胞苷脱氨酶,它们参与免疫和编辑R A(Smith et al.(2012)Semin. Cell.Dev.Biol. 23:258-268)。在人类中,至少 AP0BEC 1、 XP0BEC3A、AP0BEC3B、AP0BEC3C、AP0BEC3D、AP0BEC3F、AP0BEC3G 和 AP0BEC3H 参与提供先天 免疫和/或细胞的mRNA编辑。 例如,AP0BEC1负责ApoB mRNA前体编辑,它导致胞苷6666脱氨基使氨酰胺的密码子 变为终止密码子,由此产生较短形式的ApoB(ApoB48)。AP0BEC1也可以在DNA脱氨胞苷 (Harris et al. (2002)M〇1 Cell. 10:1247-1253 ;Petersen-Mahrt and Neuberger(2003)J Biol Chem. 278:19583-19586)。该AP0BEC3酶脱氨可改变因素(即内源性反转录因子和外 源性病毒),DNA的突变的是一种形式的先天免疫。例如,AP0BEC3G作用于HIV和其他逆转 录病毒(如猿免疫缺陷病毒(SIV),马传染性贫血病毒(EIAV),鼠白血病病毒(MLV),和泡 沫病毒(IV)突变反转录过程中的负链的DNA。其它AP0BEC3酶也已显示作用于HI
V和其他 逆转录病毒,以及乙型肝炎病毒,细小病毒和AAV-2。 AID,APOBEC胞苷脱氨酶与癌变有关。例如,小鼠转基因表达AP0BEC1导致肿瘤形成 (Yamanaka et al. (1995)PNAS 92:8483-8487);高表达AP0BEC3B会导致肿瘤相关的基因体 细胞突变(Shinohara et al. (2012)Scientific Reports 2:806);至少乳腺癌,膀胱癌,子 宫颈-(腺癌和鳞状细胞癌),和头颈部癌症中AP0BEC3B上调,与突变AP0BEC3B基序突变增 加相关(Burns et al(2013)Nature 494:366-370 ;Burns et al. (2013)Nature Genetics 45:977-983);并且已经证明是各种癌症中广泛存在APOBEC酶突变。 比较研宄AP0BEC1和AP0BEC3G,用细菌突变试验证明了胞苷脱氨酶的特异性核苷酸5' 和 3'靶向 C 的极端重要性(Beale et al. (2004)J Mol.Biol 337:585-594)。虽然 AP0BEC3G 只能在单链DNA脱氨胞苷,AP0BEC1可以在DNA双链或RNA编辑胞苷。据观察,在AP0BEC1 的存在下79%的转换与5'1'相关,因此意味着八?08£(:1的了6/^4基序。该4?08£036基序 建议作为 CG/CG和 / 或CC (Beale et al. (2004) J Mol.Biol 337:585-594 ;and Rathmore et al (2013). J. Mol. Biology 425(22) :4442-54)。其他研宄表明,其它 APOBEC 酶,如 AP0BEC3A,AP0BEC3B和AP0BEC3F有一个TC基序,或者更严格的TCW基序(其中W对应A或 T) (Bishop et al. (2004)Curr Biol.14:1392-1396 ;Thielen et al. (2010)J Biol Chem 285:27753-27766 ;Henry et al. (2009)PL〇S One. 4:e4277 ;Shinohara et al. (2012) Scientific Reports 2:806 ;Burns et al. (2013)Nature Genetics45:977_983)。建议 AP0BEC3H 针对 GA/TC 基序。 3.检测靶向体细胞突变的方法 如本文所证实,某些诱变剂不仅导致核苷酸一个或多个特定基序的诱变,还在密码子 背景识别的基序和突变核苷酸,即突变的核苷酸是密码子结构内的特定位点,如在突变密 码的第一,第二或第三核苷酸(读5'至3')。还替换或替代的核苷酸的明显倾向。 由诱变剂靶向的基序特异性和密码子背景特异性组合在本文称靶向细胞诱变。通过一 个非限制性的例子的方式,并如图1,核酸分子非转录链RA基序的A突变可优先发生在突 变密码子的第一位点(MC-1位点),并且是一个C突变(即A>C)。因此,通过分析核酸分子 序列确定核酸分子靶向体细胞突变是否发生的可能性,进而确定一个或多个特定基序(例 如,WA基序)突变类型(例如A>C)突变的密码子背景。如果在基序突变型的突变的位点 没有密码子偏倚(即突变基本上均匀地分布在密码子的每个位点),那么突变很有可能是 偶然出现的,而不是诱变剂引起的靶向体细胞突变的结果。但是,如果有一个比预期的百分 比或突变型的突变在一个特定位置中的密码子数目较高(例如MC-1,MC-2或MC-3位点) 中的核酸分子,那么这表明靶向体细胞突变已经发生或可能已经发生。如果在核酸分子密 码子特定位点(如MC-1,MC-2或MC-3位点)突变类型突变的数量或百分比高于预期,那么 这表明靶向体细胞突变已经发生或可能已经发生。 如果突变是独立于其它突变和密码子背景,即密码子每个位点的每个靶核苷酸的突变 分布是基本上连续的,上述突变的"预期数量或百分比"是预期突变的数量或百分比。因此, 例如,评估MC-1,MC-2和MC-3的位置或位点产生突变时,它可以预期三个位点中的任何一 个位点(如MC-l,MC-2或MC-3)的一个核苷酸(例如,A)可以突变成其它三种核苷酸的任 何一个(如G,C或T)将发生如每9突变有1个(即1/3的机会A至G,C或T,并且任何一 个位点有1/3的机会,在任何地点,总体相当于1/9的机会)或大约11%的时间。在评估 整个基因突变引起的密码子的两个核苷酸位点所产生的突变,如MC-1和MC-2位点,,它可 以预期,一个核苷酸的突变(例如,A)与其它核苷酸(例如G,C或T)中的任两个位点中的 任何一个(例如,MC-1或MC-2),会发生如每6突变中有1个,或大约17%的时间(即1/3 的机会A至G,C或T中的任何一个,并且任何位点有1/2的机会于,相当于总体有1/6的机 会)。同样,当评估任一位点所产生的突变时(例如,MC-1),它可以预期,一个核苷酸(如 A)突变至任何一个其它核苷酸(例如G,C或T)会出现如每3突变中有1个或大约33%的 时间。。 这示于图2,其中在MC-1位点C>T突变的发生率(即突变密码子的第一个核苷酸位点) 被评估,以确定靶向体细胞突变是否已经发生或观察到的突变是否出现随机。如果跨WRC 基序MC-1和MC-2位点的胞嘧啶突变是随机的,然后将预期该突变的类型和位点是均匀分 布的,并且每六次发生一次MC-2的C>T突变(或约17% ),其他5个突变为MC-1的C>A, MC-2的C>A,MG-1的C>G,MC-2的C>G,和MC-1的C>T。图2中所示的特定例子中,WRC基 序MC-1或MC-2位点共有82个胞嘧啶突变。如果诱变是随机的,可以预期,这些的六分之 一(或17% )是MC-2位点的C>T突变,相当于约14事件。然而,在这个例子中,有观测的 72个MC-2位点C>T突变,这表明核酸的靶向体细胞突变已经发生。 通常情况下,靶向体细胞突变发生是一种或多种诱变剂活性的结果,并通过密码子的 三个位点(例如MC-1,MC-2和MC-3)评估,观察与该诱变剂相关联的特定的突变至少或 约 20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、 95%或更多的时间。当通过两个位点评估(例如,MC-1和MC-2 ;MC-1和MC-3 ;或MC-2和 MC-3),观察与该诱变剂相关联的特定的突变至少或约30 %、35 %、40 %、45 %、50 %、55 %、 60%、65%、70%、75%、80%、85%、90%、95%或更多的时间。当通过一个位点评估(例 如,MC-1 ;MC-2或MC-3),观察与该诱变剂相关联的特定的突变至少或约50%、55%、60%、 65%、70%、75%、80%、85%、90%、95% 或更多的时间。 通过评估一个特定基序的突变的类型,(例如,WRC基序的C>T突变),以及该突变的密 码子背景(如突变是否在MC-2位点),当只评估基序的突变并不考虑密码子背景,可以通过 比较更精确的评估诱变剂的活性。因此,使用本文描述的方法,通过分洗核酸分子的序列评 估特定诱变剂或诱变过程,如AID相关的突变过程,引起核酸靶向体细胞突变的可能性,进 而诱变剂或诱变过程攻击的基序突变的密码子背景。 3. 1AID、APOBEC1、APOBEC3G、APQBEC3H和黄曲霉毒素引起靶向体细胞突变 如上所述,已知AID攻击所基序,其中带下划线的核苷酸发生突变。如本 文所证实,MC-2位点有发生针对G到A的显著趋势,导致G>A的突变。因此,核酸分子非转 录链MC-2位点£YW基序的G>A突变的数量或百分比高于预期,表明AID是核酸靶向体细胞 突变的可能原因,并且获得核酸的细胞和/或组织的AID是有活性的。正如本文中也表明, MC-1位点有发生针对C到T显著趋势,导致C>T的突变。因此,核酸分子非转录链MC-1位 点WR£基序的C>T突变的数量或百分比高于预期,表明AID是核酸靶向体细胞突变的可能 原因,并且获得核酸的细胞和/或组织的AID是有活性的。 已知APOBEC3G攻击C£/£G基序,其中带下划线的核苷酸发生突变。本文所述的研宄 表明,MC-2位点有发生针对G到A的显著趋势,导致G>A的突变。因此,核酸分子非转录链 MC-2位点CG基序的G>A突变的数量或百分比高于预期,表明APOBEC3G是核酸靶向体细胞 突变的可能原因,并且获得核酸的细胞和/或组织的APOBEC3G是有活性的。MC-1位点有 发生针对C到T显著趋势,导致C>T的突变。因此,核酸分子非转录链MC-1位点CG基序的 C>T突变的数量或百分比高于预期,表明APOBEC3G是核酸靶向体细胞突变的可能原因,并 且获得核酸的细胞和/或组织的APOBEC3G是有活性的。 已知APOBEC3G攻击C£基序,其中带下划线的核苷酸发生突变。本文所述的研宄表明, MC-1位点有发生针对C到T的显著趋势,导致C>T的突变。因此,核酸分子非转录链MC-1 位点CC基序的C>T突变的数量或百分比高于预期,表明APOBEC3G是核酸靶向体细胞突变 的可能原因,并且获得核酸的细胞和/或组织的APOBEC3G是有活性的。 AP0BEC1优先攻击核酸分子TQ/gV基序。此外,MC-1位点CA基序有发生针对C到T的 显著趋势,导致C>T的突变。因此,核酸分子非转录链MC-1位点CA基序的C>T突变的数量 或百分比高于预期,表明AP0BEC1是核酸靶向体细胞突变的可能原因,并且获得核酸的细 胞和/或组织的AP0BEC1是有活性的。MC-2位点TG基序也有发生针对G到A的显著趋势, 导致G>A的突变。因此,核酸分子非转录链MC-2位点TG基序的G>A突变的数量或百分比 高于预期,表明AP0BEC1是核酸靶向体细胞突变的可能原因,并且获得核酸的细胞和/或组 织的AP0BEC1是有活性的。 已知WA基序的体细胞突变发生在生发中心B细胞AID相关SHM过程的第二阶段,并因 此指示AID相关的突变过程,推而广之,可能预示AID活性。如本文所证实,MC-2位点有发 生针对A到T的显著趋势,导致A>T的突变。因此,核酸分子非转录链MC-2位点WA基序的 A>T突变的数量或百分比高于预期,表明获得核酸的细胞和/或组织的AID相关的体细胞突 变过程是活跃的,并且细胞和/或组织的AID是有活性的。如果MC-2位点GYW基序的G>A 突变或MC-1位点WRC基序的C>T突变的数量或百分比高于预期,可以确定AID相关的突变 过程引起靶向体细胞突变。 黄曲霉毒素与TP53249位密码子第三位点G>T颠换相关。本文已经确定有攻击GG基 序内G的趋势,其中靶向核苷酸在MC-3位点。因此,核酸分子非转录链MC-3位点GG基序的 G>T突变的数量或百分比高于预期,表明黄曲霉毒素是核酸靶向体细胞突变的可能原因,并 且获得核酸的细胞和/或组织的AP0BEC1是有活性的。在具体的实例中,黄曲霉毒素是黄 曲霉毒素B1。在其它实例中,黄曲霉毒素是黄曲霉毒素82、61、62、111或皿2。 3. 2确定其他诱变剂的基序 本文清楚表明,诱变剂可以攻击特定密码子背景内的基序核酸。因此,这种诱变剂引起 的靶向体细胞突变通常导致一种类型的突变(例如C>T,而不是C>G或C>A),在密码子结构 内的一个位点(例如,MC-1和不是MC-2或MC-3)和在同一基序(例如,CG)。通过分析基 序特定突变类型的核酸序列并在特定的密码子背景内,如上所述,获得的诱变剂活性指示 比仅检测基序突变的发病率更精确。 密码子背景偏好可用来识别其他诱变剂的基序。已知为了体细胞突变突变类型的发病 率的核酸序列分析与诱变剂相关(例如.G>T),并且还评估突变和核苷酸侧翼的突变的密 码子背景,可以识别该基序的诱变剂。当一个特定的突变(例如G>T)发生在密码子内的特 定位点(例如,MC-3)比随机发生更频繁,即该突变发生在优选核苷酸位点,该位点的突变 可能是诱变剂引起的靶向体细胞突变的结果。通过分析优选核酸位点侧翼核苷酸突变(例 如,MC-3),突变的共同基序,并因此确定诱变剂攻击。 这在下面实施例7中证实。先前认为TP53249位密码子第三位点G>T颠换与黄曲霉毒 素有关。当分析肝癌受试者样品的全外显子组iiucleic酸的G>T突变时,检测到MC-3位 点有有9个C>T突变,并且每个突变是与另一个G紧接5'的突变G -致,表明黄曲霉攻击 基序,其中,所述靶向(下划线)G在MC-3位点,引起C>T突变。 因此,本发明还提供了确定诱变剂攻击基序的方法。该方法涉及分析核酸分子的序 列,以确定与诱变剂相关的突变型是否主要发生在密码子的一个位置或位点(例如,MC-1, MC-2或MC-3)。如果有突变型和位点的共同发病率,则可以识别突变核苷酸的核苷酸侧翼, 以便识别包括突变核苷酸的共同基序。更具体地,方法包括分析核酸分子的序列,以确定已 知与诱变剂相关的体细胞突变基因突变类型,确定所述突变的密码子背景来识别突变发生 频率高于预期的优选核苷酸位点,并识别优选核苷酸位点突变的核苷酸侧翼,以便识别突 变的共同基序。 当不知道诱变剂相关的突变类型时可以适用类似的方法。在这种情况下,首先分析核 酸分子的序列,以确定的体细胞突变,并且如果确定突变随机(即在优选核苷酸位点)发生 在密码子内一个位点的(例如MC-3)任何突变型(如G>T)的频率高于预期。随后评估优 选核苷酸位点突变的侧翼序列,以确定突变是否有共同基序。如果有,该基序可能是诱变剂 的目标。 在其它实例中,可以进一步分析诱变剂的已知基序,以确定密码子偏倚和优选突变类 型。可以根据本文评估核酸序列,如实施例1中,以确定与突变基序相关的密码子背景和 突变型,进而评估密码子核苷酸位点突变型是否优选。例如,认为AP0BEC3A,AP0BEC3B, AP0BEC3F和AP0BEC3H攻击TC基序,或更严格是TCW基序。可以分析一种或多种核酸分子 的序列,以确定基序突变发生的密码子背景,即是否在MC-l,MC-2或MC-3,并且确定发生什 么类型的突变,(例如C>A,C>T,或C>G)。一旦重合突变型,确定基序和密码子背景,这组 标准,或诊断规律,可以用来更准确地确定AP0BEC3A,AP0BEC3B,AP0BEC3F或AP0BEC3H (或 其他诱变剂)是否引起核酸分子靶向体细胞突变,并且因此确定获得核酸的细胞是否有活 性。 使用上述方法识别基序和/或诊断规则,通常是分析已知或怀疑与诱变剂相关的核酸 或从细胞获得的已知或怀疑与诱变剂相关的核酸。例如,进行核酸分析之前,细胞包含的核 酸在体外暴露于诱变剂。在其它实例中,可以从已知暴露于诱变剂的受试者组织或细胞中 获得所述核酸。可以用多个样品的多个研宄验证结果。 3. 3评估核酸分子 用于获得和评估的核酸分子序列的本领域已知方法可用于本发明。本发明的方法可以 分析任何核酸分子,虽然一般是DNA (包括cDNA)。通常,所述核酸是哺乳动物核酸,例如人 类核酸。可以从任何生物样品获得该核酸。例如,生物样品可以包括血液,组织或细胞。在 一些实例中,所述生物样品是活检组织。此外,样品可以来自身体的任何部位,并且可以包 括任何类型的细胞或组织,诸如,例如,乳腺癌,前列腺癌,肝细胞,结肠,胃,胰腺,皮肤,甲 状腺,子宫颈癌,淋巴,造血的,膀胱癌,肺癌,肾癌,直肠癌,卵巢癌,子宫癌,和头部或颈部 的组织或细胞,或脑脊液细胞。在一些情况下,从怀疑或有患癌风险的受试者的细胞或组织 样品获得核酸,或者从患癌受试者的细胞或组织样品获得。 所述核酸分子可以包含一个基因的全部或部分,或者两个或多个基因的全部或部分, 并且根据本发明的方法分析这个基因或多个基因的序列。例如,所述核酸分子可以包含 TP53,PIK3CA,ERBB2,DIRAS3,TET2或一氧化氮合酶(NOS)基因的全部或部分。在一些情况 下,所述核酸分子包含整个基因组或全外显子组,并且根据本发明的方法分析整个基因组 或全外显子组的序列。 使用本发明的方法时,已经预先确定核酸分子的序列。例如,该序列可能存储在数据库 或其他存储介质中,并且根据本发明的方法分析该序列。在其它实例中,必须首先用本发明 的方法确定所述核酸分子的序列。在具体的实例中,也必须首先从自生物样品分离核酸分 子。 本领域熟知获得核酸和/或测序核酸的方法,并且任何这样的方法可用于本文描述的 方法。在一些情况下,所述方法包括测序前扩增分离的核酸,和本领域的普通技术人员熟知 的合适的核酸扩增技术。本领域熟知核酸测序技术,并且可以应用到单个或多个基因,或全 外显子组或基因组。这些技术包括,例如,依赖于"Sanger测序'的毛细管测序方法(Sanger et al. (1977)Proc Natl Acad Sci USA74:5463-5467)(即涉及链终止测序方法),以及"下 一代测序"技术,方便一次测序几千到几百万的分子。这样的方法包括,但不限于,焦磷酸 测序,这使荧光素酶读出的信号作为单独的核苷酸添加到DNA模板
;"通过合成测序"技术 (Illumina公司),它使用在每个周期添加一个单核苷酸到DNA模板的可逆染料终止子技 术;和Solid?测序(通过寡核苷酸连接和检测测序;Life Technologies公司),它通过固 定长度的寡核苷酸结扎优先序列。这些新一代测序技术对整个基因组和全外显子组测序特 别有用。 一旦获得了核酸分子的序列,然后鉴定单点体细胞突变。可以通过比较所述序列和对 照序列鉴单点突变定。对照序列是指从控制个体样品获得的核酸分子序列,例如无病的健 康人;从对照样品获得的核酸分子的序列;如来自健康,无疾病组织的样品;或者可以理解 为无体细胞突变的共有序列。除了确定的单点突变,识别突变的密码子和密码子内突变的 位点(MC-l,MC-2或MC-3)。在5'和3'的密码子的核苷酸侧翼ALSP确定,以便识别基序。 通常,本发明的方法中,分析核酸分子的非转录链(等效于cDNA序列)的序列。在一些情 况下,分析转录链的序列。 图2显示生物样品核酸分析的一个例子,如上文所述,以确定AP0BEC3G和/或AID是 否引起体细胞突变。在这个例子中,已经确定H)3185a样品cDNA序列单点突变的的位置 (其中,所述起始密码子"ATG"包括所述第一,第二和第三核苷酸分子)和其密码子背景以 便评估GYW/WRC,CG/CG和WA基序每个位点发生突变的数量和类型。然后数据制成表格和 进行统计分析用于确定突变是偶然发生还是由AID和/或AP0BEC3G引起靶向体细胞突变 的结果。在图2所示的例子中,因为非转录链MC-2位点GYW基序的G>A突变和MC-1位点 WRC基序的C>T突变高于预期,所以AID可能引起核酸分子靶向体细胞突变。此外,非转录 链MC-2位点CG基序的G>A突变高于预期,所以AP0BEC3G可能引起核酸分子靶向体细胞突 变。 如本文所证实,使用本发明的方法,只需分析少数基序突变以确定特定诱变剂引起靶 向体细胞突变的统计学意义。在一些情况下,使用本发明的方法分析特定基序突变的数目 少至2个突变。例如,如果发现看起来健康的患者所分析的核酸仅有2个体细胞突变,都 是MC-2位点GYW基序的G>A突变,那么,这种模式偶然出现的概率是0. 04238 (p〈95%,用 ChiSquare test,9_l = 9df)。另外,每个突变偶然发生的概率是1/9(即1/3的机会G>A 突变,和一个1/3的机会的突变在MC-2位点,如上面所讨论的),并且2出2突变发生这种 模式的概率是1/81 (或0. 012346)。然而,本领域技术人员可以理解,当分析特定基序多个 突变时可以提高统计学显着性。因此,在一些情况下,使用本发明的方法分析的特定基序突 变的数目至少是20。治疗前或治疗后受试者核酸样品中有40个或更多的突变,,携带高达 400或更多个突变。因此,使用本发明的方法分析的特定基序突变的数目至少是或约2、3、 4、5、6、7、8、9、10、152025、30、40、50、60、70、80、90、100、150、200、250、300 或更多。 检测受试者靶向体细胞突变和进一步确定诱变剂引起靶向体细胞突变的可能性所必 需的原料和试剂,并且如本文所述的相关的方法,可以组装在一试剂盒中。例如,当本发明 的方法包括分析第一次分离和/或核酸测序进行时,试剂盒包括方便第一次分离和/或 核酸测序的试剂。这类试剂可以包括,例如,DNA扩增的引物,聚合酶,dNTPs (包括标记的 dNTPs),阳性和阴性对照,以及缓冲液和溶液。这种试剂盒通常还包括,合适的装置,每种试 剂的不同容器。该试剂盒还可以配备各种设备,和/或试剂盒的使用说明书。 在一些实施方案中,按本文通常描述的方法进行,至少部分,由处理系统,如适当编程 的计算机系统。用有执行应用程序软件微处理器的独立计算机执行上述的方法。另外,该 方法可以进行,至少部分,由一个或多个处理系统操作分布式体系结构的一部分。例如,处 理系统可用于识别突变类型,突变的密码子背景和/或一个或多个核酸序列的基序。在一 些例子中,由用户输入到处理系统命令,协助处理系统在作出这些决定。 在一个实例中,处理系统包括至少一个微处理器,存储器,输入/输出设备,诸如键盘 和/或显示器,以及一个外部接口,由总线相互连接。处理系统可以通过外部接口连接到外 围设备,例如通信网络,数据库或存储设备。微处理器以应用软件存储在存储器形式执行 指令,以允许进行本发明的方法,以及执行任何其他所需的过程,例如与计算机系统进行通 信。应用软件可以包括一个或多个软件模块,并且可以合适的环境中应用,诸如操作系统环 境中,或类似环境。 在另一示例中,处理系统可用于上传序列信息和数据库或其他源中的其它相关数据。 适合本文公开的方法的算法可以应用到数据,如在图18中所示。在这个例子中,)输入数 据[1]和测试参数(例如用基序)[2]被上传或输入到系统中。然后产生碱基替换表感兴 趣的基因组区域内突变和对齐和链接突变的数据和密码子背景数据和关于样品的细节和 核苷酸序列的其他信息[3, 4, 5]。下一步涉及识别每个基序密码子内的每个核苷酸位点各 突变型的重合[6],表列数据记录每个基序与密码子背景的各突变型的重合[7],包括每个 诊断的相对可能性等级与置信水平[8]。根据输入的服务请求信息生成输出报告[9]并产 生可读的输出[10]。 4.诊断和治疗应用 本文描述的方法是为了检测靶向体细胞突变是否已经发生并确定诱变剂引起核酸分 子体细胞突变的可能性有许多有用的诊断和治疗应用。已知体细胞突变与许多癌症的发生 和发展有关。类似地,已知某些诱变剂是与许多癌症的发生和发展有关。根据本文描述的 方法,可以确定存在和/或一种或多种诱变剂引起的靶向细胞诱变程度,并识别引起体细 胞突变的诱变剂。这有利于癌症的早期诊断,该受试者已经或将要发生癌症的可能性的判 断,和/或发展适当的治疗或预防方案。此外,靶向体细胞突变的持续评估属于用一种或多 种诱变剂评估癌症是否发展或倒退和/或治疗方案的成功或失败。例如,样品核酸检测靶 向体细胞突变的数量增加,例如活检,随着时间的推移,在同一受试者指示癌症的恶化的或 治疗方案出现故障,而稳定或降低的突变数量可以指示病症的缓解或治疗方案的成功。 在特定情况下,本发明的方法可以延伸到的受试者癌症的诊断或受试者已患或将患癌 症可能性的确定。例如,可通过分析来自受试者的生物样品的核酸分子评估受试者已患或 将患癌症可能性,以便确定一个或多个诱变剂引起的靶向体细胞突变是否发生。如果已经 发生靶向体细胞突变,可以确定受试者已患或将患癌症。 在一些实例中,上述的诊断规则被用来确定靶向体细胞突变已经发生。例如,检测靶向 细胞诱变的时机:在核酸分子非转录链第二位点(MC-2位点)GYW基序的G>A突变的数量或 百分比高于预期;在核酸分子非转录链第一位点(MC-1位点)WRC基序的C>T突变的数量或 百分比高于预期;在核酸分子非转录链MC-2位点CG基序的G>A突变的数量或百分比高于 预期;在核酸分子非转录链MC-1位点CG基序的C>T突变的数量或百分比高于预期;在核 酸分子非转录链MC-1位点CA基序的C>T突变的数量或百分比高于预期;在核酸分子非转 录链MC-1位点GA基序的G>A突变的数量或百分比高于预期;在核酸分子非转录链MC-2位 点TG基序的G>A突变的数量或百分比高于预期;在核酸分子非转录链MC-3位点GG基序的 G>T突变的数量或百分比高于预期;在核酸分子非转录链MC-1位点CC基序的C>T突变的 数量或百分比高于预期;或在核酸分子非转录链MC-2位点WA基序的A>G突变的数量或百 分比高于预期,如上所述的AP0BEC3G、AP0BEC3H、AP0BEC1和黄曲霉毒素。在其它实例中, 诊断规则确定其他诱变剂,用本文描述方法,检测靶向体细胞突变的发生。 在一些情况下,当检测受试者特定区域或位置的样品中的细胞或组织的靶向体细胞突 变时,如乳腺癌、前列腺癌、肝癌、结肠、胃、胰腺、皮肤、甲状腺、子宫颈癌、淋巴、造血、膀胱 癌、肺癌、肾癌、直肠癌、卵巢癌、子宫癌和头部或颈部的组织或细胞,然后,确定该受试者患 有或可能发展为癌症所涉及的组织的或细胞。因此,例如,该受试者患有或可能发展为乳 腺癌、前列腺癌、肝癌、结肠、胃、胰腺、皮肤、甲状腺、子宫颈癌、淋巴、造血、膀胱癌、肺癌、肾 癌、直肠癌、卵巢癌、子宫癌或头颈部癌。 在具体的实例中,如果观察到诱变剂,例如AID或AP0BEC3G可能引起前列腺组织或细 胞核酸的靶向体细胞突变,那么可能被诊断该受试者患有前列腺癌,或确定可能患或发展 成前列腺癌。同样,如果观察到诱变剂可能引起乳房组织或细胞核酸的靶向体细胞突变,那 么可能被诊断该受试者患有前乳腺癌,或确定可能患或发展成前乳腺癌。 诱变剂引起的靶向体细胞突变的程度(即诱变剂引起的核酸靶向体细胞突变的数量) 可用于帮助确定的受试者患或将患癌症的可能性,癌症进展或消退,和/或治疗有或没有 效果。典型地,靶向体细胞突变的数量越高,受试者患或将患的癌症的可能性越大。此外, 如果随着时间的推移受试者靶向体细胞突变的数量增多,癌症发展和/或治疗失败的可能 性越大。反之,果随着时间的推移受试者靶向体细胞突变的数量减少,癌症消退和/或治疗 成功的可能性越大。 本发明的方法扩展到治疗或预防的方案。确定受试者可能患癌症的实例中,设计和应 用减少所述可能性的方案。例如,如果确定受试者发展成癌症的风险与特定诱变剂相关,可 以建议受试者减少暴露于诱变剂。例如,如果确定受试者有患黑素瘤的风险,可以建议受试 者减少暴露于紫外线辐射。在用上述方法诊断受试者患有癌症或判定发展成癌症高风险的 实例中,为受试者和给药设计适当的治疗协议。这可以包括,例如,放射疗法、外科手术、化 疗、激素消融治疗、促凋亡疗法和/或免疫治疗。在一些实例中,可以、执行进一步的诊断测 试,以确认治疗前诊断。 放射治疗包括辐射和波诱导的DNA损伤,例如,Y射线、X射线、紫外线照射、微波、电子 发射、放射性同位素等。可以通过照射局部肿瘤部位与上述形式的辐射进行治疗。最有可 能的是,所有这些因素影响大范围的DNA损伤、DNA前体、DNA的复制和修复、和染色体的装 配和修护。 X射线的剂量是从长时间50至200伦琴每日剂量(3至4周),到2000至6000伦琴单 剂量。放射性同位素的剂量范围变化很大,并且取决于同位素的半衰期,强度和辐射发射的 类型,以及摄取的肿瘤细胞。 非限定性放射治疗的例子包括适形外照射放疗(超过4-8周给予50-lOOGrey),无论 是单次或分次,高剂量率近距离,永久性近距离治疗,全身放射性同位素(e. g.,Strontium 89)。在一些实施方案中,放射治疗可与放射增敏剂联合施用。放射增敏剂的说明性例子包 括但不限于:乙丙昔罗、依他硝唑、全氟化碳、米索硝唑、尼莫唑、替莫卟吩和替拉扎明。 化疗剂可以选自任何一个或多个以下类别: (i) 抗增殖/抗肿瘤药及其组合,如用于医学肿瘤学,如烷基化剂(例如顺铂,卡铂,环 磷酰胺,氮芥,美法仑,苯丁酸氮芥,白消安和亚硝基脲);抗代谢物(例如抗叶酸剂例如如 氟吡啶像5-氟尿嘧啶和替加氟,雷替曲塞,甲氨蝶呤,阿糖胞苷和羟基脲);抗肿瘤抗生素 (例如蒽环类像阿霉素,博莱霉素,阿霉素,柔红霉素,表阿霉素,伊达比星,丝裂霉素-C,更 生霉素和光神霉素);抗有丝分裂剂(例如长春花生物碱像长春新碱,长春碱,长春地辛和 长春瑞滨和类似的紫杉醇和多西他赛紫杉烷;和拓扑异构酶抑制剂(例如表鬼白毒素像鬼 臼乙叉甙和替尼泊苷,安吖啶,托泊替康和喜树碱); (ii) 细胞生长抑制剂如抗雌激素(例如他莫昔芬,托瑞米芬,雷洛昔芬,屈洛昔芬和碘 酰昔芬),雌激素受体降压稳压器(例如氟维司群),抗雄激素(例如比卡鲁胺,氟他胺,尼 鲁米特和醋酸环丙孕酮),UH拮抗剂或LHRH激动剂(用于例如戈舍瑞林,亮丙瑞林和布舍 瑞林),孕激素(例如醋酸甲地孕酮),芳香酶抑制剂(例如,如阿那曲唑,来曲唑,伏氯唑和 依西美坦)和5 a -还原酶的抑制剂如非那雄胺; (iii)抑制癌细胞侵袭的制剂(例如金属蛋白酶抑制剂像manmastat和尿激酶纤溶酶 原激活剂受体功能抑制剂) (iv) 生长因子功能抑制剂,例如这样的抑制剂包括生长因子抗体,生长因子受体抗 体(例如,抗ErbB2抗体曲妥单抗[Herceptin]和抗ErbBl抗体西妥昔单抗[C225]),法 尼基转移酶抑制剂,MEK酶抑制剂,酪氨酸激酶抑制剂和丝氨酸/苏氨酸激酶抑制剂,表皮 生长因子家族的其它抑制剂(例如其它EGFR家族酪氨酸激酶抑制剂如N-(3-氯-4-氟苯 基)-7-甲氧基_6-(3-吗啉-4-丙氧基)喹唑啉-4-胺(吉非替尼,4201839),^(3-乙 炔基苯基)-6, 7-二(2-甲氧基乙氧基)喹唑啉-4-胺(厄洛替尼,0SI-774)和6-丙烯酰 胺-N- (3-氯-4-氟苯基)-7- (3-吗啉)喹唑啉-正-4-胺(CI1033)),例如,血小板衍生的 生长因子家族抑制剂和例如肝细胞生长因子家族的抑制剂; (v) 抗血管生成剂,例如抑制血管内皮生长因子的作用,(例如抗血管内皮细胞 生长因子抗体贝伐单抗[Avastin?],例如国际专利申请公开的化合物W097/22596,TO 97/30035, WO 97/32856and W0 98/13354)和通过其他机制作用的化合物(例如三羧氨基 喹啉,整合a v 03功能抑制剂和血管抑素); (vi) 血管损伤制剂如考布他汀A4和国际专利申请公开的化合物W099/02166, W000/40529, W000/41669, W001/92224, W002/04434 和 W002/08213 ; (vii) 反义疗法,例如针对上面列出的目标,如ISIS2503,抗ras基因反义;和 (viii) 基因治疗方法,包括例如替换异常基因的方法例如异常P53或异常GDEPT(基因 介导的酶前体药物治疗)方法如使用胞嘧啶脱氨酶,胸苷激酶或细菌硝基还原酶和方法来 使患者更耐受化疗或放疗,如多药耐药基因疗法。 免疫治疗方法,包括例如离体和体内方法,以增加患者肿瘤细胞的免疫原性,如转染的 细胞因子如白细胞介素2,白细胞介素4或粒细胞-巨噬细胞集落刺激因子,降低T细胞无 反应性的方法,免疫细胞如细胞因子转染的树突细胞的方法,细胞因子转染肿瘤细胞系的 方法和使用抗独特型抗体的方法。这些方法通常依靠使用免疫效应细胞和分子以攻击和破 坏癌细胞。免疫效应器可以是,例如,恶性细胞表面上的一些标记性抗体。单独的抗体可 作为治疗效应,或者它可以募集其他细胞来促进细胞杀伤。该抗体也可以缀合至药物或毒 素(化学治疗,放射性核素,蓖麻毒素A链,霍乱毒素,百日咳毒素等),以及仅作为祀向剂。 备选地,效应可以是携带表面分子的淋巴细胞相互作用,无论是直接或间接地,攻击恶性细 胞。各种效应细胞包括细胞毒性T细胞和NK细胞。 其他癌症疗法的例子包括光疗、冷冻治疗、毒素治疗或促凋亡疗法。本领域技术人员知 道这个列表不包括全部癌症和其它增生性病变的治疗方法的类型。 在一些情况下,确定诱变剂是靶向体细胞突变的原因,治疗或预防措施可以包括对受 试者施用该诱变剂的抑制剂。抑制剂可包括,例如,siRNAs、miR As、蛋白拮抗剂(如显性负 突变体诱变剂),小分子抑制剂,抗体及其片段。例如,本领域技术人员知道广泛应用市售的 siRNA和APOBEC胞苷脱氨酶和AID特异性抗体。AP0BEC3G抑制剂的其它实例包括Li等人 描述的小分子。(ACS Chem Biol. (2012)7(3):506-517),其中许多,含有邻苯二酚部分,已 知巯基反应后氧化成邻醌。AP0BEC1抑制剂还包括但不限于显性负突变体AP0BEC1多肽,如 穆尔(H61K/C93S/C96S)突变体(Oka et al. (1997) J Biol Chem 272, 1456-1460). 通常情况下,治疗剂与药物组合物与药学上可接受的载体一起施用并以有效量达到其 预期的目的。受试者施用的活性化合物的剂量应足以达到在一段时间内对受试者产生益影 响如在减少或缓解,癌症的症状,和/或减少,消退或消除肿瘤或癌细胞。药物活性化合物 的给药量可以取决于待治疗受试者的年龄,性别,体重和一般健康状况。在这方面,施用活 性化合物的精确量取决于医生的判断,并且本领域技术人员可以容易地确定治疗剂的合适 剂量和无需过度实验的合适的治疗方案。 为了可以容易地理解本发明并付诸实际效果,通过以下非限制性实施例的方式描述特 别优选的实施方案。 实施例 实施例1 乳腺癌TP 53体细朐突夺的分析 通过访问IARC TP53数据库并提取乳腺癌的特定数据评估乳腺癌TP 53体细胞突变的 频率和环境。该数据集点突变的数量很大(N = 2, 514)。大多数突变是单点突变,主要集中 在TP53的DNA结合区(密码子-130-300)。仅一小部分样品携带TP53外显子突变。本文 认为TP53的碱基组成有轻微变化,并且没有更正。各种标准的选择有利于建设和5'和3' 侧翼序列上下游的所有类型突变的分析涉及未突变TP53外显子序列(并且在某些情况下, 内含子序列)。这有利于各类型的突变的频率分布的发展(例如,A至G)与感兴趣区域的 核苷酸和密码子的位点。 分析该cDNA转录的序列(即与非
转录链相同的背景)。用于提取和分析C0SM和 ICENSEMBL数据库公开提供的这些cDNA转录物。用这些转录物,分析AID基序(GYW/ WRC),AP0BEC1基序(TG/CA)和AP0BEC3G基序(CG/CG),以及WA基序突变的背景,这代表 SHM过程第二阶段A :T碱基对突变的可能位点(因此与AID活性有关)。评估所述突变涉 及它们的突变密码子位点。 图1显示了分析定义的"感兴趣区域"的突变序列的一个例子。感兴趣区域包括包含突 变密码的9个核苷酸,侧翼5'(5')密码子和3'(3')密码子。侧翼5'的密码子核苷酸(N) 的位点分别标记为5'N1,5'N2和5'N3(5'至3')。同样,侧翼3'的密码子核苷酸的位点分 别注解为3' N1,3' N2和3' N3。所示A到C的点突变(A>C)的例子,点非转录链(NTS)MC-l 位的A突变为复制非转录链(NTS')的C。突变的密码子的A突变与5' -N3位点的G相关 联。这被注释为"S..A"(其中S是G或C)。此注解用于突变密码子内的突变位点。
[0121]汇集的乳腺癌数据集中的TP53基因的每个2514的体细胞突变的的频率和密码子 背景显示在表1中。如上所述,MC-l,MC-2和MC-3指的是突变密码子(MC)内的突变位点。 这些是从非转录链的5'到3'。以确定各突变型的密码子背景是否重要,卡方检验用于检验 在〈0. 01水平的截止统计学意义(2DF)。 表1:
据观察,转变(即A〈>G或C〈>T)比颠换(即A或G〈>C或T)多。其结果是,该突变模 式显示显著链偏差,其中A突变超过T突变(371/283 = 1. 3),和G突变超过C突变(1 1 10/750 = 1.5)。这与以前的工作一致示出了免疫球蛋白基因的VDJ地区SHM过程类似链 偏好模式以及在包括乳腺癌的非淋巴肿瘤整个基因组中的蛋白激酶基因突变数据(Steele and Lindley (2010) DNA R印air 9:600-603)。该链偏好模式也与B细胞慢性淋巴细胞白血 病患者的突变数据一致(Malcikova et al. (2008)Molecular Immunology 45:1525-9) 〇 在表1所示的合并数据集还揭示先前没有报道的显著突变的密码子偏好模式。最显 著的密码子背景的偏好是为转换C>T(P〈0. 001,2DF),G>A(P〈0. 001,2DF)和A>G(P〈0. 001, 2DF),已知这导致与SHM与进程相关联的标志链偏好模式。 结果发现所有C>T转换的397/593 (66. 9%)发生在MC-1位点,所有C突变的(即C>A/ G/T)的 397/750 (52. 9 % )发生在 MC-2 位点。所有 G 突变的 505/1 110 (45. 5 % )(即 G>A/ C/T)是MC-2位点的G>A转换。如果随机发生并独立于的密码子结构的突变,因此预计仅 特定核苷酸的突变的3种不同类型的突变1/9 (或约11. 1% )发生在一个特定的位点(即 MC-1,MC-2 或 MC-3)。 对于A>G转换,所有A>G转换的194/269 (72. 1 % )发生在MC-2位点,所有A突变(即 A>C/G/T)的 194/371 (52. 3% )是 MC-2 位点的 A>G 转换。 表1中的数据还支持在TP53错义突变选择的期望作为MC-3的突变的数目显著小于 RNA每个C>T,G>A和A>G转换的MC-1或MC-2位点,无义介导的mRNA降解(NMD)途径是一 种已知的依赖于密码子背景信息的细胞监视系统,使细胞识别和处置含"无义"突变基或可 能提前停止翻译的STOP信号(UAG,UGA和UAA)的缺陷基因产品。这是TP53错义突变选择 的结果。该数据也与另一个先前的研宄相一致,此研宄报告免疫球蛋白可变(V)区基因互 补决定区密码子位点的MC-1和MC-2的可变性趋势高于预期。 该分析还发现MC-1位点发生C>T转换(P〈0. 001,2DF)和MC-2位点发生G>A转换 (P〈0. 001,2DF)的非常显著的统计偏好。如开放"转录泡" ssDNA TS或NTS的胞苷都能够 进行脱氨,该数据支持涉及能够读取结构内并区分TS和NTS胞苷的分子机制结论。 表2示出了发生在AID、AP0BEC1和AP0BEC3G基序,以及WA基序TP 53乳腺癌数据集 2514体细胞突变的密码子背景。卡方检验来确定对截止于P0. 01水平的统计学意义(2DF)。 如果突变独立于5'-密码子结构发生,并且碱基组成无修正,然后,预计围绕每个突变 型的三分之一将位于MC-1,、MC-2或MC-3位点。.同样地,预期仅围绕单个核苷酸的所有 突变的九分之一(11. 1% )将位于MC-1,、MC-2或MC-3位点。对于在关键基序过渡密码子 背景偏好与AID、AP0BEC1和AP0BEC3G活性比表1中示出的合并数据集在统计上更加显著 相关。 表2.
因为GYW基序与AID活性相关,所有G>A转换的185/200 (92. 5 % )发生在MC-2位点,并 且GYW位点所有突变的106/132(80. 3% )发生在MC-1位点。相反,在WRC位点,,所有C>T 转换的106/132 (80. 3%)发生在MC-1位点,C所有突变(即OA/G/T)的106/168 (63. 1%) 是MC-1位点的C>T转换。 因为CG基序与APOBEC3G活性相关,所有G>A转换的358/407 (87. 7% )发生在MC-2位 点,并且CG位点所有突变的358/505 (70. 9% )是MC-2位点的G-到-A转换。相反,在CG 位点,,所有C>T转换的240/248 (96. 8% )发生在MC-1位点,C所有突变(即OA/G/T)的 240/288(83. 3% )是 MC-1 位点的 C>T 转换。 因为TG/CA基序与APOBEC 1的活性相关,密码子背景偏好没有统计显著,在CA位 点,C>T转换的93/160 (58. 1 % )发生在MC-1位点,并且C所有突变(即OA/G/T)的 93/188 (49. 5% )是MC-1位点的C>T转换。仅TG位点所有G>A转换的62/155 (40. 0% )发 生在MC-2位点,和所有C>T转换的240/248(96.8% )发生在MC-1位点,G所有突变(即 OA/G/T)的 62/136 (45. 6% )是 MC-2 位点的 G>A 转换。 表2中所示在关键基序观察到的密码子偏好模式的另一特征是AID,APOBEC 1和 AP0BEC3G每个基序多数的所有G突变为发生在MC-2位点。通过比较,每个基序多数的C突 变为发生在MC-1目标点。这表示符合读码框架的感测机制涉及转录起始的期间的DNA水 平,并且,它能够区分NTS的胞苷和开放的"转录泡"背景TS的胞苷。 因为WA位点的A>G转换,128/141 (90. 8% )发生在MC-2位点,并且WA位点的所有A 突变(g卩.A>C/G/T)的128/167 (76. 6% )是MC-2位点的G>A转换。认为WA位点的A>G突 变水平的提高是SHM活性的一个特征和RNA模板中间参与的诊断,这一发现支持内源性AID 引起的突变过程活跃在至少许多数据集中的样品的预测。 表3示出发生在在关键基序的突变的密码子背景与AID,APOBEC1和APOBEC3G相关并 且与强核苷酸(S = G/C)共同位于5'N3位点。标记'S. .M'(其中M是突变的核苷酸A,G,C 或T)用于表明侧翼突变密码子5' N3位点处"S"核苷酸的存在,以及在MC-1,MC-2或MC-3 位点的任一处突变的核苷酸靶标。如果突变独立地发生在5' -密码子结构,并且碱基组成 不进行校正,然后,预计仅每个所述基序的一半突变将和S共同位于5'N3位点。 表3.
*5'N3位点核苷酸是'S'和MC-1位点突变是M或是不可能的。同样,5'N3位点的 核苷酸不能是"S"并且MC-2位点WR£突变和MC-1位置C £位点所有的突变在5' N3位点有 "S"。 所述分析发现S-M位点和与AID,APOBEC3G活性相关的基序转换之间出乎意料地高联 系,并且在WA位点,但不在APOBEC1位点。因为GYW/WRC基序与AID活性相关,MC-2位点 所有G>A转换的184/185 (99. 5% )在5' N3位点有S出现,并且MC-1位点所有C>T转换的 102/106(96.2%)在5' H3位点有S出现。因为CG/CG基序与AP0BEC3G活性相关,MC-2 位点所有G>A转换的352/358 (98. 3% )在5' N3位点有S出现,并且MC-1位点所有C到T 转换的239/240 (99. 6% )在5' N3位点有S出现。因为TG/CA基序与APOBECT活性相关,所 述的结果没有统计学显著。仅MC-2位点G>A转换的36/62 (58. 1 % )在5' N3位点有S出 现,并且MC-1位点C到T转换的252/93 (55. 9 % )在5' N3位点有S出现。对于WA位点, MC-2位点A到G转换的121/127(95.3% )在5'N3位点有S出现。 表3中的数据也揭示了与S共同位于5' N3位点的选择基序的一些颠换的出乎意料的 高比例。特别是,GYW或CG靶向位点的G到T/C突变和S. . G位点之间有高于预期的结合。因 为G的所有转换和颠换发生在选择的AID,APOBEC3G和WA基序的MC-2目标位点,高度显著 778/799(97. 4% )和S在同一位点?。同样,CG的所有转换和颠换的375/382(98. 2% ) 发生在选择的AID和APOBEC3G基序的MC-1目标位点,和S. . £共存。 因此,和S. . M (M = A/G/C/T)在同一位点似乎是直接接触结合的一个组成部分和与AID 和APOBEC3G脱氨酶酶活性相关的密码子阅读框传感器机制,以及作用在WA位点的突变机 制⑶。 实施例2 预测AID, APOBEC1或APOBEC3G活件的诊断规则的发展 观测的AID, APOBEC 1,APOBEC3G和WA基序突变的密码子偏好模式(上述)用于产生 下面的"规则"或诊断标准,预测核苷酸体细胞突变是否是AID,APOBEC 1和/或APOBEC3G 活动的结果。 MC-2位点去除GYW (AID)基序的G>A突变的数量高于预期与转录链AID脱氨酶的活性 相关。 MC-1位点去除WRC(AID)基序的C>T突变的数量高于预期与非转录链AID脱氨酶的活 性相关。 MC-2位点去除CG(APOBEC3G)基序的G>A突变的数量高于预期与APOBEC3G的活性相 关。 MC-1位点去除CG(APOBEC3G)基序的突变C>T的数量高于预期与APOBEC3G的活性相 关。 MC-2位点去除WA基序的A>G突变的数量高于预期指示AID-关联的突变过程,从而指 示AID的活性。 当应用这些规则时,假定该组中的每个核苷酸的突变是彼此独立的,并且如果诱变剂 不存在,每个密码子位点的MC-1和MC-2的每个核苷酸的突变的分布将随机分配为A,G,C 或T突变。 图2示出如何用上述诊断标准确定偏好性突变分布的可能原因,偶然出现或由AID或 APOBEC3G引起的靶向体细胞突变引起。对于每一个上述选择的诊断类别,实测(0)和预期 (E)突变的数量列于表的形式。对于诊断类别,如果突变是随机的,预期(E)突变的数量用 可能出现在特定核苷酸每三个可能突变类型的MC-1和MC-2位点的突变总数量计算(当分 析TP53基因的突变,如在图2中,排除MC-3位点作为已选定绑定功能TP53基因的突变的 变体的比较。无义介导的信使RNA降解(NMCD)途径涉及一种已知的依赖于密码子背景信 息的细胞监控系统,使细胞识别和处置有缺陷的基因产物,该产物含无义突变或停止信号, 可能提前停止翻译)。例如,关于与WRC基序相关的AID活性可以导致非转录链的胞嘧啶 (C)突变,如果被随机分布突变C的数量,突变将均匀地分布在MC-1,MC-2位点和C>A,C>G 和C>T(C>A/G/T)。因此,在该示例中,MC-1位点的C>T突变的预期(E)数量是MC-1和MC-2 位点的OA/T/G突变的总数(即1+1+72+6+1+1),除以突变可能类型/位点的数量(即6), 这等于13. 67。然后用简单的卡方检验确定检测的随机分布的概率。图3所示的例子中,适 用于TET2基因突变组的诊断标准的选择集中MC-1 MC-2密码子偏好分布随即出现的可能 性是7.42E-128。这一结果有非常高的统计学意义(P〈1E-127)。 再次参照图3,MC-2位点GYW基序G>A突变的数量高于预期和MC-1位点WRC基序C>T 突变的数量高于预期表明AID脱氨酶活性,而MC-2位点CG基序G>A突变的数量高于预期 和MC-1位点CG基序C>T突变的数量高于预期表明AP0BEC3G活性。 实施例3 其他癌症中TP53体细朐突夺分析 为了确定乳腺癌样品TP53的AID、AP0BEC3G和WA基序突变的密码子偏好是否也发生 在其他癌症的TP53,从子宫颈癌(所有类型),宫颈腺癌,结肠腺癌,肝细胞癌,胰腺癌,前列 腺癌,以及恶性黑色素瘤的IARC TP53数据库中提取数据,并如上所述进行分析。 图4-11示出了 GYW/WRC位点(AID),CG/CG位点(AP0BEC3G)和WA位点突变密码子的 频率和位置。如这些图所示,检测每个这些癌症TP53中AID,AP0BEC3G和/或WA基序突变 密码子偏好模式,表明有TP53突变的多种癌症与AID/APOBEC脱氨酶的活性有关在统计学 上有非常高的可能性。 实施例4 归闵于PIK3CA和TET2中AID或AP0BEC3G体细朐突夺的分析 数据库中不同的患者群来源的总样本数据分析乳腺癌组织样品PIK3CA和造血和淋巴 组织样本TET2的AID、AP0BEC3G和WA基序体细胞突变密码子背景的缺失频率。如图12和 13所示,AID、AP0BEC3G和WA基序体细胞突变密码子背景的缺失频率表明AID和AP0BEC3G 在这些组织中有活性,和检测的体细胞突变显著数量的可能原因。 实施例5 腺样囊件癌#体样品的全外显子组分析 用上述的诊断标准评估AID和/或AP0BEC3G参与腺样囊性癌(ACC)患者组织细胞靶向 体细胞突变的可能性。在23预处理主要ACC标本和1局部区域淋巴结转移以及相应的配套 正常涎腺实质样品进行全外显子组测序的研宄中获得序列数据(St印hens et al. (2013) J Clin Invest. 123(7):2965-2968)。所述外显子组测序鉴定312个突变,,平均每外显子组 有13个突变,相对于其他实体瘤是比较少的。如上所述分析体细胞突变,以确定GYW/WRC 位点(AID)、CG/CG位点(APOBEC3G)和WA位点.突变的频率和密码子的位置 图14示出了两个患者样品中发现的突变的代表分析:PD3185a和H)3181a。诊断标准 的应用,本文发现H)3185a样品的核苷酸发生了靶向体细胞突变,和该样品细胞的AID和 APOBEC3G可能有活性并引起靶向体细胞突变。与此相反,试样中具有最高数目的体细胞突 变(PD3181a),没检测到靶向体细胞突变的证据,没有AID或APOBEC3G导致该样品核苷酸体 细胞突变的迹象。 总体而言,本文发现检测24个ACC样品只有9个样品AID和/或APOBEC3G活性引起的 靶向体细胞突变呈阳性(表4)。有突变的数量和靶向体细胞突变之间或MYB激活得分之间。 没有相关性。此派生MYB激活得分以指示特定样品是否有MYB-NFIB基因融合(Stephens et al. (2013) J Clin Invest. 123(7):2965-2968)。 表4
实施例6 前列腺癌#体样品的全外显子组分析
[0154] 从COSMIC数据库获得四个前列腺癌样本外显子组范围内的突变数据(Wellcome Trust Sanger Institute ;http://cancer.sanger.ac. uk/cancergenome/Droiects/ cosmic/'),并且如上所述进行分析,以确定所述样品核苷酸的革巴向体细胞突变是否由AID 和/或AP0BEC3G活动引起。两个样品来自尸检转移性去势抵抗前列腺癌病人(CRPC),另 两个样品分别来自pT2c病人和PT3A期前列腺癌病人。
[0155] 如表5中归纳,发现AID和/或AP0BEC3G活动导致三个样本靶向体细胞突变呈阳 性。有趣的是,低PSA样品受体检测到靶向体细胞突变,表明这种类型的分析可以用于在 PSA水平开始上升前检测早期前列腺癌。
[0156] 图15显示了四个患者样品中发现的突变的个体分析。除了指示AID和/或 AP0BEC3G活性,PR-09-3421样品MC-1位点G&g
t;T突变的高数量和MC-3位点C>T突变的告数 量,及PR-2762样品G>A突变和C>T突变的高数量表明在这些患者中可能有其它AP0BEC脱 氨酶活动。 表5
实施例7 昔曲霍毒素基序的鉴宙
[0157] TP53密码子249第三位点的AG>T颠换与黄曲霉毒素,来自曲霉属的外源性诱变 剂相关,并已用作诊断标记物。如图5,有MC-3位点高数量G>T突变与肝细胞癌(HCC)样 本TP53基因GG基序结合。为了进一步调查,分析来自COSMIC数据库的全外显子组样品 (HCC53T)的G>T突变。据观察,全外显子组MC-3位点有9个G>T突变,每个突变与GG基序 重合。这表明,黄曲霉毒素导致GG基序MC-3位点G>T突变。 实施例8 预测AP0BEC3H活件的诊断规则发展
[0158] 认为AP0BEC3H是针对GA基序。为了进一步分析该基序突变的密码子背景,分析 膀胱癌受试者组织的全外显子组(从COSMIC数据库获得序列)。如图16,MC-1位点有G>A 突变优势,表明当G在MC-3位点时,在GA基序AP0BEC3H首先攻击突变成G,导致G>A突变。 实施例9 预测AP0BEC3G活件的诊断规则发展
[0159] 本文已经表明AP0BEC3G攻击CG/CG基序之外的CC基序。为了进一步分析CC基 序突变的密码子背景,分析膀胱癌治疗之前受试者组织的全外显子组(从COSMIC数据库获 得序列)。分析8名受试者(B2、B5、B8-10、B13、B15和B20)的全外显子组序列作为汇集 数据(图17A)并且独立地分析一个受试者(B 13)的全外显子序列(图17A)。如图17和 18,MC-1位点C>T突变有统计学上显著优势,表明当C在MC-1位点时,在CC基序AP0BEC3H 首先攻击突变成C导致C>T突变。
[0160] 本文引用的每一个专利,专利申请和出版物的公开内容均以引用的方式全文并入 本文。
[0161] 本文任何参考文献的引用均不代表承认该参考文献可作为"现有技术"应用到本 申请。
[0162] 整个说明书的目的是描述本发明的优选实施例,而不限制本发明到任何一个实施 方式或特征的特定集合。因此本领域技术人员可以理解的是,根据本文公开,可以在具体的 实施方案中进行各种修改和改变而不脱离本发明的范围。所有这些修改和变化,意图包括 在所附权利要求的范围之内。
【主权项】
1. 一种用于确定诱变剂引起核酸分子的靶向体细胞突变已经发生的可能性的方法,包 括分析所述核酸分子的序列以确定一种突变型在一个或多个基序的突变的密码子背景,其 中,当核酸分子密码子的一个位点处的突变高于预期的突变百分比或数量时,则确定靶向 体细胞突变很可能已经发生。2. 权利要求2所述的方法,其中通过假设突变独立于密码子背景发生来计算预期的突 变百分比或数量。3. 权利要求2所述的方法,其中所述预期的突变百分比大约是11 %或17%。4. 权利要求2所述的方法,其中所述预期的突变数量大约是每9个突变有1个或每6 个突变有1个。5. 权利要求1-4任一项所述的方法,其中所述突变百分比实测为至少30 %,35%, 40%,45%,50%,55%,60%,65%,70%,80%,85%,90%,95% 或更多。6. 权利要求1-5任一项所述的方法,还包括确定哪种或哪些诱变剂为靶向体细胞突变 的可能原因。7. 权利要求1-5所述的方法,其中所述诱变剂选自黄曲霉毒素,4-氨基联苯,马兜铃 酸,砷化合物,石棉,硫唑嘌呤,苯,联苯胺,铍和铍的化合物,1,3- 丁二烯,二甲基磺酸1, 4- 丁二醇酯,镉和镉化合物,苯丁酸氮芥,1- (2-氯乙基)-3- (4-甲基环己基)-1-亚硝基脲 (MeCCNU),二氯二甲醚和工业级氯甲基甲醚,铬六价铬化合物,煤焦油沥青,煤焦油,焦炉逸 散物,环磷酰胺,环孢菌素A,己烯雌酚(DES),毛沸石,环氧乙烷,甲醛,美法仑,长波紫外线 联合甲氧沙林(PUVA),芥子气,2-萘胺,中子,镍化合物,氡,结晶二氧化硅(可吸入粒度), 太阳辐射,煤烟,含有硫酸的强无机酸雾,他莫昔芬,2, 3, 7, 8-四氯双苯环二恶英(TCDD), 塞替派,二氧化钍,烟草烟雾,氯乙烯,紫外线辐射,木肩,X射线,伽玛辐射,活化诱导胞苷脱 氨酶(AID),载脂蛋白BmRNA编辑酶催化多肽样蛋白(APOBEC)胞苷脱氨酶,和易错DNA聚 合酶。8. 权利要求7所述的方法,其中所述APOBEC胞苷脱氨酶选自APOBEC1、AP0BEC3A、 AP0BEC3B、AP0BEC3C、AP0BEC3D、AP0BEC3F、AP0BEC3G和AP0BEC3H。9. 权利要求1-8任一项所述的方法,其中所述诱变剂选自AID,AP0BEC1,AP0BEC3G, AP0BEC3H和黄曲霉毒素;并且其中, 如果测得核酸分子非转录链密码子第二位点(MC-2位点)SYW基序的G>A突变的数量 或百分比高于预期,则确定AID是靶向体细胞突变的一个可能的原因; 如果测得核酸分子非转录链密码子第一位点(MC-1位点)WR£基序OT突变的数量或 百分比高于预期,则确定AID是靶向体细胞突变的一个可能的原因; 如果测得核酸分子非转录链密码子MC-2位点CS基序的G>A突变的数量或百分比高于 预期,则确定AP0BEC3G是靶向体细胞突变的一个可能原因; 如果测得核酸分子非转录链密码子MC-I位点£G基序的OT突变的数量或百分比高于 预期,则确定AP0BEC3G是靶向体细胞突变的一个可能原因; 如果测得核酸分子非转录链密码子MC-I位点C£基序的OT突变的数量或百分比高于 预期,则确定AP0BEC3G是靶向体细胞突变的一个可能原因; 如果测得核酸分子非转录链密码子MC-I位点弘基序的G>A突变的数量或百分比高于 预期,则确定AP0BEC3H是靶向体细胞突变的一个可能原因; 如果测得核酸分子非转录链密码子MC-I位点gv基序的OT突变的数量或百分比高于 预期,则确定AP0BEC1是靶向体细胞突变的一个可能原因; 如果测定核酸分子非转录链密码子MC-2位点TQ基序的G>A突变的数量或百分比高于 预期,则确定AP0BEC1是靶向体细胞突变的一个可能原因; 如果测得核酸分子非转录链密码子MC-3位点基序的G>T突变的数量或百分比高于 预期,则确定黄曲霉毒素是靶向体细胞突变的一个可能原因; 其中所述核酸分子来自受试者的生物样品。10. 权利要求1-5任一项所述的方法,还包括确定AID相关的突变过程是否是所述靶向 体细胞突变的可能原因。11. 权利要求10所述的方法,其中,如果测得核酸分子非转录链密码子MC-2位点WA基 序的A>G突变,MC-2位点SYW基序的G>A突变或MC-I位点WR£基序的OT突变的数量或 百分比高于预期,则确定AID相关的突变过程是靶向体细胞突变的一个可能原因。12. 权利要求9所述的方法,其中,如果确定AID是靶向体细胞突变的一个可能原因,还 包括对受试者施用AID抑制剂。13. 权利要求9所述的方法,其中,如果确定AP0BEC3G是靶向体细胞突变的一个可能原 因,还包括对受试者施用AP0BEC3G抑制剂。14. 权利要求9所述的方法,其中,如果确定AP0BEC3H是靶向体细胞突变的一个可能原 因,还包括对受试者施用AP0BEC3H抑制剂。15. 权利要求9所述的方法,其中,如果确定AP0BEC1是靶向体细胞突变的一个可能原 因,还包括对受试者施用AP0BEC1抑制剂。16. 权利要求1-15任一项所述的方法,还包括如果确定靶向体细胞突变已经发生和/ 或诱变剂是靶向体细胞突变的可能原因,则诊断受试者中的癌症或确定受试者将患癌症的 可能性。17. -种确定受试者患或将患癌症的可能性的方法,包括分析取自受试者生物样品的 核酸分子,以检测已发生一个或多个诱变剂引起的靶向体细胞突变,并在已发生靶向细胞 诱变时确定所述受试者很可能患或将患癌症。18. 权利要求17所述的方法,其中所述诱变剂选自黄曲霉毒素,4-氨基联苯,马兜 铃酸,砷化合物,石棉,硫唑嘌呤,苯,联苯胺,铍和铍化合物,1,3-丁二烯,二甲基磺酸1, 4- 丁二醇酯,镉和镉化合物,苯丁酸氮芥,1-(2-氯乙基)-3-(4-甲基环己基)-1-亚硝基 脲(MeCCNU),二氯二甲醚和工业级氯甲基甲醚,铬六价铬化合物,煤焦油沥青,煤焦油,焦 炉逸散物,环磷酰胺,环孢菌素A,己烯雌酚(DES),毛沸石,环氧乙烷,甲醛,美法仑,长波紫 外线联合甲氧沙林(PUVA),芥子气,2-萘胺,中子,镍化合物,氡,结晶二氧化硅(可吸入粒 度),太阳辐射,煤烟,:含有硫酸的强无机酸酸雾,他莫昔芬,2, 3, 7, 8-四氯双苯环二恶英 (TCDD),塞替派,二氧化钍,烟草烟雾,氯乙烯,紫外线辐射,木肩,X射线,伽玛辐射,活化诱 导胞苷脱氨酶(AID),载脂蛋白BmRNA编辑酶催化多肽样蛋白(APOBEC)胞苷脱氨酶,和易 错DNA聚合酶。19. 权利要求17或18所述的方法,其中,在以下情况发生时测得靶向体细胞突变: 核酸分子非转录链密码子MC-2点SYW基序的G到A突变的数量或百分比高于预期; 核酸分子非转录链密码子MC-I点WR£基序的OT突变的数量或百分比高于预期; 核酸分子非转录链密码子MC-2位点逆基序的G>A突变的数量或百分比高于预期; 核酸分子非转录链密码子MC-I位点成基序的OT突变的数量或百分比高于预期; 在核酸分子非转录链密码子MC-I位点a基序的OT突变的数量或百分比高于预期; 在核酸分子非转录链密码子MC-I位点逆基序的G>A突变的数量或百分比高于预期; 核酸分子非转录链密码子MC-2位点也基序的G>A突变的数量或百分比高于预期; 核酸分子非转录链密码子MC-3位点呢基序的G>T突变的数量或百分比高于预期; 核酸分子非转录链密码子MC-I位点£C基序的OT突变的数量或百分比高于预期;或 核酸分子非转录链密码子MC-2位点WA基序的A>G突变的数量或百分比高于预期。20. 权利要求19所述的方法,其中如果核酸分子非转录链密码子MC-2位点SYW基序的 G>A突变或MC-I位点WR£基序的OT突变的数量或百分比高于预期,则所述诱变剂是AID。21. 权利要求19所述的方法,其中如果核酸分子非转录链密码子MC-2位点C£基序的 G>A突变,MC-I位点£G基序的OT突变或MC-I位点CG基序的OT突变的数量或百分比高 于预期,则所述诱变剂是AP0BEC3G。22. 权利要求19所述的方法,其中如果核酸分子非转录链密码子MC-I位点£A基序 测的OT突变或MC-2位点TG基序的G>A突变的数量或百分比高于预期;则所述诱变剂是 APOBEC1。23. 权利要求19所述的方法,其中如果核酸分子非转录链密码子MC-I位点基序的G>A突变的数量或百分比高于预期,则所述诱变剂是AP0BEC3G。24. 权利要求19所述的方法,其中如果核酸分子非转录链密码子MC-3位点G£基序的 G>T突变的数量或百分比高于预期,则所述诱变剂是黄曲霉毒素。25. 权利要求16-24任一项所述的方法,其中所述生物样品包括乳腺、前列腺、肝、结 肠、胃、胰腺、皮肤、甲状腺、子宫颈、淋巴、造血、膀胱、肺、肾、直肠、卵巢、子宫和头颈部的组 织或细胞。26. 权利要求16-25任一项所述的方法,其中所述癌症选自乳腺癌、前列腺癌、肝癌、 结肠癌、胃癌、胰腺癌、皮肤癌、甲状腺癌、子宫颈癌、淋巴癌、血癌、膀胱癌、肺癌、肾癌、直肠 癌、卵巢癌、子宫癌和头颈部癌。27. 权利要求16-25任一项所述的方法,其中所述癌症是肝细胞癌,黑素瘤或腺样囊性 癌。28. 权利要求16-26任一项所述的方法,其中,如果所述样品包括前列腺组织或细胞, 则诊断受试者患有前列腺癌或确定其可能患或将患癌症。29. 权利要求16-27任一项所述的方法,其中,如果所述样品包括乳腺组织或细胞,则 诊断受试者患有乳腺癌或确定其可能患或将患乳腺癌。30. 权利要求16-29任一项所述的方法,还包括治疗受试者。31. 权利要求30所述的方法,其中治疗包括放射疗法,外科手术,化疗,激素消融治疗, 促凋亡疗法和/或免疫疗法。32. 权利要求20所述的方法,还包括对受试者施用AID抑制剂。33. 权利要求21所述的方法,还包括对受试者施用AP0BEC3G抑制剂。34. 权利要求22所述的方法,还包括对受试者施用AP0BEC1抑制剂。35. 权利要求23所述的方法,还包括对受试者施用AP0BEC3H抑制剂。36. -种确定诱变剂靶向的核酸基序的方法,包括: 分析核酸分子的序列以确定已知由所述诱变剂引起的突变类型的体细胞突变; 确定所述突变的密码子背景以识别突变以高于预期频率发生的优选核苷酸位点;和 确定位于所述优选核苷酸位点的突变的侧翼的核苷酸,以便确定所述突变的共同基 序。37. -种确定诱变剂靶向的核酸基序的方法,包括: 分析核酸分子的序列以确定所述核酸分子的体细胞突变; 确定在密码子优选核苷酸位点上以高于预期频率发生的突变型;和 确定位于所述优选核苷酸位点的突变的侧翼的核苷酸,以便确定所述突变的共同基 序。38. 权利要求36或37所述的方法,其中所述突变类型选自C>T、C>A、C>G、G>T、G>A、 G>C、A>T、A>C、A>G、T>A、T>C和T>G突变。.39. 权利要求36-38所述的方法,其中所述优选核苷酸位点选自MC-1,MC-2和MC-3。40. 权利要求36-39所述的方法,通过假设突变独立于密码子背景发生来计算其中所 述预期频率。41. 权利要求39所述的方法,其中所述预期频率大约为每9个突变有1个或每6个突 变有1个。42. 权利要求30-41任一项所述的方法,其中所述突变发生在优选核苷酸位点至少 30%,35%,40%,45%,50%,55%,60%,65%,70%,80%,85%,90%,95% 或更多。43. 权利要求30-42任一项所述的方法,分析其中所述核酸分子的非转录链。44. 权利要求30-43任一项所述的方法,其中所述诱变剂对于取得核酸的细胞来说是 内源的。45. 权利要求35-44任一项所述的方法,其中所述诱变剂对取得核酸的细胞来说是外 源的。46. 权利要求35-43任一项所述的方法,其中所述诱变剂选自:4_氨基联苯,马兜铃 酸,砷化合物,石棉,硫唑嘌呤,苯,联苯胺,铍和铍化合物,1,3-丁二烯,二甲基磺酸1,4_ 丁 二醇酯,镉和镉化合物,苯丁酸氮芥,1-(2-氯乙基)-3-(4-甲基环己基)-1-亚硝基脲 (MeCCNU),二氯二甲醚和工业级氯甲基甲醚,铬六价铬化合物,煤焦油沥青,煤焦油,焦炉逸 散物,环磷酰胺,环孢菌素A,己烯雌酚(DES),毛沸石,环氧乙烷,甲醛,美法仑,长波紫外线 联合甲氧沙林(PUVA),芥子气,2-萘胺,胞苷脱氨酶,和易错DNA聚合酶。47. 权利要求6-48任一项所述的方法,其中已知所述核酸分子或获得核酸分子的细胞 在分析之前就已经暴露于诱变剂。48. 权利要求1-47任一项所述的方法,包括首先分离核酸分子。49. 权利要求1-48任一项所述的方法,包括测序核酸分子的全部或部分。50. 权利要求1-49任一项所述的方法,其中所述核酸分子包含单基因的全部或部分或 单基因cDNA。51. 权利要求1-50任一项所述的方法,其中所述核酸分子包含全部或部两个或多个基 因或两个或多个基因cDNA。52. 权利要求50或51所述的方法,其中所述基因与癌症相关。53. 权利要求50-52任一项所述的方法,其中所述基因选自TP53、PIK3CA、ERBB2、 DIRAS3、TET2和一氧化氮合酶(NOS)基因。54. 权利要求1-55任一项所述的方法,其中,分析构成细胞全外显子组的核酸分子。55. 权利要求1-53任一项所述的方法,其中,分析构成细胞全基因组的核酸分子。56. -种试剂盒,包含用于权利要求1-55任一项所述的方法的试剂。57. 权利要求56所述的试剂盒,其中所述试剂选自引物、dNTP和聚合酶。58. 权利要求1-55任一项所述的方法,其中所述方法的全部或部分由处理系统执行。
【专利摘要】本发明主要涉及确定诱变剂引起的核酸分子靶向体细胞突变已经发生的可能性的方法,和确定诱变剂是核酸分子的靶向体细胞突变的原因的可能性的方法。本发明还涉及受试者患癌症的诊断方法和/或确定受试者已经或将患癌症的可能性,治疗癌症患者或癌症高危人群的方法。在另一方面,本发明涉及识别核酸分子基序的方法,此基序通过诱变剂识别或是诱变剂的目标。
【IPC分类】C12Q1/68
【公开号】CN104903467
【申请号】CN201380069425
【发明人】罗宾·艾丽斯·林德利
【申请人】罗宾·艾丽斯·林德利
【公开日】2015年9月9日
【申请日】2013年11月5日
【公告号】EP2914750A1, US20150284803, WO2014066955A1