条形编码核酸的制作方法
【专利说明】
[0001] 本申请要求2012年11月5日提交的美国临时申请号61/722, 357的优先权权益, 该美国临时申请的全部内容以引用的方式并入本文。
[0002] 序列表通过电子提交而随本文一起提交并且以引用的方式并入本文,所述序 列表被包含在被命名为" RUBCP0031W0_ST25.txt"的文件中,所述文件是2KB(如在 MicrosoftWindows?中所测量)并且在2013年11月5日创建。
技术领域
[0003] 本发明大体上涉及分子生物学和核酸测序的领域。更具体地说,它涉及条形编码 (barcoding)核酸的方法。
【背景技术】
[0004] 条形码可以被用于鉴定核酸分子,例如其中测序可以揭示与所关注的核酸分子连 接的特定条形码。在一些情况下,可以使用序列特异性事件来鉴定核酸分子,其中所述条形 码的至少一部分在所述序列特异性事件中被识别出,例如所述条形码的至少一部分可以参 与连接反应或延伸反应。所述条形码因此可以允许对与其连接的gDNA分子进行鉴定、选择 或扩增。
[0005] -种使条形码与所关注的核酸分子结合的方法包括制备Ion gDNA片段文库,如由 生命科技公司(Life Technologies)对于Ion Torrent系统所述。在这种方法中,使gDNA 的片段与衔接子连接,其中使每一个基因组DNA片段的至少一端与包含条形码的衔接子连 接。可以使用PCR用针对所述衔接子的引物对所连接的衔接子和gDNA片段进行切口修复、 尺寸选择、以及扩增以产生扩增的文库。举例来说,可以使用包括16种不同的条形码的连 接衔接子制备16种不同的gDNA样品,每一种gDNA样品具有独特的条形码,因此可以将每 一种样品通过PCR使用相同的PCR引物单独地扩增,然后汇集(混合在一起)或者可以首 先将每一种样品汇集,然后使用相同的PCR引物同时扩增。因此,每一种gDNA样品可以通 过它所附接的独特的条形码来被鉴定。然而,所需的不同的连接衔接子的数目等于条形码 的数目。举例来说,以混合物的形式产生能够被测序的256种样品文库将需要256种不同 的连接衔接子。
【发明内容】
[0006] 本发明的实施方案提供了制备用于测序的带双重条形码的核酸分子的方法。在核 酸分子的同一端上具有第一条形码和第二条形码可以容许测序读取从第二条形码开始,继 续经过第一条形码,然后进入到核酸分子中。因此可以在单次读取中获得对第二条形码、第 一条形码以及所述核酸分子的序列进行的鉴定,而不是不得不使得从核酸分子的每一端进 行测序读取以从核酸分子的远端向后对单个条形码的序列进行读取,正如在使用双重测序 条形码的传统方法中的情况那样。
[0007] 因而,本发明的一个实施方案涉及一种制备带双重条形码的核酸分子的方法,所 述方法包括:使茎-环寡核苷酸的一条链与核酸分子结合以形成第一条形码结合的核酸分 子,所述茎-环寡核苷酸包含分子内反向重复序列和环,所述反向重复序列包含第一条形 码;通过链置换或通过切口平移聚合将所述茎-环寡核苷酸的一条链从所述第一条形码结 合的核酸分子中置换,以形成带第一条形码的核酸分子;使引物与所述带第一条形码的核 酸分子退火,所述引物包括与所述带第一条形码的核酸分子互补的第一部分和包含第二条 形码的第二部分;以及使退火的引物延伸以形成带双重条形码的核酸分子,所述带双重条 形码的核酸分子包含所述第二条形码、所述第一条形码、以及所述核酸分子的至少一部分。 在一些方面,所述引物的第一部分与所述第一条形码或所述第一条形码的一部分退火。在 其它方面,所述引物的第一部分不在所述第一条形码内退火。可以通过使用聚合酶,例如经 由聚合酶链反应或PCR来进行延伸。所述核酸分子可以是基因组DNA、cDNA、扩增的DNA、核 酸文库、或其片段。
[0008] 在本发明的一个实施方案中,存在一种制备核酸分子的方法,所述方法包括:提供 双链核酸分子;以及使茎-环寡核苷酸的一条链与所述双链核酸分子附接以产生寡核苷酸 附接的核酸分子,所述茎-环寡核苷酸包含反向重复序列和环。在一些实施方案中,所述双 链核酸分子可以是双链DNA分子。在具体实施方案中,所述附接被进一步限定为使所述寡 核苷酸与所述双链核酸分子在所述寡核苷酸附接的核酸分子中产生非共价接合的条件下 附接,所述非共价接合如切口、缺口或5'端侧翼结构(flap structure)。在本发明的具体 方面,所述附接被进一步限定为连接(ligating)。连接可以被限定为使所述莖-环寡核苷 酸衔接子的3'端与所述靶核酸分子的5'端连接。所述方法可以进一步包括通过链置换或 通过切口平移聚合将所述寡核苷酸的一条链从所述寡核苷酸附接的核酸分子中置换。在一 个具体实施方案中,诸如通过例如聚合酶链反应、RNA转录、或链置换使所述寡核苷酸附接 的核酸分子的至少一部分扩增。本发明的方法可以进一步包括使与寡核苷酸附接的核酸分 子扩增,其中所述茎-环衔接子的分子内反向重复序列的至少一部分被排除在扩增的寡核 苷酸附接的核酸分子之外。
[0009] 连接实施方案可以被进一步限定为包括:在所述双链核酸分子上产生可连接的末 端;在所述茎-环寡核苷酸上产生可连接的末端;以及使所述茎-环寡核苷酸的可连接的 末端的一条链与所述核酸分子的末端的一条链连接,从而在所述寡核苷酸附接的核酸分子 中产生非共价接合,如切口、缺口、或5'端侧翼结构。在另外的方面,所述方法包括在所述 核酸分子上产生平末端;在所述茎-环寡核苷酸上产生平末端;以及使所述茎-环寡核苷 酸的平末端的一条链与所述核酸分子的平末端的一条链连接,从而在所述寡核苷酸连接的 核酸分子中产生切口。
[0010] 在一些方面,所述方法可以包括使茎-环寡核苷酸衔接子的一条链与靶核酸分子 的每一端连接。在一些方面,与靶核酸分子的每一端连接的茎-环衔接子的反向重复序列 可以包含相同的序列。在这个方面,所述茎-环衔接子与所述靶核酸分子的每一端的结合 将产生包含末端反向重复序列的核酸分子,从而允许所述分子形成茎环。在其它方面,与靶 核酸分子的每一端结合的茎-环衔接子的反向重复序列可以不包含相同的序列。在这个方 面,使所述茎-环衔接子与所述靶核酸分子的每一端结合将产生缺乏末端反向重复序列的 核酸分子并且因此所述分子将不能形成茎环。
[0011] 在另外的实施方案中,所述寡核苷酸附接的核酸分子包含具有3'端羟基的切口, 其中存在从所述寡核苷酸附接的核酸分子的至少一部分的3'端羟基进行的聚合。
[0012] 链置换或切口平移聚合可以被进一步限定为在环中或邻近于环的茎区域中的不 可复制碱基或区域处停止的聚合。
[0013] 在本发明的一个具体方面,所述方法进一步包括以下步骤:使用核酸内切酶对双 链DNA分子进行消化以产生DNA片段,其中所述寡核苷酸变成与所述DNA片段的一条链连 接,并且其中通过使寡核苷酸连接的DNA片段进行在环中或邻近于环的茎区域中的碱基 或序列处停止的链置换或切口平移聚合,所述寡核苷酸连接的DNA片段的聚合排除所述 茎-环衔接子的分子内反向重复序列的至少一部分。
[0014] 在一些实施方案中,所述茎-环寡核苷酸被进一步限定为包含可裂解的碱基。具 体来说,在一些情况下,所述可裂解的碱基存在于寡核苷酸的环中或邻近于环的茎的序列 中。可裂解的碱基或序列可以包含与糖-磷酸骨架或碱基附接的脱碱基位点或序列、六乙 二醇和/或庞大的化学部分。在具体实施方案中,所述脱碱基位点或序列是通过单一溶液 中的一种或多种酶而引入的。在另一个具体的实施方案中,所述茎-环寡核苷酸的环包含 至少一个脱氧尿苷。
[0015] 在具体方面,所述茎-环寡核苷酸的5'端缺少磷酸酯。
[0016] 条形码还被称为"条码",可以基于选择特定的核酸序列而产生。举例来说, Illumina?测序可以利用6个碱基以有效地产生48种不同的条形码。Ion Torrent测序仪 (例如Ion Proton?测序仪或Ion PGM?测序仪)可以利用6个碱基产生16种条形码。在一 些实施方案中,可以应用规则以产生如下的条形码,所述条形码允许即使在测序期间出现 两处错误也可以正确地鉴定不同的条形码。条形编码描述于例如美国专利7, 902, 122和美 国专利公开2009/0098555中。可以使用U. S. 5, 935, 793或US 2010/0227329中所述的方法 通过引物延伸,例如经由PCR,来掺入条形码。在一些实施方案中,可以经由使用连接将条形 码掺入到核酸
中,随后可以扩增;例如,美国专利5, 858, 656、美国专利6, 261,782、美国专 利公开2011/0319290、或美国专利公开2012/0028814中所述的方法可以与本发明一起使 用。在一些实施方案中,可以使用一种或多种条形码,例如如美国专利公开2007/0020640、 美国专利公开2009/0068645、美国专利公开2010/0273219、美国专利公开2011/0015096、 或美国专利公开2011/0257031中所述。
[0017] 尽管一些实施方案将第二条形码掺入到例如经由美国专利7, 803, 550中所述的 方法所产生的基因组文库中,但本发明的方法可以与用于产生核酸文库的多种多样的技术 组合使用。举例来说,可以将第二条形码掺入到核酸文库的片段中,其中所述核酸文库是使 用与Illumina测序相容的方法而产生,如Nextera? DNA样品制备试剂盒,并且用于产生 Illumina新一代测序文库构建的另外的方法描述于例如Oyola等(2012)中。在其它实施 方案中,核酸文库是使用与SOLiD?或Ion Torrent测序方法相容的方法(例如SOLiD? 片段文库构建试剂盒、SOLiD?.末端配对文库构建试剂盒、SOLiD?ChIP-Seq试剂盒、 SOLiD?总RNA序列试剂盒、SOLiD?SAGE?试剂盒、Ambion?RNA序列文库构建试剂 盒等)而产生。用于新一代测序方法的另外的方法,包括可以与本发明的实施方案一起使 用的用于文库构建的各种方法描述于例如Pareek(2011)和Thudi(2012)中。
[0018] 在另一个实施方案中,存在一种试剂盒,所述试剂盒被装在合适的容器中,所述试 剂盒包含本发明的一种或多种组合物和/或包含适用于本发明的至少一种方法的一种或 多种组合物。
[0019] 本发明的另外的实施方案包括通过本发明的方法制备的DNA分子的文库。
[0020] 如本说明书中所用,"a/an( -可以意指一个(种)或多个(种)。如本文在 一项或多项权利要求中所用,当结合词语"包含"使用时,词语"a/an( -可以意指一个 (种)或多于一个(种)。
[0021] 除非明确地表示指的是单独的替代方案或这些替代方案相互排斥,否则在权利要 求书中术语"或"的使用是用于意指"和/或",尽管本公开支持指的是单独的替代方案以 及"和/或"的定义。如本文所用的"另一个(种)"可以意指至少第二个(种)或更多个 (种)。
[0022] 在整个本申请中,术语"约"用于表示值包括被用于测定所述值的装置、方法固有 的误差变异或研宄对象间存在的变异。
[0023] 根据以下详细说明,本发明的其它目的、特征以及优势将变得显而易见。然而,应 当了解的是,虽然详细说明和具体实施例表明了本发明的优选的实施方案,但是所述详细 说明和所述具体实施例仅是以说明的方式给出的,这是因为根据这一详细说明,落入本发 明的精神和范围内的各种变化方案和改动方案对于本领域技术人员来说将变得显而易见。
【附图说明】
[0024] 下列附图形成本说明书的一部分并且被包括以进一步说明本发明的某些方面。通 过参考这些附图中的一个或多个,结合本文所提供的具体实施方案的详细说明,可以更好 地了解本发明。
[0025] 图1 :对单组条形码的使用相比于第一组条形码和第二组条形码的使用的示意性 比较。
[0026] 图2 :使用茎-环衔接子添加第一条形码、随后进行PCR扩增以添加第二条形码的 图示说明。
[0027] 图3 :含有串联的双重条形码、但不产生末端反向重复序列的衔接子的图示说明。
[0028] 图4 :使用无反向重复序列的串联的双重条形码进行实时PCR文库扩增的结果。
[0029] 图5 :产生末端反向重复序列的含有串联的双重条形码的衔接子的图示说明。 [0030] 图6 :使用有反向重复序列的串联的双重条形码进行实时PCR文库扩增的结果。
【具体实施方式】
[0031] 本发明的技术涉及核酸分子的条形编码。条形码还被描述为标签、索引序列或标 识码,包括被掺入到核酸分子中用于鉴定目的的特定序列。举例来说,可以通过连接和/或 引物延伸使合成核酸分子与基因组DNA(gDNA)接合。本发明的技术涉及具有多个条形码、 特别是相继或串联的条形码的核酸分子。串联的条形码的实例包括通过连接事件(例如与 合成茎-环衔接子连接)而与gDNA分子的至少一端结合的第一条形码,随后是通过引物延 伸(例如PCR)与所述gDNA结合的第二条形码,其中所述第一条形码在所述gDNA分子的近 端(距插入序列更近)并且所述第二条形码在所述gDNA的远端(距插入序列更远)。使用 茎环衔接子连接以及引物延伸或PCR添加额外序列的方法描述于例如美国专利7, 803, 550 中,所述美国专利以引用的方式整体并入本文。这些方法可以在本发明的实施方案中被用 于将第一条形码和/或第二条形码添加到核酸分子中。
[0032] 条形码可以被用于鉴定核酸分子,例如其中测序可以揭示与所关注的核酸分子结 合的特定条形码。在一些情况下,可以使用序列特异性事件来鉴定核酸分子,其中所述条形 码的至少一部分在所述序列特异性事件中被识别出,例如所述条形码的至少一部分可以参 与连接反应或延伸反应。所述条形码因此可以允许对与其连接的gDNA分子进行鉴定、选择 或扩增。
[0033] -种使条形码与所关注的核酸分子结合的方法包括制备Ion gDNA片段文库,如由 生命科技公司对于Ion Torrent系统所述。在这种方法中,使gDNA的片段与衔接子连接, 其中使每一个基因组DNA片段的至少一端与包括条形码的衔接子连接。可以使用PCR用针 对所述衔接子的引物对所连接的衔接子和gDNA片段进行切口修复、尺寸选择、以及扩增以 产生扩增的文库。举例来说,可以使用包括16种不同的条形码的连接衔接子制备16种不 同的gDNA样品,每一种gDNA样品具有独特的条形码,因此可以将每一种样品通过PCR使用 相同的PCR引物单独地扩增,然后汇集(混合在一起),或者可以首先将每一种样品汇集,然 后使用相同的PCR引物同时扩增。因此,每一种gDNA样品可以通过它所附接的独特的条形 码来被鉴定。然而,这种方法的一个问题在于所需的不同的连接衔接子的数目等于条形码 的数目。举例来说,以混合物的形式产生能够被测序的256种样品文库将需要256种不同 的连接衔接子。
[0034] 为了解决这个问题,可以使基因组DNA的片段与具有第一组条形码的衔接子连 接,例如使用如美国专利7, 803, 550中所述的茎-环衔接子和方法。可以产生具有16种不 同的条形码的衔接子,并且可以例如与Ion Torrent测序系统(例如Ion Proton?测序仪 或Ion PGM?测序仪)一起使用所述衔接子。然后可以使用具有第二组条形码的引物对所 连接的具有第一组条形码的衔接子和gDNA片段进行引物延伸反应或PCR。所得的核酸分子 各自在核酸分子的至少一端上具有来自第一组条形码的一个条形码,所述条形码与来自第 二组条形码的一个条形码相邻。条形码的确切数目可以基于具体的应用来确定;例如,在一 些实施方案中,第二条形码可以利用六个碱基来产生例如16种额外的条形码。尽管如此, 根据应用和/或测序方法,可以利用1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、 11个、12个、13个、14个、15个、或16个或更多个碱基来产生第二条形码。在一些实施方案 中,可以使用至少2个、至少3个或3-16个碱基来产生第二条形码。
[0035] 在一些实施方案中,第二组条形码可以包括16种不同的引物。以这种方式,可以 使用16种不同的引物(针对第二组的条形码)对具有十六种不同的条形码(第一组条形 码)的连接衔接子进行扩增以产生16 X 16种独特的条形码组合,这允许将256种样品汇 集,使得样品被256倍多重化。仅使用16+16种寡核苷酸就实现了这种多重化水平使得产 生256种有用的文库的成本和时间大幅节省。优选地,第一条形码和第二条形码可以处在 gDNA的同一侧上(即,作为同一衔接子的一部分)并且可以彼此串联以及与gDNA串联的方 式被测序以节省测序时间和成本。
[0036] 此外,第一条形码可以直接与gDNA附接,而第二条形码可以在通过PCR扩增期间 附接。因此,可以使用第一组条形码以:a)使用相同的条形码对gDNA样品的所有成员进行 标记;或b)使用不同的条形码对gDNA样品的不同成员进行标记。举例来说
,如果使用单 个条形码进行连接,则gDNA的所有成员将普遍带有相同的条形码。然而,如果使用随机或 部分随机的条形码来合成连接衔接子,那么gDNA样品中的不同分子将具有不同的条形码。 在极端情况下,如果条形码区域含有16个随机碱基,则在所连接的核酸文库内可以表现出 65, 536种条形码。所述条形码可以用于区分输入gDNA文库的不同成员;例如,这些方法可 以用于对gDNA文库中的分子复本(其大部分将具有不同的条形码)以及在PCR扩增期间 形成的复本(其大部分将带有相同的第一条形码)进行独立的计数。可以使用部分随机的 第一条形码以提供有关个别样品和个别分子的信息。
[0037] I?定义
[0038] 如本文所用的"扩增"指的是用于使一个或者多个核苷酸序列的拷贝数增加的任 何体外过程。核酸扩增使得核苷酸被掺入到DNA或RNA中。如本文所用,一个扩增反应可 以由多轮DNA复制组成。举例来说,一个PCR反应可以由30-100个"循环"的变性和复制 组成。
[0039] 如本文所用的"核苷酸"是本领域中指代碱基-糖-磷酸酯组合的术语。核苷酸是 核酸聚合物,即DNA和RNA的单体单元。该术语包括核糖核苷三磷酸,如rATP、rCTP、rGTP 或rUTP ;以及脱氧核糖核苷三磷酸,如dATP、dCTP、dUTP、dGTP或dTTP。
[0040] "核苷"是碱基-糖组合,即缺少磷酸酯的核苷酸。在本领域中应当认识到,在术 语核苷和核苷酸的使用中存在一定的可互换性。举例来说,核苷酸脱氧尿苷三磷酸dUTP是 脱氧核糖核苷三磷酸。在被掺入到DNA中之后,它用作DNA单体,在形式上是脱氧尿苷酸, 即dUMP或脱氧尿苷单磷酸。可以说是将dUTP掺入到DNA中,尽管在所得的DNA中不存在 dUTP部分。类似地,可以说是将脱氧尿苷掺入到DNA中,尽管那只是底物分子的一部分。
[0041] 如本文所用的"掺入"意指变成核酸聚合物的一部分。
[0042] 如本文所用的"寡核苷酸"共同地并且可互换地指的是本领域的两个术语,即"寡 核苷酸"和"多核苷酸"。应当指出的是,尽管寡核苷酸和多核苷酸是本领域的不同术语,但 它们之间不存在确切的分界线并且它们在本文中可互换使用。术语"衔接子"也可以与术 语"寡核苷酸"和"多核苷酸"可互换使用。
[0043] 如本文所用的"引物"指的是在扩增期间通过共价添加核苷酸单体而延伸的单链 寡核苷酸或单链多核苷酸。通常,核酸扩增是基于通过核酸聚合酶进行的核酸合成。许多 这样的聚合酶需要可以延伸以开始核酸合成的引物的存在。
[0044] 如本文所用的术语"发夹"和"茎-环寡核苷酸"指的是由包含5'末端区域和3' 末端区域以及非自身互补的中央区域的寡核苷酸形成的结构,所述5'末端区域和3'末端 区域是形成双链茎的分子内反向重复序列,所述非自身互补的中央区域形成单链环。
[0045] II ?本发明的各个方面
[0046] 本发明的实施方案可以提供如下的一种或多种益处或优势。在核酸分子的同一端 上具有第一条形码和第二条形码可以容许测序读取从第二条形码开始,继续经过第一条形 码,然后进入到核酸分子中。因此可以在单次读取中获得对第二条形码、第一条形码以及所 述核酸分子的序列进行的鉴定,而不是不得不使得从核酸分子的每一端进行测序读取以从 核酸分子的远端向后对单个条形码的序列进行读取,正如在使用双重测序条形码的传统方 法中的情况那样。
[0047] 在某些实施方案中,另一优势在于可以优选地在两个单独的步骤中添加第一条形 码和第二条形码。这种添加顺序可以显著增加所编码的样品身份信息的可能的组合。此 外,不同于如目前在一些新一代测序平台中所实行的使用通用的PCR引物对汇集的样品进 行的扩增,使用个别PCR引物对个别样品进行扩增可以降低条形码之间由于引物引发和扩 增失真(artifact)所引起的交叉污染的可能性(图1)。具体来说,可以使用短衔接子,例 如短茎-环衔接子使第一条形码与核酸分子的至少一端进行连接。举例来说,短衔接子具 有包含约14至约23个核苷酸的茎,而长衔接子具有约24至约40个核苷酸的茎。
[0048] 定性观测和定量实验证实连接被设计成在靠近连接位点处含有共同序列的单个 衔接子或两个不同的衔接子可以对下述能力具有有益的作用:优先扩增包含具有受控尺寸 的靶插入序列的分子并且辨别不带插入序列的衔接子二聚体或包含具有很少或没有信息 价值的短插入序列的分子。这种现象被称为抑制或抑制PCR。抑制指的是当用于扩增的一 种或多种引物对应于整个末端反向重复序列或所述重复序列的一部分时,选择性排除侧翼 为所述末端反向重复序列的小于一定尺寸的分子,这种选择性排除是由于它们的低效扩增 (Chenchik 等,1996 ;Lukyanov 等,1999 ;Siebert 等,1995 ;Shagin 等,1999)。这种现象 的原因在于产出性PCR引物退火与片段互补端的非产出性自身退火之间的平衡。在侧翼 末端反向重复序列的尺寸固定的情况下,插入序列越短,抑制作用越强,反之亦然。同样,在 插入序列尺寸固定的情况下,末端反向重复序列越长,抑制作用越强(Chenchik等,1996 ; Lukyanov 等,1999 ;Siebert 等,1995 ;Shagin 等,1999)。
[0049] 借助于通过连接和/或引物延伸使末端反向重复序列与核酸分子的两端附接,相 对于不期望的衔接子二聚体或短插入序列副产物,可以实现对期望最小尺寸的靶插入序列 的引物退火和延伸的效率进行精确的控制,如由美国专利7, 803, 550所述。可以利用经由 衔接子连接附接第一条形码的效率来防止偏差以及保持样品中核酸分子的表征。相反,经 由引物延伸来结合第二条形码可以高效地使用包括第二条形码的长引物。
[0050] 在本发明的这个实施方案中,将靶核酸与包含以下各项的示例性混合物一起孵 育:具有3'端凹末端、3'端突末端或平末端的茎-环寡核苷酸;3'端校正DNA聚合酶(DNA 聚合酶I的克列诺片段(Klenow fragment)、T4DNA聚合酶等);T4DNA连接酶;ATP ;以及 dNTP。同时发生以下四种示例性酶促反应:DNA末端以及寡核苷酸双链茎区的"抛光";寡核 苷酸3'端与DNA的5'磷酸酯的连接,从而在DNA的3'端与寡核苷酸双链茎区的5'端之 间留下切口;朝向茎-环寡核苷酸的末端增长的3'DNA末端的聚合酶延伸;以及寡核苷酸 茎区内的链置换反应。这个过程产生DNA片段的文库,所述DNA片段在它们的末端处具有 包括第一条形码序列的反向重复序列衔接子。
[0051] III.本发明的方法
[0052] 下列概述提供了有关本发明技术的方法和组合物的另外的细节。所提供的所有具 体实例应当被理解成非限制性实例。
[0053] A.所关注的核酸分子的制备
[0054] 所关注的核酸分子可以是单个核酸分子或多个核酸分子。而且,所关注的核酸分 子可以是生物来源的或合成来源的。核酸分子的实例包括基因组DNA、cDNA、RNA、扩增的 DNA、预先存在的核酸文库等。
[0055] 可以对所关注的核酸分子进行各种处理,如修复处理和片段化处理。片段化处理 包括机械片段化处理、声波片段化处理、化学片段化处理、酶促片段化处理、随时间降解等。 修复处理包括经由延伸和/或连接进行的切口修复、抛光以形成平末端、去除受损的碱基, 如脱氨基核苷酸、衍生化核苷酸、无碱基核苷酸、或交联的核苷酸等。还可以对所关注的核 酸分子进行化学修饰(例如亚硫酸氢盐转化、甲基化/脱甲基)、延伸、扩增(例如PCR、等 温扩增等)等。
[0056] B?第一条形码结合
[0057] 第一条形码或第一组条形码可以被结合至所关注的核酸分子的至少一端。在一些 方面,第一条形码可以在茎-环衔接子内提供,或第一组条形码可以茎-环衔接子群的形式 提供。茎-环衔接子可以包含如由美国专利7, 803, 550所述的茎-环衔接子。在一些方面, 茎-环衔接子可以在茎-环衔接子的茎部分内包括条形码。在一些方面,茎-环衔接子的 环部分可以包括可裂解的复制终点。
[0058] 在一些方面,包含条形码的茎-环衔接子可以被结合至靶核酸分子的一端或靶核 酸分子的两端。在一些方面,结合至靶核酸分子的每一端的茎-环衔接子的分子内反向重 复序列可以包含相同的序列。在这个方面,所述茎-环衔接子与所述靶核酸分子的每一端 的结合将产生包含末端反向重复序列的核酸分子,从而允许所述分子形成茎环。在其它方 面,结
合至靶核酸分子的每一端的茎-环衔接子的分子内反向重复序列可不包含相同的序 列。在这个方面,所述茎-环衔接子与所述靶核酸分子的每一端的结合将产生缺乏末端反 向重复序列的核酸分子并且因此所述分子将不能形成茎环。
[0059] 在一些方面,包含条形码的茎-环衔接子可以经由与核酸分子的5'端连接,例如 通过平末端被结合至核酸分子。使茎-环衔接子与靶核酸分子的一端或两端连接可以引起 切口形成。所述一个或多个切口可以从所连接的茎-环衔接子和所述核酸分子中去除。
[0060] 在一些方面,延伸反应可以使核酸分子的3'端延伸穿过茎-环衔接子,其中环部 分在可裂解的复制终点处被裂解。
[0061] C?第二条形码结合
[0062] 第二条形码或第二组条形码可被结合至与核酸分子结合的第一条形码或第一组 条形码。以这种方式,第一条形码可以是核酸分子和第二条形码的中间体。在一些方面,第 二条形码可以在引物内提供,或第二组条形码可以引物群的形式提供。在一些方面,可以使 用引物延伸或PCR来掺入第二条形码。在一些方面,引物可以包括3'部分和5'部分,其中 所述3'部分可以与第一条形码的一部分退火并且所述5'部分包含第二条形码。
[0063] 关于所述方法的另外的信息可以参见于Ausubel等人(2003)或Sambrook等人 (1989)中。如将由本领域技术人员所认识到的那样,可以对各种参数进行操控以优化所关 注的核酸的制备、引物延伸、或PCR以掺入第二条形码。
[0064] IV.实施例
[0065] 包括下列实施例以说明本发明的优选的实施方案。本领域技术人员应当了解的 是,随后的实施例中所公开的技术代表了本申请的发明人所发现的在实施本发明中运行良 好的技术,并且因此可以被认为构成了用于实施本发明的优选方式。然而,本领域技术人员 根据本公开应当了解的是,可以在所公开的具体实施方案中作出许多变化并且仍获得同样 的或类似的结果而不背离本发明的精神和范围。
[0066] 实施例1:用于DNA测序的双重线内条形编码衔接子序列
[0067] 图1提供了对单组条形码(例如Ion Torrent系统)的使用相比于在本发明技术 的实施方案中第一组条形码和第二组条形码的使用的示意性比较。引物被示出与第一条形 码外部的序列结合;然而,在一些实施方案中,引物可以与第一条形码或甚至与gDNA序列 结合。在本发明的各个方面,可以与被添加到gDNA的两端的独特的衔接分子(例如茎环) 或具有不同序列的两个(或更多个)不同的衔接分子进行连接。为了减少来自衔接子二聚 体的背景,如果使用不同的衔接分子,那么它们可以优选地具有共同序列,所述共同序列将 抑制包括衔接子二聚体在内的非常短的分子的PCR扩增。
[0068] 图2图示了利用如美国专利号7, 803, 550中所述的茎-环衔接子和方法来添加具 有第一条形码的衔接子的本发明的一个具体实施方案。在所述方法之后进一步进行PCR扩 增以添加第二条形码。
[0069] 本申请的发明人试图对含有串联的双重条形码,但缺少产生末端反向重复序列的 序列的Ion Torrent衔接子进行测试。茎-环衔接子和PCR引物如图3和表1中所示来设 计。值得注意的是,本发明的方法可以被改动成与其它新一代测序平台一起使用,并且不限 于与Ion Torrent平台一起使用。
[0070] 表1:寡核苷酸序列
[0071]
[0072] 加下划线=第一条形码;具有灰色背景的加下划线=第二条形码。
[0073] 模板制备:将10微升的每一种DNA样品(0. lng/ y L的经过Coavris剪切的人类 gDNA)添加到PCR管或孔中。对于非模板对照(NTC),以10 y L无核酸酶的水代替DNA样品。 在单独的管中制备补充有dNTP混合物(每一种dNTP 2. 5mM))的2yL/样品的模板制备缓 冲液((包含以下各项的6. 5X无ATP连接酶缓冲液:325mM Tris-HCl (pH 7. 6,在25°C )、 65mM MgCl2、3. 25mM DTT)和1 y L/样品的模板制备酶(末端修复混合物(End R印air Mix), 酶科技公司(Enzymatics)目录号Y914-LC-L)的预混物,并且通过移液管混合。然后,将 3 y L的预混物添加到PCR管或孔中的10 y L的DNA样品中并且使用被设定为8 y L的移液 管混合4-5次。反应组分的最终浓度如下:50mM Tris-HCl(pH 7.6,在25°C)、10mM MgCl2、 0. 5mM DTT、385 yM dNTP、lX末端修复酶。将PCR板离心并且在热循环仪中使用下列条件 孵育:在22°C进行1个循环25分钟;在55°C进行1个循环20分钟;保持在22°C。
[0074] 文库合成:在单独的管中制备lyL/样品的文库合成缓冲液(包含以下各项的 2X 无 ATP 连接酶缓冲液:100mM Tris-HCl(pH 7.6,在 25°C)、20mM MgCl2、1.0mM DTT,补 充有15mM ATP和15 y M每一种茎-环衔接子寡核苷酸)和1 y L/样品的文库合成酶混合 物(包含:1. 2U的尿嘧啶DNA糖基化酶(UDG,酶科技公司目录号G5010L)和8U T4DNA连接 酶(酶科技公司目录号L603-HC-L))的新鲜文库合成预混物,并且通过移液管混合。然后, 将2 y L的文库合成预混物添加到每一种样品中并且使用被设定为10 y L的移液管混合4-5 次。反应组分的最终浓度如下:50mM Tris-HCl(pH 7.6,在 25°C)、10mM MgCl2、0.5mM DIT、 334 y M dNTP、ImM ATP、1. 2U尿嘧啶DNA糖基化酶、8U T4DNA连接酶、1 y M每一种衔接子寡 核苷酸。将板离心并且在热循环仪中使用下列条件孵育:在22°C进行1个循环40分钟;保 持在4°C。
[0075] ThruPLEX-FD文库扩增:在临用前在单独的管中制备4. 25 y L/样品的无核酸 酶的水、3. 75 y L/样品的EvaGreen: FC (9:1)、50. 5 y L/样品的文库扩增缓冲液(包含: 150禮!'1^8-504(?118.5,在25°〇)、12011111嫩(:、0.7511111%(:1 2、0.06%¥八明胶,补充有 0. 375 y M的每一种PCR寡核苷酸)以及1. 5 y L/样品的文库扩增酶(KAPA高保真DNA聚 合酶(KK2102),1U/ y 1)的文库扩增预混物。然后,将60 y L的文库扩增预混物添加到每一 种文库中并且使用被设定为60 y L的移液管混合3-4次。反应组分的最终浓度如下:100mM Tris-S04(pH 8.5,在 25 °C )、80mM TMAC、2.5mM MgCl2、0.04 % w/v 明胶、lXEvaGreen、 1XF⑶、1.5U KAPA高保真DNA聚合酶、0. 25yM每一种PCR寡核苷酸。将板离心,然后如 下在实时热循环仪中孵育:在72°C进行1个循环3分钟;在85°C进行1个循环2分钟;在 98°C进行1个循环2分钟;在98°C持续20秒、在67°C持续20秒、在72°C持续40秒的4个 循环;以及在98 °C持续20秒和在72 °C持续50秒的4-21个循环。
[0076] 结论:出现衔接子二聚体的显著扩增(图4)。这可能是由于在构建体中缺乏抑制 作用;因此,本申请的发明人对含有将产生末端反向重复序列的序列并且包含近端线内条 形码的版本(version)进行了测试。
[0077] 实施例2:含有末端反向重复序列的用于DNA测序的双重线内条形编码衔接子序 列
[0078] 本申请的发明人试图对含有串联的双重条形码的具有由第二条形码表示的末端 反向重复序列(靠近连接位点)的Ion衔接子进行测试。茎-环衔接子和PCR引物如图5 和表2中所示来设计。
[0079] 表2:用于产生末端反向重复序列的寡核苷酸序列
[0080]
[0081] 加下划线=第一条形码;具有灰色背景的加下划线=第二条形码。
[0082] 使用寡核苷酸分析器(IDT)计算得出,0.25 yM的寡核苷酸、lOOmM Na+、2. 5mM Mg++ 以及0. 3mM dNTP条件下Ion通用衔接子Pl/A的TM是61°C。
[0083] 实验条件如实施例1中所述,除了使用表2中所示的寡核苷酸序列并且使用单个 通
用茎-环衔接子(在文库合成反应中2 y M)将末端反向重复序列附接到DNA片段的两端。 含有用于产生末端反向重复序列的序列的茎-环衔接子与实施例1中所述的不含用于产生 反向重复序列的此类序列的设计(图4)相比显示出信噪比的显著提高(图6)。
[0084] 根据本公开可以进行并且完成本文所公开并且要求保护的所有方法而无需过多 的实验。虽然已经关于优选的实施方案对本发明的组合物和方法进行描述,但对于本领域 技术人员来说将显而易见的是,变化可以被应用到本文所述的方法以及本文所述的方法的 步骤或步骤的顺序中而不脱离本发明的构思、精神以及范围。更确切地说,将显而易见的 是,在化学和生理学这两方面相关的某些试剂可以代替本文所述的试剂,而仍将实现相同 或类似的结果。所有这些对于本领域技术人员来说显而易见的类似的替代和改动均被认为 落入如由所附权利要求书所限定的本发明的精神、范围以及构思内。
[0085] 参考文献
[0086] 下列参考文献就它们提供了补充本文所阐述的示例性程序或其它细节来说明确 地以引用的方式并入本文。
[0087] 美国专利 5, 858, 656
[0088] 美国专利 5, 935, 793
[0089]美国专利 6, 261,782
[0090] 美国专利 7, 803, 550
[0091] 美国专利 7, 902, 122
[0092] 美国专利公开号2007/0020640
[0093] 美国专利公开号2009/0068645
[0094] 美国专利公开号2010/0227329
[0095] 美国专利公开号2010/0273219
[0096] 美国专利公开号2011/0015096
[0097] 美国专利公开号2011/0257031
[0098] 美国专利公开号2011/0319290
[0099] 美国专利公开号2012/0028814
[0100] Ausubel 等,In:Current Protocols in Molecular Biology(《最新分子生物学 实验方法汇编》),John Wiley&Sons,NY,2003。
[0101] Chenchik 等,Full-length cDNA cloning and determination of mRNA 5'and 3'ends by amplification of adaptor-ligated cDNA(通过与衔接子连接的 cDNA 的扩增 进的全长 cDNA 克隆和 mRNA 5' 端和 3' 端的测定),Biotechniques,21:526-534, 1996。
[0102] Lukyanov 等,Selective suppression of polymerase chain reaction (对聚合 酶链反应的选择性抑制),Bioorganicheskaya Khimiya,25:163-170, 1999。
[0103]Oyola 等,Optimizing Illumina next-generation sequencing library preparation for extremely AT-biased genomes(针对极端偏向 AT 的基因组对 Illumina 新一代测序文库制备进行优化),BMC Genomics,13:1,2012。
[0104] Pareek等,Sequencing technologies and genome sequencing(测序技术和基因 组测序),J. Appl. Genet.,52 (4) : 413-435, 2011 〇
[0105] Sambrook 等,In:Molecular cloning:a laboratory manual (《分子克隆:实验室 手册》),第2版,纽约州冷泉港的冷泉港实验室出版社(Cold Spring Harbor Laboratory Press,Cold Spring Harbor,NY), 1989。
[0106] Shagin 等,Regulation of average length of complex PCR product (复杂 PCR 产物的平均长度的调节),Nucleic Acids Research,27, e23, 1999。
[0107] Siebert 等,An Improved PCR Method for Walking in Uncloned Genomic DNA( -种用于在未克隆的基因组DNA中步移的改进的PCR方法),Nucleic Acids Research,23:1087-1088, 1995〇
[0108]Thudi 等,Current state-of-art of sequencing technologies for plant genomics research (用于植物基因组研究的测序技术的当前技术发展水平),Brief Funct. Genomics.,11 (1) : 3-11,2012。
【主权项】
1. 一种制备带双重条形码的核酸分子的方法,所述方法包括: (a) 使莖-环寡核苷酸的一条链与核酸分子的至少一端结合以形成第一条形码结合的 核酸分子,其中所述茎-环寡核苷酸包含分子内反向重复序列和环,并且其中所述反向重 复序列包含所述第一条形码; (b) 通过链置换或通过切口平移聚合将所述茎-环寡核苷酸的一条链从所述第一条形 码结合的核酸分子中置换以形成带第一条形码的核酸分子; (c) 使引物与所述带第一条形码的核酸分子退火,其中所述引物包含与所述带第一条 形码的核酸分子互补的第一部分和包含第二条形码的第二部分;以及 (d) 使所述退火的引物延伸以形成带双重条形码的核酸分子,所述带双重条形码的核 酸分子包含所述第二条形码、所述第一条形码、以及所述核酸分子的至少一部分。2. 如权利要求1所述的方法,其中所述引物的第一部分与所述带第一条形码的核酸分 子中的所述第一条形码退火。3. 如权利要求1所述的方法,其中所述引物的第一部分与所述带第一条形码的核酸分 子中的所述第一条形码的一部分退火。4. 如权利要求1所述的方法,其中所述引物的第一部分不在所述带第一条形码的核酸 分子中的所述第一条形码内退火。5. 如权利要求1所述的方法,其中步骤(a)包括使茎-环寡核苷酸的一条链与所述核 酸分子的每一端结合。6. 如权利要求5所述的方法,其中附接到所述核酸分子的每一端的所述茎-环寡核苷 酸的分子内反向重复序列包含相同的序列。7. 如权利要求5所述的方法,其中附接到所述核酸分子的每一端的所述茎-环寡核苷 酸的分子内反向重复序列不包含相同的序列。8. 如权利要求1所述的方法,其中所述核酸分子是基因组DNA、cDNA、扩增的DNA、核酸 文库、或其片段。9. 如权利要求1所述的方法,其中所述茎-环寡核苷酸是茎-环寡核苷酸群。10. 如权利要求1所述的方法,其中所述茎-环寡核苷酸的环包含可裂解的碱基。11. 如权利要求10所述的方法,其中所述可裂解的碱基是脱氧尿苷。12. 如权利要求10所述的方法,其中所述可裂解的碱基在步骤(b)之前被裂解以产生 无碱基位点。13. 如权利要求1所述的方法,其中使茎-环寡核苷酸的一条链与核酸分子的至少一端 结合被进一步限定为使所述茎-环寡核苷酸衔接子的3'端与所述核酸分子的5'端连接。14. 如权利要求1所述的方法,其中所述引物是引物群。15. 如权利要求1所述的方法,其中延伸包括引物延伸或聚合酶链反应。16. 如权利要求1所述的方法,其进一步包括对所述带双重条形码的核酸分子的至少 一部分的扩增。
【专利摘要】本文提供了条形编码核酸,如基因组DNA的方法。在一些实施方案中,基因组DNA的片段可以包含第一条形码和第二条形码。
【IPC分类】C12Q1/68
【公开号】CN104903466
【申请号】CN201380069090
【发明人】T·栗原, E·卡姆贝罗, T·泰斯默, J·朗格莫尔
【申请人】鲁比康基因组学公司
【公开日】2015年9月9日
【申请日】2013年11月5日
【公告号】CA2889862A1, EP2914745A1, US20150284712, WO2014071361A1