基本无偏差的基因组扩增的制作方法
【专利说明】基本无偏差的基因组扩増
[0001] 相关申请的交叉引用
[0002] 本申请要求2013年5月30日提交的美国临时申请No.61/829193的权益,在此将其 以引用的方式整体并入。
[0003] 关于联邦赞助R&D的声明
[0004] 本研究由美国国立卫生研究院R01HG004876资助支持。政府对本发明拥有一定的 权利。
[0005] 背景
[0006] 通过全基因组扩增,单细胞中的遗传物质可通过DNA聚合酶扩增为许多克隆拷贝, 并且可通过鸟枪法测序描述其特征。已经在微生物和哺乳动物细胞中成功示范了单细胞的 基因组测序M,并应用于描绘海洋微生物基因组的多样性 7、癌症中的体细胞突变8,9以及精 子中的减数分裂重组和突变 3,1()。
[0007] 领域
[0008] 本文的实施方案通常涉及全基因组扩增。本文的一些实施方案通常涉及无偏差的 基因组扩增。
[0009] 概述
[0010] 根据一些方面,提供产生基本无偏差的单细胞的基因组扩增文库的方法。该方法 可包括在配置以用于基本无偏差的基因组扩增的纳升级反应环境中扩增单细胞的基因组, 以及构建包含基本无偏差的基因组扩增的多个扩增子的文库。在一些实施方案中,扩增单 细胞的基因组包括多链置换扩增(MDA),所述多链置换扩增包含使反应环境与(a)链置换聚 合酶和(b)多个随机的DNA多聚物相接触,并因此产生基本无偏差的单细胞的基因组扩增。 在一些实施方案中,基因组核酸的量与纳升级反应环境的体积的比率为至少约0.03百万个 碱基对/纳升。在一些实施方案中,基因组核酸的量与纳升级反应环境的体积的比率为至少 约200百万个碱基对/纳升。在一些实施方案中,配置纳升级反应环境以用于以大于1 X的覆 盖度扩增至少约90%的基因组。在一些实施方案中,纳升级反应环境包括不大于约20nL的 体积。在一些实施方案中,纳升级反应环境包括不大于约12nL的体积。在一些实施方案中, 该方法还包括在单基板上的多个纳升级反应环境中扩增多个单细胞的基因组,其中至少 95%的反应环境不包含除单细胞的基因组外的任何基因组。在一些实施方案中,至少99% 的反应环境不包含除单细胞的基因组外的任何基因组。在一些实施方案中,配置基板以用 于单移液操作,从而将单细胞的基因组分配于反应环境中。在一些实施方案中,该方法还包 括选择期望数量的反应环境;以及仅在期望数量的反应环境中扩增多个单细胞的基因组。 在一些实施方案中,该方法还包括鉴定实现期望水平的扩增的反应环境,其中从实现期望 水平的扩增的反应环境中构建文库。在一些实施方案中,该方法还包括从多个反应环境中 构建多个文库,其中多个文库的数量与多个反应环境的数量相同或不同。在一些实施方案 中,在纳升级反应环境中扩增单细胞的基因组包括在扩增-检测部分存在的情况下扩增。在 一些实施方案中,所述扩增-检测部分包含花青染料。在一些实施方案中,所述扩增-检测部 分包含SYBR?绿染料。在一些实施方案中,来自扩增-检测部分的信号鉴定了已经实现期望 水平的扩增的反应环境。在一些实施方案中,反应环境不包含除单细胞之外的任何细胞。在 一些实施方案中,所述反应环境不包含除单细胞的基因组之外的任何基因组。在一些实施 方案中,所述随机多聚物选自:五聚物、六聚物、七聚物、八聚物、九聚物以及十聚物。在一些 实施方案中,所述随机多聚物为六聚物。在一些实施方案中,基本上所有的多个扩增子是无 支链的。在一些实施方案中,该方法还包括在构建文库之前,从反应环境中移出多个扩增子 中的至少一些。在一些实施方案中,移出多个扩增子中的至少一些包括显微操作。在一些实 施方案中,所述多个扩增子包含不多于约100皮克-约10纳克的DNA。在一些实施方案中,所 述文库包括基于转座酶的文库。在一些实施方案中,所述文库包括基于Tn5转座酶的文库。 在一些实施方案中,所述文库包括随机断裂和连接文库。在一些实施方案中,所述单细胞为 一个人细胞或微生物细胞。在一些实施方案中,所述单细胞包括不可培养或基本不可培养 的细菌细胞。在一些实施方案中,MDA包括实时MDA。在一些实施方案中,对两个或更多个单 细胞的两个或更多个基因组并行实施该方法,并因此并行产生两个或更多个无偏差的扩增 文库。在一些实施方案中,该方法还包括下述中的至少一项:人肠道内不可培养的细菌的从 头组装,异质环境(如海水)中不可培养的细菌的从头组装、单神经元的拷贝数变异检出、单 癌细胞或循环肿瘤细胞的拷贝数变异检出、或者人类单体型分析。在一些实施方案中,链置 换聚合酶包括高保真聚合酶。在一些实施方案中,所述链置换聚合酶包括phi29聚合酶。 [0011]根据一些方面,提供通过多链置换扩增(MDA)产生基本无偏差的基因组扩增的方 法。该方法可包括提供纳升级反应环境中的基因组,以及使所述纳升级反应环境与(a)链置 换聚合酶以及(b)多个随机DNA多聚物相接触,并因此产生基本无偏差的基因组扩增。在一 些实施方案中,该方法还包括构建包含基本无偏差的基因组扩增的多个扩增子的文库。在 一些实施方案中,配置纳升级反应环境以用于以大于1 X的覆盖度扩增至少90%的基因组。 在一些实施方案中,基因组核酸的量与纳升级反应环境的体积的比率为至少约0.3百万个 碱基对/纳升。在一些实施方案中,基因组核酸的量与反应环境的体积的比率为至少约200 百万个碱基对/纳升。在一些实施方案中,随机多聚物选自:五聚物、六聚物、七聚物、八聚 物、九聚物以及十聚物。在一些实施方案中,所述随机多聚物包括六聚物。在一些实施方案 中,基本上所有的多个扩增子都是无支链的。在一些实施方案中,纳升级反应环境包括促进 基本无偏差的单细胞扩增的纳升级反应环境。在一些实施方案中,所述纳升级反应环境包 括不大于约20nL的体积。在一些实施方案中,所述纳升级反应环境包括不大于约12nL的体 积。在一些实施方案中,所述反应环境包含不多于一种基因组的可能性为至少99%。在一些 实施方案中,该方法还包括下述中的至少一项:人肠道中不可培养的细菌的基因组的从头 组装、异质环境中不可培养的细菌的从头组装、单神经元的拷贝数变异检出、单癌细胞或循 环肿瘤细胞的拷贝数变异检出、或者人类单体型分析。在一些实施方案中,链置换聚合酶包 括高保真聚合酶。在一些实施方案中,所述链置换聚合酶包括phi29聚合酶。
[0012]根据一些方面,提供用于基本无偏差的至少一种单细胞的基因组扩增的基板。所 述基板可包括多个上样区,其中配置每个上样区以接收液体样品。每个上样区可包含促进 基本无偏差的单细胞扩增的多个纳升级反应环境。在一些实施方案中,配置多个纳升级反 应环境以并行实施期望数量的扩增反应,其中在不同的纳升级反应环境中进行每个扩增反 应。在一些实施方案中,配置多个纳升级反应环境,以在不对所述基板进行进一步修饰的情 况下并行实施期望数量的扩增反应。在一些实施方案中,所述多个纳升级反应环境不与任 何微流体通道或纳流体通道流体连通。在一些实施方案中,每个纳升级反应环境的体积不 大于约12nL。在一些实施方案中,每个纳升级反应环境的体积不大于20nL。在一些实施方案 中,配置每个上样区,以将包含稀释的细胞的溶液经由单移液操作上样进多个纳升级反应 环境。在一些实施方案中,每个反应环境包含多种随机多聚物和链置换聚合酶。在一些实施 方案中,所述多个多聚物包括六聚物。在一些实施方案中,基板包含至少三个上样区。在一 些实施方案中,每个上样区包含至少十个纳升级反应环境。在一些实施方案中,每个上样区 包含至少一百个纳升级反应环境。在一些实施方案中,基板还包含检测器,配置检测器以检 测每个反应环境中的扩增-检测部分。在一些实施方案中,基板还包括配置以从单一反应环 境中回收扩增的核酸的纳升级移液器。在一些实施方案中,配置纳升级反应环境以使在将 包含单细胞或其部分的溶液上样至上样区之后,至少99%的反应环境包含不多于一种细胞 的基因组。在一些实施方案中,基本上每个反应环境都包含不多于一种细胞的基因组,并且 其中基本上包含基因组的每个反应环境还包含基因组的多个扩增子。在一些实施方案中, 所述多个扩增子包含基本无偏差的基因组覆盖度。在一些实施方案中,所述多个扩增子包 含不多于约100皮克-约10纳克的DNA。在一些实施方案中,链置换聚合酶包括高保真聚合 酶。在一些实施方案中,所述链置换聚合酶包括phi29聚合酶。
[0013] 附图简要说明
[0014] 图1为一系列显示根据本文的一些实施方案的基本无偏差的基因组扩增的原理 图。图1A为在根据本文的一些实施方案的基本无偏差的基因组扩增方法的背景下,显示根 据本文的一些实施方案的基板100的原理图。每个基板100可包含16个单独的上样区12,每 个上样区14包含255个纳升级反应环境,例如12nl微孔。可利用单移液栗将细胞、裂解液、变 性缓冲液、中和缓冲液以及包含扩增-检测部分的MDA预混液中的每一种添加至微孔中。然 后可以使用荧光显微镜,利用实时MDA系统来使扩增子生长可视化。随时间显示荧光渐增的 微孔为阳性扩增子。利用与显微操作系统相连的精细玻璃移液器提取扩增子。图1B为不同 放大率的单大肠杆菌(E.coli)细胞的一系列扫描电子显微镜(SEM)图像。该特定孔仅包含 一个细胞,并且观察到的大多数孔也包含不多于1个细胞。图1C为显示可用于根据本文的一 些实施方案的实时MDA的定制显微镜培养室的照片。该培养室是温度和湿度受控的,以减缓 试剂的蒸发。此外,它通过自身包含的显微操作系统而防止扩增子提取过程中的污染。还显 示了整个微孔阵列的图像,以及探入孔中的微量移液管。图1D为显示根据本文的一些实施 方案,利用DNA聚合酶I以及Ampligase将复杂的3维MDA扩增子简化为线性DNA的原理图。该 过程可显著改善标签化后的文库复杂性。
[0015] 图2为根据本文的一些实施方案,通过MIDAS产生的组装的大肠杆菌基因组图。利 用MIDAS分析三个单大肠杆菌细胞。用极少的测序投入(2-8M PElOObp读取)组装了88%-94%之间的基因组。该直方图显示该三个细胞中每一个的每个组装区域覆盖的平均深度的 l〇g2。缺口用有颜色的重叠群之间的空白表示。覆盖的深度在整个基因组中十分一致,并且 存在很少的缺口。
[0016] 图3为一系列显示根据本文的一些实施方案进行MDA和MIDAS之后,单细菌细胞以 及哺乳动物细胞基因组覆盖度的图。图3A为显示根据本文的一些实施方案,在PCT管中扩增 10小时(上部)、2小时(中部)以及在微孔中(MIDAS)扩增10小时(底部)的单大肠杆菌细胞之 间的比较的图。Log 1Q比率(y轴)代表标准化的覆盖度。随着MDA受限,偏差得到改善,其中 MIDAS方法显示出最高的统一性。图3B为显示根据本文的一些实施方案,利用传统的MDA与 MIDAS扩增的单一人细胞之间的比较的图。与通过MIDAS扩增的单神经元核(底部)相比,单 淋巴细胞的10小时MDA(上部)显示出更大的覆盖度偏差。图3C为显示根据本文的一些实施 方案扩增的单细菌细胞的覆盖度分布的图。X轴代表分成100个总的库的基因组覆盖度的 l〇g1Q<3MIDAS(30)显示紧密的覆盖度,表示该文库中有限的偏差。正常的(32)以及受限的 (34)管内MDA文库显示出大范围的覆盖度。图3D为显示根据本文的一些实施方案扩增的单 哺乳动物细胞的覆盖度分布的图。MIDAS(36)比管内MDA文库(38)显示出更紧密的覆盖度分 布。
[0017]图4为一系列显示根据本文的一些实施方案,利用MIDAS检测拷贝数变异的图。图 4A为显示根据本文的一些实施方案,用MIDAS分析的唐氏综合征单细胞的拷贝数变异的散 点图的图。X轴显示基因组位点,y轴显示(以log 2水平)估计的拷贝数。在该单细胞中可清楚 地观察到三体性21,以及一些其它更小的CNV检出。图4B为根据本文的一些实施方案,具有 三体性21"加标"的唐氏综合征单细胞中拷贝数变异的散点图。X轴显示基因组位点,y轴显 示(以l〇g 2水平)估计的拷贝数。在每个箭头处,将染色体21的2Mb的部分通过计算插入基因 组。在每个位点,检出了拷贝数变异,显示MIDAS可以准确地检测2Mb的拷贝数变异。
[0018]图5为一系列描述根据本文的一些实施方案的实时MDA的显微镜图片。利用488nm 的滤光片每小时拍摄图片。显示的是1小时(图5A)、2小时(图5B)、3小时(图5C)、4小时(图 5D)、5小时(图5E)、6小时(图5F)、7小时(图5G)以及8小时(图5H)。观察到扩增子在1小时开 始生长,并继续生长直至它们由于微孔内有限的空间而不能扩增。该饱和通常发生在5-6小 时之内。扩增子的随机分布显示细胞接种是随机的,并且相邻的孔中不存在扩增子。
[0019] 图6为一系列描述根据本文的一些实施方案的扩增子提取的显微镜图片。基因组 DNA充满微孔,并且实施MDA以使每个孔都包含MDA扩增子。图6A中的荧光显示扩增成功。扩 增之后,微量移液管降低至单孔,由箭头指出,并提取扩增子。图6B显示在不干扰邻近微孔 的内容物的情况下,成功移出扩增子,因为荧光丧失。
[0020] 图7为描述根据本文的一些实施方案,组装的基因组与定位于整个基因组的读取 之间的比较的原理图。外侧的圈显示定位于大肠杆菌的组装的重叠群。中间的圈显示定位 于大肠杆菌的未经处理的读取。内侧的圈代表读取的覆盖度。在重叠群未被组装的定位区 域中,覆盖度较低。
[0021] 图8为一系列描述根据本文的一些实施方案,利用基于传统MDA的单细胞测序检测 拷贝数变异的图。图8A为描述用传统的MDA分析的唐氏综合征单细胞中拷贝数变异的散点 图的图。X轴显示基因组位点,y轴显示(以log2水平)估计的拷贝数。在该单细胞中观察不到 三体性21,并检出了遍布整个基因组的一些其它的大的CNV。图8B为描述具有三体性21"加 标"的唐氏综合征单细胞中拷贝数变异的散点图的图。X轴显示基因组位点,y轴显示(以 log2水平)估计的拷贝数。在每个箭头处,将染色体21的2Mb部分通过计算插入基因组。在任 何位点都未检出拷贝数变异,显示基于传统的MDA的方法不能准确地检测CNV。
[0022]图9A-9B为一系列描述根据本文的一些实施方案的MIDAS扩增与MALBAC(不同的扩 增核酸的方法)的比较的图。图9A为描述MALBAC(上部)与MIDAS(底部)的一对图,其中MIDAS 与MALBAC显示出贯穿基因组的类似的无偏差覆盖度。图9B为描述,与MALBAC 92相比,MIDAS 90显示出稍好的覆盖度分布的一对图。
[0023] 图10A-10C为一系列描述根据本文的一些实施方案的MIDAS扩增与下述数据的比 较的图:之前公开的两种精细胞池的二倍体区域的管内MDA数据 43、微流体MDA1()数据和 MALBAC44数据以及用MALBAC32处理的单SW480癌细胞的二倍体区域的数据。基因组位点被合 并至预先确定的大小为~60kb的可变库,以包含类似的读取数 3(),并且绘制为针对基因组覆 盖度(用平均数进行标准化)的loglO比率(y轴)的图。对于癌细胞数据,非二倍体区域已经 被掩盖(粉色之间的白色空白),以移除通过将高度非整倍性细胞与原代二倍体细胞进行比 较而产生的偏差。图10A描述了精子池1的管内MDA结果;精子池2的管内MDA结果;以及精子 池1的微流体MDA结果。图10B描述了精子池2的微流体MDA结果;精子池1的mALBAC结果;以及 精子池2的mALBAC结果。图10C描述了 SW480癌细胞的结果(二倍体区域,MALBAC)、神经元核1 的MIDAS结果;以及神经元核2的MIDAS结果。
[0024] 详细描述
[0025]亚纳克量的核酸(例如单细胞的基因组)的扩增可用于多种应用。根据本文的一些 实施方案,提供用于基本无偏差的核酸扩增的方法和制成品。在一些实施方案中,以纳升级 的体积扩增少量的核酸,例如单细胞的基因组材料。纳升级的体积可提供高浓度反应物用 于扩增。所述扩增可包括多链置换扩增(MDA)。在一些实施方案中,在单一反应空间(如孔) 实施所述扩增,因此将移动部分最小化。在一些实施
方案中,可仅仅通过增加或减少并行实 施的纳升级扩增的数量来容易地缩放扩增方法。在一些实施方案中,从扩增的核酸中制备 测序文库。在一些实施方案中,所述文库包括随机断裂和连接文库。
[0026] 单细胞的基因组测序可具有多种应用,包括但不限于识别难以培养的微生物以及 鉴定来自哺乳动物组织的单细胞的体细胞突变。该方法的主要障碍可能是被称作聚合酶克 隆的步骤的从单细胞扩增并产生遗传物质的多个拷贝中的偏差。本文的一些实施方案提供 微孔置换扩增系统(MIDAS),其为大规模并行聚合酶克隆方法,其中单细胞随机分配于纳升 级体积的成百上千个微孔中,并同时进行扩增以用于鸟枪法测序。在一些实施方案中,通过 在纳升级反应中实施聚合酶克隆,MIDAS显著降低了扩增偏差,所述聚合酶克隆允许从头组 装来自单大肠杆菌细胞的几近完全的微生物基因组。在一些实施方案中,MIDAS允许以1-2Mb的分辨率检测主要的成人神经元的单拷贝数改变。MIDAS能够帮助描述多种异质细胞群 中的基因组多样性特征。也考虑由于根据本文一些实施方案的扩增反应是在单一反应环境 中实施的,因而可利用小的移动部分来实施这些反应(例如,仅用移液器向反应环境中添加 溶液或从反应环境中移出溶液)。因此,可高程度可靠地实施根据本文一些实施方案的扩增 反应,同时将对另外部件的需求最小化,如移动部分以及此类移动部分的滑板(chasses)和 操作软件。在一些实施方案中,在单一反应环境中实施扩增。在一些实施方案中,在除用于 向反应环境中添加和/或移出溶液的一个或多个移液器之外,不具有流体通道或其它流体 系统活动的情况下实施扩增。在一些实施方案中,在与流体通道网络无流体连通,并且不是 配置为与流体通道网络进行流体连通的反应环境中实施扩增。
[0027] -些实施方案允许以无偏差的方式并行进行多个单细胞的全基因组扩增。在纳升 体积中可同时扩增数百个(或更多个)细胞。一些实施方案包括低输入测序文库构建技术, 以使可对直接来自全基因组扩增的DNA进行测序。扩增的无偏差性质可允许无数的下游应 用,包括不可培养的细菌的从头组装以及单一哺乳动物细胞的拷贝数变异的检出。
[0028] 根据本文的一些实施方案,核酸扩增的方法是容易缩放的。取决于待实施的扩增 反应的期望数量,可选择多个纳升级反应环境(例如孔)。可将模板(例如单细胞或单细胞的 基因组)稀释以使每一反应环境有大约不多于一个模板,并且将稀释的模板分配于期望数 量的反应环境中。在一些实施方案中,提供至少一个包含多个纳升级反应环境的基板。如果 反应的期望数量少于基板上反应环境的数量,则可仅使用反应环境中的一些。如果反应的 期望数量大于基板上反应环境的数量,则可使用两个或更多个基板,例如2、3、4、5、6、7、8、 9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90 或 100 个基板,包括任意两 个列出的数值之间的范围。本文考虑可缩放性向操作者提供了灵活性。此外,由于可用最少 的移动部分来实施根据本文一些实施方案的扩增反应,因此在不对基板构造(如操作软件、 机械部件、流体系统等)进行任何实质性的定制或重新设计的情况下,扩增反应的数量可被 容易地缩放。因此,在一些实施方案中,可并行实施大量的扩增反应。在一些实施方案中,可 并行实施至少2 个扩增反应,例如至少2、3、4、5、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、 17、18、19、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、 650、700、750、800、850、900、950、1000,1500、2000、2500、3000、3500、4000、4500、5000、 5500、6000、6500、7000、7500、8000、8500、9000、9500或10000个扩增,包括任意两个列出的 数值之间的范围。
[0029] 核酸扩增
[0030] 传统的单细胞全基因组扩增技术扩增基因组具有较大偏差。基因组中的小部分区 域可被大量扩增,而大部分基因组可被极少扩增。因此,需要大量的测序投入以解析任何基 因组。因而下游应用如从头组装或拷贝数变异检出可能是十分困难且不准确的。
[0031] 在一些实施方案中,单细胞的全基因组被无偏差地扩增。在一些实施方案中,单细 胞的全基因组被基本无偏差地扩增。本文使用的"基本无偏差的"以及该词根的复数、词形 变化、变体等是指基因组的扩增,其中当扩增的基因组被分为先前确定的至少100个基因组 库以使定位之后每个基因组库都包含相似数量的读取(参见,例如 3())时,至少80%的所述库 的log1()倍数扩增在平均数±20%之内(即对于至少80%的基因组库,其倍数扩增的1吨 10不 比全基因组拷贝平均数多20%,并且不比全基因组拷贝平均数少20%)。在一些实施方案 中,至少80 %的库的log1Q倍数扩增在平均数± 20 %之内,例如至少约80 %、85 %、90 %、 95%、99%或99.9%。当全基因组扩增为基本无偏差或无偏差时,大部分基因组可被扩增至 相似的程度。因此,对于下游分析而言,需要相对较少的测序投入。从头组装的完成以及拷 贝数变异的检出可具有更高的准确性。
[0032] 如本文所使用的,"纳升级"指体积,例如反应环境中的体积,其为至少约1纳升并 且不大于50纳升,更优选约5纳升-约30纳升,更优选约10纳升-约25纳升,例如约12纳升或 约20纳升。
[0033] 在一些实施方案中,将细胞稀释并使其在基板上的整个上样区中均匀分布,其中 所述上样区包含数百个纳升级反应环境以使至少99%的反应环境中每孔含有不多于1个细 胞。在一些实施方案中,基板包括PDMS载玻片。在裂解和变性之后,可利用多重置换扩增 (MDA)来扩增DNA。可以以缓冲液的形式提供MDA反应物,所述缓冲液包含聚合酶、dNTP、随机 寡核苷酸以及扩增-检测部分,如SYBR?绿染料。可在温度受控并且与扩增-检测部分的检测 器如显微镜存在光学通讯的环境中实施MDA。在不受任何理论限制的情况下,小体积以及随 后的高浓度模板能够允许无偏差的全基因组扩增。在扩增中用扩增-检测部分染色,例如 SYBR?绿,允许因为可测定信号随时间的增加而观察到阳性扩增。然后利用显微操作器自动 或手动移出阳性扩增,并置于管内。一些实施方案包括能够利用亚纳克的DNA输入的低输入 测序文库构建方法。然后可将复杂的MDA扩增子变性,并产生简单的线性DNA。可将线性DNA 用于构建测序文库。在一些实施方案中,在添加测序适配子时,具有Illumina测序适配子 (Nextera)的转座子然后将DNA片段化。因此,可制备测序文库。考虑根据本文的实施方案基 本无偏差扩增的核酸可被用于多种下游应用,包括技术人员已知的任何数量的基因组测序 技术。
[0034] 用于扩增核酸的多种技术对技术人员而言是已知的。扩增核酸的示例性技术包括 但不限于:聚合酶链式反应(PCR)、链置换扩增(SDA)例如多重置换扩增(MDA)、环介导等温 扩增(LAMP)、连接酶链式反应(LCR)、免疫-扩增,以及多种基于转录的扩增方案包括转录介 导的扩增(TMA)、基于核酸序列的扩增(NASBA)、自主序列复制(3SR)以及滚环扩增。参见,例 如Mul1is,"Process for Amp 1ifying,Detecting,和/或Cloning Nucleic Acid Sequences,〃U.S·Pat·No·4,683,195;Walker,"Strand Displacement Amplification,〃 U·S·Pat·No·5,455,166;Dean et al,"Multiple displacement amplication," U.S.Pat.No.6,977,148;Notomi et al./'Process for Synthesizing Nucleic Acid," U.S.Pat.No.6,410,278;Landegren et al.U.S.Pat.No.4,988,617"Method of detecting a nucleotide change in Nucleic Acids";Birkenmeyer,"Amplification of Target Nucleic Acids Using Gap Filling Ligase Chain Reaction,.S.Pat.No.5,427,930; Cashman,"Blocked-Polymerase Polynucleotide Immunoassay Method and Kit," U·S·Pat·No·5,849,478;Kacian et al.,^Nucleic Acid Sequence Amplification Methods,.S. Pat. No .5,399,491;Ma1ek et al. ,^Enhanced Nucleic Acid Amplification Process ,^U.S. Pat. No .5,130,238;Lizardi et al·,BioTechnology,6: 1197(1988);Lizardi et al. ,U.S. Pat. No .5,854,033 uRolling circle replication reporter systems",在此将每一项以引用的方式整体并入本文。优选地,根据本文的一些 实施方案可使用MDA IDA可包括将随机寡核苷酸引物与模板核酸退火,并将寡核苷酸引物 向前延伸至最接近的下游寡核苷酸引物的退火位点,从而形成分支的扩增核酸。可以在恒 定的温度下实施MDA,并且与常规的PCR相比,其可以产生相对更大的产物并具有相对较低 的错误率。根据本文的实施方案,可使用多种MDA试剂。在一些实施方案中,用链置换聚合酶 实施MDA。在一些实施方案中,所述链置换聚合酶包括高保真DNA聚合酶,例如Φ29?ΝΑ聚合 酶。
[0035] 根据本文的一些实施方案产生的扩增的倍数的量可取决于模板的量以及反应物 的总质量。根据本文的一些实施方案,实施扩增直至饱和(例如直至另外的扩增周期不再处 于对数期,从而另外的周期产生较少的扩增子至不再产生另外的扩增子)。在不受任何理论 限制的情况下,考虑扩增的总量与反应的总质量成比例,并且与扩增的模板的大小成反比。 因此,例如,根据本文的一些实施方案,鉴于相同的反应质量和扩增直至饱和,1Mb的基因组 的扩增为1 〇Mb基因组的扩增的大约10倍。
[0036]在不受任何理论限制的情况下,本文考虑根据本文的一些实施方案的高浓度的扩 增反应物和模板,能够促进全部模板或基本全部模板(例如基因组材料)基本无偏差地扩 增。为了提供高浓度的反应物,包括但不限于模板,在本文的一些实施方案中,模板与反应 体积的比例可以相对较高。因此,在一些实施方案中,配置纳升级反应环境以用于高比例的 基因组材料与反应体积比。在一些实施方案中,配置纳升级反应环境以用于至少约0.02百 万个碱基的基因组材料/纳升反应体积,例如至少约0.02、0.03、0.05、0.1、0.15、0.2、0.25、 0·3、0·35、0·4·、0·45、0·5、0·6、0·7、0·8、0·9、1、2、3,4、5、6、7、8、9、10、20、30、40、50、60、 70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、 950、1000、1500、2000、2500、3000、4500或5000百万个碱基的基因组材料/纳升,包括任意两 个列出的数值之间的范围。在一些实施方案中,配置纳升级反应环境以用于至少约0.03百 万个碱基的基因组材料/纳升反应。在一些实施方案中,配置纳升级反应环境以用于至少约 0.3百万个碱基的基因组材料/纳升反应。在一些实施方案中,配置纳升级反应环境以用于 至少约100百万个碱基的基因组材料/纳升反应。在一些实施方案中,配置纳升级反应环境 以用于至少约200百万个碱基的基因组材料/纳升反应。本文还考虑配置纳升级反应环境, 以使当本文所述的将包含稀释的全部细胞或其部分的液体应用于基板时,基本上每个纳升 级反应环境仅包含一个基因组(或包含基因组的细胞)。因此,在一些实施方案中,配置每个 纳升级反应环境以使施用包含细胞或其片段的溶液之后,至少约95%的纳升级反应环境仅 包含一个细胞,例如使至少约95%、96%、97%、98%、99%、99.5%、99.6%、99.7%、 99.8%、99.9%或99.99%的纳升级反应环境仅包含一个细胞。
[0037] 虽然根据本文的一些实施方案的基本无偏差的扩增可用于多种应用,一个有用的 应用包括基因组测序。考虑根据本文的一些实施方案的基本无偏差的扩增获得了全部或基 本全部模板基因组的扩增,其覆盖度水平可用于测序。在一些实施方案中,配置纳升级反应 环境以用于以>1Χ的覆盖度扩增至少约90%的全基因组,例如至少约90%、91 %、92%、 93%、94%、95%、96%、97%、98%、99%、99.5%或99.9%的基因组,包括任意两个列出的 数值之间的范围。
[0038] 在一些实施方案中,产生无支链的扩增子以用于文库构建。如本文所使用的,"基 本上所有的扩增子都是无支链的"等指至少约70 %的扩增子(例如约70 %、75 %、80 %、 85%、90%、95%、97%、98%、99%或99.9%)不具有多链置换的分支特征,而是为无支链的 双链DNA分子。在不受任何理论限制的情况下,注意到MDA产物通常是高度分支的。在一些实 施方案中,可通过使MDA产物与DNA聚合酶I相接触以从MDA产物中产生无支链的扩增子。 [0039]多种测序技术对本领域技术人员而言是已知的,并且可根据本文的实施方案来使 用。测序技术的选择取决于多种因素,例如被扩增的基因组的大小和特征。由于本文的多个 实施方案包括大规模并行扩增或测序或者可与之相容,因而可将与快速、大规模的"第二 代"测序相容的测序技术用于本文的一些实施方案。示例性的测序技术包括Illumina? (Solexa)测序(Illumina)、Ion Torrent?测序(Life Technologies)、S0LiD?测序(Life Technologies)等。
[0040] 扩增-检测部分
[0041] 在一些实施方案中,扩增-检测部分被用于监测扩增过程。如本文所使用的,"扩 增-检测部分"广泛指任何数量的检测部分,其在扩增产物(例如双链核酸)存在的情况下产 生可检测类型或强度的信号,而在扩增产物不存在的情况下不产生信号(或仅产生低水平 的信号或背景信号)。第一类扩增-检测部分包括与双链DNA特异地结合的染料,例如嵌入 剂。当这些染料未结合时,其具有相对较低的荧光,而当这些染料与双链核酸结合时,其具 有相对较高的荧光。同样地,可将选择性地检测双链的染料用于监测扩增反应过程中的双 链核酸积聚。选择性地测定双链DNA的染料的实例包括但不限于:SYBR?绿I染料(Molecular Probes)、SYBR?绿II染料(Molecular Probes)、SYBR?金染料(Molecular Probes)、 Picogreen染料(Molecular Probes)、Hoechst 33258(Hoechst AG)以及花青二聚体染料家 族,如YOYO染料家族(例如YOYO-1和YOYO-3)、Τ0Τ0染料家族(例如ΤΟΤΟ-l和T0T0-3)等。其它 类型的扩增-检测部分应用序列特异的核酸探针的衍生物。例如,用一种或多种染料标记的 寡核苷酸探针,以使当与模板核酸杂交时,产生荧光的可检测的变化。该类中示例性的扩 增-检测部分包括但不限于Taqman?探针、分子信标等。虽然非特异的染料对某些应用而言 是可取的,但是序列特异的探针可提供更准确的扩增测量。序列特异的探针的一种结构可 包含与荧光基团相连的探针的一端和与淬灭基团相连的探针的另一端。当探针未杂交时, 其可维持茎-环结构,其中荧
光基团被淬灭基团淬灭,因此阻止了荧光基团发出荧光。当探 针与模板核酸序列杂交时,其被线性化,荧光基团与淬灭基团远离,因而允许荧光基团发出 荧光。序列特异的探针的另一结构可包含与FRET对的第一荧光基团相连的第一探针以及与 FRET对的第二荧光基团相连的第二探针。可配置第一和第二探针以与足够接近的扩增子序 列杂交,从而允许当第一探针和第二探针与相同的扩增子杂交时,通过FRET进行能量转移。 [0042]在一些实施方案中,扩增-检测部分被用于定量每个反应环境中的双链DNA。因此, 在一些实施方案中,可选择产生期望量的扩增的反应环境的产物以用于下游应用,如测序 文库的构建。因此,根据本文一些实施方案的方法,可仅通过构建被真实扩增的单细胞基因 组的测序文库而将试剂以及其它资源的使用最小化,并降低制备作为不扩增的反应环境的 "备用"的冗余文库的需求。
[0043]在一些实施方案中,序列特异的探针包括与待扩增的序列互补的寡核苷酸,并且 探针与荧光基团相连。在一些实施方案中,探针与两种或更多种荧光基团相连。荧光基团的 实例包括:咕吨染料,例如荧光素和罗丹明染料,如异硫氰酸荧光素(FITC)、2-[乙氨基)-3-(乙基酰亚胺基)-2-7-二甲基-3H-咕吨-9-基]苯甲酸乙酯单盐酸盐(R6G)(发出约500-560nm波长范围内的响应辐射)、1,1,3,3,3 ',3 ' -六甲基吲哚碘化二碳花青(HIDC)(发出波 长范围为约600-660nm的响应辐射)、6_羧基荧光素(通常缩写为FAM和F)、6-羧基-2',4', 7',4,7_六氯荧光素(HEX)、6-羧基-4',5'_二氯-2',7'_二甲氧基荧光素(J0E或J)、N,N,N', N ' -四甲基-6-羧基罗丹明(TAMRA或T)、6-羧基-X-罗丹明(R0X或R)、5-羧基罗丹明-6G(R6G5 或G5)、6-羧基罗丹明-6G(R6G6或G6)以及罗丹明110;花青染料,例如Cy3、Cy5以及Cy7染料; 香豆素,例如伞形酮;苯甲亚胺染料,例如Hoechst 33258;菲啶染料,例如德克萨斯红;乙啡 啶染料;吖啶染料;咔唑染料;吩噁嗪染料;扑啉染料;聚甲炔染料,例如花青染料,如Cy3 (发 出波长范围为约540-约580nm的响应辐射)、Cy5(发出波长范围为约640-约680nm的响应辐 射)等;B0DIPY染料以及喹啉染料。具体的目标荧光基团包括:嵌二萘、香豆素、二乙胺基香 豆素、FAM、氯三嗪荧光素、荧光素、R110、曙红、J0E、R6G、HIDC、四甲基罗丹明、TAMRA、丽丝 胺、R0X、萘基荧光素、德克萨斯红、萘基荧光素、Cy3以及Cy5等。
[0044]在一些实施方案中,序列特异的探针与淬灭基团相连。淬灭基团可以吸收电磁辐 射并将其作为热量消散,因而维持黑暗。淬灭基团的实例包括:Dabcyl、NFQ如BHQ-1或BHQ-2 (Biosearch)、I0WA BLACK FQ(IDT)以及IOWA BLACK RQ(IDT)。在一些实施方案中,选择淬 灭基团以与荧光基团配对,从而吸收荧光基团发出的电磁辐射。用于本文公开的组合物和 方法的荧光基团/淬灭基团对在本领域是众所周知的,并且可在例如万维网地址为 molecular-beacons · or g/downl oad/marras,mmb06 %28335%293.pdf 的 S. Marras, "Selection of Fluorophore and Quencher Pairs for Fluorescent Nucleic Acid Hybridization Probes" 的描述中找到。
[0045] 在一些实施方案中,荧光基团被连接至序列特异的探针的第一端,淬灭基团被连 接至探针的第二端。连接可包含共价键,并且可任选地包含位于探针与荧光基团或淬灭基 团之间的至少一个连接分子。在一些实施方案中,荧光基团与探针的5'端相连,淬灭基团与 探针3'端相连。在一些实施方案中,荧光基团与探针的3'端相连,淬灭基团与探针的5'端相 连。可用于定量核酸扩增的探针的实例包括分子信标、S⑶RP10NS?探针(Si gma)以及 TAQMAN?探针(Life Technologies)。
[0046] 基板
[0047] 可根据本文的一些实施方案来使用包含多个纳升级反应环境的基板。
[0048] 在一些实施方案中,基板包含数个上样区以及与每个上样区存在流体连通的多个 纳升级反应环境。在一些实施方案中,将具有上样区的纳升级反应环境总体积的溶液以及 稀释度为每个反应环境约0.1个基因组的单一基因组(例如单细胞或单细胞的分离的基因 组)应用于上样区,可导致上样区中99%的反应环境包含不多于一个基因组(或包含所述基 因组的单细胞)。例如,如果基板的每个上样区包含255个微孔反应环境,每个的直径为约 400μηι,深度为约100μηι(对于约12nl的体积而言),应用3μ1的每个微孔包含0.1个细胞的溶 液(例如26个细胞),则约99.5 %的微孔包含不多于一个细胞。注意该数量是经由SEM显微镜 确认的(参见图1Β)。
[0049] 图1Α中用示意图说明了根据本文的一些实施方案的示例性的基板10。基板可包含 相互之间不存在流体连通的数个上样区12。在一些实施方案中,基板包含至少3个上样区, 例如3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、 50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450或500个上样区,包 括任意两个列出的数值之间的范围。在一些实施方案中,配置每个上样区以在不存在任何 介入流体通道(例如微流体通道或纳流体通道)的情况下,通过移液器直接上样。可以手动 操作或者自动操作移液器。每个上样区12可包含多个纳升级反应环境14(例如微孔),或可 与多个纳升级反应环境14(例如微孔)存在流体连通。纳升级反应环境的数量可用于增加每 个反应环境都不包含不多于一个基因组(或含有基因组的单细胞)的可能性。在一些实施方 案中,每个上样区12包含至少约100个纳升级反应环境,例如约100、150、200、250、300、350、 400、450、500、550、600、650、700、750、800、850、900、950、1000、1100、1200、1300、1400、 1500、1600、1700、1800、1900、2000、3000、4000或5000个纳升级反应环境,包括任意两个列 出的数值之间的范围。在一些实施方案中,每个纳升级反应环境14的体积不大于30纳升,例 如约 30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、 4、3、2或1纳升,包括任意两个列出的数值之间的范围。在一些实施方案中,每个纳升级反应 环境14的体积不大于20纳升。在一些实施方案中,每个纳升级反应环境14的体积不大于12 纳升。在一些实施方案中,每个纳升级反应环境14的体积为约20nl。在一些实施方案中,每 个纳升级反应环境14的体积为约12nl。在一些实施方案中,每个纳升级反应环境的径深比 为约4:1,例如约2:1、3:1、4:1、5:1、6:1、7:1或8:1。例如直径为约40(^111,深度为约10(^111的 圆形纳升级反应环境的体积为约12nl。
[0050]公认每个上样区可上样单独的样品,以使多个样品可在同一基板上并行扩增(每 个上样区一个样品)。因此,在一些实施方案中,并行扩增的样品的数量可以容易地增加或 减少。例如,如果样品的数量少于基板上上样区的总数量或与之相等,则可选择合适数量的 上样区用于并行反应。如果样品的数量多于基板上上样区的总数量,则可使用两个或更多 个基板以适应样品的总量。
[0051 ] 在一些实施方案中,基板100包含16个上样区12,并且每个上样区12包含255个纳 升级上样环境14。每个纳升级反应环境14的直径可以为约400μπι,深度为约100μπι,体积为约 12nl。基板可包含PDMS。每个上样区的高度可以为约7mm,宽度为约7mm。可以在基板上以某 种模式排列上样区。
[0052]在一些实施方案中,基板还包括用于扩增-检测部分的检测器。不需要将检测器与 基板相连。例如可安置基板使其与荧光显微镜存在光学通讯,以及任选地与照相机存在光 学通讯。根据本文的一些实施方案,扩增-检测部分可存在于纳升级反应环境中,并且可指 示在特定的纳升级反应环境中,何时发生期望量的核酸扩增。因此,在一些实施方案中,配 置检测器以检测其中已经发生期望量的扩增的纳升级反应环境。在一些实施方案中,手动 用户可基于通过检测器检测的信号选择一个或多个纳升级反应环境用于下游应用,如文库 构建。在一些实施方案中,基于通过检测器检测的信号的量,自动选择一个或多个纳升级反 应环境用于下游应用,如文库构建。
[0053]在一些实施方案中,基板还包含用于从选择的纳升级反应环境中回收扩增的核酸 的移液器。可配置移液器以从选择的孔中回收纳升级体积或更少。在一些实施方案中,移液 器包含直径小于纳升级反应环境的直径的移液管。在一些实施方案中,移液管的直径不大 于约50μπι,例如约5(^111、45、40、35、30、25、20、15、10或5以111,包括任意两个列出的数值之间的 范围。在一些实施方案中,移液管的直径为约30μπι。在一些实施方案中,移液管为玻璃移液 管。移液管可以是无菌的。在一些实施方案中,移液器受手动显微操作器的机械控制,以使 用户可手动选择目标纳升级反应环境用于回收液体,例如扩增的核酸。在一些实施方案中, 移液器受与如本文所述的检测器存在数据通讯的自动显微操作器的控制,以使移液器可从 显示期望的扩增水平的纳升级反应环境中自动回收液体。
[0054]在一些实施方案中,对细菌和/或人类细胞的基因组进行测序。一些实施方案包括 用极少的测序投入组装单细菌细胞的基因组。一些实施方案包括以低至1-2百万碱基的分 辨率检出单人类神经元的拷贝数变异。
[0055] 根据本文一些实施方案的方法和制成品可用于下述中的一项或多项:人类肠道中 不可培养的细菌的从头组装;异质环境如海水中不可培养的细菌的从头组装;单神经元的 拷贝数变异检出;单癌细胞或循环肿瘤细胞的拷贝数变异检出;以及单体型分析,例如人类 单体型分析。
[0056] 在一些实施方案中,扩增单细胞的基因组。在一些实施方案中,所述细胞为人类细 胞。在一些实施方案中,所述细胞为微生物细胞。在一些实施方案中,所述细胞为细菌细胞。 在一些实施方案中,所述细胞来自基本不可培养的细胞株。如本文所使用的,"基本不可培 养的"及其变体指这样的细胞株:当在正常的实验室条件下培养时,所述细胞株的少于20% 的复本会达到对数生长期,例如少于20 %、15%、10%、5%、2%、1%或0.1%。
[0057]对于先前的技术而言,主要的技术挑战是单细胞中每个染色体的一个或两个拷贝 的高度不均匀的扩增。该高扩增偏差导致难于从头组装微生物基因组以及单哺乳动物细胞 中拷贝数变异(CNV)或杂合的单核苷酸改变的不准确鉴定。偏差容忍算法(bias-tolerant algorithms)的最新进展 n,12已经极大地减轻了不均匀读取深度对基因组的从头组装和CNV 检出的影响,但仍需要异常高的测序深度,使得该方法不适用于具有大基因组的有机体。 [0058]之前已经开发了多个策略来减小扩增偏差,包括减小反应体积 13,14以及向扩增反 应中补充单链结合蛋白或海藻糖15,16。还利用通过用双链体特异的核酸酶消化高丰度的序 列进行的扩增后标准化,来显著减小偏差 17。尽管有这些努力,扩增偏差仍是单细胞基因组 测序中的主要技术挑战。利用包含多拷贝基因组的细胞或多克隆细胞已经成为用MDA实现 几近完全的基因组覆盖的唯一可行的解决方案 18,19。在不受任何特定理论限制的情况下,我 们推断扩增总是具有偏差倾向,通过根据本文的一些实施方案将扩增量级限制为"刚好足 够"用于测序,我们可能会减小偏差。此外,我们认为将反应体积减小~1000倍至纳升水平, 并因此显著增加模板基因组的有效浓度可能会减少污染、改善引物退火以及因此改善扩增 均匀性 13,14。为了这些目的,我们根据本文的一些实施方案开发了微孔置换扩增系统 (MIDAS),其为基于微孔的平台,允许在数千个体积为12nL的纳升反应器中进行单细胞的高 度并行的聚合酶克隆,其中12nL为申请人所知的迄今为止已经实施的最小体积。通过与低 输入文库构建方法相结合,我们在微生物和哺乳动物细胞的基因组中都实现了高度统一的 覆盖度。在来自单微生物细胞的基因组从头组装方面以及用最小的测序投入在单独的成人 神经元中测定小的体细胞拷贝数变异的能力方面,我们都显示出极大的改善。
[0059]由于可能由来自单一 DNA分子的全基因组扩增引起的极端偏差,单细胞的基因组 分析历来都是一项具有挑战性的任务。通常,由于扩增偏差以及覆盖度不足,需要大量的测 序资源以产生草图质量的基因组组装或者测定低分辨率的拷贝数变异特征。根据本文一些 实施方案的MIDAS通过利用纳升级体积以产生纳克级的扩增子以及通过利用基于低输入转 座子的文库构建方法,解决了这一问题。与传统的单细胞文库构建和测序方法相比,根据本 文一些实施方案的MIDAS为分析来自异质种群的单细胞提供了更统一、覆盖度更高以及成 本更低的方法。
[0060] 将MIDAS应用于单大肠杆菌细胞,用相对较低的测序深度解析了几乎整个基因组。 此外,对MIDAS文库应用从头组装,90%的基因组被组装。因此,在一些实施方案中,MIDAS被 应用于未经培养的有机体以提供草图质量的组装,该组装具有更多覆盖的基因以及更少的 测序资源支出。目前,大部分不可培养的细菌被作为混合种群的一部分而非单独地进行宏 基因组学分析。尽管宏基因组学允许发现新基因,但是不能解析单独的序列。当应用于单细 胞时,基于传统MDA的方法的偏差性质证明了在基因组从头组装方面单细胞微生物分析的 挑战。尽管最近在分析部分组装的单细胞基因组方面取得了成功 7,但是单细胞基因组学的 全部潜能仍需充分探索。同样地,在一些实施方案中,将MIDAS应用于异质性环境样品,可以 低成本和高通量方式容易地发现和表征新的单细胞有机体和基因,允许单细菌细胞的更高 的分辨率和更完整的分析。
[0061] 在一些实施方案中,MIDAS被应用于单人神经元核的拷贝数变异的分析。用少量的 序列投入MIDAS就能够系统性地检出大小为2百万碱基对或更大的单一拷贝数变异。最近已 经显示,在成人脑中,不同脑区域的有丝分裂后的神经元表现出不同水平的DNA含量变化 (DCV)29。由于现有的基于MDA的方法的扩增偏差,很难将与DCV有关的准确的基因组区域定 位于单神经元上。已经利用基于PCR的全基因组扩增方法成功描述了单肿瘤细胞中的CNV的 特征8。然而,肿瘤细胞趋向于为高度非整倍体,并且显示出更大量级的拷贝数变异,因而其 更易被检测。该策略在其它具有更细微的CNV事件的原代细胞类型中的实用性仍不清楚。我 们已经证明,MIDAS极大地将单细胞分析的变异性减少至可检测小的单拷贝变化的水平,允 许描述更细微的拷贝数变异的特征。MIDAS可被用于同时探测来自患有神经疾病的患者的 多个细胞的单独的基因组,因此允许鉴定一系列结构基因组变体,并最终允许以高通量的 方式准确地测定体细胞CNV对脑部疾病的影响。
[0062]在一些实施方案中,与基于传统MDA的方法相比,MIDAS十分有利。最近,报道了另 一种单细胞测序方法,其显著减小了扩增偏差并增加了基因组覆盖度。该方法被称为 MALBAC,其并入了新型酶策略,以在指数扩增和文库构建之前首先通过拟线性扩增将单一 DNA分子扩增至有限的量级32。在常规的反应管中,在微升反应中实施MALBAC。与此相反, MIDAS代表了通过将MDA适用于微孔平台的正交策略。因此MIDAS更易于在单次实验中并行 分析较大数量的单细胞。虽然MIDAS和MALBAC都显示出在整个基因组的相对
无偏差的扩增 (图9A-9B),但是根据本文的一些实施方案,在覆盖度分布方面MIDAS显示出更低的变异性, 使得它更适于用较少的测序投入进行CNV检出。此外,不像MIDAS,MALBAC还未在单细菌细胞 基因组测序所需的飞克水平的DNA输入中被证明。最后,由于使用的DNA聚合酶的差异, MALBAC的错误率大约为MDA的错误率100倍。
[0063] MIDAS可向研究者提供用于多种其它应用的强有力的工具,包括哺乳动物基因组 的高覆盖度的端对端的单体型分析或者在诱导多能性或干细胞分化过程中,在单细胞水平 研究新的CNV事件33 HDAS可允许以相对较低的价格对多个有机体进行有效的高通量测序。 这一新技术会帮助推进单细胞基因组学,增强我们鉴定多细胞有机体的多样性的能力,以 及导致不同环境中的数千种新的有机体的发现。 实施例
[0064] 方法
[0065]关于实施例1-5,使用下述方法。技术人员会理解,根据本文的一些实施方案,下述 方法可以被容易地使用或采用或改进:
[0066]微孔阵列制造
[0067]用聚二甲硅氧烷(PDMS)制造微孔阵列。每个阵列为7mmX7mm,每个载玻片具有2行 8阵列,每个阵列有156个微孔。单独的微孔的直径为400μπι,深度为lOOum(~12nL体积),并 且以蜂窝模式排列以使孔之间的空间最小化。为了制造所述阵列,首先在UC San Diego的 Nan〇3设备上利用软光刻技术制备SU-8模具。接下来,将比例为10:1的多聚物与PDMS的固化 剂混合物倒入模具。最后,将PDMS脱气并在65°C固化3小时。
[0068] 细菌以及神经元准备
[0069]过夜培养大肠杆菌K12MG1655,在指数期收集并用PBS洗涤三次。定量之后,将溶液 稀释至10个细胞AiL。如先前所述的分离人神经元核29'34,并在冰的70%乙醇中固定。用针对 NeuN的单克隆小鼠抗体(1:100稀释)(Chemicon,Temecula,CA)和AlexaFluor 488山羊抗鼠 IgG二抗(1:500稀释)(Life Technologies,San Diego,CA)标记核。用含有碘化丙啶(50ug/ ml) (Sigma,St · Louis,M0)、50ug/ml RNase A(Sigma)以及鸡红细胞核的(Biosure,Grass Valley,CA)的PBS溶液将核复染。用Becton Dickinson FACS-Aria II(BD Biosciences, San Jose,CA)对通过碘化丙啶荧光测定的位于G1/G0细胞周期峰的核进行电子门控,并基 于NeuN+免疫反应性进行选择性收集。
[0070] 细胞接种、裂解以及多重置换扩增
[0071] 在使用之前,首先将不含DNA或酶的所有试剂暴露于紫外光中10分钟。用氧等离子 体处理PDMS载玻片以使它们为亲水性的,并确保随机接种细胞。然后用含有1 %的牛血清白 蛋白(BSA) (EMD Chemicals,Bill erica,MA)的磷酸盐缓冲液(PBS) (Gibco,Grand Island, NY)处理载玻片30分钟,并用PBS洗涤3次以防止DNA附着于PDMS。在接种细胞之前,将载玻片 在真空中完全干燥。将细胞稀释至10个细胞的浓度,并向每个阵列中加入3yL细胞稀释 液(每个阵列总共30个细胞)。
[0072]首先,为了验证细胞接种符合泊松分布,将细胞用1 X SYBR绿染色并在荧光显微镜 下观察。用SEM成像进一步确认合适的细胞分布。对于SEM成像,将铬喷射至接种的细胞上, 持续6秒以增强传导性。注意细胞接种成像仅用于确认理论上的泊松分布,其在实际的扩增 和测序实验过程中并不实施,因为可能会引入污染。
[0073] 接种之后,使细胞沉积于孔中,持续10分钟。然后用300U的lOOU/yL的ReadyLyse溶 菌酶江?1(^11廿6,1&1(1&〇11,11)裂解接种的细胞,并室温孵育10分钟,或者在层流净化罩中, 采用利用干冰砖和室温进行的51分钟的冷冻/融解周期裂解接种的细胞。裂解之后,向每个 阵列中加入4.5yL碱性裂解(ALS)缓冲液(400mM K0H、100mM DTT、10mM EDTA),并在冰上孵 育10分钟。然后向每个阵列中加入4.5Λ中和(NS)缓冲液(666mM Tris-HCl、250mM HCL)。加 入11.2yL MDA预混液(1 X缓冲液、0.2 X SYBR绿I、ImM dNTP、50μΜ巯基化随机六聚体引物、 8U phi29聚合酶、Epicentre、MadiSOn、WI),然后用矿物油覆盖阵列。接下来将载玻片转移 至显微镜的载物台,所述显微镜载物台位于设置为30°C的自定义温度和湿度受控的培养箱 内。利用488nm的滤光片,以30分钟的间隔拍摄图片,持续10小时。
[0074]图像分析
[0075]用自定义Matlab脚本分析图像以减去背景荧光。由于向MDA预混液中添加了SYBR 绿,因此期望阳性扩增在488nm滤光片下的荧光会随时间增加。如果观察到荧光孔具有荧光 随时间增加的数字特征(每个阵列大约10-20个孔),则保留该阵列。如果没有孔发出荧光, 则扩增失败,并停止进一步的实验。可选地,如果大部分的孔发出荧光,则认为该阵列被污 染,并类似地停止后续分析。如果2个相邻的孔发出荧光,则两个都不被提取,因为每个孔中 存在多个细胞的可能性更高(如在此情况下,接种可能是不均匀的)。
[0076]扩增子提取
[0077] 在加热的条件下,将1mm外径的玻璃移液管(Sutter,Novato,CA)拉至~30um的直 径,弯至45度角,将其用5丨811^&^6(5丨81]^,51:丄〇11丨8,]\10)包被,并用(1!12〇洗涤3次。
[0078]利用上文所述的自定义Matlab脚本鉴定阳性扩增的孔。利用数字显微操作系统 (Sutter,N〇vat〇,CA)进行扩增子提取。将玻璃移液管置于显微操作器内并移动至目标孔上 方。将显微镜的滤光片调至明视野,并使移液管降至孔内。缓慢施加负压,并观察到孔的内 容物进入移液管。然后将滤光片调回至488nm以确保所述孔不再发荧光。将扩增子置于lyL dH 20 中。
[0079] 扩增子定量
[0080] 为了定量微孔的扩增,在20yL的PCR管反应(1 X缓冲液、0.2 X SYBR绿I、ImM dNTP、 50mM巯基化随机六聚体引物、8U phi29聚合酶)中,利用MDA再次扩增0.5yL扩增子。利用 Ampure XP珠 (Beckman Coulter,Brea,CA)进行纯化之后,使用Nanodrop分光光度计定量第 二轮扩增子。然后将第二轮扩增子稀释至1即、10(^8、1(^8、]^8以及10(^8以产生扩增子梯 度。随后,在定量PCR仪中,利用MDA与所述扩增子梯度一起扩增剩余的0.5yL第一轮扩增子。 允许样品扩增至完成,并摘录每个扩增至0.5X的最大荧光所需的时间。然后可以内推最初 的扩增子浓度。
[0081 ]低输入文库构建
[0082]将1.5yL ALS缓冲液加至提取的扩增子中以使DNA变性然后室温孵育3分钟。然后 在冰上加入1.5yL NS缓冲液以中和溶液。向变性的扩增子中加入10U的DNA聚合酶I (Invi trogen,Car lsbad,CA)以及250纳克未修饰的随机六聚体引物、ImM dNTP、1 X Ampligase缓冲液(Epicentre,Madison,Wi)和1 XNEB缓冲液2(NEB,Cambridge,ΜΑ)。将溶液 在37°C孵育1小时,允许第二条链合成。加入1U的Ampligase以封闭缺口,并且首先将反应物 在37°C孵育10分钟,然后在65°C孵育10分钟。利用标准的乙醇沉淀净化反应物,并用4yL水 洗脱。
[0083] 用1 X TE缓冲液和甘油将Nextera转座酶(Epicentre,Madison,WI)稀释100倍。添 加 lyL稀释的酶以及1 X tagment DNA缓冲液之后,然后对洗脱的扩增子进行10yL转座酶反 应。将用于哺乳动物的反应在55°C孵育5分钟,将用于细菌细胞的反应在55°C孵育1分钟。向 每个样品中添加〇. 05U蛋白酶(Qiagen,Hilden,Germany)以使转座酶失活;将蛋白酶反应在 50°CfP?育 10分钟,然后在65°CfP?育20分钟。添加5U Exo minus Klenow(Epicentre, Madison,WI)和ImM dNTP并在37°C孵育15分钟,然后在65°C孵育20分钟。实施双阶段定量 PCR(two stage quantitative PCR),第一阶段利用1 XKAPA Robust 2G预混液(Kapa Biosystems,Woburn,ΜΑ)、10μΜ适配子1、10μΜ条形码标记的适配子2进行,第二阶段利用1 X ΚΑΡΑ Robust 2G预混液、10μΜ Illumina引物 1、10μΜ Illumina引物2以及0.4XSYBR绿I进 行,并且在扩增曲线达到其平台期之前停止反应。然后利用Ampure XP珠,以1:1的比率清理 反应。6%的PAGE凝胶证实了成功的标签化反应。
[0084] 细菌基因组的定位以及从头组装
[0085] 选择大小为300-600bp范围内的细菌文库,并且利用100bp的双端读取在Illumina 基因组分析仪Iix、Illumina HiSeq或Illumina MiSeq中进行测序。将大肠杆菌数据定位于 参考基因组,以及将其进行从头组装。对于定位分析,利用默认的Bowtie参数,将文库作为 单端读取定位于参考大肠杆菌K12MG1655的基因组上。对污染进行分析,并利用SAMtools的 rmdup功能移除克隆读取。对于从头组装,首先将组合长度小于200bp的双端读取进行连接, 并作为单端读取进行处理。然后将所有剩余的双端读取以及新产生的单端读取进行质量修 剪。利用SPAdes 1、. 2.4.0实施从头组装。用kmer值21、33和55对校正读取进行组装。利用 BLAST将组装的支架定位于NCBI nt数据库,并且利用MEGAN35使有机体分布可视化。从组装 物中移除明显的污染物(例如人),并且利用QUAST 36对组装物进行分析。利用RAST37和KAAS38 对剩余的重叠群进行注释。
[0086]实施例1 :MIDAS在微孔中实施大规模并行聚合酶克隆
[0087] 为了实施"刚好足够"的扩增并因此限制来自高度并行方式的MDA的指数扩增偏差 的影响,我们设计并制造了大小类似于标准显微镜载玻片的微孔阵列。优化微孔阵列的格 式,包括孔的大小、样式以及间隔,以实现有效的孔上样、最佳的扩增收率以及便利的DNA提 取。每个载玻片包含16个阵列,每个阵列包含156个直径为400μηι的微孔,该载玻片允许16个 单独的异质性细胞群进行并行扩增(图1Α)。每个阵列每一步的所有液体操作步骤(细胞接 种、裂解、DNA变性、中和以及添加扩增预混液)仅需要一个移液栗,这极大地减少了数百个 扩增反应所需的劳动。由于每个微孔的体积为12nL,因此试剂花费比传统方法少1000倍。为 了确保每个反应器仅包含一个单细胞,我们以大约每10个孔1个细胞的密度使微孔负载不 足,以保证不多于0.5%的孔包含多于1个细胞。将剩余的空孔用作内部阴性对照,以允许易 于检测以及消除污染样本。通过扫描电子显微镜确认微孔中合适的微生物细胞接种(图 1Β)〇
[0088] 将细胞群接种至每个微孔阵列之后,在温度和湿度受控的室中,我们以~12nL的 反应体积对接种的单细胞实施受限的多重置换扩增(MDA)(图1C)。我们利用SYBR绿I以利用 落射荧光显微镜使扩增子的增长实时可视化(图5)。观察到扩增子在整个阵列的随机分布, 其中大约10%的孔包含扩增子,还确认了单个微孔内的并行、局部扩增以及单细胞的随机 接种 2()。由于贯穿所有微孔的荧光信号统一增加,因此容易检测外源性污染,这允许容易地 移除受污染的样品。在微孔中进行扩增之后,我们采用显微操作系统以从单个孔中提取扩 增子用于测序(图1C)。该步骤中的荧光监测确保了仅单孔被提取,用于分析(图6A-6B)。利 用实时MDA 1,我们估计提取的扩增子的质量范围为500皮克-3纳克。
[0089]为了从纳克级的DNA扩增子中构建Illumina测序文库,我们利用了基于Nextera Tn5转座酶文库构建试剂盒的改进方法。先前的研究已经表明可使用仅仅10皮克的基因组 DNA来制备基于Nextera转座酶的文库21。然而,标准的Nextera方案不能从MDA扩增子中产生 高度复杂的文库,导致基因组覆盖度较差(数据未显示)。为了解决这一问题,我们首先利用 随机六聚物以及DNA聚合酶I将超支化的扩增子转变为无支链的双链DNA分子,以允许利用 Nextera?体外转座方法有效地构建文库(图1D)。此外我们利用小的反应体积以进一步增加 Nextera文库构建的效率21。
[0090] 因此,利用根据本文的一些实施方案的基本无偏差的扩增产物构建了测序文库。
[0091] 实施例2:MIDAS从单大肠杆菌细胞中有效地产生了几近完全的基因组组装。
[0092] 作为概念证明,我们对三个单MG1655大肠杆菌细胞进行MIDAS,并对每一个都进行 了大约2-8百万个之间的长度为100bp的双端Illumina测序读取分析,相当于87 X至364 X 之间的基因组覆盖度。我们首先将读取定位于参考大肠杆菌基因组,其能够以>1X的覆盖 度恢复94%-99%之间的基因组。然后我们利用SPAdes实施基因组的从头组装 22。我们能够 组装88%-94%之间的大肠杆菌基因组(图2),其中N50重叠群大小为2,654-27,882bp,且最 大的重叠群的长度为18,465-132,037bp。超过80 %的组装的碱基被定位至大肠杆菌,剩余 的来自常见的MDA污染物,如代尔夫特菌属(Delftia)和食酸菌属(Acidovorax)(图7、表1)。 我们利用RAST以及KAAS注释服务器对基因组进行注释。在组装中,超过96%的大肠杆菌基 因被部分或完全覆盖。也存在主要的生物合成通路,包括糖酵解和三羧酸循环。此外,也覆 盖了氨基酸合成通路以及tRNA发展通路。因此,MIDAS能够用非常少的测序从单细胞组装很 大一部分的大肠杆菌基因组。
[0093]作为对照,我们还利用传统的管内MDA方法对一个大肠杆菌细胞进行了扩增和测 序,并控制反应时间以将扩增收率限制在纳克水平。一部分对照扩增子在第二反应中进一 步扩增至微克水平。利用传统的剪切和连接方法将两种对照扩增子转换进测序文库。我们 发现限制扩增收率导致扩增偏差降低,即使对于管内扩增而言。然而,当与两种对照反应中 的任一种相比时,MIDAS的扩增偏差降低水平显著(图SAIDhMIDAS还能够比基于传统MDA 的方法恢复更大部分的基因组。事实上,与之前公开的最完全的单大肠杆菌基因组数据集: 相比,MIDAS能够用比基于传统MDA的方法少3-13倍的测序投入(~90-400 X与~1200 X )回 收多50%的大肠杆菌基因组。该结果证明MIDAS为从未经培养的单细胞组装全细菌基因组 提供了更有效以及更合算的方法。
[0094]实施例3:MIDAS能够鉴定单成人神经元中的小的拷贝数变异。
[0095] 考虑到通过基于微孔的聚合酶克隆实现的高度统一的基因组覆盖度,接下来我们 将MIDAS应用于描述单哺乳动物细胞中的拷贝数变异特征。人脑更高的认知功能由神经元 和神经胶质的复杂网络所支持。一直认为人脑中的所有细胞共享相同的基因组。在不受任 何特定理论约束的情况下,最近的证据显示由于非整倍性& 26、活跃的反转录转座子27,28以 及其它DNA含量变化29,单个神经元具有不同的基因组。然而,还未在单一基因组规模最终证 明单个神经元中体细胞遗传变异的存在。为了证明MIDAS作为研究单一原代人神经元中拷 贝数变异的平台
的可行性,我们从来自健康女性供体的一个死后脑部样品,以及从来自患 唐氏综合征的女性个体的第二死后脑部样品制备了核。我们通过基于神经元特异的Neurit 体染色的流式分选纯化了皮质神经元核。利用MIDAS,从单个核产生了五个测序文库(两个 未患病的、三个患有唐氏综合征的),并利用基于环状二元分割 3(3的SNS方法对产生的测序数 据进行分析。我们类似地观察到与基于传统管内MDA的方法相比,MIDAS文库中扩增偏差显 著降低(图3C-D)。
[0096] 接下来我们试图描述检测单一拷贝数变化的灵敏性的特征。尽管即使主动分库成 大的基因组区域,在传统的单细胞DNA文库中,从随机扩增偏差区分真正的拷贝数差异是不 可能的,但是MIDAS文库中统一的基因组覆盖度允许在每个唐氏综合征核中清楚地检测三 体性21(图4A)。单细胞测序方法的严格验证已经极具挑战性,这主要是因为分析的任何单 细胞都可能携带来自混合细胞群的另外的基因组差异。因此,不存在单细胞数据可与之进 行比对的参考基因组。为了确定MIDAS的CNV测定限,我们通过计算将来自唐氏综合征核的 染色体21(为了模拟单拷贝的获得、最小的可能的拷贝数变化)或染色体4(作为阴性对照) 的随机的1或2Mbps区域的数据移植进100个其它随机基因组位点(表2)。该计算方法类似于 之前用于评估测序误差 31的策略,其为我们提供了一系列不同大小的参考CNV事件,以在不 影响数据集中的固有技术噪声的情况下进行基准测试。我们鉴定了 68/100(68%)的1Mb T21插入以及98/100(98%)的2Mb T21插入,说明MIDAS能够在百万碱基级,高灵敏性地检出 拷贝数事件(图4B、表2)。如所期望的,二倍体染色体4区域的插入未产生任何的拷贝数检 出。当用来自传统的管内MDA文库的数据实施相同的模拟时,未检测到T21插入,表明在该水 平的测序深度下,基于传统MDA的方法不能检出小的CNV(图8A-B)。然后我们利用通过T21移 植模拟校准的参数实施了 CNV检出。在每个神经元中,MIDAS另外检出了 4-17拷贝数事件(表 3)。仅2/62检出的CNV事件大于2Mb,5/62大于1Mb。其余事件是否代表了真正的拷贝数变化 或者它们是否由于大部分检出的小尺寸而是假阳性的仍然不清楚。然而在来自健康供体的 两个不同的核中,五个更小的CNV事件都被检出,并且在来个唐氏综合征患者的两个核中, 染色体10上一个另外的CNV事件被检出,说明它们是种系CNV。基于T21的计算移植结果,似 乎五个人类神经元平均包含1个区域,每个区域具有以百万碱基水平获得的1个拷贝数。
[0097] 因此,根据本文的一些实施方案,基本无偏差的扩增可灵敏地测定基因组部分拷 贝数的变化。
[0098] 实施例4:在MIDAS以及MDA数据中鉴定CNV
[0099] 利用36bp的单端读取,在Illumina基因组分析仪IIx或Illumina HiSeq中对哺乳 动物单细胞文库进行测序。利用先前由冷泉港实验室8公开的CNV算法来检出每个单一神经 元的拷贝数变异,对其进行改进以成功地分析非癌症细胞。简言之,对于每个样品,利用 Bowtie将读取定位于基因组。利用samtools移除聚合酶链式反应人工产物产生的克隆读 取,然后将剩余的独特读取分入预先确定的49,891个基因组库以使定位 3(3之后每个库都包 含类似数量的读取。然后将每个库的读取数表示为相对于样品中每个库的平均读取数的 值,之后利用最小二乘法加权和(L0WESS),通过每个库的GC含量将其标准化。然后将环状二 元分割用于将每个染色体库分为具有相似平均数的相邻片段。与之前公开的算法不同,其 中绘制库的数量的直方图,并将第二个峰选为代表拷贝数2,假定由于样品不是癌症样品并 且因此不太可能含有显著量的非整倍性,则每个样品中库的平均数量将与拷贝数2对应。因 此将每个片段的标准化的库的数量乘以2,并四舍五入为最接近的整数以检出拷贝数。 MIDAS数据清楚地显示在所有唐氏综合征单细胞中,CNV检出指示三体性21,而基于传统MDA 的方法不能检出三体性21。
[0100] 实施例5:在MDA以及MIDAS数据中鉴定人工CNV
[0101 ]为了测试上文所述的CNV算法检出小的CNV的能力,通过计算构建人工CNV。在环状 二元分割之前,在每个唐氏综合征样品中选择贯穿染色体1-22的100个随机基因组区域,每 个由17个或34个大小约为60kb的库组成。每个区域被替换为来自染色体21或染色体4的同 样大小的区域(补充表2)。然后对每个"加标"样品运行上文的算法,并且记录与每个加标样 品匹配的每个样品中新CNV检出的数量。对于染色体21加标,MIDAS能够以2Mb的水平准确地 检出98%的加标CNV,以及以1Mb的水平准确地检出68%的加标CNV,而基于传统MDA的方法 不能检出任何加标CNV。如所期望的,染色体4的加标未导致任何其它的CNV检出。
[0102]因此,根据本文的一些实施方案,小的CNV可以被检出。
[0103]表1:单一大肠杆菌组装统计
[0104] 总读取数、定位至大肠杆菌的重叠群数、N5Q、最长重叠群的长度、组装成大肠杆菌 K12MG1655基因组的总碱基对、组装中被覆盖的大肠杆菌K12MG1655的百分数、全部和部分 覆盖的基因,以及被定位的读取所覆盖的基因组的百分数。总读取数指所有测序读取,包括 未定位读取和克隆读取。
[0105]
[0106] 表2:人工CNV移植统计
[0107] 显示了用于检出人工CNV的每个基因组位点,以及MIDAS是否能够检出人工CNV。仅 来自MIDAS样品的三体性染色体21的加标产生了CNV检出;MIDAS染色体4的加标或来自基于 传统MDA的方法的三体性染色体21的加标未产生任何人工CNV检出。
[0108]
[0109」
[0110]
[0111] L0112J
[
[0114]
[0115] 表3:每个神经元中检出的拷贝数事件
[0116] 列出了每个单细胞中所有鉴定的拷贝数事件,以及CNV的实际碱基对大小以及根 据之前公开的算法8非重复的CNV中碱基对的数量。独特的CNV以普通文本表示,而在一个或 更多样品中共有的CNV以斜体(如果在另一样品中CNV检出被部分鉴定)或粗体(如果在另一 样品中CNV检出被完全鉴定)表示。除三体性21 (在所有三种唐氏综合征细胞中都被鉴定出) 之外,大部分CNV检出的大小以及非重复的大小都非常小。
[0117]
[0118]
[0119]
[0120] 参考文献
[0121] 1. Zhang?K.et al. Sequencing genomes from single cells by polymerase cloning.Nat Biotechnol 24,680_686(2006).
[0122] 2.Rodrigue?S.et al.Whole genome amplification and de novo assembly of single bacterial cells.PLoS One 4?e6864(2009).
[0123] 3·Fan,H·C·,Wang,J·,Potanina,A·&Quake,S·R·Whole-genome molecular haplotyping of single cells.Nat Biotechnol 29,51_57(2011)·
[0124] 4.Hou,Y .et al. Single-cell exome sequencing and monoclonal evolution of a JAK2~negative myeloproliferative neoplasm.Cell 148,873_885(2012)·
[0125] 5.Pan,X .et al.A procedure for highly specific,sensitive,and unbiased whole-genome amplification.Proc Natl Acad Sci USA 105?15499-15504(2008).
[0126] 6.Marcy?Y.et al.Dissecting biological〃dark matter〃with single-cell genetic analysis of rare and uncultivated TM7microbes from the human mouth.Proc Natl Acad Sci U S A 104,11889-11894(2007).
[0127] 7.Yoon?H.S.et al.Single-cell genomics reveals organismal interactions in uncultivated marine protists.Science 332,714_717(2011)·
[0128] 8.Navin?N.et al. Tumour evolution inf erred by single-cell sequencing.Nature 472?90-94(2011).
[0129] 9.Xu?X .et al. Single-cell exome sequencing reveals single-nucleotide mutation characteristics of a kidney tumor.Cell 148?886-895(2012).
[0130] 10·Wang,J·,Fan,H·C·,Behr,B·&Quake,S·R·Genome-wide single_ce11 analysis of recombination activity and de novo mutation rates in human sperm.Cell 150,402-412(2012).
[0131] 11.Bankevich,A.et al.SPAdes:a new genome assembly algorithm and its applications to single-cell sequencing.J Comput Biol 19,455_477(2012)·
[0132] 12.Chitsaz ?H.et al.Eff icient de novo assembly of single-cell bacterial genomes from short-read data sets.Nat Biotechno1 29,915_921(2011)·
[0133] 13.Hutchison,C.A.,3rd,Smith,H.0.,Pfannkoch,C.&Venter,J.C.Cell-free cloning using phi29 DNA polymerase.Proc Natl Acad Sci USA 102?17332-17336 (2005).
[0134] 14.Marcy?Y.et al.Nanoliter reactors improve multiple displacement amplification of genomes from single cells.PLoS Genet 3?1702-1708(2007).
[0135] 15·Inoue,J·,Shigemori,Y·&Mikawa,T·Improvements of rolling circle amplification(RCA)efficiency and accuracy using Thermus thermophilus SSB mutant protein.Nucleic Acids Res 34?e69(2006).
[0136] 16.Pan?X.et al.A procedure for highly specific,sensitive,and unbiased whole-genome amplification.Proc Natl Acad Sci USA 105?15499-15504(2008).
[0137] 17.Rodrigue?S.et al.Whole genome amplification and de novo assembly of single bacterial cells.PLoS One 4?e6864(2009).
[0138] 18.ffoyke?T.et al.One bacterial cell ,one complete genome.PLoS One 5, el0314(2010).
[0139] 19.Fitzsimons ?M.S.et al.Nearly finished genomes produced using gel microdroplet culturing reveal substantial intraspecies genomic diversity within the human microbiome.Genome Res(2013).
[0140] 20.Blainey?P.C.&Quake?S.R. Digital MDA for enumeration of total nucleic acid contamination.Nucleic acids research 39,el9(2011)·
[0141 ] 21 · Adey,A · &Shendure,J · Ultra-low-input,标签化-based whole-genome bisulfite sequencing.Genome Res 22,1139_1143(2012).
[0142] 22.Bankevich,A.et al.SPAdes:a new genome assembly algorithm and its applications to single-cell sequencing.J Comput Biol 19,455_477(2012)·
[0143] 23.Rehen,S.K .et al. Constitutional aneuploidy in the normal human brain.J Neurosci 25,2176-2180(2005).
[0144] 24.Rehen?S.K.et al.Chromosomal variation in neurons of the developing and adult mammalian nervous system.Proc Natl Acad Sci USA 98,13361-13366 (2001).
[0145] 25. Yang ? A.H.et al. Chromosome segregation defects contribute to aneuploidy in normal neural progenitor cells.J Neurosci 23,10454-10462(2003)·
[0146] 26.Yurov?Y.B.et al.Aneuploidy and confined chromosomal mosaicism in the developing human brain.PLoS One 2,e558(2007)·
[0147] 27.Muotri ?A.R.&Gage ?F.H.Generation of neuronal variability and complexity.Nature 441?1087-1093(2006).
[0148] 28.Singer,T.,McCon
nell,M.J.,Marchetto,M.C.,Coufal,N.G.&Gage,F.H.LINE-1retrotransposons:mediators of somatic variation in neuronal genomes?Trends Neurosci 33,345-354(2010).
[0149] 29.ffestra?J.ff.et al.Neuronal DNA content variation(DCV)with regional and individual differences in the human brain.J Comp Neurol 518,3981-4000 (2010).
[0150] 30 · Baslan,T · et al · Genome -wide copy number analysis of single cells.Nat Protoc 7,1024-1041(2012).
[0151] 31·Shendure,J.et al. Accurate multiplex polony sequencing of an evolved bacterial genome.Science 309?1728-1732(2005).
[0152] 32·Zong,C·,Lu,S·,Chapman,A.R.&Xie,X.S.Genome-wide detection of single-nucleotide and copy-number variations of a single human cell. Science 338,1622-1626(2012).
[0153] 33. Hussein ? S.M.et al. Copy number variation and selection during reprogramming to pluripotency.Nature 471,58_62(2011)·
[0154] 34.ffestra?J.ff.et al.Aneuploid mosaicism in the developing and adult cerebellar cortex.J Comp Neurol 507?1944-1951(2008).
[0155] 35.Huson,D.H.,Auch,A.F.,Qi,J.&Schuster,S.C.MEGAN analysis of metagenomic data.Genome Res 17?377-386(2007).
[0156] 36.Gurevich?A. ?Saveliev?V. ? Vyahh i?N.&Tesler?G.QUAST :quali ty assessment tool for genome assemblies.Bioinformatics 29?1072-1075(2013).
[0157] 37. Aziz ?R.K.et al. The RAST Server:rapid annotations using subsystems technology.BMC Genomics 9?75(2008).
[0158] 38·Moriya,Y·,Itoh,M·,Okuda,S·,Yoshizawa,A·C·&Kanehisa,M·KAAS: an automatic genome annotation and pathway reconstruction server.Nucleic acids research 35,W182-185(2007)·
[0159] 39.Fan?Christina et al.Whole genome molecular haplotyping of single cells Nature Biotech
[0160] 40.Zhong?Chenghang et al.Genome-Wide Detection of Single-Nucleotide and Copy-Number Variations of a Single Human Cell Science 3381622(2012)
[0161] 41.Zhang?Kun et al.Sequencing Genomes from Single Cells by Polymerase Cloning Nature Biotech
[0162] 42·Evrony,Gilrad et al . Single Neuron Sequencing Analysis of LIRetrotransposition and Somatic Mutation in the Human Brain Cell 151 483 (2012)
[0163] 43.Kirkness ?E.F.et al. Sequencing of isolated sperm cells for direct haplotyping of a human genome.Genome Res·23,826_832(2013).
[0164] 44. Lu ,S.et al.Probing meiotic recombination and aneuploidy of single sperm cells by whole-genome sequencing.Science 338?1627-1630(2012).
[0165] 将本文引用的所有参考文献的公开内容以引用的方式整体并入本文。
[0166] 在本申请中,使用的单数可包括复数,除非另外特别指明,或者除非本领域技术人 员根据本公开内容将会理解,单数是仅有的功能性实施方案。因此,例如,"一"可以表示多 于一个,以及"一个实施方案"可以表示描述适用于多个实施方案。
[0167] 前面的描述以及实施例详述了某些实施方案。但是应当理解,无论文本中出现的 前述多么详细,本发明可以以多种方式实施,并且应当根据所附的权利要求书及其任何等 同的内容来解释本发明。
【主权项】
1. 产生基本无偏差的单细胞基因组扩增文库的方法,所述方法包括: 在配置以用于基本无偏差的基因组扩增的纳升级反应环境中扩增单细胞的基因组;和 构建包含基本无偏差的基因组扩增的多个扩增子的文库。2. 如权利要求1所述的方法,其中扩增所述单细胞的基因组包括多链置换扩增(MDA), 所述多链置换扩增包括使所述反应环境与(a)链置换聚合酶和(b)多个随机DNA多聚物相接 触,从而产生基本无偏差的单细胞基因组的扩增。3. 如前述权利要求中任一项所述的方法,其中基因组核酸的量与纳升级反应环境的体 积的比率为至少约0.03百万个碱基对/纳升。4. 如前述权利要求中任一项所述的方法,其中基因组核酸的量与纳升级反应环境的体 积的比率为至少约200百万个碱基对/纳升。5. 如前述权利要求中任一项所述的方法,其中配置所述纳升级反应环境用于以大于1 X的覆盖度扩增至少约90%的基因组。6. 如前述权利要求中任一项所述的方法,其中所述纳升级反应环境包含不大于约20nL 的体积。7. 如前述权利要求中任一项所述的方法,其中所述纳升级反应环境包含不大于约12nL 的体积。8. 如前述权利要求中任一项所述的方法,其还包括在单基板的多个纳升级反应环境中 扩增多个单细胞的基因组,其中至少95%的所述反应环境不包含除单细胞的基因组之外的 任何基因组。9. 如权利要求8所述的方法,其中至少99%的所述反应环境不包含除单细胞的基因组 外的任何基因组。10. 如权利要求8或9所述的方法,其中配置所述基板以用于单次移液操作,从而将所述 单细胞的基因组分配于所述反应环境中。11. 如权利要求8-10中任一项所述的方法,其还包括: 选择期望数量的反应环境;和 仅在所述期望数量的反应环境中扩增多个单细胞的基因组。12. 如权利要求8-11中任一项所述的方法,其还包括鉴定已经实现期望水平的扩增的 反应环境,其中从所述已经实现期望水平的扩增的反应环境构建文库。13. 如权利要求8-12中任一项所述的方法,其还包括从多个反应环境中构建多个文库, 其中所述多个文库的数量与所述多个反应环境的数量相同或不同。14. 如前述权利要求中任一项所述的方法,其中在纳升级反应环境中扩增单细胞的基 因组包括在存在扩增-检测部分的情况下进行扩增。15. 如权利要求14所述的方法,其中所述扩增-检测部分包含花青染料。16. 如权利要求14-15中任一项所述的方法,其中来自所述扩增-检测部分的信号鉴定 已经实现期望水平的扩增的反应环境。17. 如前述上权利要求中任一项所述的方法,其中所述反应环境不包含除所述单细胞 之外的任何细胞。18. 如前述权利要求中任一项所述的方法,其中所述反应环境不包含除单细胞的基因 组之外的任何基因组。19. 如前述权利要求中任一项所述的方法,其中所述随机多聚物选自:五聚物、六聚物、 七聚物、八聚物、九聚物以及十聚物。20. 如权利要求19所述的方法,其中所述随机多聚物为六聚物。21. 如前述权利要求中任一项所述的方法,其中所述多个扩增子基本上全部是无支链 的。22. 如前述权利要求中任一项所述的方法,其还包括在构建所述文库之前,从所述反应 环境中移出多个扩增子中的至少一些。23. 如权利要求22所述的方法,其中移出多个扩增子中的至少一些包括显微操作。24. 如前述权利要求中任一项所述的方法,其中所述多个扩增子包含不多于约100皮 克-约10纳克的DNA。25. 如前述权利要求中任一项所述的方法,其中所述文库包括基于转座酶的文库。26. 如前述权利要求中任一项所述的方法,其中所述文库包括基于Tn5转座酶的文库。27. 如前述权利要求中任一项所述的方法,其中所述文库包括随机断裂和连接文库。28. 如前述权利要求中任一项所述的方法,其中所述单细胞为人细胞或微生物细胞中 的一种。29. 如前述权利要求中任一项所述的方法,其中所述单细胞包括不可培养的或基本不 可培养的细菌细胞。30. 如前述权利要求中任一项所述的方法,其中所述MDA包括实时MDA。31. 如前述权利要求中任一项所述的方法,其中对两个或更多个单细胞的两个或更多 个基因组并行实施所述方法,从而并行产生两个或更多个无偏差的扩增文库。32. 如前述权利要求中任一项所述的方法,其还包括下列中的至少一项:人肠道中不可 培养的细菌的从头组装、异质环境如海水中不可培养的细菌的从头组装、单神经元的拷贝 数变化检出,单个癌细胞或循环肿瘤细胞的拷贝数变化检出,或者人类单体型分析。33. 通过多链置换扩增(MDA)产生基本无偏差的基因组扩增的方法,所述方法包括: 在纳升级反应环境中提供所述基因组;和 使所述纳升级反应环境与(a)链置换聚合酶和(b)多个随机DNA多聚物相接触,从而产 生基本无偏差的基因组扩增。34. 如权利要求33所述的方法,其还包括构建包含所述基本无偏差的基因组扩增的多 个扩增子的文库。35. 如权利要求33-34中任一项所述的方法,其中配置所述纳升级反应环境以以大于1 X的覆盖度扩增至少90%的基因组。36. 如权利要求33-35中任一项所述的方法,其中所述基因组核酸的量与所述纳升级反 应环境的体积的比率为至少约0.3百万个碱基对/纳升。37. 如权利要求33-36中任一项所述的方法,其中所述基因组核酸的量与所述反应环境 的体积的比率为至少约200百万个碱基对/纳升。38. 如权利要求33-37中任一项所述的方法,其中所述随机多聚物选自:五聚物、六聚 物、七聚物、八聚物、九聚物以及十聚物。39. 如权利要求38所述的方法,其中所述随机多聚物为六聚物。40. 如权利要求33-39中任一项所述的方法,其中所述多个扩增子基本上全部是无支链 的。41. 如权利要求33-40中任一项所述的方法,其中所述纳升级反应环境包括促进单细胞 基本无偏差扩增的纳升级反应环境。42. 如权利要求33-41中任一项所述的方法,其中所述纳升级反应环境包含不大于约 20nL的体积。43. 如权利要求33-41中任一项所述的方法,其中所述纳升级反应环境包含不大于约 12nL的体积。44. 如权利要求33-42中任一项所述的方法,其中所述反应环境包含不多于一种基因组 的可能性为至少99%。45. 如权利要求33-44中任一项所述的方法,其还包括下列中的至少一项:人肠道中不 可培养的细菌的基因组的从头组装、异质环境中不可培养的细菌的从头组装、单神经元的 拷贝数变化检出、单个癌细胞或循环肿瘤细胞的拷贝数变化检出,或者人类单体型分析。46. 用于基本无偏差的扩增至少一种单细胞的基因组的基板,所述基板包括: 多个上样区,其中配置每个上样区以接收液体样品,每个上样区包括: 促进单细胞基本无偏差的扩增的多个纳升级反应环境。47. 如权利要求46所述的基板,其中配置所述多个纳升级反应环境以并行实施期望数 量的扩增反应,其中在不同的纳升级反应环境中实施每个扩增反应。48. 如权利要求47所述的基板,其中配置所述多个纳升级反应环境,以在不对所述基板 进行进一步修饰的情况下,并行实施期望数量的扩增反应。49. 如权利要求46-48中任一项所述的基板,其中所述多个纳升级反应环境与任何微流 体通道或纳流体通道不存在流体连通。50. 如权利要求46-49中任一项所述的基板,其中每个纳升级反应环境具有不大于约 12nL的体积。51. 如权利要求46-49中任一项所述的基板,其中每个纳升级反应环境具有不大于约 20nL的体积。52. 如权利要求46-51中任一项所述的基板,其中配置每个上样区,以经由单次移液操 作将包含稀释的细胞的溶液上样至所述多个纳升级反应环境。53. 如权利要求46-52中任一项所述的基板,其中每个反应环境包含多个随机多聚物和 链置换聚合酶。54. 如权利要求53所述的基板,其中所述多个多聚物包含六聚物。55. 如权利要求46-54中任一项所述的基板,其包括至少3个上样区。56. 如权利要求46-55中任一项所述的基板,其中每个上样区包括至少10个纳升级反应 环境。57. 如权利要求46-55中任一项所述的基板,其中每个上样区包括至少100个纳升级反 应环境。58. 如权利要求46-57中任一项所述的基板,其还包括配置以检测每个所述反应环境中 的扩增-检测部分的检测器。59. 如权利要求46-58中任一项所述的基板,其还包括配置以从单个反应环境中回收扩 增的核酸的纳升级移液器。60. 如权利要求46-59中任一项所述的基板,其中配置所述纳升级反应环境,以使将包 含单细胞或其部分的溶液上样至上样区之后,至少99%的反应环境包含不多于一个细胞的 基因组。61. 如权利要求46-60中任一项所述的基板,其中基本上每个反应环境包含不多于一个 细胞的基因组,并且其中基本上每个包含基因组的反应环境还包含所述基因组的多个扩增 子。62. 如权利要求61所述的基板,其中所述多个扩增子包含基本无偏差的基因组覆盖度。63. 如权利要求46-62中任一项所述的基板,其中所述多个扩增子包含不多于约100皮 克-约10纳克的DNA。64. 如权利要求53-63中任一项所述的基板,其中所述链置换聚合酶包括phi29聚合酶。65. 如权利要求1-45中任一项所述的方法,其中所述链置换聚合酶包括phi29聚合酶。
【专利摘要】本文提供用于基本无偏差的基因组扩增的方法和制成品。一些实施方案包括产生单细胞基因组的基本无偏差的扩增文库的方法。一些实施方案包括通过多链置换扩增(MDA)产生基本无偏差的基因组扩增的方法。一些实施方案包括用于基本无偏差的扩增多个单细胞中每个细胞的基因组的基板。
【IPC分类】C40B40/06
【公开号】CN105492668
【申请号】CN201480030827
【发明人】杰夫·戈莱, 张鹍
【申请人】加利福尼亚大学董事会
【公开日】2016年4月13日
【申请日】2014年5月28日
【公告号】EP3004433A1, US20160138013, WO2014193980A1