背景技术:
1、整合到细胞基因组中的多核苷酸上编码的基因的表达水平取决于多核苷酸内序列元件的构型。整合的效率及从而整合到每个基因组中的多核苷酸的拷贝数,以及发生整合的基因组基因座也影响在多核苷酸上编码的基因的表达水平。通常可以通过将多核苷酸置于转座子中来提高多核苷酸整合到靶细胞基因组中的效率。
2、转座子包含被转座酶识别的两个末端。转座酶作用于转座子,以将其从一个dna分子中去除,然后整合到另一个dna分子中。两个转座子末端之间的dna与转座子末端一起通过转座酶转座。本文的“合成转座子”指的是异源dna,该异源dna侧接一对转座子末端,以使其被转座酶识别并转座。将合成转座子和相应的转座酶引入真核细胞的细胞核中可能导致转座子转座到细胞的基因组中。这些结果是有用的,因为它们提高了转化效率,并且因为它们可以提高整合的异源dna的表达水平。因此,本领域需要高活性转座酶和转座子。
3、通过piggybac类转座酶的转座是完全可逆的。转座子最初整合在受体dna分子中的整合靶序列上,在此过程中,靶序列在转座子反向末端重复序列(itr)的每个末端处复制。随后的转座去除了转座子并使受体dna恢复其先前的序列,即同时去除靶序列复本和转座子。但是,这不足以从已经整合了转座子的基因组中除去转座子,因为转座子很有可能从第一整合靶序列中切除而转座到基因组中的第二整合靶序列中。另一方面,缺乏整合(或转座)功能的转座酶可以从第一靶序列中切除转座子,但不能整合到第二靶序列中。因此,整合缺陷转座酶可用于逆转转座子的基因组整合。
4、转座酶的一种应用是用于工程真核基因组。这种工程可能需要将一个以上的不同多核苷酸整合到基因组中。这些整合可以是同时的或顺序的。当通过第一转座酶将包含第一异源多核苷酸的第一转座子转座入基因组之后是通过第二转座酶将包含第二异源多核苷酸的第二转座子转座入同一基因组时,有利的是第二转座酶不能识别并转座第一转座子。这是因为多核苷酸序列在基因组内的位置影响了在所述多核苷酸上编码的基因的可表达性,因此,第二转座酶将第一转座子转座到不同的染色体位置可以改变在第一异源多核苷酸上编码的任何基因的表达特性。因此,需要一组转座子及其相应的转座酶,其中该组中的转座酶仅识别和转座其相应的转座子,而不识别和转座该组中的任何其他转座子。
5、自1983年发现以来,来自尺蛾(looper moth)trichoplusiani的piggybac转座子和转座酶已被广泛用于将异源dna插入来自许多不同生物的靶细胞的基因组中。piggybac系统是一种特别有价值的转座酶系统,因为:“其在广泛的生物体中具有活性,其能够高效整合多个大型转基因,其能够在不损失活性的情况下向转座酶中添加结构域,且从基因组中切除而不会留下足迹突变”(doherty et al.,hum.gene ther.23,311-320(2012),于p.312,lhc,)。
6、piggybac系统的价值和多功能性已经激发了巨大的、识别其它类似于piggybac的活性转座子(通常称为piggybac类元件,或ple)的努力,但是这些努力在很大程度上没有成功。“由于piggybac是用于转基因的最受欢迎的转座子之一,因此寻找新的活性ple引起了很多关注。然而,迄今为止,仅报道了一些具有活性的ple。”(luo et al.,bmc molecularbiology15,28(2014)http://www.biomedcentral.com/1471-2199/15/28.12页中的第4页,rhc,“discussion”)。
7、尽管序列数据库中存在大量的piggybac转座子和转座酶的同源物,但由于其大多数均被其宿主灭活以避免对宿主有害的活动,因此很少识别出具有活性的同源物;如以下摘录所述:“相关的piggybac转座元件已在植物、真菌和动物(包括人类)中发现[125],尽管它们可能由于突变而失活。”(munoz-lopez和garcia-perez,current genomics 11,115-128(2010),于p.120,rhc,)。“据信转座子会侵入基因组,然后在进化过程中遍及整个基因组。转座子的‘自私’的移动性对宿主有害;因此,它们通过自然选择被宿主消除或灭活。由于缺乏保守选择,甚至无害的转座子最终也会失去活性。因此,一般而言,转座子在宿主中的寿命很短,它们随后成为基因组中的化石。”(hikosaka et al.,mol.biol.evol.24,2648-3656(2007)于p.2648,lhc,“introduction”)。“基因组中转座元件的频繁移动是有害的”(belancio et al.,2008;deininger&batzer,1999;le rouzic&capy,2006;oliver&greene,2009)。结果,大多数转座元件在入侵新宿主后不久便被灭活。”(luo etal.,insect science 18,652-662(2011)于p.660,lhc,1)。
8、已经发现三类piggybac类元件:(1)与来自尺蛾的原始piggybac非常相似的那些(在核苷酸水平上通常>95%相同)、(2)中等相关的那些(通常在氨基酸水平上30%-50%相同),和(3)非常远地相关的那些(wu et al.,insect science 15,521-528(2008)于p.521,rhc.2)。
9、与尺蛾转座酶高度相关的piggybac类转座酶已经被几个研究小组描述。它们非常保守。在果蝇桔小实蝇(bactrocera dorsalis)的三个不同品系中已报道了与原始的piggybac非常相似的转座酶序列(95-98%核苷酸同一性)(handler&mccombs,insectmolecular biology 9,605-612,(2000))。在其它桔小实蝇(bactrocera)属中也发现了相对保守的piggybac序列(bonizzoni et al.,insect molecular biology 16,645-650(2007))。两种夜蛾(谷实夜蛾(helicoverpazea)和棉铃虫(helicoverpaarmigera))以及其它品系的尺蛾trichoplusiani拥有piggybac转座酶的基因组拷贝,该拷贝与原始piggybac序列具有93-100%的核苷酸同一性(zimowska&handler,insect biochemistry andmolecular biology,36,421-428(2006))。zimowska&handler还在两个棉铃虫(helicoverpa)属中同时发现piggybac转座酶的更显著的突变(和截短)的版本的多个副本以及在黏虫spodpterafrugiperda中发现一个同系物。这些小组均未尝试测量这些转座酶的任何活性。wu等(2008),同上,报道了从银锭夜蛾(macdunnoughiacrassisigna)中分离出与尺蛾piggybac具有99.5%序列同一性的转座酶。他们还证明了该转座子和转座酶可以测量切除和转座,因此具有活性。他们的讨论总结了以前的结果,如下所示:“据报道的其它密切相关的ifp2类序列存在于各种桔小实蝇(bactrocera)属、尺蛾(t.ni)基因组、棉铃虫(heliocoverpaarmigera)和h.zea中(handler&mccombs,2000;zimowska&handler,2006;bonizzoni等,2007)。这些序列是piggybac类元件的部分片段,其中的大多数通过积累随机突变而被截断或灭活。”(wu et.al.,insect science 15,521-528(2008)于p.526,lhc,)。
10、已证明,仅通过观察序列,难以识别出与尺蛾酶中等相关的活性piggybac类转座酶。尚未证明已知的必需特征(全长开放阅读框、催化性天冬氨酸残基和完整的itr)的存在可预测活性。“在基因组序列数据的计算分析中已记录了真核生物中多种多样的ple[引文省略]。但是,几乎没有分离出具有与功能一致的、具有完整结构的元件,只有原始的ifp2piggybac被开发为用于常规转基因的载体。”(wu et al.,genetica 139,149-154(2011),at p.152,rhc,)。南京大学的wu等人的小组(“南京小组”)在6年的时间内发表了多篇论文,每篇论文都识别了中等相关的piggybac同源物。尽管南京小组在2008年表明他们可以通过银锭夜蛾(macdunnoughiacrassisigna)的相应的转座酶来测量银锭夜蛾转座子的切除和转座,并且在随后的每篇论文中,他们都表示希望识别出新型的活性piggybac类转座酶,但他们仅示出了切除活性,并且仅为来自棉蚜(aphis gossypii)的一种转座酶。他们得出结论,这种转座酶的有用性“仍有待进一步实验探索”(luoet.al.2011,p.660,lhc“discussion”)。但是,在南京小组发表的其它从一系列其它昆虫中识别出piggybac类序列的论文中没有显示发现任何活性。堪萨斯州立大学的一个小组发表了三篇识别其他推定的活性piggybac类转座酶的论文。这些论文均未报告任何活性数据。wang et al.,insect molecular biology 15,435-443(2006)在烟青虫heliothisvirescens的基因组中发现了piggybac类序列的多个拷贝。其中许多具有明显的突变或缺失,导致作者不认为它们是候选的活性转座酶。wang et.al.,insectbiochemistry and molecular biology 38,490-498(2008)报道了红色面粉甲虫triboliumcastaneum的基因组中的30多个piggybac类序列。他们得出结论:“由于推定的转座酶编码区中存在多个终止密码子和/或得失位,因此此处识别的所有tcple(tcple1除外)显然都是有缺陷的。”即使对于tcple1,“也没有证据支持最近或当前的迁移(mobilization)事件”(第492页,第3.1节,)。wang et al.(2010)使用pcr从棉红铃虫pectinophoragossypiella中识别piggybac类序列。他们再次发现了许多明显有缺陷的拷贝,以及具有作者认为与活性一致的特征的一种转座酶(第179页,rhc,)。但是没有找到表明转座酶活性的跟进报告。其他小组也试图识别具活性的piggybac类转座酶。这些报告的结论是:已识别出的piggybac类元件正在接受活性测试,但随后没有成功的报告。例如,sarkar et.al.(2003)通过重新陈述新型的具活性的piggybac类的转座子的价值,并描述了他们为识别新型的具活性的piggybac类的转座子而持续作出的努力而结束了他们的讨论:原始的t.ni piggybac元件在各种昆虫中的迁移性表明,piggybac家族转座子可能在除昆虫以外的生物体中被证明是有用的遗传工具。我们目前正在从an.gambiae(agapb1)分离完整的piggybac元件,以测试其在各种生物中的迁移性。”((mol.gen.genomics 270,173-180于p.179,lhc,1)。该推定的活性转座酶似乎没有进一步的公开报道。xu et al.分析家蚕基因组以寻找piggybac类序列(xu et al.,mol gen genomics276,31-40(2006))。他们发现了98个piggybac类序列,并对推定的转座酶序列和itr序列进行了各种计算分析。他们得出结论:“我们已经从家蚕(b.mori)中分离出几个完整的piggybac类元件,目前正在测试其活性以及将其用作转化载体的可行性。”(p 38,rhc,)。这些推定的活性转座酶似乎没有进一步的公开报道。
11、四篇发表的论文讨论了第三类远相关的piggybac类转座酶。其中的前三个仅展示了切除部分的反应,并承认这与完全转座不同。hikosaka et.al.,mol biol evol 24,2648-2656(2007):“在本研究中,我们证明xtr-uribo2tpase对靶标转座子具有切除活性,尽管目前没有证据表明切除的靶标整合入基因组。”(第2654页,rhc,)。luo et.al.,insect science 18,652-662(2011)报告:“这些结果证明ago-ple1.1转座酶在介导元件的剪切和粘贴动作的第一步中的活性”(第658页,lhc,)。daimon et.al.,genome 53,585-593(2010)讨论了转座酶系统yabusabe-1和yabusabe-w。虽然daimon等报道了通过pcr检测切除事件,他们还报告了筛选大约100,000个回收的质粒以用于yabusame-1和yabusame-w的切除,而未从元件已切除的之中识别出一个回收的质粒。与此相对,daimon报告了野生型piggybac酶的转座频率约为0.3-1.4。因此,从daimon等的报道看来,yabusabe-1或yabusabe-w的切除频率小于0.001%(1:100,000)。这比野生型piggybac酶所能达到的水平至少低2-3个数量级,与piggybac转座酶的基因工程变体(其转座量比野生型高十倍)相比更低。来自daimon等的yabasume-1的隐含转座频率(implied transposition frequency)也比哺乳动物细胞中的随机整合频率(约为0.1%的量级)低两个数量级。因此,daimon等表明yabusame-1本质上是不活跃的,不能用作基因工程工具。这样的观点可能潜在于daimon等自己的结论中:“尽管我们可以在基于pcr的高度灵敏的测定中检测出切除事件,但我们的数据表明这两种元件几乎都失去了切除活性。”这也表明,用于显示uribo2和ago-ple1.1活性的基于pcr的切除测定不能预测有助于将异源dna插入靶细胞的基因组的转座活性。与来自尺蛾(trichoplusia ni)的原始piggybac转座酶远相关的第三类转座酶中唯一报道的具有完全活性(既能切除又能整合)的piggybac类转座酶来自蝙蝠myotis lucifugus(mitra et.al.,proc.natl.acad.sci.110,234-239(2013))。这些作者使用酵母系统来证明蝙蝠转座酶的切除和转座活性。这里描述的所有工作表明:即使存在大量的候选序列,也很难识别出具完全活性的piggybac类转座酶。因此,需要新的piggybac类转座子及其相应的转座酶。
技术实现思路
1、可通过将表达多核苷酸置于一对转座子末端(由转座酶识别和转座的序列元件)之间,以改善稳定整合到靶细胞基因组中的多核苷酸构建体的异源基因表达。可以通过转座酶从一个dna分子中切除插入在一对转座子末端之间的dna序列,并将其插入第二个dna分子中。公开了一种新颖的piggybac类转座子-转座酶系统,该系统不衍生自尺蛾trichoplusiani。它源自青鳉oryziaslatipes(oryzias转座酶和oryzias转座子)。oryzias转座子包含作用为转座子末端的序列,且该序列可与识别并作用于这些转座子末端的相应oryzias转座酶一起使用,作为稳定地将核酸引入细胞dna的基因转移系统。本发明的基因转移系统可以用于包括但不限于以下方法:真核细胞的基因组工程、异源基因表达、基因治疗、细胞治疗、插入诱变,或基因发现。
2、可以使用包含编码oryzias转座酶的开放阅读框的多核苷酸来进行转座,所述oyzias转座酶的氨基酸序列与seq id no:782至少90%相同,可操作地连接至异源启动子。异源启动子可以在真核细胞中有活性。异源启动子可以在哺乳动物细胞中具有活性。可以使用包含编码oryzias转座酶的开放阅读框的多核苷酸制备mrna,所述oyzias转座酶的氨基酸序列与seq id no:782至少90%相同,可操作地连接至在体外转录反应中有活性的异源启动子。相对于seq id no:782的序列,转座酶可包含如表1的c列和d列中所示的突变。相对于seq id no:782的序列,转座酶可在选自22、124、131、138、149、156、160、164、167、171、175、177、202、206、210、214、253、258、281、284、361、386、400、408、409、455、458、467、468、514、515、524、548、549、550和551的氨基酸位置处包含突变。相对于seq id no:782的序列,转座酶可包含选自e22d、a124c、q131d、l138v、f149r、l156t、d160e、y164f、i167l、a171t、r175k、k177n、t202r、i206l、i210l、n214d、v253i、v258l、i281f、a284l、l361i、v386i、m400l、s408e、l409i、f455y、v458l、v467i、l468i、a514r、v515i、s524p、r548k、d549k、d550r和s551r的突变,该转座酶可选地包含选自该组的至少2、3、4或5个。转座酶的氨基酸序列可以选自seq id no:782或805-908。转座酶可切除或转座来自seq id no:41的转座子。转座酶的切除活性或转座活性是seq id no:782的活性的至少5%或10%。可以选择转座酶开放阅读框的密码子用于哺乳动物细胞表达。分离的mrna可以编码多肽,其氨基酸序列与seqid no:782至少90%相同,并且其中所述mrna序列在该mrna和seq id no:781之间的相应位置处相对于seq id no:781具有至少10个同义密码子差异,可选地,其中mrna中相应位置的密码子被选择用于哺乳动物细胞表达。编码转座酶的开放阅读框可进一步编码与转座酶融合的异源核定位序列。编码转座酶的开放阅读框可以进一步编码与转座酶融合的异源dna结合域(例如衍生自crispr cas系统、锌指蛋白,或tale蛋白)。非天然存在的多核苷酸可以编码多肽,该多肽的序列与seq id no:782至少90%相同。
3、oryzias转座子包含侧接异源多核苷酸的seq id no:7和seq id no:8。转座子可进一步在异源多核苷酸的一侧上包含与seq id no:12至少90%相同的序列,在另一侧上包含与seq id no:15至少90%相同的序列。异源多核苷酸可包含在真核细胞中有活性的异源启动子。所述启动子可以可操作地连接至以下至少一个或多个:i)开放阅读框;ii)编码选择性标记的核酸;iii)编码反向选择性标记的核酸;iii)编码调节蛋白的核酸;iv)编码抑制性rna的核酸。异源启动子可以包含选自seq id no:325-409的序列。异源多核苷酸可包含在真核细胞中有活性的异源增强子。异源增强子可以选自seq id no:304-324。异源多核苷酸可包含在真核细胞中可剪接(spliceable)的异源内含子。异源内含子的核苷酸序列可以选自seq id no:412-472。异源多核苷酸可包含绝缘子序列(insulator sequence)。绝缘子的核酸序列可以选自seq id no:286-292。异源多核苷酸可包含两个开放阅读框,每个阅读框可操作地连接至单独的启动子。异源多核苷酸可包含选自seq id no:596-779的序列。异源多核苷酸可包含或编码选择性标记。该选择性标记可以选自谷氨酰胺合成酶、二氢叶酸还原酶、嘌呤霉素乙酰转移酶、杀稻瘟素乙酰转移酶、潮霉素b磷酸转移酶、氨基糖苷3'-磷酸转移酶,和荧光蛋白。本发明的一个实施方案是一种真核细胞,其基因组包含侧接异源多核苷酸的seq id no:7和seq id no:8。该细胞可以是动物细胞、哺乳动物细胞、啮齿动物细胞,或人细胞。
4、可通过以下方式将转座子整合到真核细胞的基因组中:(a)将包含侧接异源多核苷酸的seq id no:7和seq id no:8的转座子引入细胞中,(b)将转座酶引入细胞中,该转座酶的序列与seq id no:782至少90%相同,其中转座酶将转座子转座以产生包含侧接异源多核苷酸的seq id no:7和seq id no:8的基因组。可以将转座酶作为编码转座酶的多核苷酸引入,该多核苷酸可以是mrna分子或dna分子。转座酶可以作为蛋白质引入。异源多核苷酸也可以编码选择性标记,并且该方法可以进一步包括选择包含选择性标记的细胞。细胞可以是动物细胞、哺乳动物细胞、啮齿动物细胞,或人细胞。人细胞可以是人免疫细胞,例如b细胞或t细胞。异源多核苷酸可以编码嵌合抗原受体。可以从整合到真核细胞基因组中的转座子表达多肽。多肽可以被纯化。可以将纯化的多肽掺入药物组合物中。
1.一种多核苷酸,其包含编码转座酶的开放阅读框,所述转座酶的氨基酸序列与seqid no:782至少90%相同,可操作地连接至异源启动子。
2.根据权利要求1所述的多核苷酸,其中所述转座酶相对于seq id no:782的序列包含表1的c列和d列中所示的突变。
3.根据权利要求2所述的多核苷酸,其中所述转座酶相对于seq id no:782的序列在选自22、124、131、138、149、156、160、164、167、171、175、177、202、206、210、214、253、258、281、284、361、386、400、408、409、455、458、467、468、514、515、524、548、549、550和551的氨基酸位置处包含突变。
4.根据权利要求3所述的多核苷酸,其中所述转座酶相对于seq id no:782包含选自以下的突变:e22d、a124c、q131d、l138v、f149r、l156t、d160e、y164f、i167l、a171t、r175k、k177n、t202r、i206l、i210l、n214d、v253i、v258l、i281f、a284l、l361i、v386i、m400l、s408e、l409i、f455y、v458l、v467i、l468i、a514r、v515i、s524p、r548k、d549k、d550r和s551r,所述转座酶可选地包括选自选自所述组的至少2个、3个、4个,或5个。
5.根据权利要求2所述的多核苷酸,其中所述转座酶的所述氨基酸序列选自seq idno:782或805-908。
6.根据前述权利要求中任意一项所述的多核苷酸,其中所述转座酶可以从seq id no:41切除或转座转座子。
7.根据权利要求6所述的多核苷酸,其中所述转座酶的切除活性或转座活性为seq idno:782的活性的至少10%。
8.根据前述权利要求中任意一项所述的多核苷酸,其中所述启动子在体外转录反应中具有活性。
9.根据权利要求1-7中任意一项所述的多核苷酸,其中所述启动子在真核细胞中具有活性。
10.根据权利要求9所述的多核苷酸,其中所述真核细胞是哺乳动物细胞,可选地,选择所述开放阅读框的密码子用于哺乳动物细胞表达。
11.一种编码多肽的分离的mrna,所述多肽的氨基酸序列与seq id no:782至少90%相同,并且其中所述mrna序列在所述mrna和seq id no:781之间的相应位置处相对于seq idno:781包含至少10个同义密码子差异,可选地,其中选择所述mrna中在所述相应位置处的密码子用于哺乳动物细胞表达。
12.根据权利要求1-10中任意一项所述的多核苷酸,其中所述开放阅读框进一步编码与所述转座酶融合的核定位序列。
13.根据权利要求1-10中任意一项所述的多核苷酸,其中所述开放阅读框进一步编码与所述转座酶融合的异源dna结合域。
14.根据权利要求13所述的多核苷酸,其中所述dna结合结构域衍生自crispr cas系统,或锌指蛋白,或tale蛋白。
15.一种编码多肽的非天然存在的多核苷酸,所述多肽的序列与seq id no:782至少90%相同,其中所述多核苷酸序列在所述多核苷酸和seq id no:781之间的相应位置处相对于seq id no:781具有至少10个同义密码子差异,可选地,其中选择所述多核苷酸中在所述相应位置处的密码子用于哺乳动物细胞表达。
16.由前述权利要求中的任意一项所述的多核苷酸编码的非天然存在的多肽。
