基于隐马尔可夫模型预测N-端编码序列调控基因表达水平的方法

xiaoxiao9月前  62


本发明涉及生物信息,尤其是指基于隐马尔可夫模型预测n-端编码序列调控基因表达水平的方法。


背景技术:

1、n-端编码序列(n-terminal coding sequence,ncs)是一种特殊的基因序列,存在于蛋白质n端,在翻译水平对基因的表达进行精细调控。ncs编码序列中氨基酸残基的丰度与基因表达水平密切相关,例如天冬酰胺、赖氨酸、谷氨酸和甲硫氨酸的丰度与基因表达水平呈正相关,而丝氨酸、色氨酸、甘氨酸、天冬氨酸和半胱氨酸的丰度则与基因表达水平呈负相关。但其相关研究仍不成熟,难以基于机制进行理性设计,缺乏实验表征的ncs文库和合理的设计方法,这限制了ncs在精细调控代谢途径上的应用,因此统计模型仍具有巨大的潜力。

2、隐马尔可夫模型(hidden markov model,hmm)作为一种统计工具,适用于描述和预测具有隐藏状态(或称为不可观察状态)的随机过程。在生物学领域,hmm被广泛应用于各种序列分析任务,如dna序列分析、蛋白质序列分析、基因调控网络建模等,够描述生物偏好性,尤其在处理随机性较强的序列时具有较大的优势,辅之以生物学参数的约束,可以对大数据进行统计学分析,从而挖掘数据中隐藏的一般规律。在hmm中,系统被假设为在一个马尔可夫过程中,但观察者不能直接看到这个过程,只能通过观察另一个与隐藏状态相关的过程来推测隐藏状态。通过引入生物学参数的约束,hmm可以更加精确地描述和预测生物数据中的模式。这些参数可以基于实验数据或生物学知识来设定,以反映生物过程的特定属性。hmm在生物大数据分析中的优势在于其能够处理随机性较强的序列数据,并通过统计方法揭示其中的隐藏规律和模式。

3、无义调节的mrna降解(nmd)是一种重要的rna质量控制机制,广泛存在于真核生物中。nmd效应的主要功能是识别并降解含有提前终止密码子(premature terminationcodon,ptc)的mrna,从而避免由于翻译产生截断或无功能蛋白而对细胞造成潜在损害。提前终止密码子通常是由于基因突变、基因重排或转录错误等原因在mrna的开放阅读框内意外引入的终止密码子。这些ptc通常出现在正常终止密码子之前,导致mrna的翻译提前结束,产生不完整或没有功能的蛋白质。然而,nmd效应会降低mrna的半衰期,从而减少基因的表达量,因此深入研究nmd效应有利于提高真核生物中目标基因的表达。


技术实现思路

1、为解决上述技术问题,本发明提供了一种基于隐马尔可夫模型预测n-端编码序列调控基因表达水平的方法,统计提高基因表达水平高的天然n-端编码序列,建立相应的文库,通过隐马尔可夫模型建立文库中氨基酸转移概率矩阵用于n-端编码序列的评估,并应用该方法成功设计得到了能够应用于降低酿酒酵母无义调节的mrna降解效应的n-端编码序列。

2、本发明的第一个目的是提供基于隐马尔可夫模型预测n-端编码序列调控基因表达水平的方法,包括以下步骤:统计提高基因表达水平高的天然n-端编码序列,建立相应的文库,通过建立隐马尔可夫模型建立文库中氨基酸转移概率矩阵,将所述氨基酸转移概率矩阵用于n-端编码序列的评估,当氨基酸转移概率高于预设阈值时,所述n-端编码序列可应用于提高基因表达水平。

3、进一步地,将隐马尔可夫模型中的相关元素进行定义,氨基酸序列为隐状态,dna序列为显状态,密码子偏好性为隐层和显层之间的输出概率,氨基酸转移概率为隐层之间的转移概率。

4、进一步地,氨基酸转移矩阵包括一阶氨基酸转移矩阵和/或二阶氨基酸转移矩阵。

5、进一步地,一阶氨基酸转移定义为下一相邻位置的氨基酸种类仅与当前位置的氨基酸种类有关。

6、进一步地,一阶氨基酸转移概率计算式为其中pi→j表示当前位置氨基酸类型为i,下一相邻位置氨基酸类型为j的概率;si→j表示对文库中所有的序列进行统计后,氨基酸j紧跟氨基酸i出现的次数;表示文库中任意氨基酸紧跟氨基酸i出现的次数之和。

7、进一步地,所述二阶氨基酸转移定义为将两个氨基酸作为一个氨基酸组,该氨基酸组决定下一相邻位置的氨基酸类型

8、进一步地,二阶氨基酸转移概率计算式为其中pir→j表示当前位置氨基酸组为i和r,下一相邻位置氨基酸类型为j的概率;sir→j表示对文库进行统计后,氨基酸j紧跟氨基酸ir出现的次数;表示文库中任意氨基酸紧跟氨基酸组ir出现的次数之和。

9、

10、本发明的第二个目的是提供上述方法在降低酿酒酵母无义调节mrna降解效应中的应用。

11、进一步地,包括以下步骤:

12、步骤s1、基于高通量测序数据,得到对酿酒酵母基因表达贡献较高的天然n-端编码序列,建立天然n-端编码序列文库;

13、步骤s2、设计n-端编码序列,使用构建好的隐马尔可夫模型计算一阶氨基酸和/或二阶氨基酸的转移概率,对n-端编码序列进行打分;

14、步骤s3、将打分结果与预设阈值进行比较,选取氨基酸转移概率大于预设阈值的可编程n-端编码序列。

15、本发明的第三个目的是提供一条可用于降低酿酒酵母无义调节mrna降解效应的n-端编码序列,其特征在于:所述n-端编码序列如seq id no.2所示。

16、本发明的上述技术方案相比现有技术具有以下优点:

17、本发明所述的基于隐马尔可夫模型预测n-端编码序列调控基因表达水平的方法,通过隐马尔可夫模型建立文库中氨基酸转移概率矩阵,将氨基酸转移概率矩阵用于n-端编码序列的评估,筛选出能够提高基因表达水平的n-端编码序列。应用该方法成功设计得到了能够应用于降低酿酒酵母无义调节的mrna降解效应的n-端编码序列,在该效应存在的情况下提高了基因表达的水平。该方法建立于统计学模型,利用隐马尔可夫模型处理n-端编码序列,发掘其潜在的规律,能够高效率评估设计得到的n-端编码序列对基因表达的调控水平,以此满足不同应用的需求。



技术特征:

1.基于隐马尔可夫模型预测n-端编码序列调控基因表达水平的方法,其特征在于,包括以下步骤:统计提高基因表达水平高的天然n-端编码序列,建立相应的文库,通过隐马尔可夫模型建立文库中氨基酸转移概率矩阵,将所述氨基酸转移概率矩阵用于n-端编码序列的评估,当氨基酸转移概率高于预设阈值时,所述n-端编码序列可应用于提高基因表达水平。

2.根据权利要求1所述的方法,其特征在于:将隐马尔可夫模型中的相关元素进行定义,氨基酸序列为隐状态,dna序列为显状态,密码子偏好性为隐层和显层之间的输出概率,氨基酸转移概率为隐层之间的转移概率。

3.根据权利要求1所述的方法,其特征在于:氨基酸转移矩阵包括一阶氨基酸转移矩阵和/或二阶氨基酸转移矩阵。

4.根据权利要求3所述的方法,其特征在于:一阶氨基酸转移定义为下一相邻位置的氨基酸种类仅与当前位置的氨基酸种类有关。

5.根据权利要求4所述的方法,其特征在于:一阶氨基酸转移概率计算式为其中pi→j表示当前位置氨基酸类型为i,下一相邻位置氨基酸类型为j的概率;si→j表示对文库中所有的序列进行统计后,氨基酸j紧跟氨基酸i出现的次数;表示文库中任意氨基酸紧跟氨基酸i出现的次数之和。

6.根据权利要求3所述的方法,其特征在于:所述二阶氨基酸转移定义为将两个氨基酸作为一个氨基酸组,该氨基酸组决定下一相邻位置的氨基酸类型。

7.根据权利要求6所述的方法,其特征在于:二阶氨基酸转移概率计算式为其中pir→j表示当前位置氨基酸组为i和r,下一相邻位置氨基酸类型为j的概率;sir→j表示对文库进行统计后,氨基酸j紧跟氨基酸ir出现的次数;表示文库中任意氨基酸紧跟氨基酸组ir出现的次数之和。

8.权利要求1-7任一项所述的方法在降低酿酒酵母无义调节mrna降解效应中的应用。

9.根据权利要求8所述的应用,其特征在于,包括以下步骤:

10.一条可用于降低酿酒酵母无义调节mrna降解效应的n-端编码序列,其特征在于:所述n-端编码序列如seq id no.2所示。


技术总结
本发明涉及基于隐马尔可夫模型预测N‑端编码序列调控基因表达水平的方法,属于生物信息技术领域。本发明统计提高基因表达水平高的天然N‑端编码序列,建立相应的文库,通过隐马尔可夫模型建立文库中氨基酸转移概率矩阵,通过计算一阶或二阶氨基酸转移概率,将所述氨基酸转移概率矩阵用于N‑端编码序列的评估,并应用该方法成功设计得到了能够应用于降低酿酒酵母无义调节的mRNA降解效应的N‑端编码序列,在该效应存在的情况下提高了基因表达的水平。

技术研发人员:刘延峰,陈坚,堵国成,刘龙,吕雪芹,张佳宁
受保护的技术使用者:江南大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)