一种新的融合遗传信息的蛋白质训练集非平衡问题的解决方法

xiaoxiao2020-10-23  16

一种新的融合遗传信息的蛋白质训练集非平衡问题的解决方法
【技术领域】
[0001] 本发明涉及生物信息学、蛋白质伪氨基酸成分和传统的蛋白质序列分析技术领 域,尤其涉及一种新的融合遗传信息的蛋白质训练集非平衡问题的解决方法。
【背景技术】
[0002] 随着人类基因组的测序完成,生物信息学进入了一个新的发展阶段一一后基因组 时代。基因组计划已产生数以亿计的基因组序列,如何从这些序列中找寻生命是如何起源 的、又是如何进化、这些基因又是如何使生命体具有活性等一系列的问题的答案,是当前研 宄的热点。分析这些基因序列可以从多个层次,如碱基序列、蛋白质、基因组等,由于许多生 物表型性质以及基因调控都是由蛋白质的氨基酸序列所决定,分析氨基酸序列有一定的优 势。
[0003] 蛋白质序列是由20种氨基酸组成的一维字符序列,要得出更多的隐含在其中的 生物特性非常困难,为此人们设计了许多种伪氨基酸成分采用向量方式来描述蛋白质序 列,这些伪氨基酸成分如:二联体成分、三联体成分、灰色理论因子、复杂度因子等有的能很 好的描述蛋白质序列局部氨基酸顺序信息,有的能很好的描述蛋白质序列的全局氨基酸顺 序信息,对基于序列的蛋白质结构和功能分类预测都起到了积极作用。
[0004] 在基于蛋白质序列信息研宄蛋白质功能和结构类型预测中,第一步要做的就是建 立可靠的训练集,由于相关生物实验所得到的训练集大多都是非平衡的,某些类的样本数 目远远少于其他类的样本数目。现有解决非平衡问题方法主要包括数据层方法和算法层方 法:数据层方法是指直接对训练集进行操作,将处理后的训练样本用来训练分类器;算法 层方法是对分类算法进行操作,也就是修改已有的分类算法或提出新算法。
[0005] 对数据层进行处理主要采用数据抽取方法,比如随机欠抽样、随机过抽样、压 缩最近邻(CondensedNearestNeighbor,CNN)、托梅克联系对(TomekLinks)、单边选 择(One-SidedSelection,OSS)、可选择最近邻法(EditedNearestNeighbor,ENN)、邻 域清理规则(NeighborhoodCleaningRule,NCR)、基于聚类的过抽样(Cluster-Based Oversampling,CB0S)、基于错分样本的过抽样(OversamplingBasedonMisclassified Samples, 0BMS)、合成少数类过抽样方法(SyntheticMinorityOversampling Technology,SMOTE)、边缘SMOTE法(Borderline_SM0TE,BSM)等等。随机过抽样是通过随机 复制少样本类别的样本来增加少样本类别样本的规模,而随机欠抽样是随机地删除某些多 样本类别来减少多样本类别样本的数目。一般对多数样本集采用随机欠抽样,或对少数样 本集采用随机过抽样技术来达到非平衡数据集中各个子类集的样本数量平衡是比较常见 的抽样方法。然而,进行单纯的随机过抽样和欠抽样也会带来不利的影响:随机过抽样保留 甚至增加了少样本类别中样本的分布信息,会使样本数极少的类别中部分小类过度拟合, 而随机欠抽样会使得原始样本数本来就比较少的情况下,却丢失一些重要的样本,总之,影 响模型分类效果。此外,随机欠抽样方法可能会丢失训练样本中多样本类别某些样本的一 些隐含信息,所以随机过抽样方法相对而言应用的比较广泛。
[0006]Chawla等提出SMOTE方法是通过在一些距离相近的少数类样本中插入新的样本 产生人工样本来达到数据集的平衡。其主要方法是:依次遍历训练集中少数类的每个样本 S,在少数类样本中找到其K个最近邻样本,然后根据过抽样的倍率N,从K个最近邻样本中 随机选择N个样本,逐次将N个样本中的每一条样本与样本S之间进行随机性插值生成人 工样本。SMOTE方法的特点是与过抽样方法不同,它不是简单随机的复制少样本类别的样 本,而是增加新的并不存在的样本,因此可以在一定程度上避免分类器过度拟合。
[0007] 上述这些方法都可以用于蛋白质序列结构和功能预测解决训练集非平衡问题,但 这些方法都是基于蛋白质序列离散模型,也就是先将蛋白质序列通过伪氨基酸成分,用离 散向量描述蛋白质后,对这些离散向量集来进行非平衡处理,虽然伪氨基酸成分能很好的 描述蛋白质序列信息,但通过伪氨基酸成分还是有许多序列信息被丢失,而且上述操作没 有对应的生物学意义。现有物种都是从有限的远古物种进化而来,同样现有蛋白质也是从 一些简单的蛋白质进化而来。进化过程中包含了碱基插入或删除、突变、复制或与其它基因 融合等,随着进化过程的深入,序列间的相似度越来越少,但所对应的蛋白质大多还保留同 样的特性,如相同的生物功能、三维结构和亚细胞定位等。为此抽取这些序列进化信息来构 成虚拟蛋白质扩充训练集中样本少的子集是本发明的创新点。

【发明内容】

[0008] 本发明要解决的技术问题是提供一种新的融合遗传信息的蛋白质训练集非平衡 问题的解决方法,旨在通过融合蛋白质进化信息,直接从序列上进行扩展,解决蛋白质训练 集非平衡的问题。
[0009] 为解决以上技术问题,本发明的技术方案是:一种新的融合遗传信息的蛋白质训 练集非平衡问题的解决方法,其特征在于包括以下步骤: (1) 使用PSI-BLAST程序搜索Swiss-Prot数据库生成蛋白质序列P的位置特异打分矩 阵PSSM; (2) 将P蛋白基因与NCBI数据库中蛋白质序列进行比对,找到蛋白基因P的保守序列; (3) 根据PSSM矩阵可以知道蛋白质序列P中某个位置上的氨基酸突变为其它氨基酸的 概率,将此蛋白保守序列位置上的氨基酸不变,非保守区域氨基酸按照其突变为其它氨基 酸概率的大小依次转换成其它氨基酸,这样就可以得到20条含有蛋白质P遗传信息的虚拟 蛋白质; (4) 取这20个虚拟蛋白质中的前n个蛋白质序列作为训练集中的序列,通过对非平衡 的数据集中数量少的子集进行扩大,使得非平衡数据集变为平衡数据集,有利于训练相关 预测器,可提高预测器的预测成功率。
[0010] 所述蛋白质序列P的位置特异打分矩阵PSSM的表达公式为:
其中
丨表示蛋白质进化过程中蛋白质序列第i个位置的氨基酸 突变为第j类氨基酸的可能性大小,其值越大表示转成的可能性越大,j从1到20分别表 示氨基酸A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V。
[0011] 所述预测器预测成功率可提高5~10%。
[0012] 本发明与现有解决非平衡数据方法不同,能融合蛋白质进化信息,直接从序列上 进行扩展,而不是在描述序列信息的离散数字模型中进行插值,具有明显的生物学意义,所 以能明显提高相关预测器的预测成功率,具有广阔的运用前景。
【具体实施方式】
[0013] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明 进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限 定本发明。
[0014] 采用本发明融合遗传信息的蛋白质训练集非平衡解决方法,具体步骤如下: 1)使用PSI-BLAST程序搜索Swiss-Prot数据库生成蛋白质序列P的位置特异打分矩 阵(PositionSpecificScoringMatrix,PSSM) 给定人类基因蛋白: >AAA61157 MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPAC VCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHC CQVRKHCEffCRALICRHEKPSALL KGRTACCHSETLV 要进行计算其位置特异性打分矩阵(PSSM矩阵),首先要将BLAST本地化:(1)在NCBI上下载blast进行本地配置,本机配置版本:blast-2. 2. 28+;(2)在蛋白质数据库http: // www.uniprot.org/ (UniPortKB/Swiss-Protdatabase(Release2013_10))下载蛋白质 数据库;(3)参数设置(_num_iterations:3,-evalue:0? 001) 通过BLAST-2. 2. 28+中的PSI-BLAST程序我们可以得到蛋白质上述蛋白质的PSSM矩 阵,这个矩阵中第一列表示原蛋白质序列中氨基酸转换成氨基酸A的可能性,第二列表示 序列原氨基酸转换成氨基酸R的可能性大小,以此,第三列到第20列分别代表转换成氨基 酸队0、(:、〇3、6、11、1、1、1(、]\^、?、5、1\1、¥和¥的可能性。?55]\1矩阵第一行表示蛋白质 序列第一个氨基酸,第二行表示第2个位置上的氨基酸,以此类推。
[0015] 2)将P蛋白基因与NCBI数据库中蛋白质序列进行比对,找到蛋白基因P的保守序 列 将AAA61157序列输入到网址: http: //www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi,此网址提供了查找保守 序列的功能,采用网站提供的默认参数值,可以得到序列AAA61157的保守序列有两段,一段为44-83,另一段为47-121,总计为:44-121。如下所示,非加粗部分为非保守区域,加粗 部分为保守区域; MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPA CVCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVL11TCVLIHCCQVRKHCEffCRALICRHEKPSA LLKGRTACCHSETLV。
[0016] 3)基于蛋白质P的PSSM矩阵和其保守序列信息构成蛋白质P进化蛋白质序列根 据PSSM矩阵可以知道蛋白质序列P中某个位置上的氨基酸突变为其它氨基酸的概率,将此 蛋白保守序列位置上的氨基酸不变,非保守区域氨基酸按照其突变为其它氨基酸概率的大 小依次转换成其它氨基酸,这样就可以得到20条含有蛋白质P遗传信息的虚拟蛋白质; 例如蛋白序列AAA61157 的PSSM矩阵第一行为:[-2 -2 -3 -4 -2 -2 -3 -4 -3 1 4 -2 6 0 -3 -2 -1 -2 -10],从中我们可以看出在这20个值中最大为i_... . . =6,表示AAA61157 蛋白质序列第一个氨基酸转换为M最有可能,Ey; =4,转换成L的概率第二; 按照上述方法,可以得到AAA61157最可能演化成的序列为: MVPTAWQLAMLCAGCLICSCQSCDNCTAPDPTEPPERPAWRGHFNDCPDSHTQFCFHATCRFLVHEDKPA CVCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHCCHKRKRCRffCRQYECKEEEPEK LLRQENGCCHSETVV 第二可能演化成的序列为: LLASWGHYMLMALFIVLPAGEALEDSPEALSNDDDHAAKVTSSFNDCPDSHTQFCFHATCRFLVHEDKPA CVCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIYYYRffKRHKEHYKERIGEHPKRRT IQKGRTSNANADNIM 第三可能演化成的序列为: IISAGARCCCFSGHTPGAPDHCEPSTSPYMNPSETIEHRFQNRFNDCPDSHTQFCFHATCRFLVHEDKPA CVCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLICRHCRYYQRKKQPNNLKRANRNNA MIQSGSAMGKGQSLI。
[0017] 4)取这20个虚拟蛋白质中的前3个蛋白质序列(蛋白质P最有可能进化成的序 列)替换蛋白质训练集中的蛋白质,通过上述操作,将原来蛋白质训练集中含有的蛋白质个 数扩大3倍。
[0018] 在研宄蛋白质靶标与药物结合预测中,核受体与药物结合的正样本数量为86,负 样本数量为172,将正样本中的核受体蛋白质序列通过上述方法,采用其本身序列与其最有 可能演化的序列,扩大正样本为172,使得正负样本平衡,核受体采用氨基酸组成成分、二肽 组成成分以及序列演化信息结合灰色理论即灰色PSSM组成成分离散向量描述,药物采用 分子指纹描述方法,采用SVM算法,通过融合遗传信息的蛋白质训练集平衡方法,预测成功 率比非平衡数据集提高7%,体现了本方法的有效性。
[0019] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种新的融合遗传信息的蛋白质训练集非平衡问题的解决方法,其特征在于包括以 下步骤: (1) 使用PSI-BLAST程序搜索Swiss-Prot数据库生成蛋白质序列P的位置特异打分矩 阵 PSSM ; (2) 将P蛋白基因与NCBI数据库中蛋白质序列进行比对,找到蛋白基因 P的保守序列; (3) 根据PSSM矩阵可以知道蛋白质序列P中某个位置上的氨基酸突变为其它氨基酸的 概率,将此蛋白保守序列位置上的氨基酸不变,非保守区域氨基酸按照其突变为其它氨基 酸概率的大小依次转换成其它氨基酸,这样就可以得到20条含有蛋白质P遗传信息的虚拟 蛋白质; (4) 取这20个虚拟蛋白质中的前η个蛋白质序列作为训练集中的序列,通过对非平衡 的数据集中数量少的子集进行扩大,使得非平衡数据集变为平衡数据集,有利于训练相关 预测器,可提高预测器的预测成功率。2. 根据权利要求1所述的蛋白质训练集非平衡问题的解决方法,其特征在于:所述蛋 白质序列P的位置特异打分矩阵PSSM的表达公式为:其中£,1(1 S i s LfK j S 20)表示蛋白质进化过程中蛋白质序列第i个位置的氨 基酸突变为第j类氨基酸的可能性大小,其值越大表示转成的可能性越大,j从1到20分 别表示氨基酸六、1?、队0、(:、〇3、6、!1、1、1^、1(、]\^、?、5、1\1、¥和¥。3. 根据权利要求1所述的蛋白质训练集非平衡问题的解决方法,其特征在于:所述预 测器预测成功率可提高5~10%。
【专利摘要】本发明提供一种新的融合遗传信息的蛋白质训练集非平衡问题的解决方法,将蛋白质P序列中的保守区氨基酸不变,非保守区域氨基酸按照其PSSM矩阵突变为其它氨基酸概率的大小依次转换成其它氨基酸,这样就可以得到20条含有蛋白质P遗传信息的虚拟蛋白质,对非平衡的数据集中数量少的子集进行扩大,使得非平衡数据集变为平衡数据集,有利于训练相关预测器,可提高预测器的预测成功率。本发明与现有解决非平衡数据方法不同,能融合蛋白质进化信息,直接从序列上进行扩展,而不是在描述序列信息的离散数字模型中进行插值,具有明显的生物学意义,所以能明显提高相关预测器的预测成功率,具有广阔的运用空间。
【IPC分类】G06F19/24
【公开号】CN104899478
【申请号】CN201510382703
【发明人】肖绚, 刘子
【申请人】景德镇陶瓷学院
【公开日】2015年9月9日
【申请日】2015年7月3日

最新回复(0)