用于识别引起序列特异性错误(SSE)的序列图案的基于深度学习的框架的制作方法

xiaoxiao3月前  20


所公开的技术涉及人工智能型计算机和数字数据处理系统以及相对应的用于智能仿真的数据处理方法和产品(即,基于知识的系统、推理系统和知识获取系统);并且包括以不确定性进行推理的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。特别地,所公开的技术涉及利用深度神经网络(诸如卷积神经网络(cnn)和全连接神经网络(fcnn))来分析数据。


背景技术:

1、不能仅仅因为在本节中提到了本节中所讨论的主题而认为其是现有技术。同样地,也不能认为本节中所提及的或与作为技术背景而提供的主题相关的问题之前已经被现有技术所认可。本节中的主题仅仅代表不同的方法,这些方法本身也可以对应于所述要求保护的技术的实施方式。

2、下一代测序生成可用于变体滤波的大量测序数据。测序数据高度关联并且具有复杂相依性,这阻碍了传统分类器(例如,支持向量机器)对变体滤波任务的应用。因此,需要能够从测序数据提取高级特征的先进分类器。

3、深度神经网络是一种利用多个非线性和复杂的转换层来连续对高级特征进行建模的人工神经网络。深度神经网络通过反向传播提供反馈,该反馈携带观察到的输出和预测输出之间的差异以调整参数。深度神经网络随着大型训练数据集的可用性、并行和分布式计算的强大功能以及复杂的训练算法而不断发展。深度神经网络促进了计算机视觉、语音识别和自然语音处理等众多领域的重大进步。

4、卷积神经网络(cnn)和递归神经网络(rnn)是深度神经网络的组成部分。卷积神经网络在图像识别方面尤其成功,其架构包括卷积层、非线性层和池化层。递归神经网络设计成利用输入数据的顺序信息,并在感知器、长短期记忆单元和选通递归单元与循环连接部等构建框。此外,还针对有限的上下文提出了许多其他新出现的深度神经网络,如深度时空神经网络、多维递归神经网络和卷积自动编码器。

5、训练深度神经网络的目的是对每一层中的权重参数进行优化,以逐渐将较简单的特征结合到复杂特征当中去,以便可以从数据中学习到最合适的分层表示。优化过程的单个循环如下组织。首先,给定一个训练数据集,正推法依次计算每层中的输出,并将函数信号正向传播至整个网络。在最后的输出层中,目标损失函数测量推断输出和给定标签之间的误差。为了将训练误差降到最低,逆推法使用链式法则反向传播误差信号,并相对于整个神经网络的所有权重计算坡度。最后,基于随机梯度下降,利用优化算法对所述权重参数进行更新。鉴于批量梯度下降为每个完整的数据集进行参数更新,随机梯度下降则通过为每一小组的数据样本进行更新来提供随机近似值。几种优化算法源自于随机梯度下降。例如,在基于梯度的更新频率和矩为每个参数自适应修改学习率的同时,adagrad和adam训练算法分别进行随机梯度下降。

6、深度神经网络训练的另一个核心要素是正规化,其指的是旨在避免过拟合从而获得良好的泛化性能的策略。例如,权重衰减为所述目标损失函数添加一个惩罚因子,以便权重参数收敛至更小的绝对值。dropout在训练期间随机从神经网络去除隐藏单元,并可被认为是可能存在的子神经网络的集合。为了增强dropout的能力,提出了一个被称为maxout的新激活函数和一个用于递归神经网络的被称为rnndrop的dropout变形。而且,通过在一个小批量内为每次激活对标量特征进行归一化以及学习每个均值和方差作为参数,批归一化提供了一种新的正规化方法。

7、鉴于顺序数据是多维和高维的,对于生物信息学研究来说,深度神经网络因其广泛的适用性和增强的预测能力而具有远大的前途。已经采用卷积神经网络来解决基因组学中与序列有关的问题,例如:模体发现、致病变体识别和基因表达推断。卷积神经网络的一个特点是卷积滤镜的使用。与基于精心设计和手工制作的特征的传统分类方法不同,卷积滤镜进行自适应的特征学习,类似于将原始输入数据映射至知识的信息表示的过程。从这个意思上来说,所述卷积滤镜充当的是一系列的模体扫描器,因为一组这样的滤镜能够在训练过程中识别输入中的相关模式并对它们进行更新。递归神经网络能够捕捉不同长度的连续数据(例如:蛋白质或dna序列)中的长期依赖性。

8、因此,有机会利用原则性的基于深度学习的框架,该框架使序列图案与测序错误相关联。


技术实现思路



技术特征:

1.一种系统,包括:

2.根据权利要求1所述的系统,其中所述序列特异性错误关联子系统还配置成将所述重复图案的长度和偏移位置分类为引起所述序列特异性错误。

3.根据权利要求1所述的系统,其中所述目标核苷酸处于靶位置,在每侧侧接至少20个核苷酸。

4.根据权利要求1所述的系统,其中所述重复图案包括具有重复因子的来自四个碱基(a、c、g和t)的至少一个碱基。

5.根据权利要求4所述的系统,其中所述重复图案包括具有所述重复因子的单个碱基(a、c、g或t)的均聚物,所述重复因子包括所述重复图案中所述单个碱基的重复次数。

6.根据权利要求4所述的系统,其中所述重复图案包括具有所述重复因子的来自四个碱基(a、c、g和t)的至少两个碱基的共聚物,并且其中所述重复因子规定所述重复图案中所述至少两个碱基的重复次数。

7.根据权利要求2所述的系统,其中所述偏移位置能测量为所述重复图案的原点位置和所述核苷酸序列的原点位置之间的偏移量,并且至少十个偏移量用于产生所述重叠样品。

8.根据权利要求1所述的系统,其中所述重复图案处于所述重叠样品中的中心核苷酸的右侧并且不与所述中心核苷酸重叠。

9.根据权利要求1所述的系统,其中所述重复图案处于所述重叠样品中的中心核苷酸的左侧并且不与所述中心核苷酸重叠。

10.根据权利要求1所述的系统,其中所述重复图案重叠于所述重叠样品中的中心核苷酸上。

11.根据权利要求1所述的系统,其中所述变体滤波器子系统通过经过训练的神经网络处理所述重叠样品以生成所述分类分数。

12.一种计算机实施方法,包括:

13.根据权利要求12所述的计算机实施方法,还包括将所述重复图案的长度和偏移位置分类为引起所述序列特异性错误。

14.根据权利要求12所述的计算机实施方法,其中所述目标核苷酸处于靶位置,在每侧侧接至少20个核苷酸。

15.根据权利要求12所述的计算机实施方法,其中所述重复图案包括具有重复因子的来自四个碱基(a、c、g和t)的至少一个碱基。

16.根据权利要求15所述的计算机实施方法,其中所述重复图案包括具有所述重复因子的单个碱基(a、c、g或t)的均聚物,所述重复因子包括所述重复图案中所述单个碱基的重复次数。

17.一种非暂时性计算机可读存储介质,其上压印有计算机程序指令,所述计算机程序指令当在处理器上执行时实施包括以下的动作:

18.根据权利要求17所述的非暂时性计算机可读存储介质,还压印有当在处理器上执行时实施包括将所述重复图案的长度和偏移位置分类为引起所述序列特异性错误的动作的计算机程序指令。

19.根据权利要求18所述的非暂时性计算机可读存储介质,其中所述偏移位置能测量为所述重复图案的原点位置和所述核苷酸序列的原点位置之间的偏移量,并且至少十个偏移量用于产生所述重叠样品。

20.根据权利要求17所述的非暂时性计算机可读存储介质,其中所述重复图案处于所述重叠样品中的中心核苷酸的右侧或左侧并且不与所述中心核苷酸重叠。


技术总结
所公开的技术提出一种识别引起序列特异性错误(SSE)的序列图案的基于深度学习的框架。系统和方法以大规模变体数据训练变体滤波器以学习序列图案和虚假变体识别之间的因果相关性。所述变体滤波器具有分层结构,所述分层结构构建于深度神经网络上,诸如卷积神经网络和全连接神经网络。系统和方法实施模拟,所述模拟利用所述变体滤波器来测试已知序列图案对于变体滤波的影响。所述模拟的前提如下:当将一对待测重复图案和识别的变体馈送至所述变体滤波器作为模拟输入序列的一部分并且所述变体滤波器将识别的变体分类为虚假变体识别时,那么所述重复图案视为已引起所述虚假变体识别并且识别为SSE起因。

技术研发人员:D·卡什夫哈吉,A·起亚,K-H·法尔
受保护的技术使用者:因美纳有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)