本发明涉及rna测序数据聚类,尤其涉及一种单细胞rna测序数据聚类方法。
背景技术:
1、细胞聚类是单细胞rna测序数据分析中最重要的任务之一,然而受到测序技术的限制,单细胞rna测序数据具有很高的稀疏性以及复杂的噪声模式,传统的聚类方法如kmeans、层次聚类等依赖于相似度度量而无法很好的满足单细胞数据聚类的要求。
2、为了更好地揭示scrna-seq数据的特定表达模式,深度嵌入聚类算法被提出并用于进行细胞类型识别和聚类任务,例如desc、scdcc、scdeepcluster等。
3、这些方法通常使用一个自编码器来学习数据的潜在表示以及聚类分配,然而这些方法只关注数据本身的学习,忽略了细胞之间的关系,即数据的结构信息。由于单细胞数据的稀疏性,仅从基因表达信息中学习潜在表示从而指导细胞聚类的效果是不理想的,必须将细胞的结构信息(即细胞之间的关系)嵌入到深度聚类方法中。基于这样的想法,人们提出了深度图嵌入聚类算法来解决细胞聚类问题,例如cgnn、scgae、scdsc等,它们通常使用图自编码器捕获细胞结构信息指导聚类。但是这些方法往往在层数多多的时候容易过渡平滑,从而丢失基因表达的关键模式,最终导致细胞聚类效果较差。
4、因此,现有技术还有待于改进和发展。
技术实现思路
1、为了克服现有技术的不足,本发明的目的在于提供一种单细胞rna测序数据聚类方法,旨在解决现有基于细胞rna测序数据的聚类方法在层数过多的时候容易过渡平滑,从而丢失基因表达的关键模式导致聚类性能较差的问题。
2、本发明第一方面提供了一种单细胞rna测序数据聚类方法,包括:获取单细胞rna测序数据,对所述单细胞rna测序数据进行预处理,得到单细胞rna基因表达矩阵x;根据所述单细胞rna基因表达矩阵x,使用knn方法构建细胞-细胞图邻接矩阵a;构建基于zinb的自编码模块以及图自编码模块;将所述基于zinb的自编码模块和图自编码模块通过注意力融合机制逐层连接,通过这种逐层嵌入的操作将基因表达信息的特征表示和细胞结构信息有效地融合到同一个表示中;通过自监督策略将基于zinb的自编码模块和图自编码模块集成到一个统一的框架中,基于所述单细胞rna基因表达矩阵x和细胞-细胞图邻接矩阵a对这两个模块进行端到端的聚类训练和同步优化,得到聚类预测模型;将待聚类的单细胞rna测序数据进行处理后,得到待聚类的单细胞rna基因表达矩阵x和细胞-细胞图邻接矩阵a,将其输入所述聚类预测模型,输出嵌入表示,根据所述嵌入表示得到预测的细胞类别并完成聚类。
3、可选的,在本发明第一方面的第一种实现方式中,构建基于zinb的自编码模块包括步骤:自编码模块由相互对称的编码器和解码器构成,自编码模块的编码器共有l层,所述单细胞rna基因表达矩阵x作为自编码模块的初始输入,第l层的输入为hl-1,则其输出表示为:hl=φ(wlhl-1+bi),其中,φ为激活函数,wl表示第l层的权重,bi表示第l层的偏执向量;在解码器的最后一层分别连接三个独立的全连接层,分别用来估计zinb的三个参数:概率参数π,离散度参数θ和均值参数μ,从而实现将zinb模型集成到自编码模块中;zinb分布使用所述三个参数对单细胞rna测序数据进行模拟,重构其数据分布:zinb(x|π,μ,θ)=πδ0(x)+(1-π)nb(x|μ,θ);将基于zinb的自编码模块最终的损失函数定义为zinb分布的负对数似然估计:
4、可选的,在本发明第一方面的第二种实现方式中,构建图自编码模块的步骤包括:所述图自编码模块由若干层图卷积网络作为主干网络;所述图自编码模块共有l层,所述细胞-细胞图邻接矩阵a作为所述图自编码模块第1层的初始输入,第l层的输入为zl-1,则其输出表示为:其中i为单位对角矩阵,为度矩阵,ul-1表示第l-1层的权重,归一化邻接矩阵对zl-1进行传播,得到新的表示zl。
5、可选的,在本发明第一方面的第三种实现方式中,将所述基于zinb的自编码模块和图自编码模块通过注意力融合机制逐层连接,通过这种逐层嵌入的操作将基因表达信息的特征表示和细胞结构信息有效地融合到同一个表示中的步骤包括:将基于zinb的自编码模块的输出和图自编码模块的输出通过一个注意力融合模块进行逐层的异质结构融合嵌入,得到一个集成了结构信息和内容信息的集成表示:rl-1=fatt(αhl-1+(1-α)zl-1),其中,α是一个可调的权重参数,fatt表示注意力融合操作;使用集成表示rl-1作为图卷积网络的输入来学习高阶判别信息并生成新的表示
6、可选的,在本发明第一方面的第四种实现方式中,通过自监督策略将基于zinb的自编码模块和图自编码模块集成到一个统一的框架中,基于所述单细胞rna基因表达矩阵x和细胞-细胞图邻接矩阵a对这两个模块进行端到端的聚类训练和同步优化,得到聚类预测模型的步骤包括:对基于zinb的自编码模块的中间层输出执行k-means聚类得到一组初始的聚类中心其中k是聚类的簇数;使用student′st分布计算嵌入表示和聚类中心之间的软分配,公式如下:其中hi是嵌入表示的第i个样本,λ表示student’s t分布的自由度,软分配qij∈q,q为软聚类分布;在软聚类分布q的基础上,设定一个辅助的目标分布来监督软聚类分布的学习,通过学习目标分布的高置信度分配来改进聚类,使用软聚类频率来计算得到目标分布,其计算方法如下:其中是软聚类频率,目标分布pij∈p;使用软聚类分布q和目标分布p分布之间的kl散度损失作为优化目标从而获得更高质量的聚类:采用目标分布p来监督图自编码模块的学习:其中,zij∈zpre,通过上述两个损失函数,将优化目标集成到了一个目标分布p中,使得学习到的表示适合聚类任务。
7、本发明第二方面提供了一种单细胞rna测序数据聚类装置,包括:第一数据处理模块,用于获取单细胞rna测序数据,对所述单细胞rna测序数据进行预处理,得到单细胞rna基因表达矩阵x;第二数据处理模块,用于根据所述单细胞rna基因表达矩阵x,使用knn方法构建细胞-细胞图邻接矩阵a;构建模块,用于构建基于zinb的自编码模块以及图自编码模块;融合模块,用于将所述基于zinb的自编码模块和图自编码模块通过注意力融合机制逐层连接,通过这种逐层嵌入的操作将基因表达信息的特征表示和细胞结构信息有效地融合到同一个表示中;训练模块,用于通过自监督策略将基于zinb的自编码模块和图自编码模块集成到一个统一的框架中,基于所述单细胞rna基因表达矩阵x和细胞-细胞图邻接矩阵a对这两个模块进行端到端的聚类训练和同步优化,得到聚类预测模型;聚类模块,用于将待聚类的单细胞rna测序数据进行处理后,得到待聚类的单细胞rna基因表达矩阵x和细胞-细胞图邻接矩阵a,将其输入所述聚类预测模型,输出嵌入表示,根据所述嵌入表示得到预测的细胞类别并完成聚类。
8、本发明第三方面提供了一种单细胞rna测序数据聚类设备,包括:存储器和至少一个处理器,所述存储器中存储有计算机可读指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机可读指令,以使得所述单细胞rna测序数据聚类设备执行如上所述单细胞rna测序数据聚类方法的各个步骤。
9、本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,当其在计算机上运行时,使得计算机执行如上所述单细胞rna测序数据聚类方法的各个步骤。
10、有益效果:本发明提供了一种单细胞rna测序数据聚类方法,通过图自编码模块中的多层图卷积网络(gcn)来捕获单细胞rna测序数据中的高阶结构关系;为了缓解图gcn过渡平滑的问题,引入基于zinb的自编码模块提取单细胞rna测序数据的内容信息,学习基因表达数据的潜在表示;然后通过一个注意力融合机制将上述两个模块进行逐层的融合嵌入,并作为gcn每一层的输入,引导最终的聚类方向。因此,本发明方法通过将基因表达信息和细胞结构信息进行交叉融合,从而提高聚类性能。
1.一种单细胞rna测序数据聚类方法,其特征在于,包括步骤:
2.根据权利要求1所述的单细胞rna测序数据聚类方法,其特征在于,构建基于zinb的自编码模块包括步骤:
3.根据权利要求2所述的单细胞rna测序数据聚类方法,其特征在于,构建图自编码模块的步骤包括:
4.根据权利要求3所述的单细胞rna测序数据聚类方法,其特征在于,将所述基于zinb的自编码模块和图自编码模块通过注意力融合机制逐层连接,通过这种逐层嵌入的操作将基因表达信息的特征表示和细胞结构信息有效地融合到同一个表示中的步骤包括:
5.根据权利要求4所述的单细胞rna测序数据聚类方法,其特征在于,通过自监督策略将基于zinb的自编码模块和图自编码模块集成到一个统一的框架中,基于所述单细胞rna基因表达矩阵x和细胞-细胞图邻接矩阵a对这两个模块进行端到端的聚类训练和同步优化,得到聚类预测模型的步骤包括:
6.一种单细胞rna测序数据聚类装置,其特征在于,包括:
7.一种单细胞rna测序数据聚类设备,其特征在于,包括存储器和至少一个处理器,所述存储器中存储有计算机可读指令;
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1-5中任一项所述单细胞rna测序数据聚类方法的各个步骤。