基于OmicVerse框架的单细胞多组学数据分析系统

xiaoxiao2月前  17


本发明涉及单细胞转录组测序数据分析领域,具体地,涉及基于omicverse框架的单细胞多组学数据分析系统。


背景技术:

1、单细胞rna测序(scrna-seq)和批量rna测序(rna-seq)已成为研究细胞异质性、分化和疾病机制的不可或缺的工具。这些方法涵盖了广泛的应用,包括将批量测序数据转换为单细胞数据,进行差异表达分析,通路富集,批量测序中的共表达基因网络分析,细胞注释,细胞相互作用分析,细胞轨迹推断,基因集中的细胞状态评估和单细胞中的药物反应预测。许多这些方法依赖于科学界开发的开源算法。

2、然而,在组学领域迅速增长的算法数量和多样性给选择适当、准确和用户友好的分析工具带来了如下挑战:1.使用不同的工具通常需要用户学习和掌握各种平台,导致计算效率低下。2.web服务器和r语言通常用于低数据量分析,而python则更适用于大规模数据分析。3.整合单细胞和批量分析的结果可能是复杂的,并产生多层次的数据,使得难以获得有意义的生物学见解。4.单细胞测序可用细胞数量有限,导致在研究细胞发育和分化轨迹时出现“中断”。对应的,组织批量rna测序包含“中断”细胞。据我们所知,目前尚无可用于从批量rna测序中提取“中断”细胞的算法。并且缺乏有效地弥合批量rna测序和单细胞rna测序分析之间差距的工具。


技术实现思路

1、现有技术单细胞测序数据分析技术无法从批量rna测序中提取中断细胞,并且未能有效弥合批量rna测序和单细胞rna测序分析之间差距的技术问题,本发明提出了基于omicverse框架的单细胞多组学数据分析系统,本发明采用的技术方案是:

2、本发明提供了一种基于omicverse框架的单细胞多组学数据分析系统,包括批量测序模块、单细胞测序模块、单细胞插补模块以及单细胞测序数据分析模块;

3、所述批量测序模块用于生成批量rna测序数据;

4、所述单细胞测序模块用于生成单细胞测序数据;

5、所述单细胞插补模块用于利用所述单细胞测序数据对所述批量rna测序数据进行解卷积操作得到单细胞数据,并从所述单细胞数据中识别目标中断细胞,最后将目标中断细胞的重叠群落插入到所述单细胞测序数据中;

6、所述单细胞测序数据分析模块用于对所述单细胞测序数据进行多组学分析,得到单细胞多组学分析数据。

7、作为一种优选方案,所述单细胞测序数据分析模块包括pyscsa模块、cellphonedb模块、pyvia模块、aucell模块以及scdrug模块;

8、所述pyscsa模块用于对所述单细胞测序数据进行细胞类型注释;

9、所述cellphonedb模块用于对所述单细胞测序数据进行细胞相互作用分析;

10、所述pyvia模块用于对所述单细胞测序数据进行轨迹推断;

11、所述aucell模块用于对所述单细胞测序数据进行通路分析;

12、所述scdrug模块用于对所述单细胞测序数据进行药物反应预测。

13、作为一种优选方案,所述单细胞插补模块包括细胞分数计算模块、单细胞数据生成模块、单细胞邻域图计算模块、社区检测模块以及群落轨迹推断模块;

14、所述细胞分数计算模块用于估算所述批量rna测序数据中的细胞比例;

15、所述单细胞数据生成模块用于对所述批量rna测序数据进行解卷积操作得到单细胞数据;

16、所述单细胞邻域图计算模块用于从所述单细胞数据中计算出单细胞邻域图;

17、所述社区检测模块用于对所述单细胞邻域图进行社区检测得到重叠细胞社区;

18、群落轨迹推断模块用于将目标细胞的重叠细胞社区插入到所述单细胞测序数据中。

19、作为一种优选方案,所述细胞分数计算模块的构建方法包括:

20、为估算所述批量rna测序数据中的细胞比例,首先对所述单细胞测序数据进行细胞类型注释,并将不同细胞类型的单细胞基因计数按细胞求和,得到一个n*m矩阵,其中m代表细胞类型数,n代表基因数;将这个n*m矩阵定义为模拟批量rna测序数据的细胞类型矩阵,然后将每一行的列数相加,得到模拟批量rna测序数据的细胞类型矩阵bsimulated,然后将模拟批量rna测序数据的细胞类型矩阵bsimulated输入自编码器;在自编码器中,将自编码器的输出定义为t,并使t接近然后,将生成器的输出定义为g和bsimulated并以mae作为评估;训练出最优ae后,将输入改为真实的大容量,此时自编码器的输出为t,t即为真实大样本对应的细胞分数。

21、作为一种优选方案,所述单细胞邻域图计算模块通过利用scanpy.pp.neighbors函数计算出单细胞邻域图。

22、作为一种优选方案,所述社区检测模块包括亲和矩阵计算模块,所述亲和矩阵计算模块用于通过图神经网络计算一个亲和矩阵f,所述亲和矩阵f表示细胞之间的关联程度;计算过程如下:

23、f:=gnnθ(a,x)

24、其中a是细胞邻接图的邻接矩阵,而x代表作为节点特征的细胞类型。

25、作为一种优选方案,所述社区检测模块在所述亲和矩阵计算模块的输出层应用了元素向的relu非线性激活函数以确保所述亲和矩阵f的非负性:

26、

27、其中是归一化邻接矩阵,是自循环邻接矩阵,而是自循环邻接矩阵的对角阶矩阵。

28、作为一种优选方案,所述社区检测模块在所述亲和矩阵计算模块的输出层还应用了伯努利-泊松模型的负对数似然函数来测量所述亲和矩阵f和所述单细胞邻域图之间的拟合度:

29、

30、其中e代表图中的边集,由于单细胞数据的单细胞邻域图通常比较稀疏,因此和对损失的影响更大,采用损失函数以平衡这两个项:

31、

32、其中pe和pn分别代表边缘和非边缘的均匀分布;

33、优化亲和矩阵θ*以最小化(平衡)负对数似然函数:

34、θ*=argminθl(gnnθ(a,x))。

35、作为一种优选方案,所述系统还包括批量rna测序数据分析模块,所述批量rna测序数据分析模块用于对所述批量rna测序数据进行多组学分析,得到批量rna多组学分析数据;所述批量rna多组学分析数据用于评估单细胞多组学分析数据的准确度。

36、作为一种优选方案,所述批量rna测序数据分析模块包括pydeg模块、pyppi模块、pywgcna模块、pygsea模块以及pytcga模块;

37、所述pydeg模块用于对所述批量rna测序数据进行基于t检验和wilcoxon检验的差异表达分析;

38、所述pyppi模块用于对所述批量rna测序数据进行蛋白质-蛋白质相互作用网络分析;

39、所述pywgcna模块用于对所述批量rna测序数据进行基于动态树切割和层次聚类使用加权基因共表达网络分析;

40、所述pygsea模块用于对所述批量rna测序数据进行具有改进的可视化、计算效率和物种范围的基因集富集分析;

41、所述pytcga模块用于对所述批量rna测序数据进行自动解析基因组数据集数据。

42、相较于现有技术,本发明具有的有益效果是:

43、本发明通过单细胞插补模块对批量rna测序数据进行解卷积操作得到单细胞数据,并从所述单细胞数据中识别目标中断细胞,最后将目标中断细胞的重叠群落插入到所述单细胞测序数据中,解决了由于单细胞rna测序可用细胞数量有限,在研究细胞发育和分化轨迹时出现“中断”细胞的技术问题。


技术特征:

1.基于omicverse框架的单细胞多组学数据分析系统,其特征在于,包括批量测序模块、单细胞测序模块、单细胞插补模块以及单细胞测序数据分析模块;

2.根据权利要求1所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述单细胞测序数据分析模块包括pyscsa模块、cellphonedb模块、pyvia模块、aucell模块以及scdrug模块;

3.根据权利要求1所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述单细胞插补模块包括细胞分数计算模块、单细胞数据生成模块、单细胞邻域图计算模块、社区检测模块以及群落轨迹推断模块;

4.根据权利要求3所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述细胞分数计算模块的构建方法包括:

5.根据权利要求3所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述单细胞邻域图计算模块通过利用scanpy.pp.neighbors函数计算出单细胞邻域图。

6.根据权利要求3所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述社区检测模块包括亲和矩阵计算模块,所述亲和矩阵计算模块用于通过图神经网络计算一个亲和矩阵f,所述亲和矩阵f表示细胞之间的关联程度;计算过程如下:

7.根据权利要求6所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述社区检测模块在所述亲和矩阵计算模块的输出层应用了元素向的relu非线性激活函数以确保所述亲和矩阵f的非负性:

8.根据权利要求7所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述社区检测模块在所述亲和矩阵计算模块的输出层还应用了伯努利-泊松模型的负对数似然函数来测量所述亲和矩阵f和所述单细胞邻域图之间的拟合度:

9.根据权利要求1所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述系统还包括批量rna测序数据分析模块,所述批量rna测序数据分析模块用于对所述批量rna测序数据进行多组学分析,得到批量rna多组学分析数据;所述批量rna多组学分析数据用于评估单细胞多组学分析数据的准确度。

10.根据权利要求1所述的基于omicverse框架的单细胞多组学数据分析系统,其特征在于,所述批量rna测序数据分析模块包括pydeg模块、pyppi模块、pywgcna模块、pygsea模块以及pytcga模块;


技术总结
本发明公开了基于OmicVerse框架的单细胞多组学数据分析系统,包括批量测序模块、单细胞测序模块、单细胞插补模块以及单细胞测序数据分析模块;批量测序模块用于生成批量RNA测序数据;单细胞测序模块用于生成单细胞测序数据;单细胞插补模块用于利用单细胞测序数据对批量RNA测序数据进行解卷积操作得到单细胞数据,并从单细胞数据中识别目标中断细胞,最后将目标中断细胞的重叠群落插入到单细胞测序数据中;单细胞测序数据分析模块用于对单细胞测序数据进行多组学分析,得到单细胞多组学分析数据。本发明解决了批量RNA测序中提取“中断”细胞的技术问题,并且有效弥合批量RNA测序和单细胞RNA测序分析之间的差距。

技术研发人员:曾泽华,熊远妍
受保护的技术使用者:中山大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)