本发明涉及计算机辅助医疗,特别是一种基于氨基酸转运蛋白slc7超家族成员表达构建乳腺癌风险预测模型的方法及其系统。
背景技术:
1、目前乳腺癌的预后评估,基于公用数据库寻找可作为乳腺癌生物标记物的mirnas方法,利用人类肿瘤基因组(tcga)数据库下载乳腺癌相关数据集,分析肿瘤组织与正常组织之间mirnas的差异表达后,通过cox单因素回归分析与不良预后相关的mirnas,来对差异表达中上调的有意义的mirnas进行cox多因素回归分析,即通过建立cox回归模型筛选出各临床因素分组情况,基于mirnas在乳腺癌肿瘤的预后评估评价中仍存在数据单一、难以确定等问题。
2、而研究发现氨基酸转运蛋白slc7家族的转运蛋白在维持细胞内谷胱甘肽水平和保护细胞免受氧化应激诱导的细胞死亡方面具有重要作用,具有公认的促生存作用,然而,现阶段缺少基于氨基酸转运蛋白slc7超家族成员分子表达构建乳腺癌风险预测模型,同时在目前乳腺癌的预后评估的数据分析模型也存在健壮性和效率一般的问题,为此我们提出一种乳腺癌预后风险评估方法及其系统。
技术实现思路
1、鉴于上述现有的乳腺癌预后辅助评估中存在的问题,提出了本发明。
2、因此,本发明其中的一个目的是提供一种乳腺癌预后风险评估方法及其系统,其基于氨基酸转运蛋白slc7超家族成员分子的表达水平数据,来构建乳腺癌风险预测模型,能够可视化的得到患者的有效风险评估,且增加了现阶段乳腺癌肿瘤的预后评估数据的准确性和丰富性,同时使得此乳腺癌预后风险评估模型变得更加健壮和高效。
3、为解决上述技术问题,本发明提供如下技术方案:
4、一方面,本发明提供一种乳腺癌预后风险评估方法,包括:
5、癌症基因组图谱数据的获取与标准化处理与质量控制,选择其中乳腺浸润癌样本中的基因表达谱高通量测序数据,并结合相应的临床病理资料及随访信息,通过数据标准化处理生成乳腺癌症基因组样本数据;
6、建立cox比例风险回归模型对各临床特征变量分别进行单因素分析后,筛选特征变量后纳入到多因素中进行分析,判断氨基酸转运蛋白slc7超家族成员分子是否作为乳腺癌的预后因素,判断通过,则将氨基酸转运蛋白slc7超家族成员分子作为乳腺癌的预后因素的特征变量来构建乳腺癌预后风险预测模型,并生成相应的风险评估结果;
7、构建可视化预测模型并显示,采用了列线图积分量表形式对乳腺癌患者的生存率进行有效风险评估。
8、作为本发明的一种优选方案,其中:获取乳腺癌症基因组数据,基于人类肿瘤样本中的癌症基因组数据,选取乳腺浸润癌样本基因表达谱高通量测序数据进行采集,同时获取患者临床病理资料及随访信息后,形成乳腺癌症基因组样本数据;
9、数据的标准化处理,响应所述乳腺癌症基因组样本数据,对所述乳腺浸润癌样本基因表达谱高通量测序数据进行注释、清洗、过滤和格式转化,生成样本基因长度和测序深度的统一标准化数据;
10、数据的纳入和特征分组,将统一标准化处理后的乳腺癌症基因组样本数据,按照分组特征进行纳入和分组,所述分组特征包括乳腺癌临床相关因素分析的变量、乳腺癌分期变量和乳腺癌分型变量。
11、作为本发明的一种优选方案,其中:响应所述乳腺癌症基因组样本数据中的乳腺浸润癌样本基因表达谱高通量测序数据,基于tcga癌症基因组图谱数据库下载得到htseq-fpkm格式的rna-seq三级公开区域化注释数据,并应用解螺旋平台处理工具将清洗过滤后得到的数据由fpkm格式转化成为tpm格式后再进行log2转化,完成对样本基因长度及测序深度的统一标准化。
12、作为本发明的一种优选方案,其中:所述筛选特征变量采用catboost算法从所有乳腺癌症基因组样本数据中筛选出单因素纳入至多因素cox回归分析的特征变量,即基于对单因素的类别型特征进行处理,完成梯度提升决策后生成shapley值;
13、根据计算单因素各个类别特征的shapley值,识别出对模型预测结果影响大的特征,分析对预测结果的贡献程度,从而进行特征筛选后纳入至多因素cox回归分析。
14、作为本发明的一种优选方案,其中:所述氨基酸转运蛋白slc7超家族成员分子具体为slc7a3和/或slc7a5;
15、所述氨基酸转运蛋白slc7a5分为高表达和低表达分子水平数据。
16、作为本发明的一种优选方案,其中:通过单因素和多因素分析筛选特征变量包括:氨基酸转运蛋白slc7a5分子高表达和低表达水平、年龄、病理分期、pam50分型、以及放疗在内的若干个独立风险因素。
17、作为本发明的一种优选方案,其中:所述列线图积分量表的列线图采用积分计算原则,对乳腺癌患者1年、3年或/和5年生存率进行预测。
18、作为本发明的一种优选方案,其中:所述乳腺癌临床相关因素分析的变量包括:年龄、人种、免疫组化表型、孕激素受体、人表皮生长因子受体、绝经状态和放疗状态;
19、所述乳腺癌分期变量为淋巴结转移以及远处转移特征,其包括:原发肿瘤分期、区域淋巴结分期和远处转移分期;
20、所述乳腺癌分型变量主要包括病理亚型、pam50分子亚型、管腔a型、管腔b型、her2过表达型和基底细胞型。
21、作为本发明的一种优选方案,其中:所述随访信息包括:总体生存期、无病生存期和无进展间隔期的临床资料信息。
22、一方面,本发明提供一种乳腺癌预后风险评估方法的系统,包括:
23、乳腺癌数据处理模块,用于癌症基因组图谱数据的获取与标准化处理与质量控制,包括:
24、数据获取单元,用于基于人类肿瘤样本中的癌症基因组数据,选取乳腺浸润癌样本基因表达谱高通量测序数据进行采集,同时获取患者临床病理资料及随访信息后,形成乳腺癌症基因组样本数据;
25、数据标准化处理单元,用于响应所述乳腺癌症基因组样本数据,对所述乳腺浸润癌样本基因表达谱高通量测序数据进行注释、清洗、过滤和格式转化,生成样本基因长度和测序深度的统一标准化数据;
26、数据特征分组单元,用于将统一标准化处理后的乳腺癌症基因组样本数据,按照分组特征进行纳入和分组,所述分组特征包括乳腺癌临床相关因素分析的变量、乳腺癌分期变量和乳腺癌分型变量;
27、乳腺癌预后风险分析模块,用于建立cox比例风险回归模型对各临床特征变量分别进行单因素和多因素分析后,构建乳腺癌预后风险预测模型,并生成相应的风险评估结果,包括:
28、cox比例风险回归模型分析单元,用于对各临床特征变量分别进行单因素和多因素进行统计和分析;
29、筛选单元,用于筛选特征变量后纳入到多因素中进行分析;
30、判断单元,用于判断氨基酸转运蛋白slc7超家族成员分子是否作为乳腺癌的预后因素;
31、数据可视化模块,用于构建可视化预测模型并显示,采用了列线图积分量表形式对乳腺癌患者的生存率进行有效风险评估。
32、本发明的有益效果:本发明基于氨基酸转运蛋白slc7超家族成员分子的表达水平数据,来构建乳腺癌风险预测模型,不仅通过计算机能够可视化的得到患者的有效风险评估,且增加了现阶段乳腺癌肿瘤的预后评估数据的丰富性,避免了评估过程中的人工诊断或单一数据主观判断带来差异的问题;此外通过计算单因素各个类别特征的shapley值,可以增加模型的解释性,使机器学习模型更加易于理解和信任,有助于增强基于氨基酸转运蛋白slc7超家族成员分子机器学习模型的可信度和应用范围,可以自动处理特征选择和特征缩放等任务,使得此乳腺癌预后风险评估模型变得更加健壮和高效。
1.一种乳腺癌预后风险评估方法,其特征在于,包括:
2.如权利要求1所述的一种乳腺癌预后风险评估方法,其特征在于,
3.如权利要求2所述的一种乳腺癌预后风险评估方法,其特征在于,
4.如权利要求1所述的一种乳腺癌预后风险评估方法,其特征在于,所述筛选特征变量采用catboost算法从所有乳腺癌症基因组样本数据中筛选出单因素纳入至多因素cox回归分析的特征变量,即基于对单因素的类别型特征进行处理,完成梯度提升决策后生成shapley值;
5.如权利要求4所述的一种乳腺癌预后风险评估方法,其特征在于,所述氨基酸转运蛋白slc7超家族成员分子具体为slc7a3和/或slc7a5;
6.如权利要求5所述的一种乳腺癌预后风险评估方法,其特征在于,通过单因素和多因素分析筛选特征变量包括:氨基酸转运蛋白slc7a5分子高表达和低表达水平、年龄、病理分期、pam50分型、以及放疗在内的若干个独立风险因素。
7.如权利要求1所述的一种乳腺癌预后风险评估方法,其特征在于,所述列线图积分量表的列线图采用积分计算原则,对乳腺癌患者1年、3年或/和5年生存率进行预测。
8.如权利要求2所述的一种乳腺癌预后风险评估方法,其特征在于,所述乳腺癌临床相关因素分析的变量包括:年龄、人种、免疫组化表型、孕激素受体、人表皮生长因子受体、绝经状态和放疗状态;
9.如权利要求2所述的一种乳腺癌预后风险评估方法,其特征在于,所述随访信息包括:总体生存期、无病生存期和无进展间隔期的临床资料信息。
10.如权利要求1所述的一种乳腺癌预后风险评估方法的系统,其特征在于,包括:
11.一种计算机设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-9中任意一项所述的一种乳腺癌预后风险评估方法中的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9中任意一项所述的一种乳腺癌预后风险评估方法中的步骤。