本发明涉及医疗,具体为一种盆底疾病数据挖掘系统、方法及存储介质。
背景技术:
1、随着信息技术的迅猛发展,数据的生成速度变得越来越快,数据量也呈现出爆炸性增长,多模态的盆底诊断和治疗手段也越来越多,对应所采集到的多模态数据也越来越多,对处理此海量的数据的复杂非线性关系、数据模型和关联性等问题成了重中之重。
2、在这种背景下,从海量的盆底数据中提取出有价值的信息和知识,是当下研究的重点。在盆底疾病中,所检查科目多、数据量诊断的各项数据之间相互独立,难以形成一体的、不便于医生观察和医疗科研人员大、维度高且结构复杂,难以建模分析,目前院端所获取的盆底疾病检查和研究的统一数据库,因而可能会给医疗决策准确性和个性化治疗效果带来负面的影响,而且在盆底疾病数据挖掘领域,通常会使用决策树的方法,常规的决策树算法倾向于生成复杂的模型,此模型在训练数据上表现良好,但在新数据上的性能下降,缺乏泛化能力,从而过度拟合了训练数据中的噪声和异常值。采用神经网络处理复杂的非线性关系时,有训练耗时和参数设置敏感等问题,而且神经网络的黑箱性质也意味着其决策过程难以解释和理解。
技术实现思路
1、本发明的目的在于提供一种盆底疾病数据挖掘系统、方法及存储介质,以解决上述背景技术中提出的问题。
2、在一个实施方式中,为了解决上述技术问题,本发明提供如下技术方案:一种盆底疾病数据挖掘方法,该方法包括以下步骤:
3、步骤s1、将采集到的盆底疾病用户数据进行建库建表整理存储,并对其隐私数据进行隐私加密保护;
4、步骤s2、使用模式集成方法将来自盆底检查科室、盆底检查项目、其他检查项目结果的数据组合成盆底数据集,并检测数据的冲突检测和冲突解决;
5、步骤s3、对盆底数据集进行数据降维,对数据进行去冗降维处理,降低模式集成处理后的盆底数据集维度;
6、步骤s4、对降维后的盆底疾病数据进行聚类分析,根据盆底数据集的数据相似性和差异性以及聚类进行划分,对数据进行深层次整理;
7、步骤s5、对输出症候对应的所有检查条目中的权重与诊断正确率进行计算,将盆底数据集中的数据进行深层次的数据除冗;
8、步骤s6、对盆底医疗数据进行数据挖掘,并将挖掘的数据进行存储,通过指令响应完成数据操作。
9、进一步的,根据上述技术方案,在步骤s1中,对盆底疾病用户数据库中的数据进行隐私保护使用paillier同态加密对数据加密,加密使用如下公式:
10、
11、其中,k为盆底疾病用户数据库解密的秘钥,x、y分别代表不同的加密信息,ek(·)表示使用秘钥为k后的加密结果,上式表示,左右两边的加密操作等效;
12、paillier同态加密方案的过程为:选取两个素数p和q以及整数g∈(z/n2z)*,令n=p·q,定义函数l(x):
13、
14、gcd(l(gμmod(n2)),n2)=1
15、其中,n、g为公钥,μ是私钥,z是集合群,是zn中所有可逆元素的模n同余类所构成的集合群,gcd(*)表示计算其中数字的最大公约数;
16、模反元素μ的计算过程如下:
17、μ(n)=lcm((p-1)/(q-1))
18、其中,μ(n)为私钥,lcm(*)表示最小公倍数;
19、加密过程为:对于明文m∈zn,选取随机数密文c=e(m)=gmrnmodn2;
20、敏感信息加密后的解密过程为:对应密文c,对应明文为:
21、
22、中文或英文的字符使用ascii码进行转码再加密,隐私疾病数据值直接加密,加密过程为:
23、rawdataec=encryption(rawdata)
24、解密过程为:
25、rawdata=decryption(rawdataec)
26、其中,rawdataec表示为加密后的数据,encryption表示为加密,rawdata表示为原始数据,decryption表示为解密。
27、通过上述的方法,可以将盆底疾病用户数据库中的隐私信息例如:姓名、重点隐私疾病数据值等。其中,中文或英文的字符可以使用ascii码进行转码再加密,隐私疾病数据值可以直接加密。
28、进一步的,根据上述技术方案,在步骤s2中,所述使用模式集成方法将来自多个盆底检查科室、多个盆底检查项目、多个其他检查项目结果的数据组合成盆底数据集;
29、使用模式集成方法对数据进行冲突检测和冲突解决;具体过程为,对预处理后去除噪声、处理缺失值和异常值的数据进行必要的格式化和标准化,保证不同数据源的数据在格式和单位上保持一致,对比来自不同数据源的数据值查找不一致的地方,使用常规的基于规则的方法、统计学方法或机器学习算法和技术,以识别和解决冲突;
30、将盆底检查的数据进行集成、规约、统一单位、填充遗漏值和噪音数据转化为平滑数据,自动识别相同字符串和重复数据,对其数据进行删除和标记;模式集成和数据规约的转化过程用以下公式:
31、data_corr=corr(rawdataec)
32、其中,corr(2)表示计算数据的相关性,rawdataec表示为加密后的数据,data_corr表示为加密后数据的相关性;
33、使用pearson相关系数衡量变量间的线性关系,计算公式如下:
34、
35、其中,x和y表示在rawdata原始数据中的两个模态的数据,和表示对于x和y的平均值,r值表示pearson相关系数,该值的大小表示两种数据的相关强弱关系。
36、通过模式集成方法,将来自多个盆底检查科室、多个盆底检查项目、多个其他检查项目结果的数据组合成盆底数据集。具体地,将盆底超声中数据例如:宫体大小、形态状态、子宫内膜厚度、是否有明显异常回声、静息状态残余尿量、膀胱尿道后角、尿道倾斜角、膀胱经参考线相对位置等,盆底功能评估中的肌电数据例如:前后静息肌电值、快肌肌电平均值、慢肌肌电平均值、变异性等,盆底压力评估中的压力数据等海量数据。
37、进一步的,根据上述技术方案,在步骤s3中,所述盆底数据集进行数据降维过程为:
38、使用pca方法对步骤s2转化的data_corr数据进行降维处理,对于数据集data_corr,设有m个样本,每个样本有n个维度,该假设样本表达式为:
39、
40、其中,x1,x2,...,xm代表不同维度上的样本数据,fn表示不同横向数据下的特征;
41、对于数据中的每个维度计算所有样本均值,将每个维度进行去中心化,具体为:
42、
43、数据去中心化后,每个维度下的均值均为0,将每个维度中每2个组合成一个矩阵,可以得到一个n2的协方差矩阵,表示如下:
44、
45、其中,cov(·)表示对输入其中的两个向量计算两者的协方差矩阵,具体为:
46、
47、对于上式y*中,计算其特征向量,记为p,则降维后的数据表示为:
48、y′=p*y
49、据上述计算将盆底数据集中的数据结构简化、减少储存空间和减少特征属性个数完成数据降维。
50、随着盆底数据库中各项参数个数增多,盆底数据集的维数随之增加,数据变得越来越稀疏,模型更加复杂,容易造成模型欠拟合,需要对数据集进行降维处理,主要选择pca方法对步骤s2转化的data_corr数据进行降维处理。
51、进一步的,根据上述技术方案,在步骤s4中,所述盆底疾病数据进行聚类分析过程为:
52、使用基于信息熵和k-means聚类算法进行聚类分析,将降维后的盆底数据y′作为待聚类的数据集,设选定的聚类个数为k,初始聚类种子中心个数为k′,对于每个属性特征ti∈{t1,t2,…,tn},本发明使用熵值法计算ti的权值,ti的权值计算过程如下:
53、
54、其中,i=1,2,…m,j=1,2,…n,mij表示属性值的比重,计算方法为:
55、
56、特殊地,当mij=0时,有mijlnmij=0;
57、待聚类的数据集y′分为k′个子集,表示为:
58、y′i∈{y′1,y′2,…,y′k′}
59、从每一个子集中循环并随机地选择一个数据点作为初始聚类种子中心,将该中心集合表示为:
60、c′∈{c′1,c′2,…,c′i}
61、对每一个属性特征进行计算,计算与其各聚类种子中心的赋权欧氏距离,赋权欧氏距离计算公式如下:
62、
63、其中,wp为第p维属性的权值,xip和xjp表示第i和第j个数据的空间位置信息,根据计算出的赋权欧氏距离,将其划分到与该中心距离最近的聚类。
64、进一步的,根据上述技术方案,在步骤s5中,所述输出症候对应的所有检查条目中权重与诊断正确率进行计算公式如下:
65、p*=max{rate(y″i))
66、其中,y″i∈y″,rate(·)为其正确率,max(·)为计算该集合下的最大值,权数决定指标的结构,将其计算的max(·)权重值和最优诊断正确率的值进行保存;根据上述数据处理,实现从海量盆底数据中拿到权重最高及最优诊断正确率的值。
67、进一步的,根据上述技术方案,在步骤s6中,所述盆底医疗数据进行数据挖掘过程为:
68、使用信息增益进行评价每个节点聚类,计算公式如下:
69、gain(d,a)=h(d)-h(d|a)
70、其中,gain(d,a)表示总样本数d对于属性a的信息增益,h(d)表示对于总样本数d的信息熵,h(d|a)表示总样本数d对于属性a的条件熵,h(d)和h(d|a)两者的具体计算方法为:
71、
72、其中,v表示属性a的取值个数,dv表示选出属性a等于v的样本集合,k表示总样本数d中属于属性a的数据长度,使用赋权欧氏距离进行分类的方法所计算出的分类结果,将其表示为y”;根据以上划分的数据再进行数据挖掘,改变计算复杂度高和大型数据集运行的时间。
73、在另一个实施方式中,采用技术方案如下:一种盆底疾病数据挖掘系统,所述挖掘系统包括:数据采集模块、盆底数据库模块、敏感数据加密模块、模式集成模块、数据降维模块、聚类分析模块和数据挖掘模块;
74、所述数据采集模块用于采集数据,将获取到的数据传输至盆底数据库模块;利用采集模块将盆底疾病产生的相关数据进行采集,并传输至盆底数据库模块;
75、所述盆底数据库模块通过分库建表的方式,将数据进行分类整理存储;建立库表,对采集获取到的数据进行分类存储;
76、所述敏感数据加密模块用于数据加密,对数据进行隐私保护;将库表中的敏感数据使用paillier同态加密对数据加密;
77、所述模式集成模块对数据进行冲突检测及冲突解决,将数据进行集成、规约、单位统一、填充遗漏值、将噪音数据转化为平滑数据。
78、所述数据降维模块用于将数据的维度降低,生成的结构简洁的模型;通过对数据的除冗处理,筛出重点数据,利用重点数据生成低复杂机构的模型;
79、所述聚类分析模块用于将数据内在的结构和模式进行突出,加强数据探索的关联性和趋势;通过计算赋权欧氏距离,将其划分到与该中心距离最近的聚类,对数据进一步划分;
80、所述数据挖掘模块用于对上述模块处理过的数据进行分析,从采集的处理后的数据中得到实用关键的数据信息。
81、根据上述技术方案处理后的数据,方法可以由单个设备执行,也可以应用于分布式场景下,由多台设备相互配合来完成,亦可以使用云端服务器存储和计算。
82、在又一个实施方式中,采用技术方案如下:一种存储介质,所述存储介质上存储有计算机指令,所述计算机指令被处理器执行时,该存储介质上的计算机指令满足上述方案数据的操作,且存储介质包括永久性和非永久性、可移动和不可移动媒体由任何方式或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于静态随机存取存储器sram、动态随机存取存储器dram、其他类型的随机存取存储器ram、快闪记忆体或其它内存技术。
83、与现有技术相比,本发明所达到的有益效果是:本发明通过对盆底数据进行按类分表建立盆底数据库,并将其隐私数据进行加密处理,通过模式集成对数据进行冲突检测和冲突解决,将数据进行集成、规约、统一单位、填充遗漏值、将噪音数据转化为平滑数据,并且自动识别相同字符串的重复数据,对其进行删除和标记,再由数据降维减少数据维度和存储空间、节约模型训练计算时间、提高算法准确度、有利于数据可视化、去除噪声、防止过拟合、加快算法运行速度、减少存储数据的内存空间、以及使得数据生成的模型更易理解和可视化,聚类分析处理则将数据据内在的结构和模式进行突出,加强数据探索的关联性和趋势,利用数据挖掘对其采集处理后的数据进行重点挖掘,将重点实用数据进行突显,数据经上述过程逐一处理,最终实现盆底疾病检查科目和数据量诊断的各项数据一体化,生成低维度直观结构的数据模型,提高医疗决策准确性和个性化治疗效果,从而可以更好的帮助医生、研究人员和患者更好地了解盆底功能的状态,为制定个性化的治疗方案和预防措施提供有力支持。
1.一种盆底疾病数据挖掘方法,其特征在于,所述盆底疾病数据挖掘方法包括以下步骤:
2.根据权利要求1所述的一种盆底疾病数据挖掘方法,其特征在于:在步骤s1中,所述对盆底疾病用户数据库中的数据进行隐私保护过程如下:
3.根据权利要求1所述的一种盆底疾病数据挖掘方法,其特征在于:在步骤s2中,所述模式集成方法包括:
4.根据权利要求1所述的一种盆底疾病数据挖掘方法,其特征在于:在步骤s3中,所述盆底数据集进行数据降维过程为:
5.根据权利要求1所述的一种盆底疾病数据挖掘方法,其特征在于:在步骤s4中,所述盆底疾病数据进行聚类分析过程为:
6.根据权利要求1所述的一种盆底疾病数据挖掘方法,其特征在于:在步骤s5中,所述输出症候对应的所有检查条目中权重与诊断正确率进行计算公式如下:
7.根据权利要求1所述的一种盆底疾病数据挖掘方法,其特征在于:在步骤s6中,所述盆底医疗数据进行数据挖掘过程为:
8.一种盆底疾病数据挖掘系统,应用于权利要求1-7任意一项所述的一种盆底疾病数据挖掘方法,其特征在于:所述挖掘系统包括:数据采集模块、盆底数据库模块、敏感数据加密模块和模式集成模块;
9.根据权利要求8所述的一种盆底疾病数据挖掘系统,其特征在于:所述挖掘系统还包括数据降维模块、聚类分析模块和数据挖掘模块;
10.一种存储介质,其特征在于:所述存储介质上存储有计算机指令,所述计算机指令被处理器执行时,可实现权利要求1-7中任一步骤所述的一种盆底疾病数据挖掘方法的数据操作。