一种病理性卵巢衰老患者妊娠预测方法

xiaoxiao2月前  11


本发明涉及妊娠预测,具体为一种病理性卵巢衰老患者妊娠预测方法。


背景技术:

1、目前,针对病理性卵巢衰老女性的妊娠预测模型仍然缺乏,尤其是基于大样本、长期前瞻性队列研究和fsh动态变化轨迹的联合预测模型。建立针对病理性卵巢衰老人群的、有效的临床妊娠预测模型,将有助于帮助患者制定生育决策,降低医疗费用,同时指导临床医生针对不同患者进行个性化生育咨询、优化助孕治疗方案,进而提高临床妊娠成功率,帮助患者实现生育愿望。

2、为解决上述问题,本技术中提出一种病理性卵巢衰老患者妊娠预测方法。


技术实现思路

1、本发明的目的在于提供一种病理性卵巢衰老患者妊娠预测方法,以解决上述背景技术中提出的现有技术中目前病理性卵巢衰老患者妊娠率低、缺乏临床妊娠预测模型、难以通过早期识别具有妊娠潜力的患者进行及时干预的问题。

2、为实现上述目的,本发明提供如下技术方案:一种病理性卵巢衰老患者妊娠预测方法,所述方法包括以下步骤:

3、步骤1、收集样本数据,获得样本特征;

4、 步骤1.1、收集来自中国女性卵巢衰老队列(chinese ovarian aging cohort,coach)中545名病理性卵巢衰老患者信息,病理性卵巢衰老患者的纳入标准为:(1)入组年龄≤40岁;(2)血清fsh水平≥15 iu/l(至少两次,间隔>4周)。入组后随访两次或两次以上的患者被纳入轨迹分析和预测模型构建,并根据已知的妊娠结局分别标注妊娠标签和非妊娠标签;

5、步骤1.2、根据预设标准选择样本数据中与妊娠相关的样本特征以及纵向fsh测量值;

6、步骤2、对步骤1.2所述的样本特征进行转换和插补,具体转换和插补过程如下:

7、步骤2.1、将样本特征进行转换和编码,以使其符合基于机器学习算法的训练模型的输入;

8、步骤2.2、若样本特征中部分特征存在缺失值,则针对不同特征的空值,利用多重插补的方法,对样本特征中具有缺失值的特征进行填补,若不存在缺失值,则不需要填补,最终形成无缺失值的完整样本并进入步骤3;

9、步骤3、将步骤2.2形成的完整样本使用boruta算法进行候选预测变量筛选。boruta算法是一种基于随机森林的特征选择算法,它通过比较原始特征与随机生成的“影子特征”之间的重要性来进行特征筛选,算法的核心思想是,如果一个特征在统计上显著优于影子特征,则认为该特征对于预测任务是重要的。在本专利中,将数据以7:3的样本比例分割为训练集和测试集,并将boruta算法应用于训练集中,最终筛选得到的关键分类变量子集进入步骤5构建预测模型;

10、步骤4、对于步骤1.2所述的纵向fsh测量值使用潜在类别增长混合模型(lcgmm)确定每一个体fsh测量值所属的不同轨迹模式亚组;

11、步骤5、将步骤2、步骤3及步骤4形成的训练样本构建基于随机森林算法的病理性卵巢衰老患者妊娠预测模型,其中包括基线模型和纵向模型,具体模型构建如下:

12、 步骤5.1、构建训练样本的数据集,该数据集与步骤3 boruta算法进行候选预测变量筛选时,将总样本以7:3的样本比例分割为训练集和测试集中的训练集一致,其中包括基线模型训练集和纵向模型训练集;

13、步骤5.2、对训练集的训练样本进行数据平衡;

14、步骤5.3、将清洗好的训练样本打乱,采用分层随机抽样的方法将训练样本分成n个集合,其中“n-1”个集合作为训练集用来训练模型,剩余一个集合为测试集用于评估模型,其中,n为自然数;

15、步骤5.4、将随机森林所包含的决策树数目设置为x,指定节点中用于二叉树的变量个数为y,其余参数使用randomforest包中的默认值;

16、步骤6、运用步骤5构建的基于随机森林的病理性卵巢衰老患者妊娠预测模型对测试样本进行妊娠预测,并比较基线模型和纵向模型的预测效果;

17、步骤7、运用步骤6选择的基于随机森林的病理性卵巢衰老患者妊娠纵向预测模型对外部样本进行妊娠预测并评价模型预测效果;

18、 步骤7.1、收集自2010年1月至2021年12月于山东大学附属生殖医院就诊的病理性卵巢衰老患者(年龄≤40岁,fsh≥15 iu/l)共456例(剔除coach队列人群)作为外部验证集;

19、步骤7.2、将步骤7.1构建的外部测试集样本数据输入到步骤5所述的训练好的基于随机森林的病理性卵巢衰老患者妊娠预测模型,评价纵向模型外部预测能力的表现;

20、进一步的,在步骤1.2中,所述预设标准为与女性生育力及妊娠相关的筛查因素,包括患者的年龄、身体质量指数(bmi)、初潮年龄、受教育水平、怀孕次数、分娩次数、是否闭经、染色体有无异常、fsh、黄体生成素(lh)、雌二醇(e2)、睾酮(t)、抗苗勒管激素(amh)、afc、促甲状腺激素(tsh)、谷丙转氨酶(alt)、谷草转氨酶(ast)、谷氨酰转肽酶(ggt)、碱性磷酸酶(alp)、总蛋白(tp)、白蛋白(alb)、球蛋白(glo)、总胆固醇(tc)、甘油三酯(tg)、高密度脂蛋白(hdl)、低密度脂蛋白(ldl),还包括患者随访期间纵向fsh测量值。

21、进一步的,在步骤2.1中,将样本特征进行转换和编码,以使其符合训练模型的输入,包括将偏态分布的fsh、tsh、alt、lh和ggt转换为正态分布,计算fsh在整个随访期间的极差(患者随访期间fsh最大测量值-fsh最小测量值)和随访期间的变化值(患者随访期间最后一次fsh测量值-第一次fsh测量值);

22、在步骤2.2中,若样本特征中部分特征存在缺失值,当缺失值或空值少于预设值时作删除处理,当缺失值或空值多于预设值时,连续变量和分类变量均使用多重插补方法进行填补。

23、进一步的,步骤4具体包括:

24、步骤4.1、lcgmm按照个体随时间发展轨迹,可将群体分成有限个“轨迹分组”,每个“轨迹分组”中的个体具有相同或者相近的动态变化轨迹模式,同时,该模型会给出每个个体属于某个“轨迹分组”的概率,用于轨迹分组,lcgmm并不事先定义分组数目,而是将分组数目看成一个潜在变量,通过联合极大似然函数及其模型拟合规则给出分组数目的最优估计,因而,lcgmm看作是在有限混合模型的基础上完成了潜在分类,lcgmm假设研究群体fsh测量值动态变化的增长曲线具有异质性,可能包含有个不同的变化轨迹,每个个体属于且仅属于一个潜在类别,潜在类别的归属定义为离散型随机变量具体如下:潜在类别的概率基于协变量使用多项式logistic模型计算,具体如下:其中,为与影响个体潜在类别归属的协变量,设定为空值,为类别的截距项,为时间独立协变量所对应的潜在类别参数,设定为空值,个体的第次重复测量指标表示为,具体如下:其中,是各个类别都相同的固定效应协变量,对应一般固定效应系数;为类别特异性的固定效应协变量,对应类特定固定效应系数;为个体随机效应协变量,对应个体的随机效应;为自相关过程;为随机误差;

25、步骤4.2、在4.1提出的公式的基础上,进一步地遍历2-4个潜在类别后,根据以下标准选择最优fsh轨迹模型:

26、 (1)平均后验概率≥0.7;

27、 (2)每组个体所占最低比例≥5.0%;

28、 (3)贝叶斯信息准则(bic)最低;

29、 (4)临床先验知识;

30、步骤4.3、根据所选的最优fsh轨迹模型,将每一个体归属于其后验概率最高的轨迹亚组,并赋予相应fsh轨迹亚组的标签。

31、进一步的,在步骤5.1中,以步骤2处理后以及步骤3筛选后得到的是否绝经、基线fsh水平、基线lh水平、基线tsh水平、基线alt水平、基线ggt水平、基线glo水平、基线afc构建基线模型训练集,在基线模型训练集的基础上进一步纳入fsh轨迹亚组、fsh极差及fsh变化值作为纵向模型训练集;

32、在步骤5.2中,采用rose算法对训练集的训练样本进行数据平衡,即使妊娠组数据与非妊娠组数据均衡,所述妊娠组数据、非妊娠组数据分别指在步骤1.1中分别标注了妊娠标签和非妊娠标签的样本;

33、在步骤5.3中,将清洗好的训练样本打乱,进行十折交叉验证,即采用分层随机抽样的方法将训练样本分成10个集合,轮流将其中1个集合作为测试集,其余9个集合为训练集来训练模型,每次试验都会得出相应的结果,最终得出的结果的平均值作为对模型的效果评价结果;

34、在步骤5.4中,对训练集的训练样本以妊娠标签和非妊娠标签分别编码为1和0作为监督信号,通过十折交叉验证进行十次训练后,获得训练完成的病理性卵巢衰老患者妊娠预测模型,其中模型保持准确率最高的决策树数目设置为500,指定节点中用于二叉树的变量个数为3。

35、进一步的,步骤6具体包括:

36、 步骤6.1、构建测试样本的数据集,该数据集与步骤3 boruta算法进行候选预测变量筛选时,将总样本以7:3的样本比例分割为训练集和测试集中的测试集一致,基线模型测试集包含预测变量与步骤5.1中筛选所得变量一致,纵向模型包含预测变量在基线模型测试集的基础上进一步纳入fsh轨迹亚组、fsh极差及fsh变化值;

37、步骤6.2、将步骤6.1构建的测试集样本数据输入到步骤5所述的训练好的基于随机森林的病理性卵巢衰老患者妊娠预测模型,获得基线模型和纵向模型预测能力的表现以及纵向模型是否优于基线模型的结论。

38、进一步的,在步骤5.2中,采用rose算法对训练集的训练样本进行数据平衡具体包括:

39、考虑训练集,其中是类别标签,分别为未妊娠和妊娠,是某个总体的一次实现(来自总体的一个样本),总体的概率密度未知,表示类别的个数,rose算法通过以下步骤产生一个新的人造样本:

40、 (1)以概率1/2选择,;

41、 (2)以概率在训练集中选择样本使得;

42、 (3)从中采样,其中是一个概率分布,中心在,是刻度参数矩阵;

43、先从训练集中选择一个样本,然后在这个样本的邻域中产生一个新的样本,这个邻域的宽度由决定,通常,是一个单峰和对称的概率分布,在给定类别标签时,产生新的样本等价于由的核密度估计来采样,其中核函数为,核函数和“窗宽”的选择是纯粹的核密度估计问题;

44、给定标签时,条件密度如下:最终rose算法通过各类别对应的自变量的条件核密度估计,产生了类别均衡的人造样本,即完成训练样本数据平衡。

45、进一步的,为了便于临床使用,所述预测方法还包括步骤8,所述步骤8运用步骤6选择的基于随机森林的病理性卵巢衰老患者妊娠纵向预测模型,搭建轨迹分组预测以及妊娠概率预测网站。

46、与现有技术相比,本发明的有益效果是:

47、本发明通过构建一个妊娠预测模型,专门用于评估病理性卵巢衰老患者的临床妊娠概率。相较于现有的基于3d-us预测妊娠结局或建立ivf/icsi患者卵巢反应预测模型等方式,本发明的方法从样本筛选到模型的外部验证,所有步骤都是基于病理性卵巢衰老患者这一人群,而且以前瞻性队列人群作为建模基础,并创新性的纳入fsh这一指标的动态变化轨迹及纵向测量值,使得模型能够更精准的预测患者的妊娠概率。本发明不仅有助于帮助患者制定生育决策,降低医疗费用,同时还能指导临床医生进行个性化生育咨询、优化助孕治疗方案,提高临床妊娠成功率,帮助患者实现生育愿望。


技术特征:

1.一种病理性卵巢衰老患者妊娠预测方法,其特征在于:所述方法包括以下步骤:

2.根据权利要求1所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:在步骤1.2中,所述预设标准为与女性生育力及妊娠相关的筛查因素。

3.根据权利要求1所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:在步骤2.1中,将样本特征进行转换和编码,以使其符合训练模型的输入,包括将偏态分布的fsh、tsh、alt、lh和ggt转换为正态分布,计算fsh在整个随访期间的极差,即患者随访期间fsh最大测量值-fsh最小测量值,和随访期间的变化值,即患者随访期间最后一次fsh测量值-第一次fsh测量值;

4.根据权利要求1所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:步骤4具体包括:

5.根据权利要求1所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:所述步骤5中,具体模型构建如下:

6.根据权利要求5所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:在步骤5.1中,以步骤2处理后以及步骤3筛选后得到的是否绝经、基线fsh水平、基线lh水平、基线tsh水平、基线alt水平、基线ggt水平、基线glo水平、基线afc构建基线模型训练集,在基线模型训练集的基础上进一步纳入fsh轨迹亚组、fsh极差以及fsh变化值作为纵向模型训练集;

7.根据权利要求1所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:步骤6具体包括:

8.根据权利要求5所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:在步骤5.2中,采用rose算法对训练集的训练样本进行数据平衡具体包括:

9.根据权利要求1所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:所述预测方法还包括步骤8,所述步骤8为运用步骤6选择的基于随机森林的病理性卵巢衰老患者妊娠纵向预测模型,搭建轨迹分组预测以及妊娠概率预测网站。

10.根据权利要求2所述的一种病理性卵巢衰老患者妊娠预测方法,其特征在于:所述筛查因素变量包括患者的年龄、身体质量指数bmi、初潮年龄、受教育水平、怀孕次数、分娩次数、是否闭经、染色体有无异常、fsh、黄体生成素lh、雌二醇e2、睾酮t、抗苗勒管激素amh、窦卵泡计数afc、促甲状腺激素tsh、谷丙转氨酶alt、谷草转氨酶ast、谷氨酰转肽酶ggt、碱性磷酸酶alp、总蛋白tp、白蛋白alb、球蛋白glo、总胆固醇tc、甘油三酯tg、高密度脂蛋白hdl、低密度脂蛋白ldl,还包括患者随访期间纵向fsh测量值。


技术总结
本发明涉及妊娠预测技术领域,公开了一种病理性卵巢衰老患者妊娠预测方法。所述方法包括以下步骤:收集样本数据,获得样本特征并对其转换插补;对形成的完整样本使用Boruta算法筛选候选预测变量,基于潜在类别混合增长模型建模获得FSH轨迹亚组;基于筛选变量子集、FSH轨迹亚组和FSH纵向测量值分别形成基线和纵向训练样本;在两个训练样本上构建基于随机森林模型的病理性卵巢衰老患者妊娠预测模型,进行预测;随后在测试集验证比较确定最优模型;并在外部样本使用最优模型进行妊娠预测并评价模型预测效果。本发明的有益效果是通过妊娠预测模型评估病理性卵巢衰老患者临床妊娠概率,指导医生优化助孕治疗决策,提升患者妊娠成功率。

技术研发人员:焦雪,秦莹莹,陈子江,张涛,孟婷婷,吴秉杰,张江涛,刘冉
受保护的技术使用者:山东大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)