用于药物反应数值条件引导的分子生成方法、设备及产品

xiaoxiao4月前  23


本发明属于计算机科学、生物化学和深度学习,涉及一种分子生成方法、设备及产品,具体涉及一种用于药物反应数值条件引导的分子生成方法、设备及产品。


背景技术:

1、药物反应预测(drug reaction prediction,drp)是药物发现中至关重要的阶段,其评估的最重要指标是半最大抑制浓度(half-maximal inhibitory concentration,ic50),drp在药物发现中至关重要。它评估药物在细胞系中的反应,以帮助筛选潜在的具有药理活性的化合物。然而,在药物发现中的挑战源自于庞大且离散的化学分子搜索空间。具体而言,药物样化合物的可能结构规模范围从1023到1060,但其中只有很小一部分(约占10%)是治疗上相关的。传统的药物发现技术通常涉及筛选大型分子库,导致在特定细胞系中找到具有足够疗效的分子的概率较低。

2、此外,分子质量直接影响药物筛选效率和drp任务的进展。通常,高质量的分子表现出增强的药理性能,更有可能成为有效的药物候选化合物。因此,生成高质量的分子已成为当前药物发现研究的核心问题。随着人工智能技术的发展,提出了各种分子生成方法,包括基于序列的生成模型、变分自动编码器、归一化流以及扩散等。现有的分子生成方法可以生成具有特定稳定性和新颖性的分子,为药物发现提供了更大的虚拟筛选分子库。

3、为满足基于drp的筛选任务的需求,基于扩散的条件生成方法因其在生成特定分子的能力同时保持结果多样性和新颖性而受到了广泛关注。如图1所示,传统的扩散模型可以在某些条件下生成分子,其中大部分是基于分类器的。然而,药物的特征大多是连续和可量化的。由分类器引导的采样空间范围(即药物和细胞系之间是否存在反应)相对较大,这阻碍了其进行精确的分子特征空间采样能力。


技术实现思路

1、本发明的目的在解决现有技术中的药物反应数值条件引导的分子方法,介绍了一种无回归引导的分子生成方法,以确保在更有效的空间内进行采样,从而支持drp任务。

2、本发明的方法采用的技术方案是:一种用于药物反应数值条件引导的分子生成方法,采用无回归器指导的分子生成方法,结合扩散模型的分数估计和基于数字标签的回归控制器模型的梯度,在有效的空间内进行采样,支持药物反应预测;其中,为有效地映射药物和细胞系之间的回归标签,通过常识数字知识图cn-kg,约束文本表示的顺序。

3、作为优选,所述扩散模型的分数估计,是采用双分支受控噪声预测模型dbcontrol模型进行分数估计;

4、所述dbcontrol模型,由两个并联设计的分支和多层感知机组成,分别处理图结构向量g和条件输入c;

5、第一分支包括三个串联设置的图神经网络层,其中第二个图神经网络层、第三个图神经网络层分别接收来自第二分支中第二零卷积层、第三零卷积层的向量嵌入;

6、第一分支包括顺序连接的时间嵌入层、第一零卷积层、第一图卷积层、第二零卷积层、第二图卷积层、第三零卷积层、第三图卷积层和第四零卷积层;第一零卷积层接受输入图结构向量g,第二以及第三零卷积层输出向量至另一分支的图编码器模块实现条件控制,第四零卷积层输出与第一分支处理后的输出g经过多层感知机得到输出y。

7、作为优选,所述dbcontrol模型,是训练好的模型;训练中,分别进行无条件和有条件的混合训练;两个cnn网络分别记为b1和b2,在无条件混合训练阶段,b1参与无条件分子训练,而b2则不参与;在有条件混合训练阶段,b2从b1获取权重以编码条件特征,其中,b1和b2的权重同时优化。

8、作为优选,所述基于数字标签的回归控制器模型,包括药物分子编码器、细胞系编码器、融合编码器、数字编码器、和文本编码器;

9、所述药物分子编码器,包括两个串联设置的两个transformer模块和一个图卷积网络模块,两个transformer模块均采用一个注意力头,以及两个全连接层和对应的激活层,用于得到药物分子总体特征;

10、所述细胞系编码器,包括两个串联设置的两个transformer模块,采用两个注意力头,以及一个全连接层,用于得到细胞系总体特征;

11、所述融合编码器,包括将药物和细胞系特征相连接,以及三个全连接层和对应的激活层,用于得到融合后的药物-细胞系特征;

12、所述数字编码器和文本编码器,针对不同的下游任务有不同的设计侧重,最终将数字与文本向量投影到最终的特征空间;

13、所述基于数字标签的回归控制器模型以分子与细胞系的自然语言描述作为文本输入,分子和细胞系的常规表示作为常规输入,然后,使用模板“药物与[name of the cellline]的响应值是[ic50]”生成自然语言描述;其中,[name of the cell line]表示细胞系的名称,[ic50]表示特定的ic50分数,ic50代表半最大抑制浓度,用于衡量药物的生物活性;其中,ic50分数是一个具体的数字,使用文本来描述值;

14、其中,使用具有常识数值知识图cn-kg来增强数字文本的有序表示;cn-kg具有自然数实体,表示为其中表示自然数集;这些实体通过一个称为“小于”的单一关系类型l进行连接,以确保捕捉数字传递属性。

15、作为优选,所述基于数字标签的回归控制器模型,是训练好的模型;

16、训练中,使用超球体对特征向量进行了归一化处理和然后,计算出ui和vj之间的相似度为最后,通过监督对比损失函数对两个分支之间的对比学习进行了优化;

17、

18、其中,药物和细胞系表示方法,常规表示分支用φf表示,基于transformer的文本描述分支用φcap表示;drug表示药物分子的特征向量,cell表示细胞系特征向量,xdrug表示药物分子文本特征,xcell表示细胞系文本特征,xnumber表示药物与细胞系反应数值文本特征;n是批量大小,σ是用于缩放逻辑值的温度值;

19、训练中,使用基于边界的损失函数进行cn-kg嵌入,目标是最小化实体集e和单一关系l之间的嵌入向量的差异;

20、

21、其中,[x]+表示x的正部分,γ>0是一个边界超参数;集合s由三元组(h,1,t)组成,其中h,t∈e,l∈l;d(·)为相似度度量;1由填充为一的矩阵表示,并且其参数不会被训练

22、所述基于数字标签的回归控制器模型的目标是联合优化监督对比损失函数和基于边界的损失函数

23、

24、其中,α代表了两个损失函数的联合优化权重调整因子。

25、作为优选,所述采用无回归器指导的分子生成方法,结合扩散模型的分数估计和基于数字标签的回归控制器模型的梯度,在有效的空间内进行采样,支持药物反应预测;

26、对于时刻t,采用两个采用双分支受控噪声预测模型dbcontrol模型bφ=(bφ,1,bφ,2)和bθ=(bθ,1,bθ,2),用于分别估计得分和梯度表达如下:

27、

28、其中,xt表示原子属性特征x0在时刻t的状态,at表示邻接矩阵在时刻t的状态,ct表示条件信息在时刻t的状态;xl,al,cl分别表示gnn层数量为l时的属性特征、邻接矩阵和条件信息;分别代表gnn层数量为l时计算邻接矩阵a得分的dbcontrol中的两个分支,分别代表gnn层数量为l时计算原子属性特征矩阵x得分的dbcontrol中的两个分支;δ(t)代表时刻t时的噪声系数;z(·)和分别代表零卷积层,当l=1时,c l=0,l表示gnn层的数量;

29、采样时,从条件分布q0(g|c)中进行采样,期望值传递到样本g0~pdata和gt~p0t(gt|g0,c);其中,过度概率p0t(gt|g0,c)=p0t(xt|x0,c)p0t(at|a0,c);其中,g0表示样本的初始状态,gt表示t时刻样本的状态;c表示条件信息,p0t表示原始数据g0到时刻t的数据gt的转移概率;

30、p0t(gt| g0,c)=p0t(xt|x0,c)p0t(at|a0,c);

31、通过广义得分匹配的目标来估计得分,如下所示:

32、

33、其中,λ1(t)和λ2(t)是正权重函数,分别表示在初始状态和给定初始状态下的期望值;bθ,t表示t时刻计算原子属性x得分的dbcontrol分支;表示对原子属性和邻接矩阵的梯度运算;期望使用蒙特卡洛估计与样本(t,c,g0,gt)计算;

34、抽样时使用条件和无条件线性组合来计算得分估计:

35、

36、其中,用于估计真实评分和的两个dbcontrol模型分别简记为εθ(zλ,c);在条件混合训练阶段,当无条件数据作为输入时,c被标记为空集,表示为w是条件控制强度参数,w>0,w=0表示无条件生成;在抽样时,使用代替εθ(zλ,c),从而得到服从分布中的近似样本;其中,zλ=αλg+σλε,z={zλ|λ∈[λmin,λmax]}表示超参数x表示样本的原子属性特征矩阵,a表示样本的邻接矩阵;表示均值为0、方差为,的正态分布;αλ、σλ为超参数,用于控制噪声对样本的影响程度;

37、本发明的设备采用的技术方案是:一种用于药物反应数值条件引导的分子生成设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述用于药物反应数值条件引导的分子生成方法。

38、本发明的产品采用的技术方案是:一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述用于药物反应数值条件引导的分子生成方法。

39、相对于现有技术,本发明的有益效果包括:

40、(1)本发明提出了无回归引导的分子生成方法,以确保在更有效的空间内进行采样。无回归引导是一种基于分数的扩散方案,它将一个基于数量标签的回归控制模型纳入到一个具有条件超参数的随机微分方程(stochastic differentialequation,sdep中。在前向扩散过程中,本发明从原始数据开始逐步添加噪声,使其接近随机噪声分布。在这个过程中,将条件信息纳入其中,以确保生成过程的每一步都考虑这些条件。在反向去噪过程中,从完全噪声的数据开始,通过逐步去噪生成符合条件的分子。在这个过程中,条件信息将用于指导每一步的去噪操作。本发明使用一个基于随机微分方程的得分函数,这个得分函数根据条件信息来估计当前数据的最优去噪方向。得分函数会在每一步调整数据,使其逐步符合预定的条件标签。在每一步去噪时,根据当前数据和条件信息,计算数据的调整方向,使生成的数据逐步符合这些条件。

41、(2)为了提升噪声预测性能,本发明引入了双分支受控噪声预测(dual-branchcontrolled noise prediction,dbcontrol)模型进行分数估计。该控制模型由两个基于图神经网络(graph neural network,gnn)的分支组成,分别进行无条件和有条件的混合训练。实验结果表明,此方法在drp任务的条件分子图生成方面优于最先进的基线方法。


技术特征:

1.一种用于药物反应数值条件引导的分子生成方法,其特征在于:采用无回归器指导的分子生成方法,结合扩散模型的分数估计和基于数字标签的回归控制器模型的梯度,在有效的空间内进行采样,支持药物反应预测;其中,为有效地映射药物和细胞系之间的回归标签,通过常识数字知识图cn-kg,约束文本表示的顺序。

2.根据权利要求1所述的用于药物反应数值条件引导的分子生成方法,其特征在于:所述扩散模型的分数估计,是采用双分支受控噪声预测模型dbcontrol模型进行分数估计;

3.根据权利要求2所述的用于药物反应数值条件引导的分子生成方法,其特征在于:所述dbcontrol模型,是训练好的模型;训练中,分别进行无条件和有条件的混合训练;两个cnn网络分别记为b1和b2,在无条件混合训练阶段,b1参与无条件分子训练,而b2则不参与;在有条件混合训练阶段,b2从b1获取权重以编码条件特征,其中,b1和b2的权重同时优化。

4.根据权利要求1所述的用于药物反应数值条件引导的分子生成方法,其特征在于:所述基于数字标签的回归控制器模型,包括药物分子编码器、细胞系编码器、融合编码器、数字编码器和文本编码器;

5.根据权利要求1所述的用于药物反应数值条件引导的分子生成方法,其特征在于:所述基于数字标签的回归控制器模型,是训练好的模型;

6.根据权利要求1-5任一项所述的用于药物反应数值条件引导的分子生成方法,其特征在于:所述采用无回归器指导的分子生成方法,结合扩散模型的分数估计和基于数字标签的回归控制器模型的梯度,在有效的空间内进行采样,支持药物反应预测;

7.一种用于药物反应数值条件引导的分子生成设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述用于药物反应数值条件引导的分子生成方法。

8.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用于药物反应数值条件引导的分子生成方法。


技术总结
本发明公开了一种用于药物反应数值条件引导的分子生成方法、设备及产品,采用无回归引导的分子生成方法,以确保在更有效的空间内进行抽样,支持DRP任务。无回归引导将DBControl模型的分数估计与基于数字标签的回归控制器模型的梯度结合起来。回归控制器模型将目标IC<subgt;50</subgt;和细胞系转换为受CN‑KG约束的文本,有效地映射了药物和细胞系之间的响应值。此外,为了增强噪声预测性能,本发明引入了DBControl模型进行分数估计。在DRP任务期间对真实世界数据集的实验结果表明,本发明的方法在新药发现方面非常有效,为药物发现提供了一种新颖高效的解决方案。

技术研发人员:胡文斌,李坤
受保护的技术使用者:武汉大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)