本发明涉及人工智能和生物学领域,特别是涉及一种基于图同构网络的化合物毒性多任务学习方法。
背景技术:
1、毒性对于理解化合物性质至关重要,特别是在药物设计的早期阶段。毒性作用因人而异,甚至随环境的变化而不同。同时,引起毒性作用的因素取决于不同的个体基因表达、环境等。计算毒理学采用计算方法来建立毒性因素和毒性效应之间的关系,在促进对化合物毒性的全面理解方面具有潜在的关键作用。它不仅有助于加快药物开发过程,而且还大大节省了实验资源。由于毒性作用的多样性和复杂性,计算化合物毒性任务成为一个挑战。在计算毒理学中有很多任务,其中毒性预测和分子性质预测是研究最多的。近年来,已有的毒性预测模型有基于机器学习的和基于深度学习的,虽然取得了一些进展,但是数据集单一,模型在准确性和通用性仍然有待提高。此外,多任务模型大多采用基于图或基于指纹的设计。然而,这两种化合物表示方法在表示化合物信息方面各有优势。我们充分利用化合物的这两种模态。提出了一种基于图同构网络的化合物毒性多任务学习方法,基于指纹图谱和化合物分子图谱,结合了多模态表征学习模型来获得化合物的综合表征。采用双通道结构,独立学习指纹表示和分子图表示。随后,两个前馈神经网络利用学习到的多模态表征进行多任务学习,包括化合物毒性分类和多种化合物毒性类别分类。
技术实现思路
1、本发明的目的在于,提供一种基于图同构网络的化合物毒性多任务学习方法,结果表明模型始终由于其他代表性模型,消融实验验证了多模态表征模块和多任务模块的有效性。
2、本发明提供一种基于图同构网络的化合物毒性多任务学习方法,所述步骤如下:
3、步骤s1:数据集准备
4、构建化合物毒性多任务学习数据集,将数据集划分为训练集和测试集,输入到模型中进行训练和测试。
5、步骤s2:分子图处理
6、将smiles转化为分子图,并利用rdkit提取原子特征,原子特征作为节点属性,将化合物的分子图用于图表示学习。利用图同构网络从属性分子图中学习节点表示。
7、步骤s3:分子指纹处理
8、将化合物smiles转化为三种不同形式互补的分子指纹描述符,包括maccs指纹,pharmacophore erg指纹和pubchem指纹。将三种指纹拼接,利用多层感知机学习最终的化合物序列表示向量。
9、步骤s4:定义模型
10、定义化合物毒性多任务学习模型,设置训练参数。
11、步骤s5:模型预测
12、将训练集输入到上述模型进行训练,得到预测模型;将测试集输入到预测模型,得到预测结果,并对结果进行分析。
1.一种基于图同构网络的化合物毒性多任务学习方法,其特点在于,包括如下步骤:
2.如权利要求1所述的基于图同构网络的化合物毒性多任务学习方法,其特征在于:步骤s2中,将smiles预处理为分子图,其中原子表示为节点,原子之间的键表示为边,原子特征作为节点属性。邻接矩阵表示分子图中的两个原子是否有边。利用图同构网络从属性分子图中学习节点表示,模型有三个图同构卷积层组成,每个卷积层后使用整流线性单元激活函数和一个批量归一化层,然后加入全局最大池化层对最终节点特征进行汇总,生成整个图的特征表示。每个图同构卷积层聚集节点本身及其邻居的信息,经过三层图同构卷积,得到带有三跳网络邻域结构信息的节点表示。
3.如权利要求1所述的基于图同构网络的化合物毒性多任务学习方法,其特征在于:步骤s3中,将化合物smiles转化为三种不同形式的分子指纹并将三种指纹拼接,得到一个1489维的化合物表示向量,利用一个由两个线性层和两个激活函数组成的多层感知机来学习这个化合物表示向量,多层感知机的输入层、隐藏层和输出层的神经元数量分别为1489、128和256。
4.如权利要求1所述的基于图同构网络的化合物毒性多任务学习方法,其特征在于:步骤s4中,将步骤s2中学习到的分子图特征向量与步骤s3中学习到的指纹向量拼接获得多模态表示学习向量,利用由两个前馈神经网络组成的化合物毒性多任务模型,对化合物分别进行毒性分类和化合物类别分类。
