一种基于真-伪三连体神经网络的本体匹配方法

xiaoxiao10月前  77

1.本发明涉及机器学习的本体匹配领域,尤其是涉及一种基于真-伪三连体神经网络的本体匹配方法。
背景技术
::2.本体是概念化的明确的规范说明1.,即对某个领域中存在的实体以及它们之间关系的正式和规范化的描述。本体能够使得基于知识的智能系统自动、准确地理解彼此数据的真实含义,在语义层面上实现系统间的交互与协作,因而被广泛地应用在语义标注、数据格式标准化、知识表示和共享等应用领域。为了满足巨大的应用需求,各领域本体工程师近年来开发了大量的本体,如汽轮发电机组本体、传感器本体等。3.然而,由于本体工程师不同的知识背景,在描述同领域相同实体时存在差异。例如在传感器本体中某类名称为“input”,而在另一个本体中该类则被称为“sensorinput”,这就导致了本体的异质问题,其严重地阻碍了基于本体的智能系统之间的交互与协作。4.本体匹配是目前解决本体异质问题的最有效的方法,相似度度量技术是本体匹配方法中核心技术,用来计算实体间的相似度值。为了应对不同的异质情况,基于术语的和基于语义的相似度度量技术分别应用而生。n-gram2.和cosine3.是基于术语的相似度度量技术中代表性技术,分别应用待匹配实体的子字符串和向量实现相似度度量,其中cosine能够对长文本具有突出的度量效果;simwp4.常将wordnet5.作为外部知识库,从语义的角度进行相似度度量,通过使用外部知识库常可以取得良好的匹配结果。5.然而由于本体异质情况的复杂性,以及对高质量语义交互的需求,仅在匹配过程中使用相似度度量技术已无法满足实际要求。基于机器学习的本体匹配方法可以通过字符嵌入技术确定待匹配实体的语义特征,进而判断本体中实体间的对应关系,能够有效解决本体匹配的异质问题。6.bento等人6.将本体匹配看做二分类问题,将参考对齐作为输入,采用卷积神经网络(convolutionalneuralnetworks,cnn)进行语义学习,以机器学习代替相似度度量技术,提高了时间性能,方法具有良好的普适性。7.jiang等人7.提出了一种基于长短期记忆网络(longshort-termmemory,lstm)的本体匹配方法,通过使用实体的结构和语义信息来匹配本体,实现了更好的匹配效果。8.iyer等人8.为了使得字符嵌入更能体现实体的语义及其结构信息,提出了一种基于监督学习的神经网络来匹配本体,该方法利用双重注意力来生成实体的上下文表示,并在最先进的相似度度量方法中表现出卓越的性能。然而,大多数基于机器学习的本体匹配方法都需要使用参考对齐,这在实际的匹配任务中往往是不能满足的。9.针对该问题,xue等人9.提出基于孪生神经网络的本体匹配技术(siameseneuralnetworkbasedontologymatchingtechnique,snn-om),通过组合多种相似度度量技术结合逻辑规则构建训练数据集,并采用孪生网络利用两个共享参数的网络结构学习同类实体的语义特征,实现了较好的匹配效果。10.然而现有的基于机器学习的本体匹配技术存在因无法对本体的语义信息进行全面挖掘导致匹配精度不高的问题。如snn-om仅使用了实体的label注释属性,但面对高度异质本体时(包含术语异质、语言学异质、结构异质),label可能因为乱码致使神经网络对其所提取的语义特征无法表示实体的真实语义,当对语义特征进行相似度计算时,将造成匹配精度的降低。技术实现要素:11.针对现有技术存在的上述问题,本技术提供了一种基于真-伪三连体神经网络的本体匹配方法,首次提出一个新概念:真-伪三连体神经网络(genunine-pseudotripletneuralnetwork,gp-tnn),通过内部子孪生神经网络和子伪神经网络实现同时对同类注释属性和异类注释属性的语义信息学习,能够对本体的语义信息进行更为全面的挖掘,使得学习到的特征向量更能反映实体本质的语义特征,进而提高本体匹配的精度,为解决基于机器学习的本体匹配问题提供了新的思路。12.本发明的技术方案如下:13.一种基于真-伪三连体神经网络的本体匹配方法,包括以下步骤:14.s1:给定待匹配本体,从待匹配本体中提取各自具有代表性的实体,得到核心实体集,用于构建训练数据集;15.s2:构建训练数据集;16.s3:对训练数据集进行字符嵌入,将字符转化为可供计算机识别的字符向量;17.s4:将编码好的字符向量送入真-伪三连体神经网络中进行模型训练;所述真-伪三连体神经网络采用两个循环神经网络rnn作为孪生神经网络snn中的子网络结构,并将这两个循环神经网络rnn中的一个与长短期记忆网络lstm一起作为伪孪生神经网络psnn的子网络结构;18.s5:将验证数据送入真-伪三连体神经网络中进行匹配;19.s6:对匹配结果进行评估,验证真-伪三连体神经网络模型的有效性。20.进一步的,步骤s1的具体步骤如下:21.s1-1:计算本体中实体的度中心度;所述度中心度是判定网络中实体重要性的指标,是对实体重要性的量化,一个实体的度中心度越高,该实体在本体中就越具有代表性;22.所述度中心度的计算方法为实体的出度与入度之和;所述实体的出度和入度分别指在本体的子父实体关系网络中,该实体的出边条数和入边条数;23.s1-2:对实体的度中心度的计算结果进行降序排序,选取排在前30%的实体作为核心实体。24.进一步的,步骤s2的具体步骤如下:25.s2-1:确定核心实体之间的匹配关系,方法如下:26.给定待匹配本体o1、o2和阈值t,分别任取o1和o2的同类待匹配核心实体e1和e2组成待匹配实体对,并分别取待匹配实体对的注释属性label1和label2、comment1和comment2,采用n-gram技术计算e1和e2的相似度值:s1=n-gram(label1,label2);27.如果s1>t,那么e1和e2的相似度值即为s1,否则采用simwp技术计算e1和e2的相似度值:28.s2=simwp(label1,label2)29.如果s2>t,那么e1和e2的相似度值即为s2,否则采用cosine技术计算c1和c2的相似度值:30.s3=cosine(comment1,comment2)31.如果s3>t,那么e1和e2的相似度值即为s3,否则e1和e2不匹配;32.s2-2:构建训练数据集,方法如下:33.对待匹配本体o1和o2中的所有核心实体作笛卡尔积,并按照步骤s2-1的方法计算笛卡尔积中每个核心实体对的相似度值,相似度值大于阈值t的核心实体对将选作训练数据的正样本;作为约束,通过随机赋值的方法,将正样本中的一个实体更换为该实体所在本体的核心实体中的其它实体,进而完成负样本的构建,负样本数量和正样本数量保持一致;最终随机抽取样本数量的80%作为训练集,20%作为验证集。34.进一步的,步骤s4的具体步骤如下:35.s4-1:计算两个特征向量的距离:[0036][0037]其中||·||表示欧几里得范数,dis(f1,f2)∈[0,1);[0038]s4-2:计算两个实体e1和e2的相似度值:[0039]sim(e1,e2)=1-dis(f1,f2)[0040]其中sim(e1,e2)∈(0,1];[0041]s4-3:计算损失,损失函数如下:[0042][0043]其中,d′i和d″i分别是通过snn和pnn的待匹配实体的特征向量间的距离;n表示样本组的数量;所述样本组可分为两类,第一类由两个待匹配实体各自的label和第二实体的comment组成(即label2、label1和comment2),为了使模型能够从不同的同类及异类注释属性学习语义信息,第二类样本组由两个待匹配实体各自的comment和第二实体的label组成(即comment2、comment1和label2);y表示样本的种类,y=1时表示正样本,y=0时表示负样本;[0044]s4-4:根据损失函数的计算结果调整模型参数;为了最小化损失函数,rnn和lstm通过反向传播和梯度下降,实现相关参数的优化调整;[0045]s4-5:给定训练轮次大小,当完成相应的轮次训练后就结束模型训练。[0046]进一步的,步骤s5的具体步骤如下:[0047]s5-1:首先从各待匹配实体对中提取两组输入——和以及和其中上标表示组号,下标表示该注释属性是来自待匹配本体o1或o2;其次对输入进行字符嵌入;然后将其喂入gp-tnn中,实现将输入映射到新的空间,形成输入在新的空间中的特征向量表示;最后通过sim(e1,e2)相似度度量技术对相应特征向量进行相似度计算;一对待匹配实体的两组输入分别通过snn和pnn共将得到4个相似度值,将最大值作为待匹配实体对的最终相似度值;[0048]s5-2:给定阈值,对各待匹配实体对的相似度值进行过滤,得到匹配结果。[0049]进一步的,步骤s6的具体步骤如下:[0050]s6-1:计算查全率,所述查全率是指发现的正确匹配对占正确匹配对的比例:[0051][0052]其中r是参考对齐,a是经过某本体匹配方法所得到的匹配结果;[0053]s6-2:计算查准率,所述查准率是指发现的正确匹配对占发现匹配对的比例:[0054][0055]s6-3:通过组合评价指标f-measure来评估本体匹配结果的质量:[0056][0057]其中a∈[0,1]是查全率和查准率的相对权重。[0058]本发明有益的技术效果在于:[0059]提出一种基于gp-tnn的本体匹配方法,能够同时通过snn和pnn对本体中的同类以及异类注释属性进行语义学习,得到的语义特征更能全面表示实体的语义信息,进而能够有效促进本体匹配结果质量的提高,从而很好地解决了现有的基于机器学习的本体匹配方法无法全面学习本体的语义信息、导致得到的语义特征并不能有效代表实体的语义信息、进而造成匹配结果的质量无法满足实际基于本体的智能系统间交互要求的问题。附图说明[0060]图1是基于真-伪三连体神经网络的本体匹配技术框架;[0061]图1中,部件名称与附图编号的对应关系为:o1和o2表示待匹配本体;entity1和entity2分别为来自o1和o2的同类实体;label和comment的上标1和2表示两种类型的样本;label1和label2分别是entity1和entity2的标签;comment1和comment2分别是entity1和entity2的释义;vector1、vector2和vector3分别是label1/comment1、label2/comment2和comment2/label2通过字符嵌入后的词向量;feature1、feature2和feature3分别是vector1、vector2和vector3通过gp-tnn所得到的的特征向量;[0062]图2是传感器本体实体关系图;[0063]图2中,部件名称与附图编号的对应关系为:圆圈节点为类节点,“is_a”用于子父类之间的连接,表示它们的从属关系;其它连接两个类节点的表示关系属性,为两个类规定关系;数据属性则连接一个类和其相关属性值(方框内容),表示为该类赋值。具体实施方式[0064]下面结合附图和实施例,对本发明进行具体描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0065]如图1所示,实施例包括以下步骤:[0066]s1:给定待匹配本体,从待匹配本体中提取各自具有代表性的实体,得到核心实体集,用于构建训练数据集。具体步骤如下:[0067]s1-1:计算本体中实体的度中心度。所述度中心度(degreecentrality,dc)是判定网络中实体重要性的指标,是对实体重要性的量化,一个实体的度中心度dc越高,该实体在本体中就越具有代表性。为了能够得到有效的训练数据,需要提取待匹配本体中dc较高的核心实体用于训练集的构建。[0068]所述度中心度dc的计算方法为实体的出度与入度之和;所述实体的出度和入度分别指在本体的子父实体关系网络中,该实体的出边条数和入边条数。[0069]s1-2:对实体的度中心度dc的计算结果进行降序排序,选取排在前30%的实体作为核心实体。[0070]图2展示了传感器本体的实体关系图,图中class与class之间采用“is_a”进行连接,表示两个class之间的父子关系。其中,“device”的出度为1,入度为2,dc为3;“sensor”的出度为1,入度为1,dc为2,所以“device”得dc要高于“sensor”,即“device”比“sensor”更为重要,更偏向于被选为核心实体。[0071]s2:构建训练数据集。为了能够为模型训练提供高质量的数据,本发明采用了一种新的混合相似度度量方法,采用多种相似度度量技术来解决本体中多种异构问题。本发明仅针对核心实体的相似度计算,计算量大幅减少。但为了防止面对超大规模本体时导致核心实体的匹配工作所带来的巨大计算量,本发明采用次序匹配策略,即按照由上至下的顺序采用不同的相似度度量技术度量实体属性的相似度,当某相似度度量技术确定了实体的匹配关系时,不再进行接下来的相似度计算工作。具体步骤如下:[0072]s2-1:确定核心实体之间的匹配关系,方法如下:[0073]给定待匹配本体o1、o2和阈值t,分别任取o1和o2的同类待匹配核心实体e1和e2组成待匹配实体对,并分别取待匹配实体对的注释属性label1和label2、comment1和comment2,采用n-gram技术计算e1和e2的相似度值:s1=n-gram(label1,label2);[0074]如果s1>t,那么e1和e2的相似度值即为s1,否则采用simwp技术计算e1和e2的相似度值:[0075]s2=simwp(label1,label2)[0076]如果s2>t,那么e1和e2的相似度值即为s2,否则采用cosine技术计算e1和e2的相似度值:[0077]s3=cosine(comment1,comment2)[0078]如果s3>t,那么e1和e2的相似度值即为s3,否则e1和e2不匹配。[0079]s2-2:构建训练数据集,方法如下:[0080]对待匹配本体o1和o2中的所有核心实体作笛卡尔积,并按照s2-1的方法计算笛卡尔积中每个核心实体对的相似度值,相似度值大于阈值t的核心实体对将选作训练数据的正样本。作为约束,通过随机赋值的方法,将正样本中的一个实体更换为该实体所在本体的核心实体中的其它实体,进而完成负样本的构建,负样本数量和正样本数量保持一致。最终随机抽取样本数量的80%作为训练集,20%作为验证集。[0081]s3:对训练数据集进行字符嵌入,将字符转化为可供计算机识别的字符向量。[0082]gp-tnn通过提取输入实体的语义特征并进行相似度计算以此确定待匹配实体的相似关系。为了能够让计算机识别输入的字符,需要将字符编码为字符向量,为了能够使得字符向量富含语义信息,选择字符嵌入(https://github.com/minimaxir/char-embeddings)。该字符嵌入由glove840b/300d词向量(https://nlp.stanford.edu/projects/glove)经深度学习训练而来,能够有效地对非常见的实体进行字符向量转换,弥补了glove840b/300d词向量的不足,通过字符嵌入编码后,语义相似实体的字符向量在新的维度空间中更加接近。经过字符嵌入,gp-tnn将其中原有的语义信息同输入实体中的特定语义信息相结合,并进一步提取语义特征,以实现对待匹配实体的相似性判断。[0083]s4:将编码好的字符向量送入真-伪三连体神经网络中进行模型训练。所述真-伪三连体神经网络采用两个循环神经网络rnn作为孪生神经网络snn中的子网络结构,并将这两个循环神经网络rnn中的一个与长短期记忆网络lstm一起作为伪孪生神经网络psnn的子网络结构。[0084]gp-tnn是孪生神经网络(siameseneuralnetwork,snn)的拓展,gp-tnn将输入喂入内部网络,内部网络将输入映射到新的空间,形成输入在新的空间中的特征向量表示,通过对特征向量的相似度计算,评估输入间的相似程度。三连体神经网络同时包含snn和伪孪生神经网络(pseudo-siameseneuralnetwork,psnn),旨在同时从本体中的同类属性和异类属性确定待匹配实体的相似关系。[0085]其中snn包含两个相同且共享参数的子网络结构,常被用来计算同类输入的相似关系,本发明中采用两个循环神经网络(recurrentneuralnetwork,rnn)作为snn中的子网络结构。因为本体中的label和comment字符长度较短,采用rnn能够有效学习实体前后语义信息,值得一提的是,因为rnn需要学习的参数较少,它能够在循环过程中快速地捕获待匹配实体间的关系与语义信息。本发明采用rnn和长短期记忆网络(longshort-termmemory,lstm)作为psnn的子网络结构,lstm通过门控的方式控制长时间记忆和短时间记忆的比重,进而能够有效地在时间线上对关键的语义信息进行重点关注,以此提高模型性能。在gp-tnn中,snn和psnn公用同一个lstm,以此实现真-伪三连体网络结构。[0086]gp-tnn的模型训练过程如下:[0087]s4-1:计算两个特征向量的距离:[0088][0089]其中||·||表示欧几里得范数,dis(f1,f2)∈[0,1);[0090]s4-2:计算两个实体e1和e2的相似度值:[0091]sim(e1,e2)=1-dis(f1,f2)[0092]其中sim(e1,e2)∈(0,1];[0093]s4-3:计算损失,损失函数如下:[0094][0095]其中,d′i和d″i分别是通过snn和pnn的待匹配实体的特征向量间的距离;n表示样本组的数量;所述样本组可分为两类,第一类由两个待匹配实体各自的label和第二实体的comment组成(即label2、label1和comment2),为了使模型能够从不同的同类及异类注释属性学习语义信息,第二类样本组由两个待匹配实体各自的comment和第二实体的label组成(即comment2、comment1和label2);y表示样本的种类,y=1时表示正样本,y=0时表示负样本。当输入的样本为相似实体即正样本时,损失函数仅剩下那么原本相似的实体,如果在特征空间中待匹配概念间的语义特征向量相距较大,则说明当前的模型不好,因此加大损失。当输入的样本为相似实体即负样本时,损失函数只剩下那么原本不相似的实体,如果在特征空间中距离反而较小,损失值将变大,这正符合损失要求。[0096]s4-4:根据损失函数的计算结果调整模型参数;为了最小化损失函数,lstm和rnn通过反向传播和梯度下降,实现相关参数的优化调整。[0097]s4-5:给定训练轮次大小,当完成相应的轮次训练后就结束模型训练。[0098]s5:将验证数据送入真-伪三连体神经网络中进行匹配,具体步骤如下:[0099]s5-1:首先从各待匹配实体对中提取两组输入——和以及和其中上标表示组号,下标表示该注释属性是来自待匹配本体o1或o2;其次对输入进行字符嵌入;然后将其喂入gp-tnn中,实现将输入映射到新的空间,形成输入在新的空间中的特征向量表示;最后通过sim(e1,e2)相似度度量技术对相应特征向量进行相似度计算。一对待匹配实体的两组输入分别通过snn和pnn共将得到4个相似度值,将最大值作为待匹配实体对的最终相似度值。[0100]s5-2:给定阈值,对各待匹配实体对的相似度值进行过滤,得到匹配结果。[0101]s6:对匹配结果进行评估,验证真-伪三连体神经网络模型的有效性。具体步骤如下:[0102]s6-1:计算查全率,所述查全率是指发现的正确匹配对占正确匹配对的比例:[0103][0104]其中r是参考对齐,a是经过某本体匹配方法所得到的匹配结果;[0105]s6-2:计算查准率,所述查准率是指发现的正确匹配对占发现匹配对的比例:[0106][0107]s6-3:通过组合评价指标f-measure来评估本体匹配结果的质量:[0108][0109]其中a∈[0,1]是查全率和查准率的相对权重。[0110]术语解释:[0111](1)本体:概念化的明确的规范说明;[0112](2)实体:构成本体的类、数据属性和关系属性的统称;[0113](3)注释属性:用于描述,量化,限定实体,通常包括label、comment,实体间的匹配通过匹配其注释属性而实现;[0114](4)相似度度量技术:用于计算待匹配本体中实体间相似度值的函数;[0115](5)字符嵌入:通过机器学习,将字符映射到多维空间使之向量化,字符向量将包含原字符的语义信息和结构信息,相似的字符在多维空间中更加接近;[0116](6)异质:由于领域专家的主观性,构建本体时将会出现语言、语义以及结构方面的不同,在本体进行交互时,产生本体间的异质问题;[0117](7)参考匹配:用于参考的本体匹配结果;[0118](8)语义特征:词汇含义的基本概念组成部分。[0119]参考文献:[0120][1]grubertr.atranslationapproachtoportableontologyspecifications[j].knowledgeacquisition,1993,5(2):199-220.[0121][2]mascardiv,locoroa,rossop.automaticontologymatchingviaupperontologies:asystematicevaluation[j].ieeetransactionsonknowledgeanddataengineering,2009,22(5):609-623.[0122][3]luj,xuex,ling,etal.anewontologymeta-matchingtechniquewithahybridsemanticsimilaritymeasure[m].advancesinintelligentinformationhidingandmultimediasignalprocessing.springer,singapore,2020:37-45.[0123][4]wuz,palmerm.verbsemanticsandlexicalselection[j].arxivpreprintcmp-lg/9406033,1994.[0124][5]millerga.wordnet:alexicaldatabaseforenglish[j].communicationsoftheacm,1995,38(11):39-41.[0125][6]bentoa,zouaqa,gagnonm.ontologymatchingusingconvolutionalneuralnetworks[c].proceedingsofthe12thlanguageresourcesandevaluationconference.marseille,france:europeanlanguageresourcesassociation,2020:5648-5653.[0126][7]jiangc,xuex.matchingbiomedicalontologieswithlongshort-termmemorynetworks[c].2020ieeeinternationalconferenceonbioinformaticsandbiomedicine(bibm).newyork,usa:ieee,2020:2484-2489.[0127][8]iyerv,agarwala,kumarh.veealign:asuperviseddeeplearningapproachtoontologyalignment[c].om@iswc2020.athens,greece:ceur-ws.org,2020:216-224.[0128][9]xuex,jiangc,zhangj,etal.matchingsensorontologiesthroughsiameseneuralnetworkswithoutusingreferencealignment[j].peerjcomputerscience,2021,7:1-22.[0129]尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,对于本领域的普通技术人员而言,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。当前第1页12当前第1页12
技术特征:
1.一种基于真-伪三连体神经网络的本体匹配方法,其特征在于,包括以下步骤:s1:给定待匹配本体,从待匹配本体中提取各自具有代表性的实体,得到核心实体集,用于构建训练数据集;s2:构建训练数据集;s3:对训练数据集进行字符嵌入,将字符转化为可供计算机识别的字符向量;s4:将编码好的字符向量送入真-伪三连体神经网络中进行模型训练;所述真-伪三连体神经网络采用两个循环神经网络rnn作为孪生神经网络snn中的子网络结构,并将这两个循环神经网络rnn中的一个与长短期记忆网络lstm一起作为伪孪生神经网络psnn的子网络结构;s5:将验证数据送入真-伪三连体神经网络中进行匹配;s6:对匹配结果进行评估,验证真-伪三连体神经网络模型的有效性。2.根据权利要求1所述的一种基于真-伪三连体神经网络的本体匹配方法,其特征在于,步骤s1的具体步骤如下:s1-1:计算本体中实体的度中心度;所述度中心度是判定网络中实体重要性的指标,是对实体重要性的量化,一个实体的度中心度越高,该实体在本体中就越具有代表性;所述度中心度的计算方法为实体的出度与入度之和;所述实体的出度和入度分别指在本体的子父实体关系网络中,该实体的出边条数和入边条数;s1-2:对实体的度中心度的计算结果进行降序排序,选取排在前30%的实体作为核心实体。3.根据权利要求1所述的一种基于真-伪三连体神经网络的本体匹配方法,其特征在于,步骤s2的具体步骤如下:s2-1:确定核心实体之间的匹配关系,方法如下:给定待匹配本体o1、o2和阈值t,分别任取o1和o2的同类待匹配核心实体e1和e2组成待匹配实体对,并分别取待匹配实体对的注释属性label1和label2、comment1和comment2,采用n-gram技术计算e1和e2的相似度值:s1=n-gram(label1,label2);如果s1>t,那么e1和e2的相似度值即为s1,否则采用sim
wp
技术计算e1和e2的相似度值:s2=sim
wp
(label1,label2)如果s2>t,那么e1和e2的相似度值即为s2,否则采用cosine技术计算c1和c2的相似度值:s3=cosine(comment1,comment2)如果s3>t,那么e1和e2的相似度值即为s3,否则e1和e2不匹配;s2-2:构建训练数据集,方法如下:对待匹配本体o1和o2中的所有核心实体作笛卡尔积,并按照步骤s2-1的方法计算笛卡尔积中每个核心实体对的相似度值,相似度值大于阈值t的核心实体对将选作训练数据的正样本;作为约束,通过随机赋值的方法,将正样本中的一个实体更换为该实体所在本体的核心实体中的其它实体,进而完成负样本的构建,负样本数量和正样本数量保持一致;最终随机抽取样本数量的80%作为训练集,20%作为验证集。4.根据权利要求1所述的一种基于真-伪三连体神经网络的本体匹配方法,其特征在于,步骤s4的具体步骤如下:
s4-1:计算两个特征向量的距离:其中||
·
||表示欧几里得范数,dis(f1,f2)∈[0,1);s4-2:计算两个实体e1和e2的相似度值:sim(e1,e2)=1-dis(f1,f2)其中sim(e1,e2)∈(0,1];s4-3:计算损失,损失函数如下:其中,d

i
和d

i
分别是通过snn和pnn的待匹配实体的特征向量间的距离;n表示样本组的数量;所述样本组可分为两类,第一类由两个待匹配实体各自的label和第二实体的comment组成(即label2、label1和comment2),为了使模型能够从不同的同类及异类注释属性学习语义信息,第二类样本组由两个待匹配实体各自的comment和第二实体的label组成(即comment2、comment1和label2);y表示样本的种类,y=1时表示正样本,y=0时表示负样本;s4-4:根据损失函数的计算结果调整模型参数;为了最小化损失函数,rnn和lstm通过反向传播和梯度下降,实现相关参数的优化调整;s4-5:给定训练轮次大小,当完成相应的轮次训练后就结束模型训练。5.根据权利要求1所述的一种基于真-伪三连体神经网络的本体匹配方法,其特征在于,步骤s5的具体步骤如下:s5-1:首先从各待匹配实体对中提取两组输入——和以及和其中上标表示组号,下标表示该注释属性是来自待匹配本体o1或o2;其次对输入进行字符嵌入;然后将其喂入gp-tnn中,实现将输入映射到新的空间,形成输入在新的空间中的特征向量表示;最后通过sim(e1,e2)相似度度量技术对相应特征向量进行相似度计算;一对待匹配实体的两组输入分别通过snn和pnn共将得到4个相似度值,将最大值作为待匹配实体对的最终相似度值;s5-2:给定阈值,对各待匹配实体对的相似度值进行过滤,得到匹配结果。6.根据权利要求1所述的一种基于真-伪三连体神经网络的本体匹配方法,其特征在于,步骤s6的具体步骤如下:s6-1:计算查全率,所述查全率是指发现的正确匹配对占正确匹配对的比例:其中r是参考对齐,a是经过某本体匹配方法所得到的匹配结果;s6-2:计算查准率,所述查准率是指发现的正确匹配对占发现匹配对的比例:
s6-3:通过组合评价指标f-measure来评估本体匹配结果的质量:其中a∈[0,1]是查全率和查准率的相对权重。

技术总结
本发明公开了一种基于真-伪三连体神经网络的本体匹配方法,步骤如下:从待匹配本体中提取核心实体集;利用混合相似度度量方法构建训练数据集;对训练数据集进行字符嵌入,得到字符向量;将字符向量送入真-伪三连体神经网络中进行模型训练;对验证数据集进行匹配;对匹配结果进行评估。本发明能够同时通过SNN和PNN对本体中的同类以及异类注释属性进行语义学习,得到的语义特征更能全面表示实体的语义信息,有效促进了本体匹配结果质量的提高,很好地解决了现有的本体匹配方法无法全面学习本体的语义信息、导致得到的语义特征并不能有效代表实体的语义信息、进而造成匹配结果的质量无法满足实际基于本体的智能系统间交互要求的问题。求的问题。求的问题。


技术研发人员:卢家伟 剡昌锋 林国祥 王江 吕明 刘斌 王瑞民
受保护的技术使用者:兰州理工大学
技术研发日:2022.09.26
技术公布日:2023/1/6

最新回复(0)