在目标应用中使用语义网络数据源的方法

xiaoxiao2020-10-23  18

在目标应用中使用语义网络数据源的方法
【技术领域】
[0001]本发明涉及由应用使用语义网络数据源,所述应用是语义网络无感知应用或使用不同语义。
【背景技术】
[0002]近年来,已存在从用于管理目的的医院信息系统朝着用于支持临床工作流程和决策的更加专用的临床信息系统的转变。
[0003]临床数据不仅存储在医院中,而且还存储在一般医务所、私人专家的医务所和其它健康护理环境(例如,老年之家)。许多新数据源将会必须被集成以提高数据质量或提供特定信息。
[0004]随着病人及其临床数据集中于健康护理系统并且经济变得更加重要,必须不仅在个体病人水平上而且还在人口水平上连接不同数据源以执行例如流行病学研宄从而支持政策制定。
[0005]一个信息系统中的数据存储非常不同于另一系统的存储模型。数据库具有非常易变的模式(schema),即它们的数据的意义或语义非常不同。
[0006]例如,在命名为ORBIS的Agfa HealthCare的临床信息管理系统中,除了名称“自然人”之外,还存在名称“病人”。另一临床信息系统未必进行这种区分。
[0007]通过以其语义清楚(S卩,由限制语义的解释并且消除歧义的模型理论(基于一阶逻辑和集合论(数学))指定)的形式语言表示数据来实现这一点。
[0008]万维网联盟(W3C)通过在2001年启动语义网络来为实现这一点铺平道路。
[0009]语义网络技术包括:全局形式语言,用于表示形式数据以及其它资源诸如本体以捕捉临床和非临床域知识;和规则,由推理者用于转换语义并且分析/合成形式数据。
[0010]存在不基于语义网络的许多应用,意味着这些应用不能天然地使用语义网络数据。另外,具有类似功能的应用定义它们自己的应用特定模型。这些应用能够存储类似信息,但以不同方式表示该类似信息。
[0011]通常,在语义网络环境中,使用RDF(资源描述框架)查询语言(诸如,SPARQL)。然而,如果已有应用缺少对这种类型的查询语言的支持,则它们不能受益于语义数据源。
[0012]同样地,如果在数据源中使用的语义和由应用使用的语义之间经历语义空隙,则应用同样也不能受益于语义数据源。
[0013]Sajjad Hussain 等人的 “EHR4CR: A semantic Web based InteroperabilityApproach for reusing Electronic HealthCare Records in Protocol FeasibilityStudies” (Proceedings of the 5th Internat1nal Workshop on Semantic WebApplicat1ns and Tools for Life Sciences, Paris, FR, 28 November 2012)处理桥接源于临床研究的数据和在病人护理的领域中产生的数据之间的空隙。在专用数据消费者和变化的数据源的数据的语义之间需要动态双向映射。
[0014]在这个文件中,应用被调谐至表示数据的方式。
[0015]在一个实施例中,基于临床数据仓库的本地术语变换扩展SPARQL查询,以使得能够在不同临床数据仓库上执行扩展SPARQL查询以获得更广泛的查询结果。
[0016]在另一实施例中,通过用于检索从本地到中央术语代码的映射的术语映射服务,基于标准化医学词汇,从不同数据仓库获得的查询结果被翻译回为集成结果格式。
[0017]这个文件不处理不能改变给定数据消费者的数据格式和语义的情况,它也不提供用于这种类型的情况的解决方案。
[0018]Suphachoke Sonsilphong 等人的“Rule-based semantic web servicesannotat1n for healthcare informat1n integrat1n,, (Computing and NetworkingTechnology (ICCNT), 2012 8th Internat1nal Conference on, IEEE, 27 August2012)还处理用于在异构系统上访问和交换数据的统一系统和接受的标准的缺乏。
[0019]这个文件公开从本地数据存储库到域区域的转换,但不处理不能处理以域语义和/或格式提供的数据的应用的要求。
[0020]Elien Paret 等人的 “Efficient Querying of Distributed RDF Sources inMobile Settings based on a Source Index Model?,(Procedia Computer Science, vol.5,2011,pages 554-561)公开用于来自不同数据源的数据的高效使用的索引的使用。
[0021]本发明的方面在于克服上述问题。

【发明内容】

[0022]通过具有在权利要求1中阐述的特定方法步骤的方法来实现上述方面。在从属权利要求中阐述本发明的优选实施例的特定特征。
[0023]通过下面的描述和附图,本发明的另外的优点和实施例将会变得清楚。
[0024]本发明提供一种用于桥接语义网络数据源本体和应用本体之间的语义空隙的方法,所述应用本体能够是该应用的数据库模式的形式表示。
[0025]为了桥接以上空隙而提供的装置被称为“语义网络数据源应用桥”(SDSAB)。
[0026]术语“语义网络数据源”在本发明的上下文中表示以RDF表示数据的数据源。
[0027]这种语义网络数据源的例子是诸如在2012年9月3日提交的共同未决的欧洲专利申请中描述的语义数据仓库。
[0028]替代物是实现为非语义数据源或三重存储器(专用RDF/语义数据存储器)上的语义层的SPARQL端点、RDF数据源上的查询服务、RDF数据源等。
[0029]执行处理以从(一个或多个)语义网络数据源检索需要的数据,在语义上和在语法上翻译该数据以反映目标应用的意义和语法。
[0030]以目标应用的格式返回数据,以使得提供适应于目标应用的语义网络数据源数据的特定表示。
[0031]本发明是有益的,因为它为不同类型的应用提供对语义网络数据源的访问。
【附图说明】
[0032]图1示出如本发明的方法中所使用的桥部件。
[0033]图2图解在作为数据源的语义数据仓库的上下文中的桥部件的使用。
【具体实施方式】
[0034]以下将参照由并不天然地支持语义网络技术(诸如,SPARQL和/或RDF)的查询目标应用(诸如,商业智能工具(BI工具))从语义数据仓库查询数据来解释本发明的特定实施例。
[0035]本发明中适用的数据仓库被示出为图2的一部分,并且主要包括汇聚服务和实体曲线图服务,后者被布置为能够调用汇聚服务。汇聚服务通过SPARQL端点连接到许多数据库,所述SPARQL端点能够经SPARQL语言查询知识数据库。
[0036]汇聚服务负责:
-针对数据源、数据源位置及其各自的需要的访问凭证中的每一个配置多个域(即,需要的数据定义本体(DDO)、数据结构的形式表示)至域本体(DO)映射文件。
[0037]-在对应数据源的SPARQL端点上调用参照的DDO查询。
[0038]-针对指定的域加载需要的DDO至DO转换规则。
[0039]-使用加载的DDO至DO转换规则针对每个源将DDO数据转换成D0。
[0040]-从指定的数据源聚合转换的结果。
[0041]-返回聚合并且转换的数据集。
[0042]在特定实施例中,汇聚服务被实现为暴露为web服务的SPARQL端点。
[0043]汇聚服务使用转换规则执行DDO至DO映射。
[0044]转换服务在本领域是已知的 。然而,为了能够在开放环境中操作,呼叫者将会需要指定需要的源以解决能够导致抽象的破坏的查询。为了解决这个问题,引入了实体曲线图和实体曲线图服务的概念。
[0045]实体是DO概念,所述DO概念是曲线图的主要对象,即它是曲线图的中心,并且这个对象连接到其它物体。实体曲线图包括对象、性质和物体。决定在曲线图中提及哪些视为相关的对象、性质和物体是实体曲线图的设计者的责任。
[0046]在这个实施例中,实体曲线图是命名的实体曲线图,即该实体被分派URI。当解析URI时,因为它事实上是HTTP URL,所以目标应用能够检索全部实体曲线图。
[0047]当通过调用汇聚服务来解析命名的曲线图的URI以查询和变换数据时,按需构造命名的曲线图。
[0048]实体表示被陈述为RDF,并且例如使用N-Triples、Turtle、Notat1n3 (N3)或RDF/XML格式而被串行化。
[0049]在一个实施例中,使用实体曲线图SPARQL端点的目标应用能够发出关于作为数据曲线图的实体曲线图的SPARQL查询以查询特定数据。
[0050]然而,如果目标应用不知道语义或RDF技术,或者如果在数据仓库中使用的域本体和目标应用的语义之间存在语义空隙,则目标应用不能受益于语义数据仓库。
[0051]为了解决这些问题,本发明在语义数据源和目标数据消费应用之间提供所谓的“桥”。以下将描述在开发时需要执行哪些步骤以及在运行时如何使用桥。
[0052]在开发时:
在开发时,需要如下所述执行配置步骤。
[0053]首先,识别数据源和目标应用
a.从与目标应用相关的数据源选择数据 b.如果需要,则使用目标应用本体表示目标应用语义
接下来,定义从识别的语义数据源到识别的目标应用本体的不同映射。如果需要,则也定义语法映射。例如,语义映射的简单例子是在目标应用中使用的从由数据源暴露的出生日期到当前日期的年龄的计算。语法翻译的例子是在不同应用中表示人类性别的方式。在i2b2中,对于女性,默认表示是“DEM I SEX:F”,在其它应用中,默认表示经常是“F”。
[0054]在开发时的这些步骤的结果是一组规则和本体,所述一组规则和本体能够例如在web上公布以使得当在运行时需要时它可用于桥。
[0055]在运行时:
在运行时的过程包括两个部分:发现和查询。
[0056]在发现时:
发现部分能够如下所述被半自动地实现。替代地,发现部分能够被记录为查询功能描述并且被提供给居间器或者能够在目标应用中被硬编码。
[0057]居间器是连接到应用桥API并且将来自数据源的数据传送给目标应用的应用,并且因此能够在目标应用自身不能改变时使用居间器。
[0058]在半自动实施例中,目标应用首先调用应用桥发现web AP1
[0059]发现API返回可能的目标应用和潜在目标应用模块的列表。
[0060]接下来,目标应用选择这些目标应用之一或这些目标应用模块之一。在选择应用或模块时,返回桥服务的URL的描述。这个描述提及例如能够为URL的查询参数指定以查看数据量的可能的参数,例如用于将数据限制于特定时间段的日期范围。
[0061]当查询时:
当目标应用想要从语义网络数据源检索数据时,执行下面的步骤。
[0062]首先,目标应用调用桥部件的web API (例如,REST接口、RPC (远程过程调用)或SOAP)。
[0063]该调用指定数据的种类(即,查询的最终结果应该反映哪个目标应用表),并且可选地指定范围(诸如,例如用于检索数据的日期时间段)。
[0064]桥部件从目标应用的请求确定要使用以应用本体术语表示的哪个SPARQL查询模板并且确定模板的绑定。
[0065]接下来,桥部件识别要使用哪个(哪些)语义网络应用数据源。语义网络应用数据源是以目标应用本体术语表示的语义网络数据源的表示。这个语义网络应用数据源通过将来自源数据的概念翻译成由目标应用理解的概念来桥接目标应用和语义网络数据源之间的空隙。当适用时,执行语法变换,例如目标应用可使用与数据源相同的编码系统,但以不同方式表示这些代码。WHO国际疾病与相关健康问题统计分类第10修订版(ICDlO)将霍乱编码为可在i2b2中使用的A00,这个代码必须被加前缀I⑶10而成为I⑶10:A00。
[0066]接下来,它以确定的绑定替换选择的模板变量,并且在语义网络应用数据源上执行SPARQL查询以在适用时在定义的范围内检索数据。最后,当适用时,执行语法变换,例如目标应用可使用与数据源相同的编码系统,但以不同方式表示代码。
[0067]当通过解析关联的URL来检索语义网络应用数据源的数据时,检索来自语义数据源的源数据。如上所述,这个源数据被翻译成目标应用本体术语。
[0068]前面步骤的结果是现在以应用本体术语包含前面步骤的结果的语义网络应用数据源。
[0069]然后,查询语义网络应用数据源以利用应用本体语义和语法检索数据。
[0070]语义网络目标应用能够直接消费这个RDF结果。替代地,这个结果能够被串行化为定界符分隔文件(DSV文件)。这种定界符分隔文件格式的例子是逗号分隔文件(CSV)、制表符分隔文件(TSV)等。这种类型的文件格式经常因为它的简单和它的非常广泛的支持而被用作导入格式。
[0071]存在替代的数据串行化技术,例如:xml、JSON等。
[0072]能够因此由目标应用通过居间器直接从桥检索所产生的应用数据,所述居间器将数据加载到目标应用或二者的组合中,其中应用导入由居间器提供的数据。
[0073]以上解释参照SPARQL查询给出,但不限于这种类型的查询。
[0074]已详细地描述本发明的优选实施例,现在对于本领域技术人员而言将会清楚的是,可在不脱离如所附权利要求中所定义的本发明的范围的情况下对其做出许多修改。
【主权项】
1.一种在目标应用中使用语义网络数据源的方法,其中 -所述目标应用调用桥部件的应用程序接口, -所述桥部件从语义网络数据源检索需要的数据,在语义上和在语法上翻译检索到的数据以反映目标应用的意义和语法,并且以目标应用的格式返回翻译的数据。2.如权利要求1所述的方法,其中所述桥部件执行下述步骤: -确定要使用的以应用本体术语表示的RDF查询语言模板, -从所述目标应用的请求确定用于变量的所述模板的绑定, -识别语义网络应用数据源, -以所述查询模板中的所述绑定替换所述模板变量, -执行以所述RDF查询语言指定的查询, -解析所述语义网络应用数据源,并且 -确定查询结果。3.如权利要求2所述的方法,其中所述语义网络应用数据源的所述解析包括下述步骤: -从所述语义网络数据源检索语义源数据, -将所述语义源数据翻译成目标应用本体。4.如权利要求2所述的方法,其中所述查询结果被串行化为定界符分隔文件。5.如权利要求1所述的方法,其中所述桥部件的应用程序接口的所述调用由居间器执行,所述居间器向应用桥请求所述数据并且将该数据提供给所述目标应用。
【专利摘要】一种在目标应用中使用语义网络数据源的方法,其中:-所述目标应用调用桥部件的应用程序接口;-所述桥部件从语义网络数据源检索需要的数据,在语义上和在语法上翻译检索到的数据以反映目标应用的意义和语法,并且以目标应用的格式返回翻译的数据。
【IPC分类】G06F17/30
【公开号】CN104903895
【申请号】CN201480004770
【发明人】B.德维洛伊德, K.德普拉伊特雷, D.科拉尔特
【申请人】爱克发医疗保健公司
【公开日】2015年9月9日
【申请日】2014年1月6日
【公告号】EP2755147A1, EP2943899A1, WO2014108370A1

最新回复(0)