基于图像的语义距离的制作方法

xiaoxiao2020-7-22  5

专利名称:基于图像的语义距离的制作方法
背景技术
探究概念之间的语义关系是近来的热门研究课题,因为它在自然语言处理、对象检测和多媒体检索等领域有着广泛应用。值得注意的是,语义关系不仅是同义词(例如足球-英式足球)和概念相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy) (例如车辆-车轮)和并发性关系(例如飞机-机场)等关系。在该上下文中,并发性是指两个概念可能在日常生活而非文本文档中同时出现。更广泛地,与可以在文本文档领域中表示概念同现的术语“相似性”不同,术语“并发性”可以在视觉领域中表示概念同现或背景一致。
概述 本文所述的基于图像的语义距离技术实施例涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与每一概念相关联的图像集来分别为该概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计语言模型的形式,并且差异度采用统计分布散度量度的形式。
某些实施例还包括潜在语义分析以捕捉在用于计算语义概念表示的相关图像集合中的概念的外观(appearance)的变化。在这些实施例中,建立语义概念之间的基于图像的语义距离量度通常需要基于与每个语义概念相关联的图像来为该概念计算语义概念表示,其中每个表示计入相关联的语义概念的外观的变化。一旦语义概念表示就绪,则计算一对语义概念表示之间的差异度以产生语义距离量度。在这种情形中,计算与这对语义概念表示中的第一个相关联的每个外观变化和与这对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。
应该注意,提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征, 也不旨在用于帮助确定所要求保护的主题的范围。


参考以下描述、所附权利要求书以及附图,将更好地理解本发明的具体特征、方面和优点,附图中 图1是概括示出用于建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。
图2是示出图1中过程的实现的框图,采用视觉语言模型和詹森-香农 (Jensen-Shannon)散度来用于建立语义概念之间的基于图像的语义距离量度。
图3是概括示出用于在计入概念外观变化的同时建立语义概念之间的基于图像的语义距离量度的一个过程实施例的流程图。
图4是描绘了构成用于实现本文所述的基于图像的语义距离技术实施例的示例系统的通用计算设备的图示。
详细描述 在以下对基于图像的语义距离技术实施例的描述中,对附图进行了参考,附图构成了实施例的一部分且在附图中作为说明示出了可在其中实践该技术的具体实施例。可以理解,可以使用其它实施例并且可以做出结构改变而不背离本发明技术的范围。
1. 0基于图像的语义距离 语义概念之间的关系可以涉及同义词(例如足球-英式足球)或相似性(例如马-驴)。它还包括诸如整体部分关系(meronymy)(例如车辆-车轮)和并发性(例如飞机-机场)之类的关系。某些语义概念更加紧密相关,诸如“飞机”和“机场”,而某些更加疏远,诸如“卫城(acropolis)”和“酒精(alcohol)”。本文所述的基于图像的语义距离技术实施例提供通过使用描绘概念的图像来量化概念之间关系的紧密度的方式。由于语义概念之间的关系是人类感知的知识并且80%的人类认知来自于视觉信息,因此通过视觉相关性而非通过文本文档中的概念同现来生成有关概念关系的人为知识是合理的。此外,视觉领域中的相关性不仅由图像中低级别视觉特征的频率表示,而且可以使用图像中这些低级别视觉特征之间的空间信息。例如,相同的视觉特征(即车轮)频繁同现在“车辆”和“摩托车”图像中,但是它们的邻近特征是不同的。由于忽视视觉特征之间的空间信息,这两个概念可能被混淆。然而,如果考虑这些视觉特征的邻近信息,概念之间的关系更加清晰。因此,视觉特征的安排在表示概念时也能提供信息。
鉴于上文,本文所述的基于图像的语义距离技术实施例能够建立语义概念之间基于图像的语义距离的量度。参照图1,这通常涉及首先基于与概念相关联的图像分别为每个概念计算语义概念表示(100)。这通常涉及首先基于与概念相关联的图像分别计算每个概念的语义概念表示(100)。然后计算两个语义概念表示之间的差异度,来产生这对概念的上述语义距离量度(102)。在某些实施例中,语义概念表示采用与所考虑语义概念相关联的图像的统计分布模型的形式,并且差异度采用统计分布散度量度的形式(有时还称为统计分布距离量度)。
具体而言,如图2所示,本文所述的基于图像的语义距离技术实施例是视觉领域中语义概念200、202(例如对象、场景)之间关系的新颖量度。对于每个概念,获得图像集 204、206,在一个实施例中基于此,建立视觉语言模型208、210来捕捉概念的视觉特性。然后测量不同概念之间基于图像的语义距离,在一个实施例中,这采用对应视觉语言模型212 之间詹森-香农(几)散度计算的形式。
1. 1语义概念图像池 如上所述,由于80%的人类认知来自于视觉信息,因此通过日常生活中概念的并发来测量这些概念之间的语义距离是有意义的。为了模拟日常生活中的概念并发,应该在日常生活环境中执行概念关系学习过程。与人类观察系统类似,世界上的数码相机记录每天的现实日常生活。可以从大型日常生活照片池中挖掘概念之间的统计语义关系。为了实现对统计概念关系的偏见较小的估计,图像池应该非常大并且照片来源应该是独立的。
幸运的是,存在可用的基于web的图像池,它包括用描述关联图像的词句来标记的图像。这些词句通常涉及感兴趣的语义概念。例如,存在在线照片共享网站Flickr 。该网站收集了由独立用户上传的超过IO9个图像。此外,这些图像中的大量图像已被标注(即标记)。因此,这是学习概念语义关系的理想数据集。
为了提供概念之间语义距离的无偏见估计,需要足够大的无偏见图像数据集。此外,数据集中的图像应该包括图像与概念之间的连接信息。这可以通过采用Flickr 照片集作为图像池而满足。在一个实施例中,只有预定数量(例如1000)的用查询概念来标记的最高返回图像被用于表示每个查询概念。这避免了噪声标签的问题。
1.2语义概念表示 为了分析照片池中的概念相关性,使用上述语义概念表示。该表示可以采用与语义概念相关联的图像的统计分布模型的形式。存在许多能够使用的计算机视觉模型,诸如词袋(BOW)模型和基于感兴趣区域(ROI)的模型。然而,在基于图像的语义距离技术的一个实施例中,使用视觉语言模型(VLM)。VLM是捕捉局部外观特征及其空间依存关系的有效视觉统计分析方法。如上所述,这在表征语义概念时比纯视觉特征分布更有辨别力。VLM的训练很快,这使该建模方法尤其适于大规模概念数据集。VLM的输出是图像碎片的视觉特征的条件分布,基于此可以定义严谨的距离量度。VLM还可以抑制噪声。实际包含目标概念的图像会共享某些视觉特征,这实际上对模型有贡献。在被错误标记的噪声样本中的视觉特征对最终VLM影响很小。
在操作中,VLM通过分析邻近图像碎片之间的空间依存关系来捕捉图像的统计语义。因此,统计语义可以表示为图像局部特征及其空间依存关系。具体而言,对于每个语义概念,通过上述描述性标签的帮助获得相关图像的集合。假设标记有相同概念的图像共享类似的外观特征及其排列模式。这形成概念的统计语义。将每个图像划分成尺寸相等的碎片,然后使用VLM计算这些碎片之间的条件依存关系以捕捉概念的视觉统计语义。
1. 2. 1潜在主题视觉语言模型 在基于图像的语义距离技术的另一实施例中,将潜在语义分析结合到VLM中以捕捉概念外观变化。在处理概念外观变化中,传统VLM可能并不完善。这包括由于比例(例如近景/远景镜头)和取向(例如侧视/前视)以及诸如对象形状、照明、颜色、纹理等的其它属性而引起的外观变化。在这些情形中,将潜在主题分析结合到VLM中是可能的,并假设概念的每个外观变化对应于潜在主题Zp概率性潜在语义分析(pLSA)可以适于用户感兴趣的每个变化下概念的视觉特性。在以下段落中,详细地描述这一潜在主题视觉语言模型,以特征提取阶段开始并以潜在主题VLM生成阶段结束。
在特征提取阶段的一个实施例中,将每个图像划分成统一采样、尺寸相等的碎片。 这是适当的,因为统一采样需要很少计算成本,并且其性能可以比得上使用显著检测或基于局部区域的分割等其它方法,但是如果需要也可以使用这些其它方法(以及类似方法)。 对于每个碎片,使用8维纹理直方图来描述。每个纬度对应于沿八个量化方向之一的纹理梯度。可以使用常规方法来计算纹理直方图。接下来,将每个碎片的纹理直方图转换成视觉词wxy。在一个实施例中,使用散列编码方案。
潜在主题VLM生成阶段通常涉及将潜在主题(外观变化)分析结合到VLM中以根据低级别视觉特征排列来表征每个概念C”这提供了对概念进行建模的有效方式。每个 VLM以条件分布的形式来呈现,条件分布描述了在给定其近邻和潜在主题的情况下低级别视觉特征之间的空间依存关系。
根据所考虑的邻近视觉词的数量,可将视觉语言模型细分成一元语法(imigram)、 二元语法(bigram)、三元语法(trigram)、或者一般情况下的η元语法(n-gram)模型。一元语法模型假设视觉词彼此独立。该模型实际上捕捉视觉词分布。二元语法模型假设视觉词依赖于其邻近特征之一,例如左侧最近邻。该模型在给定其近邻词之一的情况下计算每个视觉词的条件概率。三元语法模型假设视觉词依赖于其邻近词中的两个,例如左侧最近邻和上侧最近邻。因此,一般而言,η元语法模型假设视觉词依赖于其近邻词中的η-1个。 然而,应该注意,虽然更高阶模型可以更有辨别力,但是随着模型阶数增大,参数数量会指数增长。由于参数是从训练集中η元语法的出现来估计的,因此如果阶数η过大,相对受限的训练集会遭遇稀缺问题。因此,辨别力和稀缺之间存在折衷。
此外,还有可能使用组合模型。在组合模型中,使用一个以上的η元语法模型来生成参数。例如,可以从首先使用二元语法方法、然后使用三元语法方法生成的参数中计算与 VLM相关联的条件分布。可以使用各方法的任何组合。然而,虽然使用方法组合可以产生更有辨别力的结果,但是参数数量的增加会增加处理成本。因此,辨别力和成本之间存在折发。
在测试实施例中,选择三元语法模型来捕捉概念,但是如上文所指出的,可以改为使用更高或更低(或组合)阶模型。在三元语法模型中,理念是估计条件分布
权利要求
1.一种用于建立语义概念之间基于图像的语义距离的量度的计算机实现的方法,包括使用计算机执行以下过程动作基于与概念相关联的图像分别计算每个概念的语义概念表示(100);以及计算两个语义概念表示之间的差异度以产生该对相应语义概念的所述语义距离量度 (102)。
2.如权利要求1所述的方法,其特征在于,所述语义概念表示各自采用与相应语义概念相关联的图像的统计分布模型的形式。
3.如权利要求2所述的方法,其特征在于,所述统计分布模型是视觉语言模型,每个视觉语言模型捕捉与相应语义概念相关联的图像的视觉特性。
4.如权利要求2所述的方法,其特征在于,所述语义概念表示之间的差异度采用统计分布散度的形式。
5.如权利要求4所述的方法,其特征在于,所述统计分布散度是所述统计分布模型之间的詹森-香农散度计算的平方根。
6.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的对象。
7.如权利要求1所述的方法,其特征在于,所述语义概念中的至少一个包括在与相应概念相关联的图像中描绘的场景。
8.如权利要求1所述的方法,还包括以下过程动作计算多对语义概念中每一对之间的基于图像的语义距离量度,以及使用这些量度来构建视觉概念网络,所述视觉概念网络包括具有表示每个语义概念的分开节点和连接表示在每个经连接节点之间计算的基于图像的语义距离量度的节点的边的图。
9.如权利要求1所述的方法,其特征在于,还包括以下过程动作计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在语义概念群集应用中使用这些量度。
10.如权利要求1所述的方法,其特征在于,还包括以下过程动作计算多对语义概念中每一对之间的基于图像的语义距离量度,以及在图像注释应用中使用这些量度。
11.一种用于建立一对语义概念之间的基于图像的语义距离的量度的系统,包括通用计算设备;以及具有可由所述计算设备执行的程序模块的计算机程序,其中所述计算设备由所述计算机程序的程序模块引导来基于与所述概念相关联的图像分别计算每个语义概念的语义概念表示,其中所述表示中的每一个表示计入在用于计算该表示的图像中所描绘的相关联的语义概念的外观的变化(300),以及计算一对语义概念表示之间的差异度以产生所述语义距离量度,其中计算差异度包括计算与该对语义概念表示中的第一个相关联的每个外观变化和与该对语义概念表示中的另一个相关联的每个外观变化之间的差异度的组合。
12.如权利要求11所述的系统,其特征在于,所述外观的变化可归因于比例、取向、对象形状、照明、色彩、和纹理的变化中的至少一个。
13.如权利要求11所述的系统,其特征在于,用于计算语义概念表示的程序模块包括用于使用潜在主题视觉语言模型计算每个语义概念表示的子模块,所述潜在主题视觉语言模型以每个所考虑变化的条件分布的形式来捕捉所述外观变化的视觉特征。
14.如权利要求13所述的系统,其特征在于,在计算语义概念表示的潜在主题视觉语言模型之前,与所述表示的语义概念相关联的每个图像被表征为视觉词集合。
15.权利要求13所述的系统,用于计算一对语义概念表示之间的差异度的程序模块包括用于将差异度计算为在与该对语义概念表示中的第一个相关联的每个条件分布和与该对语义概念表示中的另一个相关联的每个条件分布之间计算的加权詹森-香农散度的总和的平方根的子模块,其中对于所计算的每个詹森-香农散度,加权是基于与第一语义概念表示的条件分布相关联的图像中变化的重要性以及与另一语义概念表示的条件分布相关联的图像中变化的重要性的。
全文摘要
呈现基于图像的语义距离技术实施例,它们涉及建立语义概念之间基于图像的语义距离的量度。一般而言,这需要基于与语义概念相关联的图像集分别为每个概念计算语义概念表示。然后计算两个语义概念表示之间的差异度,来为这对概念产生上述的语义距离量度。
文档编号G06F17/00GK102197393SQ200980143703
公开日2011年9月21日 申请日期2009年10月27日 优先权日2008年10月27日
发明者X-S·华, L·吴, S·李 申请人:微软公司

最新回复(0)