用于多媒体签名的编码和解码方法以及装置的制作方法

xiaoxiao2020-7-22 12

专利名称：用于多媒体签名的编码和解码方法以及装置的制作方法
技术领域：
本发明涉及对表示多媒体内容的签名(signature)的处理，更具体地说，涉及用于对这种签名进行编码和解码的方法和装置。
背景技术：
一项多媒体内容可以用“签名”(也被称为“鲁棒哈希(robust hash) ”或“指纹”) 来表示。签名提供基于内容的紧凑、唯一且鲁棒的描述。例如，同时待审的欧洲专利申请号 EP 06255239. 3 以及 UK 专利申请号 GB 0700468. 2、GB 0712388. 8、GB0719833. 6 和 GB 0800364. 2描述了用于图像的签名，也被称为“图像描述符”或“图像标识符”。欧洲专利申请EP-A-I 550297描述了用于音频内容的签名，而US专利申请US-A-2007/0253594描述了用于视频内容的签名。多媒体签名典型地包括多个分量，其中分量包括数字，这些数字通常处于二进制空间中。签名可以被用于标识、搜索以及定位相同或接近重复的内容。随着大量多媒体数据的生成，无疑需要非常快速且低复杂性地执行搜索。

发明内容
本发明涉及用于对签名进行编码和存储的方法，并且涉及相应的用于对编码的签名进行解码的方法，以支持快速搜索。根据第一方面，本发明提供了一种用于对多媒体内容的描述符进行编码的方法，该方法包括以下步骤接收多媒体内容的描述符，所述描述符包括描述所述多媒体内容的各部分的多个分量；处理所接收的描述符，以确定所述多个分量的优先级；以及基于确定的优先级来对所述描述符的所述分量进行编码。在实施方式中，可以利用优先级排序探试法来确定所述多个分量的优先级。例如，可以通过考虑所述多个分量或其子集中的每一个分量的熵来确定所述多个分量的优先级。在一个实施方式中，利用对应的描述符的数据集的至少一个概率分布，来确定针对所述描述符中的所述多个分量或其子集中的每一个分量估计的熵值。在一个实施方式中，确定针对所述描述符中的所述多个分量或其子集中的每一个分量的优先级分数，并且通过按连续次序排列所述优先级分数和/或相关联的分量来得到针对所述分量的优先级次序。编码方法优选地还包括按确定的优先级次序对所述描述符的分量或其子集进行编码的步骤。在一个实施方式中，在确定了针对所述描述符的所述分量的优先级次序之后，所述方法还包括以下步骤确定所述描述符的所述多个分量或其子集中的每一个分量的相互依赖性；和基于确定的相互依赖性来更新所确定的优先级次序。所述确定所述描述符的所述多个分量或其子集中的每一个分量的相互依赖性的步骤可以包括考虑各分量与按确定的优先级次序具有更高优先级的每一个其它分量的相互关系的步骤。
根据这种实施方式，编码方法优选地还包括以下步骤按更新的优先级次序对所述描述符的分量或其子集进行编码。根据第二方面，本发明提供了一种用于对多媒体内容的描述符进行解码的方法，该方法包括以下步骤接收多媒体内容的已编码的描述符的多个分量，所述描述符的所述分量描述所述多媒体内容的各部分，所述分量是按与对应的分量在未编码的描述符中的优先级次序不同的次序进行接收的；以及通过按接收所述多个分量中的预定数量分量的次序对所述预定数量分量中的每一个分量进行解码，来对所述预定数量分量进行解码。典型地讲，所述描述符的所述多个分量中的所述预定数量小于所述描述符的所述多个分量的总数量。根据第三方面，本发明提供了一种用于图像搜索的方法，该方法包括以下步骤接收查询图像的已编码的描述符；利用根据本发明第二方面的方法来对所述查询图像的所述描述符进行解码；确定所述查询图像的所述描述符的多个分量的已解码的预定数量分量与一个或更多个基准图像的描述符的对应分量之间的距离，该距离优选为汉明距离，以及选择使确定的距离小于预定阈值的基准图像。在所述实施方式中，所述方法优选地还包括以下步骤对所述查询图像的所述描述符的剩余分量进行解码；和针对所选择的基准图像中的每一个基准图像，将所述查询图像的描述符的所有已解码的分量与所选择的基准图像的描述符的所有分量进行比较。根据其它方面，本发明提供了用于对多媒体内容的描述符进行编码的编码器，该编码器被配置为运行根据本发明第一方面的方法；包括当由处理器运行时执行根据本发明第一方面的编码方法的指令的计算机可读介质；用于对多媒体内容的描述符进行解码的解码器，该解码器被配置为运行根据本发明第二方面的方法；包括当由处理器运行时执行根据本发明第二方面的解码方法的指令的计算机可读介质；用于执行根据本发明第三方面的图像搜索方法的装置；以及包括当由处理器运行时执行根据本发明第三方面的方法的指令的计算机可读介质。在一个实施方式中，二进制签名(例如在EP 06255239. 3中所描述的)唯一地表示多媒体内容。如在EP 06255239. 3中所描述的，签名可以表示为二进制串。可以将签名作为比特流或用某一其它合适格式(例如XML)来对其进行编码、存储和/或发送。编码的包含签名的比特流(或其它数据结构)可以被接收并解码，以用在内容搜索和匹配中。本发明的多个方面涉及用于对包含一个或更多个基于内容的签名的比特流(或其它数据结构)进行编码和解码的方法。签名编码的关键方面是对签名的分量的优先级排序。在一个实施方式中，对包括预定数量位的签名进行编码，使得具有最高优先级的签名位放在编码的数据结构(例如比特流)中的最前面。优选地，签名的分量(例如位)的优先级排序基于它们的熵。下面对用于按优先级次序对签名分量进行排序的合适技术和随其产生的技术优点进行描述。有利的是，本发明的编码和解码技术支持快速、可扩展的搜索和散列。

图1例示了利用可以在本发明实施方式中实现的技术确定的示例性512位图像签名的分量位等于1的概率；
图2例示了利用可以在本发明实施方式中实现的技术确定的图1的512位图像签名的位之间的相互关系；图3例示了针对示例性512位签名的熵；图4是例示根据本发明实施方式的用于对多媒体签名进行编码的方法的流程图；以及图5是根据本发明实施方式的用于对多媒体签名进行编码和解码的系统的示意图。
具体实施例方式以下描述涉及利用上述方法中的一个或更多个实现的图像签名的编码和解码。然而，应当理解，该编码和解码技术可以用于可以利用任何合适技术得到的、源自其它类型的多媒体内容的签名。相应的，以下描述涉及由二进制串组成的图像签名的编码和解码。具体来说，图像I (X，y)的签名S由下标为0至n_l的n_位集合组成
权利要求
1.一种用于对多媒体内容的描述符进行编码的方法，该方法包括以下步骤接收多媒体内容的描述符，所述描述符包括描述所述多媒体内容的各个部分的多个分量；处理所接收的描述符，以确定所述多个分量的优先级；以及基于确定的优先级来对所述描述符的所述分量进行编码。
2.根据权利要求1所述的方法，其中，利用优先级排序探试法来确定所述多个分量的优先级。
3.根据权利要求1或权利要求2所述的方法，其中，通过考虑所述多个分量或其子集中的每一个分量的熵来确定所述多个分量的优先级。
4.根据权利要求1、2或3所述的方法，其中，考虑所述多个分量或其子集中的每一个分量的熵包括确定针对各所述分量的熵值。
5.根据任一前述权利要求所述的方法，该方法还包括以下步骤利用对应的描述符的数据集的至少一个概率分布，来确定针对所述描述符中的所述多个分量或其子集中的每一个分量估计的熵值。
6.根据任一前述权利要求所述的方法，该方法包括以下步骤确定针对所述描述符中的所述多个分量或其子集中的每一个分量的优先级分数；和通过按连续次序排列所述优先级分数和/或相关联的分量来得到针对所述分量的优先级次序。
7.根据权利要求6所述的方法，该方法包括按确定的优先级次序对所述描述符的所述分量或其子集进行编码的步骤。
8.根据权利要求1到6中的任一项所述的方法，该方法还包括以下步骤确定所述描述符的所述多个分量或其子集中的每一个分量的相互依赖性；和基于确定的相互依赖性来更新确定的优先级次序。
9.根据权利要求8所述的方法，其中，所述确定所述描述符的所述多个分量或其子集中的每一个分量的相互依赖性的步骤包括以下步骤考虑每一个分量与按确定的优先级次序具有更高优先级的各其它分量的相互关系。
10.根据权利要求8或权利要求9所述的方法，该方法包括按更新的优先级次序对所述描述符的所述分量或其子集进行编码的步骤。
11.根据任一前述权利要求所述的方法，其中，所述描述符是二进制签名，并且每一个分量都包括所述二进制签名中的一位或更多位。
12.根据任一前述权利要求所述的方法，该方法还包括按预定格式发送或存储所编码的描述符的步骤。
13.一种用于对多媒体内容的描述符进行编码的编码器，该编码器被配置为执行根据权利要求1到12中的任一项所述的方法。
14.一种计算机可读介质，该计算机可读介质包括当由处理器运行时执行根据权利要求1到12中的任一项所述的编码方法的指令。
15.一种用于对多媒体内容的描述符进行解码的方法，该方法包括以下步骤接收多媒体内容的已编码的描述符的多个分量，所述描述符的所述分量描述所述多媒体内容的各部分，所述分量是按与对应的分量在未编码的描述符中的优先级次序不同的优先级次序进行接收的；和通过按接收所述多个分量中的预定数量分量的次序对所述预定数量分量中的每一个分量进行解码，来对所述预定数量分量进行解码。
16.根据权利要求15所述的方法，其中，所述描述符的所述多个分量中的所述预定数量小于所述描述符的所述多个分量的总数量。
17.一种用于对多媒体内容的描述符进行解码的解码器，该解码器被配置为执行根据权利要求15或权利要求16所述的方法。
18.一种计算机可读介质，该计算机可读介质包括当由处理器运行时执行根据权利要求15或权利要求16所述的解码方法的指令。
19.一种用于图像搜索的方法，该方法包括以下步骤接收查询图像的已编码的描述符；利用根据权利要求15或权利要求16所述的方法来对所述查询图像的所述描述符进行解码；确定所述查询图像的所述描述符的多个分量中的已解码的预定数量分量与一个或更多个基准图像的描述符的对应分量之间的距离，该距离优选为汉明距离；以及选择使所确定的距离小于预定阈值的基准图像。
20.根据权利要求19所述的方法，该方法还包括以下步骤对所述查询图像的所述描述符的其余分量进行解码；和针对所选择的基准图像中的每一个基准图像，将所述查询图像的所述描述符的所有已解码的分量与所选择的基准图像的所述描述符的所有分量进行比较。
21.一种用于执行根据权利要求19或权利要求20所述的图像搜索方法的装置。
22.—种计算机可读介质，该计算机可读介质包括当由处理器运行时执行根据权利要求19或权利要求20所述的方法的指令。
全文摘要
提供了一种用于对多媒体内容的描述符进行编码的方法，其中，所述描述符包括描述所述多媒体内容的各个部分的多个分量，所述方法包括处理所述描述符以确定所述多个分量的优先级，和基于确定的优先级来对所述描述符的分量进行编码。提供了一种对描述符进行解码的方法，该方法包括通过按优先级次序对多个分量中的预定数量分量中的每一个分量进行解码，来对所述预定数量分量进行解码。有利的是，这样的编码和解码技术使得能够实现快速、可扩展的搜索。
文档编号G06F17/30GK102177516SQ200980139646
公开日2011年9月7日申请日期2009年10月8日优先权日2008年10月8日
发明者保罗·布拉斯尼特, 米罗斯瓦夫·博贝尔申请人:三菱电机株式会社

2012-2014专利技术

最新回复(0)