检测和/或追踪图像或图像序列中颜色区域的方法和装置的制作方法

xiaoxiao2020-7-23 20

专利名称：检测和/或追踪图像或图像序列中颜色区域的方法和装置的制作方法
技术领域：
本发明涉及一种用来检测并/或追踪图像中一个或一个以上颜色区域的方法和装置。本发明主要与皮肤颜色区域比如图像中脸部区域的识别有关。本发明特别准备用在移动视频电话中，但也能用在其他应用中，比如安全系统和电话会议系统。我们的共同未决的申请GB2357650说明了一个移动视频电话系统的例子，该系统使用了脸部检测和追踪。
背景技术：
有各种已知的用来检测图像中脸部区域的方法。它们包括基于面貌特征、基于动作和基于颜色的方法。基于面貌特征的方法试图通过检测某些脸部特征比如眼睛、鼻子和嘴来识别脸部区域。基于动作的方法根据图像中活动着的区域很可能是脸部的原理进行操作。基于颜色的方法寻找图像中的皮肤颜色区域。
许多已知的脸部检测方法都在计算上花费巨大，因此对像移动视频电话或电话会议这样的实时应用是不理想的。对于这样的应用优选的方法是基于颜色的方法。
简单来说，基于颜色的脸部检测需要提取具有皮肤颜色的图像区域。脸部检测系统应该能够检测一定范围的肤色，比如非洲人、亚洲人和欧洲人的，还应该不管在什么照明条件下捕获图像都能够检测皮肤颜色。因此，许多已知的基于颜色的脸部检测方法都需要把图像像素值从第一色空间比如RGB投射到第二色空间，在这里第二空间中的像素值不太容易受到肤色变化和照明条件的影响。众所周知色饱和度、标准红绿和对数色空间在检测不同肤色方面有好结果，而且有些色空间比如HSL把亮度分量从颜色信息分出。
在US5,430,809中，提出一个方法，通过检测皮肤和头发区域实现了脸部检测与追踪。把每个像素的色调值与代表人类皮肤范围的界限(阈值)相比来进行皮肤检测，并且把每个像素的亮度值与符合人类头发亮度的界限(阈值)相比来进行头发检测。然后结合试探规则对皮肤和头发双双检查来进行脸部检测。该方法的一个问题是基于色度的阈值比较提取了大范围的颜色值，这会导致不是皮肤但类似皮肤的区域被当成皮肤提取出来。该方法另外一个问题是基于亮度的头发检测使该方法对所检测的人的头发颜色敏感还对照明上的较大变化敏感。
在US6,148,092中，提出一种方法，通过把图像中像素的标准红绿值与预定范围相比来实现皮肤检测，该预定范围被表示成标准红绿平面上的长方形或圆形区域。然后，基于皮肤像素到图像轴上的投射实现脸部检测。该方法的缺点是它不能被直接用于图像中多个脸部的检测。
在US6,343,141中，通过首先采用形状定位器来实现脸部检测。这个形状定位器识别图像中所有对象的边缘并确定是否有任何边缘近似于一个被认为代表脸的预定形状，即椭圆形。然后检查这样的形状内部的像素以利用基于DCT的技术根据它们是否具有皮肤的信号能量特征来确定它们是否为皮肤。假如是皮肤，那么这些像素基于颜色值Cr和Cb的颜色参数被抽样以产生一定的肤色范围，并且在整幅图像上搜索这些肤色以便进一步识别皮肤区域。该方法的缺点是由形状定位器进行的初始脸部定位对视角的改变敏感，例如侧面看，此时脸部不会再有预定形状特征。
在US6,263,113中，提出另一个脸部检测方法。首先，进行颜色过滤以便通过将图像中像素的值与YUV色空间中的范围比较来识别皮肤像素。既然这个过程使相邻的像皮肤的区域出现，该区域可能既有皮肤又有背景区域，所以要根据一组试探规则进行边缘检测和切除，以便分割开这些区域直到被分割开的区域看起来像脸为止。还有，既然脸部也可以由多个皮肤状的片段代表，那么也基于图形进行区域合并以便基于一组试探规则进一步识别脸状区域。最后，应用另外的规则来减少错误正片的数量。这个方法的缺点是所采用的试探规则做了一个关于脸部几何图形的预先假设，比如它的最大尺寸和它的垂直取向。
已经提出了其他脸部检测方法，它们不依靠基于颜色的皮肤检测。在US5,280,530中，提出一种方法，其对象检测和追踪是基于整体和局部模板在灰度图像中匹配而且是利用动态适应模板。这个方法的缺点是脸部检测和追踪的成功需要所追踪的人合作来形成初始模板。
在US4,975,960中通过灰度图像中的鼻孔检测和追踪实现脸部检测和追踪。所提出的这个方法具有自动讲话识别的最终目标，这意味着进行适当的照相机定位，而且不可以应用在由于照相机的距离和角度而使鼻孔不能明显看见的情况。
在US6,028,960中，提出了基于鼻孔检测并利用颜色信息的脸部检测和追踪方法。US4,975,960的上述缺点也存在于本方法。
由Margaret M.Fleck等写的题目为“Finding Naked People(找到裸露的人)”的报告描述了一个系统，用来把原始颜色值转换到对数色空间上然后把它们提供给皮肤过滤器并且还利用纹理寻找算法从而找到图像中的皮肤。如果被检测的皮肤占有的区域比图像的某个比例大，就进行形状分析来看皮肤区域是否像人体部位。该对数色空间的方法对皮肤提取来说相当有用但纹理分析在计算上花费巨大所以特别不适于实时应用。
由Soriano等写的“Skin detection in video under changingillumination conditions(在改变的照明条件下检测影像中的皮肤)”的报告公开了利用皮肤模型直方图并把该直方图的值指定给像素值，随后进行阈值比较。
在一些应用中还希望在帧之间追踪脸部区域。在图像中有几个脸部区域或皮肤颜色区域的时候这可能是困难的。在某些应用中找到皮肤区域的准确位置和大小也是重要的，比如其中将脸部区域提取用于进一步处理的那些应用，该进一步处理比如像上面提到的我们的共同未决的申请GB2357650中的优先编码和显示。

发明内容
本发明的各方面在所附的权利要求中进行陈述。
例如，本发明提供了一种检测图像中至少一个有预定颜色特征的区域的方法，该方法包括把图像中像素的颜色值从第一色空间转换到第二色空间；利用第二色空间中的颜色值确定表示像素和预定颜色特征之间匹配的概率值，这里概率值包括多个值；利用所述概率值识别至少近似于所述预定颜色特征的像素；对至少近似于所述预定颜色特征的像素进行分组；
并提取有关每组的信息，比如组大小和/或组位置、或能力(power)，即该组中像素概率的总和；其中对像素分组并/或提取有关组的信息需要利用多个不同的概率值。换句话说，图像的多级概率图被用在分组中并/或用在获得组信息中，而不用例如阈值比较(thresholding)和概率值的二元化。这能使性能大为改善。
在下面，对像素这个词进行说明的地方不必每次出现都意味着同一个像素。例如，像素这个词可以根据适当需要而指原始图像中的像素、或者对原始图像或一组像素下降抽样(downsample)或求平均值而得来的像素。
作为本发明的结果，识别了特定的颜色区域比如脸部区域连同有关它们大小和/或位置的信息，这能够使脸部区域的追踪、提取和相互关系更简单更精确，特别是，例如当有几个这样的区域时，比如同时追踪几张脸。本发明还能使像在脸部区域上“调焦距”那样的特征变得简单。
最好是图像处理包含下降抽样阶段或简单分割过程以降低处理复杂性并使该方法更适合小系统比如移动设备。
颜色区域的识别最好包含把所捕获的图像由第一色空间转换到第二色空间并且在颜色过滤阶段与颜色模型相比。最好是能够利用校准方法把过滤阶段调整为像被拍成影片的人的皮肤颜色那样的个体颜色分布。这使得此方法对于受该图像中相似颜色的其他区域更健壮，例如和皮肤同时存在的木头。最好所使用的第二色空间被为其加强所找到的颜色或颜色分布的属性而选择。

参考

本发明的实施方案，其中图1是一个移动视频通信系统的框图；图2是一个框图，更详细地示出了图1的图像处理电路；图3是一个按照本发明实施方案所述的方法的流程图；图4是一个流程图，更详细地示出了图3的皮肤区域提取步骤；图5A到5E描述了对图像进行下降抽样的方法；图6A到6B示出LogRG皮肤概率模型的例子；图7示出一个多级皮肤概率图的例子；
图8示出过滤以后图7的多级皮肤概率图；图9示出二元化以后图8的已过滤的图；图10示出过滤以后图9的二元图；图11A和11B示出一个为了生成皮肤区域图而在图10的二元图上进行相连部分分析的例子；图12示出标出了皮肤区域重心(centroid)和边界框的图8的皮肤概率图。
具体实施例方式
本发明一个应用的例子是移动视频电话通信系统。在图1中以框图形式示出了这种系统的各组成部分。一般来说，该系统同我们的同时待审的申请GB2357650中所述的一样，在所捕获的图像序列中提取并追踪脸部区域然后只编码并发射用来在接收机中显示的脸部区域。
移动电话(未示出)包括捕获用户图像的照相机2。照相机2是一种用在移动视频电话中的已知类型的照相机，是手持电话的一部分。在一个备选方案中，照相机是一个例如由导线或无线通信连接到手持电话上的独立器件。在这个实施方案中，照相机以CIF的分辨率(352×288像素)将图像数字化。
照相机被连接到信号处理器4上，后者用于处理从照相机2接收的代表所捕获图像的信号。在图2中更详细地示出了信号处理器4。信号处理器包括脸部检测模块16，用于检测所捕获的图像中脸或头的大小和位置，并且包括脸部追踪模块18，当脸在图像中活动时用于追踪它，还包括帧区域选择模块20，用于选择图像的特定区域，以及脸部区域提取模块22。脸部检测模块和脸部追踪模块在下文中更详细地说明。信号处理器4进行选择并提取图像中包括脸部区域的所需区域，下文还将对其进行更详细地说明。
信号处理器4的输出被连接到编码器6上，后者用来对代表图像信号的所提取区域的信号进行编码。编码器被连接到发射机8上，该发射机用来按照已知方式发射编码信号。
系统的接收侧是一个第二移动电话(未示出)形式的接收终端。第二电话包括用来接收发射信号的接收机10，连接到接收机上的用来对接收信号进行解码的解码器12，以及用来以QCIF格式显示接收图像的显示器14。
虽然没有示出，但是第一移动电话还包括与接收端相对应的器件，即接收机、解码器和显示器，而且第二移动电话还包括像第一移动电话中那样的照相机、信号处理器、编码器和发射机。
操作中，由照相机2捕获图像，所得到的信号被输入到信号处理器4。由脸部检测模块16分析该图像，确定比如图像内脸的位置和大小这种信息。
将这种信息从脸部检测模块16输入脸部追踪模块18和帧区域选择模块20，帧区域选择模块20利用来自脸部检测模块16和脸部追踪模块18这两模块的信息确定要从主图像中选择的窗口的大小和位置。在此实施例中，配置帧区域选择模块20来选择以脸部为中心的预定尺寸的窗口。更具体地说，区域选择模块选择了具有与显示器同样分辨率的窗口。在这种情况下，配置区域选择模块来选择以脸部区域为中心的176×144像素大的区域。可以用任何适当的方式定义并确定中心。在这个实施方案中，脸部的中心是肉色区域的重心。
脸部区域提取模块22接收来自照相机和来自区域选择电路的信号并从来自照相机的图像中提取包括脸部区域的窗口。然后所提取的窗口被传送到标准QCIF视频编码器6利用合适的已知的编码方法来编码。剩余的图像被丢掉。对所捕获的视频图像的每一帧都执行这些步骤。
已编码信号被发射，被接收终端接收并解码，该接收终端以QCIF格式显示脸部图像。因为在所捕获的图像上以QCIF分辨率选择中间有脸的区域，所以被显示的图像中间有脸并且具有用来显示的恰当的分辨率。还有，脸部被显示成比所捕获的图像中有更高分率的图像，这给出了更好的分辨率效果。已编码信号被发送到第二移动电话，它接收、解码并显示包括脸部区域的窗口。
本发明主要与脸部检测模决16和脸部追踪模块18有关，现在将对它们进行更详细的说明。
首先要说明脸部检测模块16的操作。在本实施方案中，把模块实现成一个连接到存储器(未示出)上的被特定编程的处理器，但是其他实现方式也可能使用。参考图3和图4中所示的流程图说明操作方法。
一个图像帧被照相机2所捕获并被以RGB格式发送到脸部检测模决16(步骤100)。下一步，步骤110，下降抽样(downsample)该图像帧以降低处理的复杂性。这是因为脸部检测和脸部追踪处理的运行期复杂性直接与所处理的像素数量有关。在像实时系统那样的许多应用和像移动电话那样的移动技术中，特别希望保持低复杂性。然而，如果复杂性不是关键的，那么可以省略下降抽样阶段。在这种情况下“下降抽样后的图像”这个词指的是原始图像，即下降抽样系数为1。此外，不用说最好在图像处理中早些执行下降抽样步骤但不是必须。在这个方法的其他实施方案中，会在图像处理中的后续时刻执行下降抽样步骤，尽管这会对降低图像处理复杂性的效果有不利影响。
有各种减小图像尺寸的下降抽样方法。下降抽样的例子包括却不限于按组取平均值、隔行取平均值、按内部组取平均值和随机像素取平均值。上述每个例子中，首先把帧分成预定大的组，比如8×8、16×16或32×32像素。然后，将每一组中的所有这些像素值或其中一些取平均值。在图5A到5E中示出了示意图例，这里画了阴影的像素表明被取平均值的像素。对每一组按组取平均值(见图5A)中，把该组中每个像素颜色值取和然后除以该组中像素的数量得出该组的平均值。在隔行取平均值(图5B和5C)中，将相间的行或列中的像素取平均值。在按内部组取平均值(见图5D)中，将较大组中的较小组比如32×32组中的16×16组取平均值。在随机像素取平均值(图5E)中，将该组的预定多个被随机选择的像素取平均值。作为选择，通过计算像素的中值而不是像素平均值也可以实现如上所述的图像下降抽样。
然后，脸部检测模块16在下降抽样后的图像上操作，把颜色值从其中捕获图像的色空间投射到第二色空间，挑选该第二色空间是因为它在检测皮肤颜色方面呈现出好结果，而对于肤色和捕获图像的照明条件变化是健壮的。
在这个实施方案中优选的第二色空间是对数RGB色空间。从RGB到对数RGB的变换公式如下L1＝log(Green+1)L2＝log(Red+1)-log(Green+1)L3＝log(Blue+1)-(log(Green+1)+log(Red+1))/2
在这个发明中，因为肤色只包含少量的蓝色所以不用L3分量。在被用作第二色空间时产生好结果的其他色空间包括标准的RGB和HSL色空间。
因而，在步骤120中，利用上述公式将下降抽样后的图像中像素的RGB值转换为L1和L2值。下面，将把这个第二色空间描述为LogRG空间。然后把LogRG空间中的颜色值供给皮肤区域提取模块130，在这里第一步是它们投射到LogRG皮肤概率模型上从而为每个像素确定它属于一个皮肤区域的概率。在图4中示出了所述皮肤区域提取模块130的内部体系结构，那么现在将更严密地剖析它。
上述LogRG皮肤概率模型被存储在脸部检测模块里的存储器中并且包含LogRG空间中的值与皮肤颜色相对应的概率。覆盖在尽可能大的肤色范围上并在尽可能宽的照明范围下对皮肤区域进行一大套实验从而制定皮肤概率模型。把皮肤区域中的每个像素值都转换成LogRG空间中的一个值并且计算每个LogRG值出现次数从而在LogRG空间内建立直方图。最好把这个直方图的数值标准化到一定范围，例如0到1。为了平滑并且去掉高频分量最好还用例如中值或平均值滤波器过滤该直方图。还有，在这个实施方案中，整个LogRG直方图中只有小的相关部分被保留以生成LogRG皮肤概率模型，而不属于这部分的数值自动获得最低的皮肤概率值，例如0，这就降低了复杂性和实现上的存储要求。可选择地，在其他实施方案中，可以按需要保留LogRG空间的多个部分来生成皮肤概率模型。用这种方式得到的LogRG皮肤概率模型表明LogRG颜色值与皮肤区域相对应的概率。在图6A和6B中示出了LogRG皮肤概率模型的一个例子。X和y轴上的点对应LogRG空间中的点，而z轴上的点对应皮肤概率。对于一定的LogRG点，z轴值越高特定颜色是皮肤颜色的概率越高。
因而，在图4的步骤150中，对于下降抽样后的图像中的每个像素LogRG值都被投射到皮肤概率模型上以获得表明像素值与皮肤颜色相对应的概率的数值。对下降抽样后的图像的所有像素进行此操作的结果被公知为皮肤概率图。在图7中示出了皮肤概率图的一个例子。每个像素的色调代表它对应皮肤颜色的概率，像素越亮概率越大。为了清楚，图7只表示了少数色调值，其实通常会有更多的值。利用多级皮肤概率图而不单单靠二元皮肤/非皮肤图，与后续的过滤和分组结合，大大提高了系统的性能。
可以对一个特定用户校准LogRG皮肤概率模型。例如，第一移动电话的用户可以校准皮肤概率模型从而它被调整以适应所述用户的皮肤颜色，这就改进了性能。使系统进入校准模式就可进行上述操作。然后用户把照相机2只聚焦到皮肤区域，或从所捕获的图像中手动提取皮肤区域，而且处理器4产生一个新的LogRG皮肤概率模型。而后旧模型与新模型合并，例如通过取平均值或者加权取平均值，调整新模型相对于旧模型的重要性。作为选择，从用户处获得的模型可以被独立使用。
该方法中下一步骤最好是为了平滑而对皮肤概率图进行过滤。我们需要图4中的步骤160这一步，特别是当原始帧被以大系数进行下降抽样时，该抽样会造成粗糙的皮肤概率图。可以采用比如平均值或中间值过滤器完成这个过滤，从而检查每个一定大的像素邻域，例如3×3，并且分别地用该邻域中所有像素的平均值或中值代替中心像素。这步的结果称作平滑的皮肤概率图。作为一个例子，在图8中示出了在图7的皮肤概率图上用3×3邻域罩进行平均值过滤的结果。
一方面保留平滑的皮肤概率图用来进一步处理，另一方面还对这个图进行阈值比较以生成二元皮肤概率图，从而去掉有低皮肤概率的皮肤像素而且还使该方法中的后续处理更容易。换句话说，在步骤170中，把平滑的皮肤概率图中每个像素的值都与一个固定阈值例如0.25作比较。如果数值比阈值低，就用最小皮肤概率值例如0给像素赋值，否则用最大的皮肤概率值例如1赋值。作为一个例子，在图9中示出了在图8的平滑的皮肤概率图上利用上述阈值执行这个步骤的结果。
下一步，步骤180是对二元皮肤概率图进行空间过滤从而去掉噪声，即小的孤立的皮肤像素区域。这个过滤需要依靠它们相对于其他像素的布置把皮肤像素转换成非皮肤像素和/或把非皮肤像素转换成皮肤像素。在这个例子中通过把概率图中有少于四个皮肤像素在其八个相邻像素中的任何一个皮肤像素转换成非皮肤像素并且把有多于七个皮肤像素在其八个相邻像素中的任何一个非皮肤像素转换成皮肤像素而执行过滤。在该方法的其他实施方案中会用不同的值。这个操作的结果称作已过滤的二元皮肤概率图。作为一个例子，在图10中示出了在图9的二元皮肤概率图上进行这个过滤操作的结果。
已过滤的二元皮肤概率图可以包括一组或多于一组的皮肤区域的相连像素。下一步，图4中的步骤190需要进行相连部分的分析，即标记并分组已过滤的二元皮肤概率图中的皮肤像素。在该实施方案中，从左顶端到右底端对像素进行分析来进行上述操作。每个皮肤像素用一个组编号来标记。如果一个皮肤像素与一个有组编号的皮肤像素相邻，那么就给该皮肤像素相同的组编号。如果皮肤像素与不只一个有组编号的皮肤像素相邻，该皮肤像素获得其中最低的组编号，而其他皮肤像素也获得该最低的组编号。可以在第二次分析中进行上述操作。这个操作的结果称作皮肤区域图。作为这个操作的一个例子，图11A示出了在图10的已过滤的二元皮肤概率图上进行第一次分析的结果，出现三个组，用数字1到3标识。然后，图11B示出了在图11的图上进行第二次分析的结果，在这里毗连的组被合并起来。
在下一步中，图3中的步骤140，对每个皮肤区域计算某些统计数据。利用皮肤区域图连同已过滤的多级皮肤概率图一起来完成该操作。更具体地说，一方面前者表明不同皮肤区域和它们的组成皮肤像素的位置，另一方面后者表明所述皮肤像素的皮肤概率。在这个实施方案中，通过使用两幅图，对每个皮肤区域所计算的统计数据是该区域组成像素的皮肤概率的总和(今后把它称作区域的“能力”)、利用区域的能力所计算的区域的重心以及区域的宽度和高度。基于后两者，皮肤区域的边界被标识并且对每个皮肤区域计算边界框。还可以计算其他边界形状和/或参数。作为一个例子，图12示出了图11B的每个区域的边界框和由十字形符号所标识的重心并且下表是所存储的区域信息。

作为选择，还可以只用二元皮肤区域图进行统计数据的计算。然而，这个方法没有顾及皮肤像素的皮肤概率不同而可能导致性能不尽人意。采用多级皮肤概率图而不单单依靠二元皮肤/非皮肤图带来改良的系统性能。
此外，还可以只基于多级皮肤概率图完成皮肤区域的识别而不需阈值比较和二元化，即通过对多级图进行适当的空间过滤和相连部分的分析。这个方法有进一步改进系统性能的潜能，但计算上的花费更高。
通过以上步骤标识了图像中最有可能是皮肤的那些区域。然后如上所述提取并存储这些像素区域的统计数据。这个实施方案与提取并追踪移动电话用户的脸部区域有关，所以作为下一步，对于一系列帧中的第一帧，选择具有最大能力的皮肤区域作脸部区域。作为选择，可能选择与图像中心最接近的皮肤区域作脸部区域或者用户可能手动选择希望成为脸部区域的皮肤区域。在其他应用中，可以选择不只一个皮肤区域。
脸部检测模块的输出被连接到脸部追踪模决18上。脸部追踪模块为每一帧接收存储有关皮肤区域的信息(能力、重心、边界框)。追踪模块利用这个信息来尝试使当前帧中的每个区域和上一帧中的脸部区域一致。在这个实施方案中，基于最小空间距离规则进行这个一致匹配，在这里把空间距离定义为如下所述的最大轴距离。在不同实施方案中可以使用像欧几里德几何学中那样的其他距离量度。在下面的公式中，(x1，y1)表示前一帧中脸部区域的重心，而且(x2，y2)表示当前帧中一个皮肤区域的重心。
dx＝|x2-x1|dy＝|y2-y1|最大轴距离＝max(dx，dy)如果当前帧的脸部区域不具有该帧各皮肤区域之中的最高能力，就激活滞后切换功能。如果所选择的区域对于十个以上的帧都不具有最高能力，就把追踪切换到最高能力区域。这个滞后功能使在皮肤区域之间的切换平稳并且阻止了在相似区域之间的闪烁。
追踪期间，可以对许多帧计算脸部的平均位置，并且可以用这个平均位置来显示所追踪的脸部。最好，用于求平均值的帧的数量由用户控制在特定范围内，以便用户能影响追踪的平滑度和速度。可选择地，当所追踪的脸部从平均位置移开的位置大于预定位移阈值的时候，把求平均值的计算重新设置。
照相机可以包括自动变焦功能，调整可变焦距来保持所追踪的脸部区域大小基本不变。为避免闪烁，变焦功能可以包括滞后功能，从而只有脸部区域大小的实质性变化保持在一定数量的帧之间才调整可变焦距。
所述实施方案的各方面，比如追踪滞后、由用户控制对追踪速度和平滑度的调节以及自动变焦，都可以被视为发明的独立方面。
上述实施方案中，在移动视频电话的情况下说明了本发明。然而，可以把本发明用在需要皮肤区域检测的其他应用中，比如安全系统和电话会议系统。例如，可以把本发明用在同时追踪一或多于一个脸部的安全系统中作为人体识别系统的一部分，该系统在建筑物周围实时鉴别和追踪几个个体。作为另一个例子，可以在电话会议系统中实施本发明，该系统在几帧之间准确地看到并追踪几张脸以便脸的安排始终一致。例如，如果在视场内有三张脸而且分给每张脸一个按钮以便观看者能在不同脸之间切换。随着追踪的进行各脸之间必须保持正确的相互关系以使脸的安排保持始终一致。否则，例如选择脸3的时候，它不会是先前与特定选择相联系的那张脸。
虽然该实施方案与检测皮肤颜色的区域有关，但是本发明可以被用来检测任何预定颜色或颜色分布的区域。
已经说明了与移动视频电话通信有关的上述实施方案。还可以把本发明用在其他应用中，比如用在视频会议系统和来自与个人电脑相连的照相机的视频图像传输中。该实施方案说明了把包括发言人脸部的区域作为感兴趣的对象进行选择，但是该发明也可以被应用在与任何其他感兴趣的对象有关的方面。已经说明本发明利用了CIF和QCIF，但是也可以用其他格式。对某些特定格式的涉及包括这些格式的修改，比如旋转。例如，QCIF格式宽度比高度大(类似于和纸上打印有关的“风景画”构形)。在人脸的情况下，最好是QCIF格式旋转90°，更确切地说它的高度比宽度大(像“肖像画”构形)，使脸部在所选区域占更大比例并且给被选区域不太重要的部分分配了更少的空间。相似的考虑适用于被选区域和/或被显示区域的关于感兴趣的对象的性质、特别是形状的选择，即使被选区域和/或被显示区域与特定的已知格式不一致。
在该实施方案中，用作为第一色空间的RGB格式捕获图像而后把图像转换到作为不同于第一空间的第二色空间的LogRG色空间上。然而，其他色空间既可用于图像捕获又可作为第二色空间。可以使用任何颜色格式，例如YIQ、YUV、RGB、HSI、对数颜色格式。然而，最好应该挑选适合并增强所寻找的颜色区域的第二色空间。如上所述，HSI、彩色和对数色空间是其中对皮肤区域来说最好的。
权利要求
1.一种检测图像中至少一个有预定颜色特征的区域的方法，该方法包括把图像中像素的颜色值从第一色空间转换到第二色空间；利用第二色空间中的颜色值确定表示像素和预定颜色特征之间匹配的概率值，这里概率值包括多个值；利用所述概率值识别至少近似于所述预定颜色特征的像素；对至少近似于所述预定颜色特征的像素分组；并提取有关每组的信息；其中按照所述多个概率值中的各个值对像素加权，当对像素分组时并且/或者当提取有关组的信息时，使用加权。
2.根据权利要求1的方法，其中所提取的信息包括下述中的一个或多个基于一组中像素的概率总和的能力、组面积、组大小、组位置、组重心、组宽度、组高度、组边界、组边界框宽度，组边界框高度。
3.根据任何一个前述权利要求的方法，包括在图像处理期间的任一阶段对它进行下降抽样。
4.根据任何一个前述权利要求的方法，其中第二色空间增强所述预定颜色特征并且获得对于照明变化的健壮性。
5.根据任何一个前述权利要求的方法，其中所述第一色空间是一个线性色空间并且第二色空间是一个非线性色空间。
6.根据任何一个前述权利要求的方法，其中第二色空间是一个对数色空间。
7.根据任何一个前述权利要求的方法，包括把一个像素的颜色值投射到一个预定概率模型上来确定它有预定颜色特征的概率，所述模型包括整个直方图或者直方图中具有所寻找的颜色特征的一个或一个以上的区域。
8.根据权利要求7的方法，其中用由用户选择的抽样颜色区域替换或者合并已有的概率模型，从而对概率模型进行任意多次的校准。
9.根据任何一个前述权利要求的方法，其中选择图像最中央的和/或概率总和最高的组用来显示。
10.根据任何一个前述权利要求的方法，其中图像在一个图像序列中，并且在该序列里的几个图像中确定至少一组有预定特征的像素。
11.根据权利要求10的方法，其中贯穿整个图像序列追踪和/或显示所述像素组。
12.根据权利要求10或11的方法，其中利用距离和/或尺寸函数匹配不同图像之间的像素组。
13.根据权利要求10到12中任何一个的方法，其中对预定数量的帧求所追踪的组的移动平均值以生成平均位置。
14.根据权利要求13的方法，其中用来求移动平均值的帧的数量可以由用户在预定范围内确定。
15.根据权利要求13或14的方法，其中大于预定范围的一个组的移动把对这个组求平均值的计算进行重新设置。
16.根据权利要求10到15中任何一个的方法，其中给每个所追踪的组指定一个识别标号以使所追踪的组能够被循环或选择。
17.根据权利要求10到16中任何一个的方法，其中用户选择用来追踪和/或显示的组。
18.根据权利要求10到16中任何一个的方法，其中选择图像最中央的和/或概率总和最高的组用来追踪和/或显示。
19.根据权利要求18的方法，其中对于预定数量的连续图像，当被追踪的组不具有最高的概率总和时，被追踪和/或被显示的组切换到具有最高概率总和的组。
20.根据任何一个前述权利要求的方法，其中所述颜色特征对应于人类皮肤色调。
21.根据任何一个前述权利要求的方法，其中该区域是人的脸部。
22.根据权利要求1到20中任何一个的方法，其中区域是人的手部。
23.根据权利要求7或从属于权利要求7的任何一个前述权利要求的方法，其中提取该主题图像一个区域来校准概率模型。
24.根据任何一个前述权利要求的方法，其中按照图像中所述的一组像素的面积进行变焦。
25.根据权利要求24的方法，其中有一组不连续的变焦级别。
26.根据权利要求25的方法，包括利用时间滞后功能来使不连续的变焦级别之间的改变平滑。
27.一种操作包括图像捕获装置的设备的方法，该方法包括利用任何一个前述权利要求的方法来识别所捕获的图像中有预定颜色特征的几组像素。
28.根据权利要求27的方法，包括提取一个或一个以上包含所述几组像素的区域用来进一步处理。
29.根据权利要求28的方法，其中该进一步处理包括在图像显示装置上显示。
30.根据权利要求27到29中任何一个的方法，其中该设备是一种图像传输系统。
31.一种用于执行任何一个前述权利要求的方法的计算机程序。
32.一种存储权利要求31的计算机程序的数据存储介质。
33.用于执行任何一个前述权利要求的方法的装置。
34.根据权利要求33的装置，包括数据存储装置和图像数据处理装置。
35.一种用于通信系统的发射机，包括权利要求33或34的装置。
36.根据权利要求33到35中任何一个的装置，它是移动视频电话。
全文摘要
一种检测图像中有预定颜色特征的区域的方法包括把图像中像素的颜色值从第一色空间转换到第二色空间，利用第二色空间中的颜色值确定表示像素和预定颜色特征之间匹配的概率值，这里概率值包括多个值，利用所述概率值识别至少近似于所述预定颜色特征的像素，对至少近似于所述预定颜色特征的像素分组，然后提取有关每组的信息，其中按照多个概率值中的各个值给像素加权，当对像素分组时并且/或者当提取有关组的信息时使用加权。
文档编号G06T1/00GK1450796SQ0311024
公开日2003年10月22日申请日期2003年4月8日优先权日2002年4月8日
发明者J·库珀, M·波贝尔, S·帕沙拉基斯申请人:三菱电机株式会社

2012-2014专利技术

最新回复(0)