图像处理装置和图像处理方法
【技术领域】
[0001]本发明一般涉及图像处理、计算机视觉和模式识别的领域,特别涉及用于群体的图像序列和视频序列的图像处理装置、以及用于群体的图像序列和视频序列的图像处理方法。
【背景技术】
[0002]在拍摄群体(包括至少两个个体,例如,包括至少两个人)的图像序列的情况下,通常希望能够方便地从其获得令人满意的图像,在所述令人满意的图像中,每个人的属性(例如,诸如“微笑”、“悲伤”和“中性”的表情属性,或者诸如“眨眼”、“皱鼻”和“张嘴”的运动单元属性)都是令人满意的。
[0003]为了应对这一情形,已经提出各种图像处理方法,其中一种被示于图1 (参见US2011/0109770A1)中。在图1的流程图中,首先,在步骤10处,图像中的每个面部被检测。接下来,在步骤20处,通过将每个面部的评估出的预定表情转换成数值,计算每个面部的预定表情值。然后,在步骤30处,基于对于所有面部的多个预定表情值,计算群体的决定表情值。在步骤40处,判断决定表情值是否等于或大于预定阈值。如果是,那么在步骤50处所述图像被存储,并且然后处理前进至步骤60 ;否则,处理直接前进至步骤60。在步骤60处,判断是否还有其它图像。如果是,那么处理前进至移动至下一图像的步骤70,并且然后处理回到步骤10 ;否则,处理结束。
[0004]然而,以上图像处理方法具有许多限制。
[0005]首先,这样的方法利用群体的决定表情值来选择图像,这使得由此选择的图像可能未示出每个人的令人满意的表情。例如,对于一个图像,如果群体的大多数具有同一“微笑”表情而仅仅少数人具有诸如“悲伤”或“中性”的不同表情,那么所述图像仍可能被这样的方法选择。然而,群体的情绪基调(emot1nal tone)(或氛围(atmosphere))应该是大多数的表情(即,“微笑”),并且所述图像中的少数人的“悲伤”或“中性”表情不与其一致。由此,所述图像并不能被视为令人满意的图像,因为并不是所有的表情都与群体的情绪基调最一致。
[0006]其次,这样的方法是基于预定表情(例如,“微笑”)并计算每个面部的预定表情值。如果一个图像中的群体不具有预定表情(例如,每个人都具有“悲伤”表情),那么所述图像根本就不将被选择。然而,不包含预定表情的图像可能仍具有其它显著的效果(例如,“悲伤”或“震惊”效果)。由此,包含除预定表情之外的各种其它表情的极好图像可能被错过。
[0007]因此,希望能够提供能够应对以上问题中的至少一个问题的新图像处理装置和新图像处理方法。
【发明内容】
[0008]鉴于以上问题中的至少一个问题提出本发明。
[0009]本发明的一个目的是提供用于群体的图像序列和/或视频序列的新图像处理装置、以及用于群体的图像序列和/或视频序列的新图像处理方法。
[0010]本发明的另一目的是提供能够从群体的图像序列和/或视频序列获得令人满意的图像的图像处理装置和图像处理方法,在所述令人满意的图像中,每个个体的属性都尽可能地与群体属性一致。
[0011]本发明的又一目的是提供能够应对除预定属性之外的各种其它属性的图像处理装置和图像处理方法。
[0012]根据本发明的第一方面,提供一种用于群体的图像序列的图像处理装置,包括:被配置为获取所述群体的图像序列的单元,其中所述群体包括至少两个人;被配置为检测所述图像序列的每个图像中的每个人的面部区域的单元;被配置为识别所述图像序列的每个图像中的每个人的面部区域的属性的单元;以及被配置为基于所述图像序列的每个图像中的每个人的面部区域的属性来确定群体属性的单元。
[0013]根据本发明的第二方面,提供一种用于群体的视频序列的图像处理装置,包括:被配置为获取所述群体的视频序列的单元,其中,所述群体包括至少两个人;以及被配置为从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过根据本发明的用于群体的图像序列的图像处理装置对所述当前图像序列进行处理,直至到达所述视频序列的结尾的单元,其中,N是预定图像序列长度。
[0014]根据本发明的第三方面,提供一种用于群体的视频序列的图像处理装置,包括:被配置为获取所述群体的视频序列的单元,其中,所述群体包括至少两个人;被配置为从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过根据本发明的用于群体的图像序列的图像处理装置确定所述当前图像序列的群体属性,直至到达所述视频序列的结尾的单元,其中,N是预定图像序列长度;被配置为检测所述当前图像序列的群体属性是否从紧接在之前的图像序列的群体属性变化的单元;以及被配置为将具有检测到的群体属性变化的图像序列通知给用户的单元。
[0015]根据本发明的第四方面,提供一种用于群体的图像序列的图像处理方法,包括以下步骤:获取所述群体的图像序列,其中所述群体包括至少两个人;检测所述图像序列的每个图像中的每个人的面部区域;识别所述图像序列的每个图像中的每个人的面部区域的属性;以及基于所述图像序列的每个图像中的每个人的面部区域的属性来确定群体属性。
[0016]根据本发明的第五方面,提供一种用于群体的视频序列的图像处理方法,包括以下步骤:获取所述群体的视频序列,其中,所述群体包括至少两个人;以及从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过根据本发明的用于群体的图像序列的图像处理方法对所述当前图像序列进行处理,直至到达所述视频序列的结尾,其中,N是预定图像序列长度。
[0017]根据本发明的第六方面,提供一种用于群体的视频序列的图像处理方法,包括以下步骤:获取所述群体的视频序列,其中,所述群体包括至少两个人;从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过根据本发明的用于群体的图像序列的图像处理方法确定所述当前图像序列的群体属性,直至到达所述视频序列的结尾,其中,N是预定图像序列长度;检测所述当前图像序列的群体属性是否从紧接在之前的图像序列的群体属性变化;以及将具有检测到的群体属性变化的图像序列通知给用户。
[0018]由于以上特征,本发明的图像处理装置和图像处理方法能够从群体的图像序列和/或视频序列获得令人满意的图像,在所述令人满意的图像中,每个个体的属性都尽可能地与群体属性一致。
[0019]此外,由于以上特征,本发明的图像处理装置和图像处理方法能够应对除预定属性之外的各种其它属性。
[0020]从参照附图对示例性实施例的以下详细描述,本发明的进一步的目的、特征和优点将变得明显。
【附图说明】
[0021]被包含于说明书中并构成其一部分的附图示出本发明的实施例,并与描述一起用于解释本发明的原理。
[0022]图1示意性地示出现有技术的图像处理方法的流程图;
[0023]图2是能够实施根据本发明的图像处理方法的计算设备的硬件配置的示意性框图;
[0024]图3示意性地示出根据本发明的用于群体的图像序列的图像处理方法的一般流程图;
[0025]图4示意性地示出根据本发明的用于识别图像序列的每个图像中的每个人的面部区域的属性的步骤的流程图;
[0026]图5示意性地示出根据本发明的用于对应于每个预定属性类别对于图像序列的每个图像中的每个人的面部区域进行分类的步骤的流程图;
[0027]图6示意性地示出根据本发明的用于对应于每个预定属性类别对于图像序列的每个图像中的每个人的面部区域进行分类的步骤的另一流程图;
[0028]图7示意性地示出根据本发明的用于确定群体属性的步骤的流程图;
[0029]图8示意性地示出根据本发明的用于确定每个人的属性的步骤的流程图;
[0030]图9示意性地示出根据本发明的用于确定每个人的属性的步骤的另一流程图;
[0031]图10示意性地示出根据本发明的用于确定群体属性的步骤的另一流程图;
[0032]图11示意性地示出根据本发明的用于确定每个图像的属性的步骤的流程图;
[0033]图12示意性地示出根据本发明的用于确定每个图像的属性的步骤的另一流程图;
[0034]图13示意性地示出根据本发明的用于选择每个人的最佳面部区域并将群体中的所有人的最佳面部区域合成为目标图像的步骤;
[0035]图14示意性地示出根据本发明的用于选择每个人的最佳面部区域的步骤的流程图;
[0036]图15示意性地示出根据本发明的用于选择与确定的群体属性对应的图像的步骤的流程图;
[0037]图16示意性地示出根据本发明的用于选择与确定的群体属性对应的图像的步骤的另一流程图;
[0038]图17示意性地示出根据本发明的用于选择最佳图像的步骤的流程图;
[0039]图18示意性地示出根据本发明的用于群体的视频序列的图像处理方法的一般流程图;
[0040]图19示意性地示出根据本发明的用于从视频序列的开始顺序地选择N个图像作为当前图像序列的步骤的流程图;
[0041]图20示意性地示出根据本发明的用于获得下一当前图像序列的步骤的流程图;
[0042]图21示意性地示出根据本发明的用于群体的视频序列的图像处理方法的示例性流程图;
[0043]图22示意性地示出根据本发明的用于检测视频序列的群体属性变化的方法的流程图;
[0044]图23示意性地示出根据本发明的用于检测视频序列的群体属性变化的方法的示例性流程图;
[0045]图24示意性地示出根据本发明的用于群体的图像序列的图像处理装置的一般框图;
[0046]图25示意性地示出根据本发明的用于群体的视频序列的图像处理装置的一般框图;
[0047]图26示意性地示出根据本发明的用于检测视频序列的群体属性变化的图像处理装置的框图;
[0048]图27示意性地示出群体的输入图像序列;
[0049]图28示意性地示出图像序列的每个图像中的每个人的面部区域检测;
[0050]图29包括图29a?29e,其示意性地示出5个预定属性类别;
[0051]图30示意性地示出面部区域的子区域定位;
[0052]图31示意性地示出识别图像序列的每个图像中的每个人的面部区域的属性的结果;
[0053]图32示意性地示出用于确定每个人的属性的一种方式;
[0054]图33示意性地示出用于确定每个图像的属性的一种方式;
[0055]图34对于图像序列的每个图像中的每个人的面部区域示意性地示出对于确定的群体属性的置信分数;
[0056]图35示意性地示出对于群体中的每个人选择的最佳面部区域;
[0057]图36示意性地示出基于对于每个人的最佳面部区域的合成目标图像;
[0058]图37对于图像序列的每个图像中的所有面部区域示意性地示出对于确定的群体属性的平均置信分数;
[0059]图38示意性地示出选择的最佳图像;
[0060]图39比较性地示出通过根据本发明的方法选择的每个人的最佳面部区域和通过一种现有技术方法选择的每个人的最佳面部区域;
[0061]图40示意性地示出用于从视频序列获得新图像序列的一种方式;以及
[0062]图41示意性地示出根据本发明的检测视频序列的群体属性变化的结果。
【具体实施方式】
[0063]下面将参照附图详细描述本发明的示例性实施例。应注意,以下的描述在本质上仅是解释性和示例性的,决不意在限制本发明及其应用或使用。除非另外特别说明,否则,在实施例中阐述的组件和步骤的相对布置、数字表达式以及数值并不限制本发明的范围。另外,本领域技术人员已知的技术、方法和装置可能不被详细讨论,但在合适的情况下意在成为说明书的一部分。
[0064]如前所述,现有技术的图像处理方法是基于群体的决定属性值,而群体的决定属性值又是基于对于所有面部的多个预定属性值,由此现有技术的图像处理方法具有许多限制。在广泛且深入的研究之后,本发明的发明人已
找到新的基于群体属性的图像处理方法。更具体而言,在本发明中,群体属性是基于图像序列的每个图像中的每个个体的面部区域的属性而被确定的。基于此,每个个体的与确定的群体属性对应的面部区域可以从图像序列被选择,并且可以被进一步合成为目标图像,或者与确定的群体属性对应的图像可以从图像序列被选择。以这种方式,其中每个个体的属性尽可能地与群体属性一致的令人满意的图像能够被获得。并且,以这种方式,包括预定属性的所有种类的属性都能够被应对,由此包含任何种类的属性的极好图像都不会被错过。
[0065]下面,首先将参照图2描述可以实施根据本发明的图像处理方法的计算设备9000的示意性硬件配置。为了简化的目的,仅示出了一个计算设备。然而,在需要时也可以使用多个计算设备。
[0066]如图2所示,计算设备9000可包括CPU9110、芯片集9120、RAM9130、存储控制器9140、显示控制器9150、硬盘驱动器9160、⑶-ROM驱动器9170以及显示器9180。计算设备9000还可包括连接在CPU9110和芯片集9120之间的信号线9210、连接在芯片集9120和RAM9130之间的信号线9220、连接在芯片集9120和各种外围设备之间的外围设备总线9230、连接在存储控制器9140和硬盘驱动器9160之间的信号线9240、连接在存储控制器9140和⑶-ROM驱动器9170之间的信号线9250、以及连接在显示控制器9150和显示器9180之间的信号线9260。
[0067]客户机9300可直接地或经由网络9400而被连接到计算设备9000。客户机9300可发送图像处理任务给计算设备9000,并且计算设备9000可返回图像处理结果给客户机9300。
[0068]接下来,将详细描述根据本发明的用于群体的图像序列的图像处理方法。这里,作为例子,假设面部区域是整个面部,并且面部区域的属性是表情属性;然而,很明显的是,其不必限于此。
[0069]图3示意性地示出根据本发明的用于群体的图像序列的图像处理方法的一般流程图。
[0070]如图3所示,首先,在步骤100处,群体的图像序列被获取(参见图27)。如前所述,群体包括至少两个个体,并且个体可包括人、动物以及任何其它合适的项目。在图27中,例如,群体包括3个人,并且图像序列包括5个图像。
[0071]接下来,在步骤200处,图像序列的每个图像中的每个人的面部区域被检测(参见图 28)。
[0072]面部区域检测方法不被特别限制。例如,面部检测器(诸如基于增强的嵌套级联检测器(boosting nested cascade detector)的多视角面部检测器)可被采用来检测面部区域。检测到的面部区域将被用于以下的属性(例如,表情)识别。
[0073]然后,在步骤300处,图像序列的每个图像中的每个人的面部区域的属性被识别。
[0074]图4示意性地示出用于识别图像序列的每个图像中的每个人的面部区域的属性的步骤的流程图。
[0075]在图4中,首先,在步骤310处,对于图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数。
[0076]属性(例如,表情)类别可以根据需要被适当地预先确定。作为例子,图29示意性地示出5个预定表情类别:“生气”、“害怕”、“微笑”、“中性”和“悲伤”。为了对应于每个预定表情类别对面部区域进行分类,各种分类方法都可以被采用。
[0077]在图5中示出一个示例性分类方法。
[0078]如图5所示,首先,在步骤312处,图像序列的每个图像中的每个人的面部区域的特征被提取。
[0079]特征提取方法不被特别限制。例如,它可以是局部二值模式(Local BinaryPattern, LBP)方法、局部相位量化(Local Phase Quantizat1n, LPQ)方法、或任何其它合适的方法。
[0080]接下来,在步骤314处,对于图像序列的每个图像中的每个人的面部区域,通过基于其提取的特征进行分类而获得对于每个预定属性类别的置信分数。
[0081]作为例子,这里线性SVM (即,支持向量机(Support Vector Machine))被采用作为分类器。通过基于提取的特征进行分类,能够对于每个面部区域获得对于每个预定表情类别的置信分数。要注意的是,置信分数指的是面部区域被分配给特定表情类别的概率。
[0082]在图6中示出另一示例性分类方法。
[0083]如图6所示,首先,在步骤312’处,图像序列的每个图像中的每个人的面部区域的多个子区域被定位。
[0084]子区域定位方法不被特别限制。例如,对于每个面部区域,首先基于ASM (主动形状模型(Active Shape Model))通过特征点提取方法来提取如图30所示的7个关键特征点A?G。然后,基于提取的7个关键特征点,对于每个面部区域定位如图30所示的4个子区域,即,左眼区域、右眼区域、鼻子区域和嘴区域。对于每个对准的面部区域,4个子区域的尺寸是固定的,并且4个子区域的位置通过特征点被确定。假设坐标原点是图像的左上角。在定位左眼区域时,矩形的中心与线段AB的中点重合。类似地,右眼区域的矩形的中心与线段CD的中点重合。对于鼻子区域,如果左上角是Oi1, n2),右下角是(n3,n4),并且鼻子顶端E的位置是(ei,e2),则3个点的坐标遵循下式⑴?(2):
[0085]G1= α X (Ii^n3) (I)
[0086]e2=n2+ β X (η4_η2) (2)
[0087]这里,例如,0.3彡α彡0.7并且0.5彡β彡0.8。对于嘴区域,假设HQi1, h2)是线段FG的中点,左上角是Oii1, m2),右下角是(m3,m4)。3个点的坐标遵循下式(3)?⑷:
[0088]Ii1= Y X (Hi1+m3) (3)
[0089]h2=m2+ δ X (m4_m2) (4)
[0090]这里,例如,0.3 ^ Y ^ 0.7并且0.3彡δ彡0.6。顺便提及的是,α,β,γ和δ的以上值仅仅是经验值,并且它们可以适当地变动。作为例子,对于具有200X200像素的面部区域,眼睛的矩形的尺寸可以是80X60,鼻子的矩形的尺寸可以是140X40,而嘴的矩形的尺寸可以是140X80。
[0091]然后,在步骤314’处,图像序列的每个图像中的每个人的面部区域的每个子区域的特征被提取。
[0092]如前所述,特征提取方法可以是LBP、LPQ等。
[0093]最后,在步骤316’处,对于图像序列的每个图像中的每个人的面部区域,通过基于其提取的所述多个子区域的特征进行分类而获得对于每个预定属性类别的置信分数。
[0094]这可以如下被执行。对于每个面部区域,每个子区域的提取特征被以固定的顺序连接,然后4个子区域的特征被连接以代表面部区域的特征。基于每个面部区域的连接特征,分类可以被执行。如前所述,分类器可以是线性SVM。通过基于所述多个子区域的提取特征的分类,可以对于每个面部区域获得对于每个预定表情类别的置信分数。
[0095]现在回到图4。对于图像序列的每个图像中的每个人的面部区域,在步骤310处获得对于每个预定属性类别的置信分数之后,在步骤320处将具有最高置信分数的属性类别确定为其属性。图31示意性地示出图像序列中的每个面部区域的识别表情结果。这里,图像标号Al?A5表不人A分别在图像I?5中的面部区域图像,图像标号BI?B5表不人B分别在图像I?5中的面部区域图像,并且图像标号Cl?C5表示人C分别在图像I?5中的面部区域图像。
[0096]现在回到图3。在步骤300处识别出图像序列的每个图像中的每个人的面部区域的属性之后,在步骤400处基于图像序列的每个图像中的每个人的面部区域的属性确定群体属性。
[0097]群体属性在一定程度上能够被视为是群体中的大多数的属性。并且,对于群体的令人满意的图像,希望群体中的每个人的属性尽可能地与群体属性一致。以表情属性为例。群体的情绪基调(或氛围)在一定程度上能够被视为是群体中的大多数的表情。并且,对于群体的令人满意的图像,希望群体中的每个人的表情尽可能地与群体的情绪基调一致。
[0098]为了确定群体属性,可以采用各种方法。例如,群体属性可以基于群体中的每个人的属性或基于图像序列的每个图像的属性被确定。图7和图10分别示出这两种不同的方法。
[0099]现在将参照图7进行描述。在图7的流程图中,首先,在步骤410处,群体中的每个人的属性被确定。
[0100]在图8中示意性地示出确定群体中的每个人的属性的一种方式。
[0101]在图8中,首先,在步骤412处,对于图像序列中的每个人的所有面部区域计数每种识别属性的数量。
[0102]例如,通过参照示出图像序列中的每个面部区域的识别表情结果的图31,可以发现:对于人A,表情“中性”、“微笑”和“悲伤”的数量分别是2、3和O ;对于人B,表情“中性”、“微笑”和“悲伤”的数量分别是3、1和I ;对于人C,表情“中性”、“微笑”和“悲伤”的数量分别是1、4和O。这些计数值被列出在图32中。
[0103]然后,在步骤414处,具有最大数量的那种识别属性被选择作为每个人的属性。
[0104]因此,根据以上计数值,可以确定人A和C的表情都是“微笑”,而人B的表情是“中性”(参见图32的最后一列)。
[0105]顺便提及的是,在对于一个人存在具有相同最大数量的至少两种识别属性的极端情况下,所述人的属性例如可以如下被确定,尽管其不必限于此:在所述至少两种识别属性之中,对于所述人的其中具有每种识别属性的所有面部区域,获取对于所述每种识别属性的最大置信分数,然后,选择具有较高最大置信分数的那种识别属性作为所述人的属性。
[0106]作为替代方案,为了确定群体中的每个人的属性,如图9所示,可以采用另一方式。
[0107]在图9中,首先,在步骤412’处,对于图像序列中的每个人的所有面部区域,对于每种识别属性(即,被确定为属性的属性类别)的平均置信分数被计算。
[0108]以人A为例。在图31中,对于人A的所有5个面部区域,识别表情仅包括“中性”(参见Al?A2)和“微笑”(参见A3?A5)。然后,可以通过将Al、A2、A3、A4和A5的对于表情“中性”的置信分数之和除以5,来计算对于表情“中性”的平均置信分数,并且,可以通过将Al、A2、A3、A4和A5的对于表情“微笑”的置信分数之和除以5,来计算对于表情“微笑”的平均置信分数。这里,为了简便,详细的计算被省略。
[0109]然后,在步骤414’处,对于图像序列中的每个人的所有面部区域,具有最高平均置信分数的那种识别属性被选择作为所述每个人的属性。
[0110]顺便提及的是,图8的方法和图9的方法依赖于不同的准则来确定人的属性,由此可以适当地被选择。
[0111]现在回到图7。在步骤410处确定群体中的每个人的属性之后,在步骤420处对于群体中的所有人计数每种确定属性的数量。
[0112]例如,通过参照图32的最后一列,可以得出结论:对于群体中的所有3个人,表情“中性”、“微笑”和“悲伤”的数量分别是1、2和O。
[0113]最后,在图7的步骤430处,具有最大数量的那种确定属性被选择作为群体属性。
[0114]基于图32的最后一列中的结果,可以得出结论,表情“微笑”的数量大于任何其它表情的数量,所以群体的情绪基调被确定为“微笑”。
[0115]以上已经参照图7描述了如何基于群体中的每个人的属性来确定群体属性。接下来,将参照图10描述如何基于图像序列的每个图像的属性(在表情属性的情况下,每个图像的属性也可被称作每个图像的情绪向量)来确定群体属性。
[0116]在图10的流程图中,首先,在步骤410’处,图像序列的每个图像的属性被确定。
[0117]在图
11中示意性地示出确定图像序列的每个图像的属性的一种方式。
[0118]在图11中,首先,在步骤416处,对于图像序列的每个图像中的所有面部区域计数每种识别属性的数量。
[0119]例如,通过参照示出图像序列中的每个面部区域的识别表情结果的图31,可以发现:对于图像1,表情“中性”、“微笑”和“悲伤”的数量分别是3、0和O ;对于图像2,表情“中性”、“微笑”和“悲伤”的数量分别是1、2和O ;对于图像3,表情“中性”、“微笑”和“悲伤”的数量分别是1、2和O ;对于图像4,表情“中性”、“微笑”和“悲伤”的数量分别是0、2和I ;对于图像5,表情“中性”、“微笑”和“悲伤”的数量分别是1、2和O。这些计数值被列出在图33中。
[0120]然后,在步骤418处,具有最大数量的那种识别属性被选择作为所述每个图像的属性。
[0121]因此,根据以上计数值,可以确定图像I的情绪向量是“中性”,而图像2?5的情绪向量是“微笑”(参见图33的最后一列)。
[0122]顺便提及的是,在对于一个图像存在具有相同最大数量的至少两种识别属性的极端情况下,所述图像的属性例如可以如下被确定,尽管其不必限于此:在所述至少两种识别属性之中,对于所述图像的其中具有每种识别属性的所有面部区域,获取对于所述每种识别属性的最大置信分数,然后,选择具有较高最大置信分数的那种识别属性作为所述图像的属性。
[0123]作为替代方案,为了确定图像序列的每个图像的属性,如图12所示,可以采用另一方式。
[0124]在图12中,首先,在步骤416’处,对于图像序列的每个图像中的所有面部区域,计算对于每种识别属性的平均置信分数。
[0125]以图像2为例。在图31中,对于图像2的所有3个面部区域,识别表情仅包括“中性”(参见A2)和“微笑”(参见B2和C2)。于是,可以通过将A2、B2和C2的对于表情“中性”的置信分数之和除以3,来计算对于表情“中性”的平均置信分数,并且,可以通过将A2、B2和C2的对于表情“微笑”的置信分数之和除以3,来计算对于表情“微笑”的平均置信分数。这里,为了简便,详细的计算被省略。
[0126]然后,在步骤418’处,对于图像序列的每个图像中的所有面部区域,具有最高平均置信分数的那种识别属性被选择作为所述每个图像的属性。
[0127]顺便提及的是,图11的方法和图12的方法依赖于不同的准则来确定图像的属性,由此可以适当地被选择。
[0128]现在回到图10。在步骤410’处确定图像序列的每个图像的属性之后,在步骤420’处对于图像序列的所有图像计数每种确定属性的数量。
[0129]例如,通过参照图33的最后一列,可以得出结论:对于图像序列的所有5个图像,情绪向量“中性”、“微笑”和“悲伤”的数量分别是1、4和O。
[0130]最后,在图10的步骤430’处,具有最大数量的那种确定属性被选择作为群体属性。
[0131]基于图33的最后一列中的结果,可以得出结论,情绪向量“微笑”的数量大于任何其它情绪向量的数量,所以群体的情绪基调被确定为“微笑”。
[0132]至此,根据本发明确定了群体属性。在任何现有技术的图像处理方法中,群体属性根本就不被考虑;而是,其例如仅考虑群体的决定属性值(其基于对于图像中的所有面部区域的多个预定属性值)。换句话说,现有技术的图像处理方法根本就不考虑群体中的大多数的属性(例如,在表情属性的情况下,其不考虑群体的情绪基调或氛围)。这是现有技术的图像处理方法不能选择群体的令人满意的图像(其中每个个体的属性尽可能地与群体属性一致)的原因,这也是现有技术的图像处理方法不能应对除预定属性之外的属性的原因。相比之下,在本发明中,群体属性如上所述的那样被确定,这使得能够如下面将看到的那样获得令人满意的图像。
[0133]在本发明的一些实施例中,在群体属性被确定之后,每个人的与确定的群体属性对应的面部区域可以进一步从图像序列的所有图像中被选择。
[0134]例如,对于选择的每个面部区域,其识别属性可以是、或者可以等同于确定的群体属性。以图31为例。如果群体属性被确定为“微笑”,那么对于人A可以选择面部区域A3?A5。对于人B可以选择面部区域B2,而对于人C可以选择面部区域C2?C5。选择的所有这些面部区域都被视为与群体属性一致,其可以被用于获得群体的令人满意的图像。
[0135]作为替代方案,对于选择的每个面部区域,对于确定的群体属性的置信分数可以大于预定阈值。例如,预定阈值可以被设为0.65。对于每个面部区域,对于确定的群体属性的置信分数可以简单地从上述的分类步骤310被获取。图34对于图像序列的每个图像中的每个人的面部区域示意性地示出对于确定的群体属性(例如,“微笑”)的置信分数。因此,通过参照图34,对于人A可以选择面部区域A3?A5,对于人B可以选择面部区域B2,而对于人C可以选择面部区域C2和C4。选择的所有这些面部区域被视为与群体属性一致,其可以被用于获得群体的令人满意的图像。
[0136]顺便提及的是,对于以上两个选择准则,它们的结果可能并不相同。本领域技术人员可以根据需要来选择这两个准则。
[0137]在本发明的一些实施例中,在群体属性被确定之后,作为进一步选择每个人的与确定的群体属性对应的面部区域的替代,可以从图像序列的所有图像中进一步选择每个人的与确定的群体属性对应的最佳面部区域(参见图13的步骤500)。每个人的该最佳面部区域将与群体属性最为一致。可选地,在每个人的最佳面部区域被选择之后,群体中的所有人的最佳面部区域可以进一步被合成为目标图像(参见图13的步骤600),这将是来自图像序列的群体的最令人满意的图像。
[0138]图14示意性地示出用于选择每个人的最佳面部区域的步骤500的流程图。
[0139]如图14所示,首先,在步骤510处,对于图像序列中的每个人的每个面部区域获取对于确定的群体属性(例如,“微笑”)的置信分数。
[0140]如前所述,可以从上述的分类步骤310简单地获取这些置信分数,并且图34给出示例性结果。
[0141]应注意,在一个人的面部区域的所有识别属性(例如,表情)不包括与群体属性(例如,群体的情绪基调)对应的属性的情况下,仍然可以通过上述的分类步骤310对于该人的每个面部区域获取对于与群体属性对应的属性类别的置信分数。尽管对于与群体属性对应的属性类别的置信分数低于该人的对于识别属性的置信分数,但是该人的与群体属性(例如,群体的情绪基调)最接近的最佳面部区域仍可以被选择。
[0142]然后,在步骤520处,从图像序列中的每个人的所有面部区域中,具有最高置信分数的面部区域可以被选择作为所述每个人的最佳面部区域。每个人的该最佳面部区域将与群体属性最一致。
[0143]通过参照图34,对于人A?C,面部区域A3、B2和C2分别拥有最高的置信分数,由此分别被选择作为他们的最佳面部区域。在图35中示出结果。
[0144]在每个人的最佳面部区域被选择之后,群体中的所有人的最佳面部区域可以进一步被可选地合成为目标图像,即,来自图像序列的群体的最令人满意的图像。
[0145]这例如可以被如下实现。由于对于图像序列中的每个人而言头部位置的变化非常小,因此可以任意地选择一个图像作为要被合成的目标图像。通过上述的检测步骤200,每个人的面部区域的边界框可以被获取(参见图28)。然后,选择的每个人的最佳面部区域可以被用于替代对应边界框内的原始面部区域。图36示出从最佳面部区域A3、B2和C2合成的目标图像。
[0146]以上已经描述了每个人的令人满意的面部区域(或最佳面部区域)被基于群体属性而选择的情况。接下来,将描述基于群体属性来选择令人满意的图像(或最佳图像)的情况。
[0147]在本发明的一些实施例中,在群体属性被确定之后,与确定的群体属性对应的图像从图像序列的所有图像中被选择。
[0148]在图15中示出一个示例性图像选择方法。
[0149]如图15所示,首先,在步骤560处,图像序列的每个图像的属性被获取。如前所述,对于图像序列的每个图像中的所有面部区域,具有最大数量的那种识别属性被视为图像序列的所述每个图像的属性(参见上述的步骤410’)。例如,根据图33的最后一列,图像I?5的属性分别是“中性”、“微笑”、“微笑”、“微笑”和“微笑”。
[0150]接下来,在步骤570处,其获取属性与确定的群体属性等同的图像从图像序列的所有图像中被选择。例如,如果群体属性是“微笑”,那么在图33的最后一列中的结果的情况下,具有“微笑”属性的图像2?5可以被选择。选择的所有这些图像被认为与群体属性(例如,群体的情绪基调)一致。
[0151]在图16中示出另一示例性图像选择方法。
[0152]如图16所示,首先,在步骤560’处,对于图像序列的每个图像中的所有面部区域计算对于确定的群体属性的平均置信分数。
[0153]例如,通过参照示出对于确定的群体属性的置信分数的图34,可以得出:对于图像1,平均置信分数=(0.2+0.3+0.3)/3 ^ 0.27;对于图像2,平均置信分数= (0.3+0.7+0.8)/3=0.60 ;对于图像 3,平均置信分数=(0.9+0.4+0.6)/3 ^ 0.63 ;对于图像4,平均置信分数=(0.7+0.1+0.7)/3=0.50 ;对于图像5,平均置信分数= (0.8+0.2+0.5)/3=0.50。在图 37 中列出结果。
[0154]接下来,在步骤570’处,其计算出的平均置信分数大于预定阈值的图像从图像序列的所有图像中被选择。
[0155]例如,预定阈值可以被设为0.55。通过参照图37中的结果,图像2?3可以被选择。选择的所有这些图像被认为与群体属性(例如,群体的情绪基调)一致。
[0156]顺便提及的是,对于以上两个图像选择方法,它们的结果可能并不相同。本领域技术人员可以根据需要来选择它们。
[0157]在本发明的一些实施例中,在群体属性被确定之后,作为进一步选择与确定的群体属性对应的图像的替代,与确定的群体属性对应的最佳图像可以进一步从图像序列的所有图像中被选择。
[0158]图17示意性地示出用于选择最佳图像的步骤的流程图。
[0159]如图17所示,首先,在步骤580处,对于图像序列的每个图像中的所有面部区域计算对于确定的群体属性的平均置信分数。该步骤与步骤560’相同,由此其描述被省略。
[0160]接下来,在步骤590处,具有最高平均置信分数的图像从图像序列的所有图像中被选择作为最佳图像。该最佳图像将与群体属性最一致。
[0161]通过参照图37中的结果,图像3被选择作为最佳图像。图38示出所得的最佳图像。
[0162]顺便提及的是,从所有人的最佳面部区域合成的目标图像(参见图36)和选择的最佳图像(参见图38)都是令人满意的图像,因为其中的每个人的表情都尽可能地与群体的情绪基调一致。然而,要注意的是,由于来自图像合成的增加的自由度,因此至少在某些情况下前者的效果可能比后者的效果甚至更好。
[0163]为了更好地示出本发明的效果,图39比较性地示出通过根据本发明的方法选择的最佳面部区域和通过一种常用的现有技术方法选择的最佳面部区域。
[0164]在图39中,左栏示出通过本发明的方法选择的对于人A?C的最佳面部区域A3、B2和C2,而右栏示出通过一种现有技术方法选择的对于人A?C的最佳面部区域A3、B1和Cl。本发明的方法基于群体的情绪基调(例如,“微笑”)来选择最佳面部区域(人A?C的对于“微笑”的置信分数分别是0.9,0.7和0.8)。尽管选择的人B的“微笑”面部区域并不具有足够高的置信分数,但是该选择的“微笑”面部区域与群体的情绪基调一致。相对照地,现有技术的方法基于每个人的最好表情(人A?C的最高置信分数分别是对于“微笑”的0.9,对于“中性”的0.9和对于“中性”的0.9)而不是群体的情绪基调来选择最佳
面部区域。尽管选择的每个人的表情具有最高置信分数,但是对于人B?C的最好的表情“中性”并不是希望的。由于以上原因,通过本发明的方法选择的最佳面部区域比通过现有技术的方法选择的最佳面部区域要令人满意得多。
[0165]至此,已通过以相对于整个面部的表情属性为例描述了根据本发明的用于群体的图像序列的图像处理方法。然而,如前所述,属性不必限于此,而是可以被适当地选择。接下来,作为例子,将描述面部区域指的是局部面部区域并且面部区域的属性指的是运动单元(act1n unit,简称为“AU”)的情况。
[0166]简而言之,这里,对于面部区域检测,诸如眼睛区域、鼻子区域、嘴区域等的局部区域(而不是整个面部)被检测;对于面部区域属性识别,诸如闭眼、皱鼻、张嘴等的局部区域的运动单元(而不是整个面部的表情)被识别;对于群体属性确定,诸如闭眼、皱鼻、张嘴等的状态的群体的每种局部区域的运动状态(而不是群体的情绪基调)被确定。
[0167]例如,选择局部区域的处理可以如下被执行。
[0168]首先,对于获取的群体的图像序列,基于面部特征点检测方法来分别检测图像序列的每个图像中的每个人的眼睛区域、鼻子区域和嘴区域(类似于上述步骤312’)。
[0169]然后,在对应的局部区域的LBP特征被提取之后,通过例如使用线性SVM分类方法来识别图像序列的每个图像中的对于每个人的每种局部区域(即,眼睛区域、鼻子区域、嘴区域)的AU属性(类似于上述步骤300)。
[0170]接下来,群体的每种局部区域的运动状态被基于图像序列的每个图像中的对于每个人的对应种类局部区域的AU属性而确定(类似于上述步骤400)。
[0171]在群体的每种局部区域的运动状态被确定之后,可选地,每个人的与群体的相应种类局部区域的运动状态对应的局部区域可以被选择,即,每个人的与群体的相应种类局部区域的运动状态对应的眼睛区域、鼻子区域和嘴区域可以被分别选择(与上述面部区域选择步骤类似)。
[0172]在群体的每种局部区域的运动状态被确定之后,作为替代方案,可选地,每个人的每种最佳局部区域(即,最佳眼睛区域、最佳鼻子区域、最佳嘴区域)可以被选择。并且,每个人的所有最佳局部区域可以被合成为该人的最佳面部。并且,所有人的最佳面部可以被合成为群体的最佳目标图像(类似于上述步骤500和600)。
[0173]另一方面,选择图像的处理可以例如如下被执行。
[0174]首先,对于获取的群体的图像序列,基于面部特征点检测方法来检测图像序列的每个图像中的每个人的一种局部区域(例如,眼睛区域、鼻子区域或嘴区域)。
[0175]然后,在局部区域的LBP特征被提取之后,通过例如使用线性SVM分类方法来识别图像序列的每个图像中的对于每个人的局部区域的AU属性。
[0176]接下来,基于图像序列的每个图像中的对于每个人的局部区域的AU属性来确定群体的局部区域的运动状态。
[0177]在群体的局部区域的运动状态被确定之后,可选地,与群体的局部区域的运动状态对应的图像可以被选择(类似于上述步骤560、570、560’和570’)。
[0178]在群体的局部区域的运动状态被确定之后,作为替代方案,最佳图像可以从图像序列中被选择(类似于上述步骤580和590)。
[0179]至此,已经关于群体的图像序列描述了本发明的图像处理方法。要注意的是,本发明的图像处理方法也可以被应用于群体的视频序列。下面将对此进行描述。
[0180]图18示意性地示出根据本发明的用于群体的视频序列的图像处理方法的一般流程图。
[0181]如图18所示,首先,在步骤700处,群体的视频序列被获取。如前所述,群体包括至少两个个体。例如,群体包括至少两个人。
[0182]接下来,在步骤800处,从视频序列的开始顺序地选择N个帧图像作为当前图像序列,并通过以上的用于群体的图像序列的图像处理方法对当前图像序列进行处理,直至到达视频序列的结尾。这里,N是预定图像序列长度,例如,N=20。
[0183]图19示意性地示出如何从视频序列的开始顺序地选择N个帧图像作为当前图像序列。
[0184]如图19所示,首先,在步骤810处,视频序列中的最初N个帧图像被选择作为当前图像序列。例如,在图40中,最初的N个帧图像,即F1?Fn,被选择作为当前图像序列。这里,Fi代表视频序列的第i个帧图像。
[0185]接下来,在步骤820处,在视频序列中向前移动一个步长S以获得下一当前图像序列,直至到达视频序列的结尾。这里,步长Se [1,L-N],L是视频序列的总长度,并且L>N。
[0186]图20与图40—起示意性地示出如何通过在视频序列中向前移动一个步长S来获得下一当前图像序列。
[0187]如图20所示,首先,在步骤822处,移动的一个步长S的帧图像被添加至当前图像序列。例如,在图40中,移动的一个步长的帧图像,即Fn+1?FN+S,被添加至当前图像序列F1 ?Fn。
[0188]接下来,在步骤824处,最初S个帧图像被从当前图像序列去除。例如,在图40中,最初S个帧图像,即F1?Fs,被从当前图像序列F1?Fn去除。
[0189]最后,在步骤826处,剩余的N个帧图像被取作下一当前图像序列。例如,在图40中,剩余的N个帧图像,即Fs+1?FN+S,被取作下一当前图像序列。
[0190]在描述的方法中,作为用于获取新的帧图像的常用方案,N和S都是固定的。然而,很明显的是,作为用于获取新的帧图像的更一般方案,N和S均可以是可变的。
[0191]为了更好地示出根据本发明的用于群体的视频序列的图像处理方法,图21给出其示例性流程图。
[0192]如图21所示,首先,在步骤910处,群体的视频序列被获取。如前所述,群体包括至少两个个体。例如,群体包括至少两个人。
[0193]然后,在步骤920处,视频序列中的最初N个帧图像被选择作为当前图像序列。
[0194]接下来,在步骤930处,通过以上的用于群体的图像序列的图像处理方法来对当前图像序列进行处理。例如,根据实际需要,群体属性可以被确定,或者(最佳)面部区域可以从其被选择,或者(最佳)图像可以从其被选择等。
[0195]随后,在步骤940处,判断是否到达视频序列的结尾。如果是,则处理结束;否则,处理前往至在视频序列中向前移动一个步长S以获得下一当前图像序列的步骤950,并且之后,处理回到步骤930。
[0196]作为例子,图41示意性地示出对于从视频序列选择的各个图像序列的确定的群体属性。这里,步长S= 10,并且N和S都是固定的。
[0197]不用说,本发明的方法可以被应用于各种领域。
[0198]一个应用例子是照相机中的最佳毕业照片推荐系统。更具体而言,该系统可以通过本发明的方法从照相机捕获的图像序列中确定群体的毕业氛围,从该图像序列中找到每个毕业生的具有最佳表情的面部区域,并将每个毕业生的最佳面部区域合成为最佳毕业照片。最后,该系统可以将最佳毕业照片推荐给每个毕业生。
[0199]另一应用例子涉及群体图像序列的自动分类。更具体而言,对于输入的多个群体图像序列,每个图像序列的情绪基调可以通过本发明的方法被确定。然后,所述多个群体图像序列可以根据确定的不同的情绪基调被分类以获得分类后的群体图像序列。顺便提及的是,通过本发明的方法,不同群体的多个图像序列和一个群体的多个图像序列(即,一个群体的不同套的图像序列)都可以被分类。
[0200]又一应用例子涉及自动视频分段。更具体而言,对于输入的视频序列,多个情绪基调可以通过本发明的方法被确定。然后,视频序列可以根据确定的不同的情绪基调被分段以获得多个视频段。
[0201]再一应用例子涉及视频序列的情绪基调变化的自动检测。图22示意性地示出其流程图。
[0202]如图22所示,首先,在步骤1100处,群体的视频序列被获取(类似于步骤700)。如前所述,群体包括至少两个个体。例如,群体包括至少两个人。
[0203]然后,在步骤1200处,从视频序列的开始顺序地选择N个帧图像作为当前图像序列,并通过以上的用于群体的图像序列的图像处理方法对当前图像序列确定群体属性,直至到达视频序列的结尾(类似于步骤800)。这里,N是预定图像序列长度,例如,N=20。
[0204]接下来,在步骤1300处,检测当前图像序列的群体属性是否从紧接在之前的图像序列的群体属性变化。
[0205]最后,在步骤1400处,具有检测到的群体属性变化的图像序列被通知给用户。
[0206]为了更好地示出视频序列的情绪基调变化的自动检测,图23给出其示例性流程图。
[0207]如图23所示,首先,在步骤1510处,群体的视频序列被获取(类似于步骤910)。
[0208]然后,在步骤1520处,视频序列中的最初N个帧图像被选择作为当前图像序列(类似于步骤920)。
[0209]接下来,在步骤1530处,通过以上的用于群体的图像序列的图像处理方法对当前图像序列确定群体属性(类似于步骤930)。
[0210]随后,在步骤1540处,当前图像序列的群体属性被存储。
[0211]之后,在步骤1550处,判断当前图像序列是否是最初N个帧图像。如果是,则处理前往至在视频序列中向前移动一个步长S以获得下一当前图像序列的步骤1560(类似于步骤950),并且之后,处理回到步骤1530 ;否则,处理前往至步骤1570。
[0212]在步骤1570处,判断是否到达视频序列的结尾。如果是,则处理结束;否则,处理前往至步骤1580。
[0213]在步骤1580处,判断当前图像序列的群体属性是否从紧接在之前的图像序列的群体属性变化。如果是,则处理前往至具有检测到的群体属性变化的图像序列被通知给用户的步骤1590并且之后处理结束;否则,处理前往至步骤1560并且之后回到步骤1530。
[0214]除了上述应用例子之外,信息处理方法还可以包括本发明的图像处理方法以便基于图像处理结果来处理信息。
[0215]以下,本发明的图像处理方法被简要地概括。
[0216]用于群体的图像序列的图像处理方法可以包括以下步骤:获取所述群体的图像序列,其中所述群体包括至少两个人;检测所述图像序列的每个图像中的每个人的面部区域;识别所述图像序列的每个图像中的每个人的面部区域的属性;以及基于所述图像序列的每个图像中的每个人的面部区域的属性来确定群体属性。
[0217]在本发明的一些实施例中,识别的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数;以及对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性。
[0218]在本发明的一些实施例中,分类的步骤可以进一步包括以下步骤:提取所述图像序列的每个图像中的每个人的面部区域的特征;以及对于所述图像序列的每个图像中的每个人的面部区域,通过基于其提取的特征进行分类而获得对于每个预定属性类别的置信分数。
[0219]在本发明的一些实施例中,分类的步骤可以进一步包括以下步骤:定位所述图像序列的每个图像中的每个人的面部区域的多个子区域;提取所述图像序列的每个图像中的每个人的面部区域的每个子区域的特征;以及对于所述图像序列的每个图像中的每个人的面部区域,通过基于其提取的所述多个子区域的特征进行分类而获得对于每个预定属性类别的置信分数。
[0220]在本发明的一些实施例中,确定的步骤可以进一步包括以下步骤:确定所述群体中的每个人的属性;对于所述群体中的所有人计数每种确定属性的数量;以及选择具有最大数量的那种确定属性作为群体属性。
[0221 ] 在本发明的一些实施例中,确定所述群体中的每个人的属性的步骤可以进一步包括以下步骤:对于所述图像序列中的每个人的所有面部区域计
数每种识别属性的数量;以及选择具有最大数量的那种识别属性作为所述每个人的属性。
[0222]在本发明的一些实施例中,识别的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数;以及对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性,以及确定所述群体中的每个人的属性的步骤可以进一步包括以下步骤:对于所述图像序列中的每个人的所有面部区域计算对于每种识别属性的平均置信分数;以及对于所述图像序列中的每个人的所有面部区域选择具有最高平均置信分数的那种识别属性作为所述每个人的属性。
[0223]在本发明的一些实施例中,确定的步骤可以进一步包括以下步骤:确定所述图像序列的每个图像的属性;对于所述图像序列的所有图像计数每种确定属性的数量;以及选择具有最大数量的那种确定属性作为群体属性。
[0224]在本发明的一些实施例中,确定所述图像序列的每个图像的属性的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的所有面部区域计数每种识别属性的数量;以及选择具有最大数量的那种识别属性作为所述每个图像的属性。
[0225]在本发明的一些实施例中,识别的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数;以及对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性,以及确定所述图像序列的每个图像的属性的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的所有面部区域计算对于每种识别属性的平均置信分数;以及对于所述图像序列的每个图像中的所有面部区域选择具有最高平均置信分数的那种识别属性作为所述每个图像的属性。
[0226]在本发明的一些实施例中,图像处理方法可以进一步包括以下步骤:从所述图像序列的所有图像中选择每个人的与确定的群体属性对应的面部区域。
[0227]在本发明的一些实施例中,选择的每个面部区域的识别属性是确定的群体属性。
[0228]在本发明的一些实施例中,识别的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数;以及对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性,以及对于选择的每个面部区域,对于确定的群体属性的置信分数大于预定阈值。
[0229]在本发明的一些实施例中,图像处理方法可以进一步包括以下步骤:从所述图像序列的所有图像中选择每个人的与确定的群体属性对应的最佳面部区域;以及将所述群体中的所有人的最佳面部区域合成为目标图像。
[0230]在本发明的一些实施例中,识别的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数;以及对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性,以及选择每个人的与确定的群体属性对应的最佳面部区域的步骤可以进一步包括以下步骤:对于所述图像序列中的每个人的每个面部区域获取对于确定的群体属性的置信分数;以及从所述图像序列中的每个人的所有面部区域中选择具有最高置信分数的面部区域作为所述每个人的最佳面部区域。
[0231]在本发明的一些实施例中,图像处理方法可以进一步包括以下步骤:从所述图像序列的所有图像中选择与确定的群体属性对应的图像。
[0232]在本发明的一些实施例中,选择与确定的群体属性对应的图像的步骤可以进一步包括以下步骤:获取所述图像序列的每个图像的属性,其中,对于所述图像序列的每个图像中的所有面部区域,具有最大数量的那种识别属性是所述图像序列的所述每个图像的属性;以及从所述图像序列的所有图像中选择图像,其中,选择的每个图像的获取属性是确定的群体属性。
[0233]在本发明的一些实施例中,识别的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数;以及对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性,以及选择与确定的群体属性对应的图像的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的所有面部区域计算对于确定的群体属性的平均置信分数;以及从所述图像序列的所有图像中选择图像,其中,选择的每个图像的计算出的平均置信分数大于预定阈值。
[0234]在本发明的一些实施例中,图像处理方法可以进一步包括以下步骤:从所述图像序列的所有图像中选择与确定的群体属性对应的最佳图像。
[0235]在本发明的一些实施例中,识别的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数;以及对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性,以及选择与确定的群体属性对应的最佳图像的步骤可以进一步包括以下步骤:对于所述图像序列的每个图像中的所有面部区域计算对于确定的群体属性的平均置信分数;以及从所述图像序列的所有图像中选择具有最高平均置信分数的图像作为最佳图像。
[0236]在本发明的一些实施例中,当面部区域是整个面部时,面部区域的属性是表情属性;当面部区域是局部面部区域时,面部区域的属性是运动单元。
[0237]用于群体的视频序列的图像处理方法可以包括以下步骤:获取所述群体的视频序列,其中,所述群体包括至少两个人;以及从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过以上的用于群体的图像序列的图像处理方法对所述当前图像序列进行处理,直至到达所述视频序列的结尾,其中,N是预定图像序列长度。
[0238]此外,用于群体的视频序列的图像处理方法可以包括以下步骤:获取所述群体的视频序列,其中,所述群体包括至少两个人;从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过以上的用于群体的图像序列的图像处理方法确定所述当前图像序列的群体属性,直至到达所述视频序列的结尾,其中,N是预定图像序列长度;检测所述当前图像序列的群体属性是否从紧接在之前的图像序列的群体属性变化;以及将具有检测到的群体属性变化的图像序列通知给用户。
[0239]在本发明的一些实施例中,从所述视频序列的开始顺序地选择N个图像作为当前图像序列的步骤可以进一步包括以下步骤:选择所述视频序列中的最初N个图像作为当前图像序列;以及在所述视频序列中向前移动一个步长S以获得下一当前图像序列,直至到达所述视频序列的结尾,其中,S e [I, L-N],L是所述视频序列的总长度,并且L>N,以及获得下一当前图像序列的步骤可以进一步包括以下步骤:将移动的一个步长S的图像添加至所述当前图像序列;从所述当前图像序列去除最初S个图像;以及将剩余的N个图像取作所述下一当前图像序列。
[0240]在本发明的一些实施例中,N和S均是可变的。
[0241]以下,将参照图24?26简要描述根据本发明的图像处理装置。
[0242]图24示意性地示出根据本发明的用于群体的图像序列的图像处理装置的一般框图。如图24所示,用于群体的图像序列的图像处理装置1600可以包括:被配置为获取所述群体的图像序列的单元1610,其中所述群体包括至少两个人;被配置为检测所述图像序列的每个图像中的每个人的面部区域的单元1620 ;被配置为识别所述图像序列的每个图像中的每个人的面部区域的属性的单元1630 ;以及被配置为基于所述图像序列的每个图像中的每个人的面部区域的属性来确定群体属性的单元1640。
[0243]在本发明的一些实施例中,识别的单元1630可以进一步包括:被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元。
[0244]在本发明的一些实施例中,分类的单元可以进一步包括:被配置为提取所述图像序列的每个图像中的每个人的面部区域的特征的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,通过基于其提取的特征进行分类而获得对于每个预定属性类别的置信分数的单元。
[0245]在本发明的一些实施例中,分类的单元可以进一步包括:被配置为定位所述图像序列的每个图像中的每个人的面部区域的多个子区域的单元;被配置为提取所述图像序列的每个图像中的每个人的面部区域的每个子区域的特征的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,通过基于其提取的所述多个子区域的特征进行分类而获得对于每个预定属性类别的置信分数的单元。
[0246]在本发明的一些实施例中,确定的单元1640可以进一步包括:被配置为确定所述群体中的每个人的属性的单元;被配置为对于所述群体中的所有人计数每种确定属性的数量的单元;以及被配置为选择具有最大数量的那种确定属性作为群体属性的单元。
[0247]在本发明的一些实施例中,被配置为确定所述群体中的每个人的属性的单元可以进一步包括:被配置为对于所述图像序列中的每个人的所有面部区域计数每种识别属性的数量的单元;以及被配置为选择具有最大数量的那种识别属性作为所述每个人的属性的单
J Li ο
[0248]在本发明的一些实施例中,识别的单元1630可以进一步包括:被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及被配置为确定所述群体中的每个人的属性的单元可以进一步包括:被配置为对于所述图像序列中的每个人的所有面部区域计算对于每种识别属性的平均置信分数的单元;以及被配置为对于所述图像序列中的每个人的所有面部区域选择具有最高平均置信分数的那种识别属性作为所述每个人的属性的单元。
[0249]在本发明的一些实施例中,确定的单元1640可以进一步包括:被配置为确定所述图像序列的每个图像的属性的单元;被配置为对于所述图像序列的所有图像计数每种确定属性的数量的单元;以及被配置为选择具有最大数量的那种确定属性作为群体属性的单
J Li ο
[0250]在本发明的一些实施例中,被配置为确定所述图像序列的每个图像的属性的单元可以进一步包括:被配置为对于所述图像序列的每个图像中的所有面部区域计数每种识别属性的数量的单元;以及被配置为选择具有最大数量的那种识别属性作为所述每个图像的属性的单元。
[0251]在本发明的一些实施例中,识别的单元1630可以进一步包括:被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及被配置为确定所述图像序列的每个图像的属性的单元可以进一步包括:被配置为对于所述图像序列的每个图像中的所有面部区域计算对于每种识别属性的平均置信分数的单元;以及被配置为对于所述图像序列的每个图像中的所有面部区域选择具有最高平均置信分数的那种识别属性作为所述每个图像的属性的单元。
[0252]在本发明的一些实施例中,图像处理装置可以进一步包括:被配置为从所述图像序列的所有图像中选择每个人的与确定的群体属性对应的面部区域的单元。
[0253]在本发明的一些实施例中,选择的每个面部区域的识别属性是确定的群体属性。
[0254]在本发明的一些实施例中,识别的单元1630可以进一步包括:被配置为对于
所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及对于选择的每个面部区域,对于确定的群体属性的置信分数大于预定阈值。
[0255]在本发明的一些实施例中,图像处理装置可以进一步包括:被配置为从所述图像序列的所有图像中选择每个人的与确定的群体属性对应的最佳面部区域的单元;以及被配置为将所述群体中的所有人的最佳面部区域合成为目标图像的单元。
[0256]在本发明的一些实施例中,识别的单元1630可以进一步包括:被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及被配置为选择每个人的与确定的群体属性对应的最佳面部区域的单元可以进一步包括:被配置为对于所述图像序列中的每个人的每个面部区域获取对于确定的群体属性的置信分数的单元;以及被配置为从所述图像序列中的每个人的所有面部区域中选择具有最高置信分数的面部区域作为所述每个人的最佳面部区域的单元。
[0257]在本发明的一些实施例中,图像处理装置可以进一步包括:被配置为从所述图像序列的所有图像中选择与确定的群体属性对应的图像的单元。
[0258]在本发明的一些实施例中,被配置为选择与确定的群体属性对应的图像的单元可以进一步包括:被配置为获取所述图像序列的每个图像的属性的单元,其中,对于所述图像序列的每个图像中的所有面部区域,具有最大数量的那种识别属性是所述图像序列的所述每个图像的属性;以及被配置为从所述图像序列的所有图像中选择图像的单元,其中,选择的每个图像的获取属性是确定的群体属性。
[0259]在本发明的一些实施例中,识别的单元1630可以进一步包括:被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及被配置为选择与确定的群体属性对应的图像的单元可以进一步包括:被配置为对于所述图像序列的每个图像中的所有面部区域计算对于确定的群体属性的平均置信分数的单元;以及被配置为从所述图像序列的所有图像中选择图像的单元,其中,选择的每个图像的计算出的平均置信分数大于预定阈值。
[0260]在本发明的一些实施例中,图像处理装置可以进一步包括:被配置为从所述图像序列的所有图像中选择与确定的群体属性对应的最佳图像的单元。
[0261]在本发明的一些实施例中,识别的单元1630可以进一步包括:被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及被配置为选择与确定的群体属性对应的最佳图像的单元可以进一步包括:被配置为对于所述图像序列的每个图像中的所有面部区域计算对于确定的群体属性的平均置信分数的单元;以及被配置为从所述图像序列的所有图像中选择具有最高平均置信分数的图像作为最佳图像的单元。
[0262]在本发明的一些实施例中,当面部区域是整个面部时,面部区域的属性是表情属性;当面部区域是局部面部区域时,面部区域的属性是运动单元。
[0263]图25示意性地示出根据本发明的用于群体的视频序列的图像处理装置的一般框图。如图25所示,用于群体的视频序列的图像处理装置1700可以包括:被配置为获取所述群体的视频序列的单元1710,其中,所述群体包括至少两个人;以及被配置为从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过以上的用于群体的图像序列的图像处理装置对所述当前图像序列进行处理,直至到达所述视频序列的结尾的单元1720,其中,N是预定图像序列长度。
[0264]此外,图26示意性地示出根据本发明的用于群体的视频序列的图像处理装置的框图。如图26所示,用于群体的视频序列的图像处理装置1800可以包括:被配置为获取所述群体的视频序列的单元1810 (类似于1710),其中,所述群体包括至少两个人;被配置为从所述视频序列的开始顺序地选择N个图像作为当前图像序列,并通过以上的用于群体的图像序列的图像处理装置确定所述当前图像序列的群体属性,直至到达所述视频序列的结尾的单元1820 (类似于1720),其中,N是预定图像序列长度;被配置为检测所述当前图像序列的群体属性是否从紧接在之前的图像序列的群体属性变化的单元1830 ;以及被配置为将具有检测到的群体属性变化的图像序列通知给用户的单元1840。
[0265]在本发明的一些实施例中,被配置为从所述视频序列的开始顺序地选择N个图像作为当前图像序列的单元可以进一步包括:被配置为选择所述视频序列中的最初N个图像作为当前图像序列的单元;以及被配置为在所述视频序列中向前移动一个步长S以获得下一当前图像序列,直至到达所述视频序列的结尾的单元,其中,S e [1,L-N],L是所述视频序列的总长度,并且L>N,以及被配置为获得下一当前图像序列的单元可以进一步包括:被配置为将移动的一个步长S的图像添加至所述当前图像序列的单元;被配置为从所述当前图像序列去除最初S个图像的单元;以及被配置为将剩余的N个图像取作所述下一当前图像序列的单元。
[0266]在本发明的一些实施例中,N和S均是可变的。
[0267]至此,已示意性地描述了根据本发明的图像处理装置和方法。应注意,以上的所有装置都是用于实施本发明的图像处理方法的示例性优选模块。然而,在上面并未穷尽地描述用于实施各种步骤的模块。通常,当存在执行某一处理的步骤时,则存在用于实施该同一处理的对应的功能模块或装置。另外,应注意,可以将两个或更多个装置合并为一个装置,只要可以实现它们的功能即可;另一方面,也可以将任何一个装置划分为多个装置,只要可以实现类似的功能即可。
[0268]能够以许多方式来实施本发明的方法、装置和设备。例如,可以通过软件、硬件、固件或其任何组合来实施本发明的方法、装置和设备。另外,所述方法的上述步骤顺序仅仅意在是说明性的,本发明的方法的步骤并不必限于上面具体描述的顺序,除非另外特别说明。另外,在一些实施例中,本发明也可以被实现为记录在记录介质中的程序,其包括用于实施根据本发明的方法的机器可读指令。从而,本发明也涵盖了存储用于实施根据本发明的方法的程序的记录介质。
[0269]虽然已参照示例性实施例描述了本发明,但要理解,本发明不限于所公开的示例性实施例。对于本领域技术人员显然的是,可以在不背离本发明的范围和精神的情况下修改以上的示例性实施例。所附的权利要求的范围要被赋予最宽的解释,以包含所有这样的修改以及等同的结构和功能。
【主权项】
1.一种用于群体的图像序列的图像处理装置,包括: 被配置为获取所述群体的图像序列的单元,其中所述群体包括至少两个人; 被配置为检测所述图像序列的每个图像中的每个人的面部区域的单元; 被配置为识别所述图像序列的每个图像中的每个人的面部区域的属性的单元;以及被配置为基于所述图像序列的每个图像中的每个人的面部区域的属性来确定群体属性的单元。2.根据权利要求1的装置,其中,识别的单元进一步包括: 被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及 被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元。3.根据权利要求2的装置,其中,分类的单元进一步包括: 被配置为提取所述图像序列的每个图像中的每个人的面部区域的特征的单元;以及被配置为对于所述图像序列的每个图像中的每个人的面部区域,通过基于其提取的特征进行分类而获得对于每个预定属性类别的置信分数的单元。4.根据权利要求2的装置,其中,分类的单元进一步包括: 被配置为定位所述图像序列的每个图像中的每个人的面部区域的多个子区域的单元; 被配置为提取所述图像序列的每个图像中的每个人的面部区域的每个子区域的特征的单元;以及 被配置为对于所述图像序列的每个图像中的每个人的面部区域,通过基于其提取的所述多个子区域的特征进行分类而获得对于每个预定属性类别的置信分数的单元。5.根据权利要求1的装置,其中,确定的单元进一步包括: 被配置为确定所述群体中的每个人的属性的单元; 被配置为对于所述群体中的所有人计数每种确定属性的数量的单元;以及 被配置为选择具有最大数量的那种确定属性作为群体属性的单元。6.根据权利要求5的装置,其中,被配置为确定所述群体中的每个人的属性的单元进一步包括: 被配置为对于所述图像序列中的每个人的所有面部区域计数每种识别属性的数量的单元;以及 被配置为选择具有最大数量的那种识别属性作为所述每个人的属性的单元。7.根据权利要求5的装置, 其中,识别的单元进一步包括: 被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及 被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及 其中,被配置为确定所述群体中的每个人的属性的单元进一步包括: 被配置为对于所述图像序列中的每个人的所有面部区域计算对于每种识别属性的平均置信分数的单元;以及 被配置为对于所述图像序列中的每个人的所有面部区域选择具有最高平均置信分数的那种识别属性作为所述每个人的属性的单元。8.根据权利要求1的装置,其中,确定的单元进一步包括: 被配置为确定所述图像序列的每个图像的属性的单元; 被配置为对于所述图像序列的所有图像计数每种确定属性的数量的单元;以及 被配置为选择具有最大数量的那种确定属性作为群体属性的单元。9.根据权利要求8的装置,其中,被配置为确定所述图像序列的每个图像的属性的单元进一步包括: 被配置为对于所述图像序列的每个图像中的所有面部区域计数每种识别属性的数量的单元;以及 被配置为选择具有最大数量的那种识别属性作为所述每个图像的属性的单元。10.根据权利要求8的装置, 其中,识别的单元进一步包括: 被配置为对于所述图像序列的每个图像中的每个人的面部区域,对应于每个预定属性类别进行分类,以获得其对于每个预定属性类别的置信分数的单元;以及 被配置为对于所述图像序列的每个图像中的每个人的面部区域,将具有最高置信分数的属性类别确定为其属性的单元,以及 其中,被配置为确定所述图像序列的每个图像的属性的单元进一步包括: 被配置为对于所述图像序列的每个图像中的所有面部区域计算对于每种识别属性的平均置信分数的单元;以及 被配置为对于所述图像序列的每个图像中的所有面部区域选择具有最高平均置信分数的那种识别属性作为所述每个图像的属性的单元。
【专利摘要】本发明公开了图像处理装置和图像处理方法。用于群体的图像序列的图像处理装置包括:被配置为获取所述群体的图像序列的单元,其中所述群体包括至少两个人;被配置为检测所述图像序列的每个图像中的每个人的面部区域的单元;被配置为识别所述图像序列的每个图像中的每个人的面部区域的属性的单元;以及被配置为基于所述图像序列的每个图像中的每个人的面部区域的属性来确定群体属性的单元。本发明基于群体属性来选择面部区域或图像,由此能够获得群体的令人满意的图像和/或能够应对除预定属性之外的各种其它属性。
【IPC分类】G06K9/00
【公开号】CN104899544
【申请号】CN201410077014
【发明人】陈曾, 王喜顺, 吕尤
【申请人】佳能株式会社
【公开日】2015年9月9日
【申请日】2014年3月4日