训练卷积神经网路分类器的方法和图像处理装置的制造方法

xiaoxiao2021-2-25  345

训练卷积神经网路分类器的方法和图像处理装置的制造方法
【技术领域】
[0001] 本发明涉及图像识别领域,尤其涉及一种训练卷积神经网络分类器的方法和用于 对图像进行分类的图像处理装置。
【背景技术】
[0002] 卷积神经网络由于结构简单、训练参数少和适应性强等特点,越来越普遍地应用 于模式识别、图像处理等领域。
[0003] 例如,图1是不出传统的利用卷积神经网络(Convolutional化ural化twork,简 称CNN)的分类器100的结构的示意图。其由如下几部分构成;输入层、卷积层、空间采样 层、全连接层W及输出层。
[0004] 在利用传统的α^Ν分类器进行识别的过程中,W手写数字为例,输入一幅图像,经 过多次重复的卷积、空间最大采样和全连接操作后,α^Ν分类器输出在每种数字上的置信 度。置信度最高的输出就是识别结果。在图1的示例中,输入层输入手写数字"6",而输出 层输出在每种数字上的置信度。其在数字"6"上获得最高的置信度0. 980,因而,识别结果 就是6。在图1中,标有F0至F9的每一个方框代表一个特征图(fea化re map)。为统一起 见,输入图像也可W看成特征图。
[0005] 传统CNN -般采用图像像素本身作为输入样本进行学习。虽然采用图像像素本身 作为特征存在方便快捷的优点,但是限制了 CNN在复杂视觉任务中的应用。比如要求CNN 检测一个自然场景中的所有字符。此时,若把整个图像输入CNN,会极大的减慢训练速度和 实际使用速度,并且会因为噪声过多导致检测准确度降低。
[0006] 此外,传统C順通常采用经典梯度下降算法进行训练。该算法根据输出层的误差 从输出层到输入层逐层后向传播调整权值。送种经典算法在相关文献的理论研究中被证实 存在"梯度消失"的问题。目P,越往输入层传播,权值调整量就越小。送导致最应该得到调 整的靠近输入层的权值反而调整量最小,极大的减缓了整个α^Ν的学习速度。
[0007] 此外,C順分类器的传统训练方法仅关注对单个C順的训练过程,或是在高性能计 算环境下并行训练一批CNN。

【发明内容】

[0008] 在下文中给出关于本发明的简要概述,W便提供关于本发明的某些方面的基本理 解。应当理解,送个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分,也不是意图限定本发明的范围。其目的仅仅是W简化的形式给出某些概念, W此作为稍后论述的更详细描述的前序。
[0009] 根据本公开的一方面,提供一种训练卷积神经网络分类器的方法,包括:从训练用 图像中提取全局特征和局部特征;W及根据预定模式将全局特征和局部特征映射到特征图 W作为分类器的输入样本;其中,根据预定模式,全局特征被映射到至少一个第一区域,局 部特征被映射到一个第二区域,每个第一区域与第二区域相接。
[0010] 在根据本公开的一个实施例中,局部特征可W包括提取自同一区域的至少两种局 部特征,并且局部特征的映射可W包括将提取自同一区域的至少两种局部特征映射到同一 位置。
[0011] 在根据本公开的另一个实施例中,根据上述预定模式,全局特征可W被映射到多 个第一区域,第二区域被第一区域围绕。
[0012] 在根据本公开的另一个实施例中,至少两种局部特征的映射可W包括点对点相 加、点对点相乘、卷积神经网络的卷积计算或其结合中的一种。
[0013] 在根据本公开的另一个实施例中,该训练方法还可W包括;W后向传播的方式根 据权重梯度来调整分类器中各层之间的有关连接的权重。其中,在调整靠近输入层侧的至 少一层的连接的权重时,对权重梯度进行增强,所增强的程度可W取决于该至少一层之后 的各层之间的连接的权重梯度的值。
[0014] 在根据本公开的另一个实施例中,可W通过把一个参考调整量E加到权重梯度上 来增强权重梯度,E是通过参考该至少一层之后的各层之间的有关连接的权重的梯度值而 获得的。
[0015] 在根据本公开的另一个实施例中,E的计算公式如下:
[0016]
[0017] 其中,"medianO "是求中位数运算,L是上述至少一层之后的卷积层和全连接层的 层数之和:
i = 1,2…L是L层卷积层和全连接层中的第i层与其前一层之间的有 关连接的权重的梯度值之和的平均值。
[0018] 在根据本公开的另一个实施例中,该训练方法还可W包括;训练至少两个具有相 同结构的卷积神经网络分类器,卷积神经网络分类器具有共同的全连接层和输出层。
[0019] 在根据本公开的另一个实施例中,该训练方法还可W包括;为至少两个具有相同 结构的卷积神经网络分类器的、除全连接层和输出层之外的各层的连接的权重设定不同的 初始化值。
[0020] 在根据本公开的另一个实施例中,该训练方法还可W包括;通过对原始输入样本 进行随机变形获得至少两个具有相同结构的卷积神经网络分类器的各自输入。
[0021] 在根据本公开的另一个实施例中,该训练方法还可W包括;在训练过程中的每一 轮开始前,对至少两个具有相同结构的卷积神经网络分类器的部分对应权重值进行随机局 部调整。
[0022] 根据本公开的另一方面,提供一种用于对图像进行分类的图像处理装置,包括:特 征提取单元,其从图像中提取全局特征和局部特征;输入生成单元,其根据预定模式将全 局特征和局部特征映射到特征图,其中,根据预定模式,全局特征被映射到至少一个第一区 域,局部特征被映射到一个第二区域,每个第一区域与第二区域相接;W及基于神经网络的 分类器,其输入为特征图。
[0023] 在根据本公开的另一个实施例中,局部特征可W包括提取自同一区域的至少两种 局部特征,并且局部特征的映射可W包括将提取自同一区域的至少两种局部特征映射到同 一位置。
[0024] 在根据本公开的另一个实施例中,根据上述预定模式,全局特征可W被映射到多 个第一区域,第二区域被第一区域围绕。
[0025] 在根据本公开的另一个实施例中,至少两种局部特征的映射可W包括点对点相 加、点对点相乘、卷积神经网络的卷积计算或其结合中的一种。
[0026] 根据本公开的训练卷积神经网络分类器的方法W及对图像进行分类的图像处理 装置,通过使用人工定义的特征来作为卷积神经网络分类器的训练和检测样本,特别地,通 过将全局特征和局部特征映射到相接的区域来构造训练样本,确保了卷积神经网络后续的 卷积操作能够充分挖掘局部特征和全局特征之间的相关性,进而较大程度上提高了检测速 度和检测准确度。
【附图说明】
[0027] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的W上和其 它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图 标记来表示。
[0028] 图1是例示传统的卷积神经网络分类器的结构的示意图。
[0029] 图2是例示根据本公开实施例的训练卷积神经网络分类器的方法的流程的流程 图。
[0030] 图3是例示根据本公开实施例的用于训练分类器的人工定义特征的组织方式的 示意图。
[0031] 图4是例示根据本公开实施例的CNN分类器的结构的示意图。
[0032] 图5是例示根据本公开实施例的由多个相同结构的CNN分类器构成的训练用CNN 分类器的结构图。
[0033] 图6是例示对特征图层之间的权值进行局部调整的方法的示意图。
[0034] 图7是例示根据本公开实施例的用于对图像进行分类的图像处理装置的配置的 框图。
[0035] 图8是例示实现本发明的计算机的示例性结构的框图。
【具体实施方式】
[0036] 下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施例中描述 的元素和特征可W与一个或更多个其它附图或实施例中示出的元素和特征相结合。应当注 意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部 件和处理的表示和描述。
[0037] 虽然使用图像像素本身作为分类器的训练样本要比使用人工定义特征更加方便 快捷,但是在复杂视觉任务中,会极大的减慢训练速度和分类器的实际使用速度。并且,会 因为噪声过多导致分类器的检测准确度降低。在根据本公开的实施例中,将从训练用图像 中提取的人工定义特征输入α^Ν分类器,W期望在较大程度上提高检测速度和检测准确 度。
[0038] 人工定义特征一般分为局部特征和全局特征。局部特征一般和位置有关。例如, 如果提取图像上每个像素的梯度,则每个像素都会对应一个梯度值。则该梯度值可w作为 图像的一个局部特征。示例而非限制性地,局部特征还可W包括对比度、或使用SIFT(尺度 不变性特征变换,Scale-invariant fea1:ure transform)等已知算法获取的局部特征。全 局特征一般与位置无关。例如,提取图像上所有像素的平均值和方差作为图像的全局特征。 示例而非限 制性地,全局特征还可W包括待识别字符(诸如数字"6")的朝向、图像的灰度 直方图等。
[0039] 在传统的机器学习(非卷积神经网络)算法中,一般将提取到的若干人工定义特 征组织成一维向量,然后作为学习算法的输入进行训练。在本公开的实施例中,为了适合卷 积神经网络的特点,将从图像中提取的局部特征和全局特征组织成二维特征矩阵送入CNN 进行训练。
[0040] 图2是例示根据本公开实施例的训练卷积神经网络分类器的方法的流程的流程 图。具体地,图2主要示出了根据本公开实施例的人工定义特征的获取流程。
[0041] 在步骤S201中,从训练用图像中提取全局特征和局部特征。可W根据需要提取一 种或更多种全局特征。相似地,可W根据需要提取一种或更多种局部特征。所提取的全局 特征和局部特征可W是本领域常用的任何类型。
[0042] 在步骤S202中,根据预定模式将所提取的全局特征和局部特征映射到输入特征 图W作为分类器的输入样本。所述预定模式是送样的模式:根据该预定模式,全局特征被映 射到至少一个第一区域,局部特征被映射到一个第二区域,每个第一区域与第二区域相接。 为便于理解,下面结合图3举例说明。
[0043] 图3是例示根据本公开实施例的用于训练分类器的人工定义特征的组织方式的 示意图。在图3的示例中,从训练用图像中提取出两种局部特征。例如,梯度、对比度等。可 W理解;根据需要,也可W从图像中提取一种或两种W上局部特征。所提取的每种局部特征 的提取结果构成各自的二维的局部特征图。在图3所示的示例中,逐像素地提取局部特征, 因而,所获得的二维的局部特征图与原始输入图像一样大。可选择地,可W不逐像素,而是 按照预定像素组合提取局部特征。例如,W 2X2的像素组为单位提取局部特征。在送种情 况下,该局部特征图的大小是原始输入图像的一半。请注意;在从图像中提取一种W上的局 部特征时,对所有种类的局部特征,提取操作按照相同的单位进行。例如,当逐像素地提取 一种局部特征时,另一种局部特征也应当逐像素地提取。送能够保证所获得的局部特征图 具有相同的大小。
[0044] 从原始图像上提取全局特征。所提取的全局特征可W是一种或更多种。一般来说, 在其它条件不变的情况下,所提取的全局特征的数量越多,识别结果越准确。因而,在图3 所示的示例中,从原始图像上提取一系列全局特征。例如但不限于,图像灰度均值、方差,灰 度直方图,识别目标(数字"6")的朝向,等等。将送些全局特征构成一个一维的全局特征向 量,该向量的长度等于提取的全局特征的数量、或者与提取的全局特征的数量有关(例如, 当全局特征是灰度直方图时,该一维的全局特征向量的长度也与灰度直方图的小区化in) 的数量有关)。一般地,全局特征向量的长度可W是30至40。
[0045] 将全局特征向量分别与各个局部特征图构成特征组织图(特征组织图1和2)。在 图3的示例中,局部特征被布置在一块区域("第二区域"的实例),保持局部特征与其提取 自的原始图像的像素的相对位置不变。全局特征向量被布置在局部特征的外围,围绕着局 部特征所在的区域并与其相接。可选择地,全局特征向量所在的区域不必围绕局部特征所 在区域,只要全部特征能够与局部特征保持相接即可。其目的是为了确保CNN后续的卷积 操作可W充分挖掘局部和全局特征之间的相关性。
[0046] 在图3的示例中,特征组织图的四角位置填充0。送将全局特征所在区域分割为4 个子区域("第一区域"的实例)。在送4个子区域上,全局特征不必对应一致,每个子区域 使用所有全局特征中的一部分即可(长度不够可W填充0或者可W重复使用)。可W选择 地,不必在特征组织图的四角位置填充0,也可W在局部特征图的边缘顺序填充全局特征向 量的元素。
[0047] 请注意:对于每一个特征组织图(诸如特征组织图1和2)的构造,全局特征向量 的布置方式应该是相同的;此外,对于所有训练样本,特征组织图的构造方式也应该一致, 并且,在实际使用训练好的分类器时也应该按照训练时的特征组织方式来组织特征。
[0048] 接下来,将若干个(图3中是2个)特征组织图融合在一起获得最终的输入特征 图S0,作为分类器的输入样本。特征组织图融合的方式可W包括;将特征组织图点对点相 加、点对点相乘、采用CNN的卷积计算或其结合中的一种。其中,所采用的卷积计算的卷积 模板可W根据需要预先设定。其大小例如是3X3或5X5。
[0049] W上参照图3描述了用于α^Ν输入的人工定义特征的组织方式。在该组织方式中, 根据预定模式将全局特征和局部特征映射到作为分类器输入样本的特征图。例如,局部特 征的映射可W包括将提取自同一区域的至少两种局部特征映射到同一位置。此外,例如,该 至少两种局部特征的映射可W包括点对点相加、点对点相乘、采用α^Ν的卷积计算或其结 合中的一种。
[0050] 使用W上述方式构造的人工定义特征作为α^Ν分类器的输入样本,能够提高CNN 对于复杂计算任务的适用程度。
[0051] 图4是示出根据本公开实施例的CNN分类器400的结构的示意图。在CNN分类器 400中,输入层是例如使用参考图3描述的方式构造的人工定义的输入特征图SO。
[0052] 在对CNN分类器的训练中,可W采用梯度下降算法对各层的卷积模板进行调整。 该算法根据输出层的误差从输出层到输入层逐层后向传播调整权值。简单地说,后向传播 通过迭代地处理一组训练样本,将每个样本的网络预测与实际知道的类标号比较,进行学 习。对于每个训练样本,修改卷积模板的权重值,使得网络预测和实际类之间的均方误差最 小。送种修改"后向地"进行。目P,由输出层,经由每个隐藏层,到第一个隐藏层。尽管不能 保证,但一般情况下,权重值将最终收敛,学习过程停止。
[0053] 由于计算机进行的浮点运算的特性W及权重梯度的传递特性,造成越靠近输入层 权重梯度值变得越小。送导致最应该得到调整的靠近输入层的权值反而调整量最小,从而 减缓了整个CNN的学习速度。
[0054] 根据本公开的实施例,在对α^Ν分类器400进行训练时,与经典梯度下降算法相似 地,W后向传播的方式根据权重梯度来调整α^Ν分类器400中各层之间的有关连接的权重。 在图4所示的示例中,调整特征图巧斗8与其后的全连接层之间的权重、特征图F2和F3分 别与特征图F4斗6之间的权重、直至特征图SO与特征图F0和F1之间的权重。
[00巧]与经典梯度下降算法不同的是;在调整靠近输入层侧的至少一层(例如F0所在卷 积层与输入层SO之间)的连接的权重时,可W对权重梯度进行增强。并且,所增强的程度 可W取决于该至少一层之后的各层之间的连接的权重梯度的值。例如,在调整特征图so与 特征图F0和F1之间的权重时,可W考虑F0和F1所在卷积层之后的各卷基层和全连接层 与其前一层之间的各个连接的权重的梯度值,来对SO与F0和F1所在层之间的调整值进行 增强。
[0056] 在一个实施例中,可W通过把一个参考调整量E加到权重的梯度值上来增强权重 梯度。该参考调整量E可W通过参考待调整层之后的各卷积和全连接层之间的有关连接的 权重的梯度值而获得。
[0057] 设在C順分类器400的特征图SO和F0之间的连接权重为& ,则按照经典梯度下 降算法,按照下面的式(1),在后向传播阶段对该权重进行调整。
[0058]
( 1 )
[0059] 其中,η是学习速率,Δ窃是权重梯度。
[0060] 而根据本公开实施例,对权重的调整公式如式似所示:
[0061]
( 2 )
[006引其中,Ε即为结合待调整层之后的各层信息获得的调整量,/为单位向量。
[006引在一个实施例中,Ε可W用下面的式(3)来计算:
[0064]
(3)
[0065] 其中,"medianO "是求中位数运算,L是所述至少一层之后的卷积层和全连接层的 层数之和
i = 1,2…L是L层所述卷积层和全连接层中的第i层与其前一层之间 的有关连接的权重的梯度值之和的平均值。
[0066] 在图4的示例中,例如,如果待调整的是输入层SO和F0所在卷积层之间的权重的 梯度值,则
是特征图F4所在卷积层和其前面的空间采样层(F2所在层)之间的有 关连接(例如所有连接)的权重的梯度值之和的平均值,
是第一层全连接层与其前 面的空间采样层(巧所在层)之间的有关连接的权重的梯度值之和的平均值。由此类推,
是分类器400中最后一个全连接层和其前面的层之的有关连接的权重的梯度值之 和的平均值。换句话说,在本实施例中,靠近输入层的卷积模板的权重调整值考虑了其后面 每一层权重梯度值之和的平均值。
[0067] 下面W特征图F4所在卷积层和F2所在空间采样层之间的权重的梯度值为例描述
的示例性计算。为了描述方便,假设送两层之间的各特征图之间都使用2X2的卷积 模板。换句话说,在特征图F2和F4之间的卷积模板包括4个权重 。因而,在特征图F4所 在卷积层和F2所在空间采样层之间包括24个权重(F2-F4、巧、F6 W及F3-F4、巧、F6)。则
的具体计算为送24个权重的梯度值的和除W 24。
[0068] 虽然上面结合α^Ν分类器400描述了根据本公开实施例的进行后向传播的梯度下 降算法,但是本领域技术人员能够理解;该梯度下降算法也可W用于图1中所示W原始图 像的图像像素本身作为训练样本输入的CNN分类器100。
[006引此外,在本公开中,还开发出通过连接多个C順分类器来同时训练该多个C順分类 器,并在训练过程中对对应的权重值进行调整,W利用α^Ν分类器之间的联系和信息交互 使得训练更充分的训练方法。下文中,W连接并同时训练两个CNN分类器为例进行描述。 可W理解的是;也可W依据需要,连接并同时训练两个W上的α^Ν分类器。通过送种训练方 法,可W考虑到同时训练的多个之间的联系和信息交互。送些联系和信息交互可W使 得CNN训练更充分。
[0070] 图5是例示根据本公开实施例的训练用CNN分类器500的结构图,其中,训练用 分类器500由α^Ν分类器501和502相互连接构成。α^Ν分类器501和502具有相同 的结构,并且具有共同的全连接层和输出层。请注意:虽然在图5中α^Ν分类器501和502 的输入(训练样本)都采用根据本公开实施例的人工定义的特征(输入特征图SO和S1), 但是训练样本也可W是原始图像的图像像素本身。
[0071] 在构造 C順分类器500时,具体地,将具有相同结构的C順分类器501和502各自 的全连接层和输出层去掉,使得α^Ν分类器501和502的每一个的最后一层暂时变成空间 采样层。然后,使用同一个全连接层连接分类器501和502最后的空间采样层。接下来,再 用一个输出层连接全连接层。从而,分类器501和502从全连接层开始合并为一个网 络,而输入层、卷积层和空间采样层还是采用各自的,如图5所示。
[0072] 在训练开始时,为α^Ν分类器501和502的、除全连接层和输出层之外的各层的连 接的权重设定不同的初始化值。例如,所分配的初始化权重值可W是任意的随机分布。例 如,(0, 1)分布。此外,为了让学习更加充分,通过对原始输入样本进行随机变形来获得CNN 分类器501和502各自的输入。随机变形例如但不限于平移、旋转和局部变形。如图5所 示,在输入到输入层SO和S1中之前,更准确地,在对输入图像进行特征提取之前,对输入图 像(字符"6")进行随机变形。
[0073] 针对所构造的C順分类器500进行训练。在训练过程中,可W采用根据本公开实 施例的对权重梯度进行增强的后向传播算法,从而更高效地调整靠近输入层的权重值。
[0074] 在训练过程中的每一轮开始前,还可W对C順分类器501和502的部分对应权重 值进行随机局部调整。图6是例示对图5中所示特征图F2所在层和特征图F4所在层之间 的权值进行局部调整的方法的示意图。可W对CNN分类器501和502的所有权重值都进行 送种局部特征。
[0075] 如图6所示,ω 1和ω 2分别是分类器501和502在特征图F2和F6之间的权重 值。8。1和8。2分别是针对ω1和ω2进行调整所使用的随机数,分别服从长度为3的均匀 分布。并且,S"i和8。2之间是相互独立的。图6中的ε是一个稍大于0的小数值,可W定 为0.00001。ω1、ω2和ε可W看成是对权值的重新初始化,让权值重新学习,从而使网 络中的部分权值收敛到更优的数值。如图6中的式子可见,ω1和ω2被进行交互地调整 ("ω 1-ω2"和"ω2-ω 1"),从而利用它们之间的相互影响来消除一定的误差。其它特征 图之间的对应权重也可W相似地进行调整。
[0076] 连续多轮训练α^Ν分类器500,直到在训练集上的错误率无明显变化,从而得到训 练好的CNN分类器500。
[0077] 在要使用分类器进行分类时,可W将CNN分类器500拆开为单独的CNN分类器501 和502。然后,可W恢复α^Ν分类器501 (或502)的全连接层和输出层,并重新对α^Ν分类 器501 (或502)进行训练,W得到最终的分类器。
[0078] 图7是例示根据本公开实施例的用于对图像进行分类的图像处理装置700的配置 的框图。图像处理装置700包括;特征提取单元701、输入生成单元702和α^Ν分类器703。
[0079] 特征提取单元701用于从待处理图像中提取全局特征和局部特征。特征提取单元 701所提取的全局特征和局部特征W及其使用的具体的提取方法可W是本领域已知的各种 全局和局部特征,W及任何适用的方法。
[0080] 输入生成单元702用于根据预定模式将由特征提取单元701提取的全局特征和局 部特征映射到特征图。根据该预定模式,全局特征被映射到至少一个第一区域,局部特征被 映射到一个第二区域,每个第一区域与第二区域相接。
[0081] 由特征提取单元702提取的局部特征可W包括提取自图像的同一区域的至少两 种局部特征。并且,由输入生成单元702进行的局部特征的映射可W包括将提取自同一区 域的该至少两种局部特征映射到同一位置。该至少两种局部特征的映射可W包括点对点相 加、点对点相乘、卷积神经网络的卷积计算或其结合中的一种。此外,输入生成单元702可 W根据预定模式,将由特征提取单元702提取的全局特征映射到多个第一区域,使得第二 区域被第一区域围绕。可W采用的预定模式的具体例子已经在上文中结合图3进行了示例 性描述,送里不再进行重复。
[0082] 输入生产单元702将生成的特征图作为样本输入到α^Ν分类器703。α^Ν分类器 703根据输入的特征样本对图像进行分类。
[0083] W上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的 普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可W在 任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,W硬件、固件、软件或者 它们的组合加 W实现,送是本领域普通技术人员在阅读了本发明的说明的情况下运用他们 的基本编程技能就能实现的。
[0084] 因此,本发明的目的还可W通过在任何计算装置上运行一个程序或者一组程序来 实现。计算装置可W是公知的通用装置。因此,本发明的目的也可W仅仅通过提供包含实 现方法或者装置的程序代码的程序产品来实现。也就是说,送样的程序产品也构成本发明, 并且存储有送样的程序产品的存储介质也构成本发明。显然,存储介质可W是任何公知的 存储介质或者将来所开发出来的任何存储介质。
[0085] 在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有 专用硬件结构的计算机,例如图8所示的通用计算机800安装构成该软件的程序,该计算机 在安装有各种程序时,能够执行各种功能等等。
[0086] 图8是示出实现本发明的计算机的示例性结构的框图。在图8中,中央处理单元 (CPU) 801根据只读存储器(ROM) 802中存储的程序或从存储部分808加载到随机存取存储 器(RAM) 803的程序执行各种处理。在RAM 803中,也根据需要存储当CPU 801执行各种处 理时所需的数据。
[0087] CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口 805也连 接到总线804。
[008引下述部件连接到输入/输出接口 805 ;输入部分806,包括键盘、鼠标等;输出部分 807, 包括显示器,诸如阴极射线管(CRT)、液晶显示器化CD)等,W及扬声器等;存储部分 808, 包括硬盘等;W及通信部分809,包括网络接口卡诸如LAN卡、调制解调器等。通信部 分809经由网络诸如因特网执行通信处理。
[0089] 根据需要,驱动器810也连接到输入/输出接口 805。可拆卸介质811诸如磁盘、 光盘、磁光盘、半导体存储器等根据需要被安装在驱动器810上,使得从中读出的计算机程 序根据需要被安装到存储部分808中。
[0090] 在通过软件实现上述步骤和处理的情况下,从网络诸如因特网或存储介质诸如可 拆卸介质811安装构成软件的程序。
[0091] 本领域的技术人员应当理解,送种存储介质不局限于图8所示的其中存储有程 序、与方法相分离地分发W向用户提供程序的可拆卸介质811。可拆卸介质811的例子包 含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘值VD))、磁光盘(包含迷你盘 (MD))和半导体存储器。或者,存储介质可W是ROM 802、存储部分808中包含的硬盘等,其 中存有程序,并且与包含它们的方法一起被分发给用户。
[0092] 本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读 取并执行时,可执行上述根据本发明实施例的方法。
[0093] 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包 括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光 盘、存储卡、存储棒等。
[0094] 另外,根据本发明的实施例的某些用于组合工具的方法和装置,能够扩大组合的 使用范围。
[0095] 本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
[0096] 作为一个示例,上述方法的各个步骤W及上述设备的各个组成模块和/或单元可 W实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模 块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领 域技术人员所熟知,在此不再赏述。
[0097] 作为一个示例,在通过软件或固件实现的情况下,可W从存储介质或网络向具有 专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成该软件的程序,该计算 机在安装有各种程序时,能够执行各种功能等。
[0098] 在上面对本发明具体实施例的描述中,针对一种实施例描述和/或示出的特征可 相同或类似的方式在一个或更多个其它实施例中使用,与其它实施例中的特征相组 合,或替代其它实施例中的特征。
[0099] 应该强调,术语"包括/包含"在本文使用时指特征、要素、步骤或组件的存在,但 并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0100] 此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可W按照其 它的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发 明的技术范围构成限制。
[0101] 尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应 该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、 改进或者等同物。送些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
[0102] 本发明还可下面的实施例实现:
[0103] 实施例1. 一种训练卷积神经网络分类器的方法,包括:
[0104] 从训练用图像中提取全局特征和局部特征;W及
[0105] 根据预定模式将全局特征和局部特征映射到特征图W作为分类器的输入样本;
[0106] 其中,根据预定模式,全局特征被映射到至少一个第一区域,局部特征被映射到一 个第二区域,每个第一区域与第二区域相接。
[0107] 2.根据实施例1的方法,其中,局部特征包括提取自同一区域的至少两种局部特 征,并且局部特征的映射包括将提取自同一区域的至少两种局部特征映射到同一位置。
[0108] 3.根据实施例2的方法,其中,根据预定模式,全局特征被映射到多个第一区域, 第二区域被第一区域围绕。
[0109] 4.根据实施例3的方法,其中,至少两种局部特征的映射包括点对点相加、点对点 相乘、卷积神经网络的卷积计算或其结合中的一种。
[0110] 5.根据实施例1至4中任一项的方法,还包括:
[0111] W后向传播的方式根据权重梯度来调整分类器中各层之间的有关连接的权重,
[0112] 其中,在调整靠近输入层侧的至少一层的连接的权重时,对权重梯度进行增强,所 增强的程度取决于至少一层之后的各层之间的连接的权重梯度的值。
[0113] 6.根据实施例5的方法,其中,通过把一个参考调整量E加到权重梯度上来增强权 重梯度,E是通过参考至少一层之后的各层之间的有关连接的权重的梯度值而获得的。
[0114] 7.根据实施例6的方法,其中,E的计算公式如下:
[011 引
[0116] 其中,"medianO"是求中位数运算,L是所述至少一层之后的卷积层和全连接层的 层数之和,
i = 1,2…L是L层所述卷积层和全连接层中的第i层与其前一层之间 的有关连接的权重的梯度值之和的平均值。
[0117] 8.根据实施例1至7中任一项的方法,还包括:
[0118] 训练至少两个具有相同结构的卷积神经网络分类器,卷积神经网络分类器具有共 同的全连接层和输出层。
[0119] 9.根据实施例8的方法,还包括:
[0120] 为至少两个具有相同结构的卷积神经网络分类器的、除全连接层和输出层之外的 各层的连接的权重设定不同的初始化值。
[0121] 10.根据实施例9的方法,还包括:
[0122] 通过对原始输入样本进行随机变形获得至少两个具有相同结构的卷积神经网络 分类器的各自输入。
[0123] 11.根据实施例8至10中任一项的方法,还包括:
[0124] 在训练过程中的每一轮开始前,对至少两个具有相同结构的卷积神经网络分类器 的部分对应权重值进行随机局部调整。
[0125] 12. -种用于对图像进行分类的图像处理装置,包括:
[0126] 特征提取单元,其从图像中提取全局特征和局部特征;
[0127] 输入生成单元,其根据预定模式将全局特征和局部特征映射到特征图,其中,根据 预定模式,全局特征被映射到至少一个第一区域,局部特征被映射到一个第二区域,每个第 一区域与第二区域相接;W及
[012引基于神经网络的分类器,其输入为特征图。
[0129] 13.根据实施例12的图像处理装置,其中,局部特征包括提取自同一区域的至少 两种局部特征,并且局部特征的映射包括将提取自同一区域的至少两种局部特征映射到同 一位置。
[0130] 14.根据实施例13的图像处理装置,其中,根据预定模式,全局特征被映射到多个 第一区域,第二区域被第一区域围绕。
[0131] 15.根据实施例14的图像处理装置,其中,至少两种局部特征的映射包括点对点 相加、点对点相乘、卷积神经网络的卷积计算或其结合中的一种。
【主权项】
1. 一种训练卷积神经网络分类器的方法,包括: 从训练用图像中提取全局特征和局部特征;以及 根据预定模式将所述全局特征和所述局部特征映射到特征图以作为所述分类器的输 入样本; 其中,根据所述预定模式,所述全局特征被映射到至少一个第一区域,所述局部特征被 映射到一个第二区域,每个所述第一区域与所述第二区域相接。2. 根据权利要求1所述的方法,其中,所述局部特征包括提取自同一区域的至少两种 局部特征,并且所述局部特征的映射包括将提取自同一区域的至少两种局部特征映射到同 一位置。3. 根据权利要求2所述的方法,其中,根据所述预定模式,所述全局特征被映射到多个 所述第一区域,所述第二区域被所述第一区域围绕。4. 根据权利要求1至3中任一项所述的方法,还包括: 以后向传播的方式根据权重梯度来调整所述分类器中各层之间的有关连接的权重, 其中,在调整靠近输入层侧的至少一层的连接的权重时,对所述权重梯度进行增强,所 增强的程度取决于所述至少一层之后的各层之间的连接的权重梯度的值。5. 根据权利要求4所述的方法,其中,通过把一个参考调整量E加到所述权重梯度上来 增强所述权重梯度,E是通过参考所述至少一层之后的各层之间的有关连接的权重的梯度 值而获得的。6. 根据权利要求1至5中任一项所述的方法,还包括: 训练至少两个具有相同结构的卷积神经网络分类器,所述卷积神经网络分类器具有共 同的全连接层和输出层。7. 根据权利要求6所述的方法,还包括: 为所述至少两个具有相同结构的卷积神经网络分类器的、除所述全连接层和输出层之 外的各层的连接的权重设定不同的初始化值。8. 根据权利要求7所述的方法,还包括: 通过对原始输入样本进行随机变形获得所述至少两个具有相同结构的卷积神经网络 分类器的各自输入。9. 根据权利要求6至8中任一项所述的方法,还包括: 在训练过程中的每一轮开始前,对至少两个具有相同结构的卷积神经网络分类器的部 分对应权重值进行随机局部调整。10. -种用于对图像进行分类的图像处理装置,包括: 特征提取单元,其从所述图像中提取全局特征和局部特征; 输入生成单元,其根据预定模式将所述全局特征和所述局部特征映射到特征图,其中, 根据所述预定模式,所述全局特征被映射到至少一个第一区域,所述局部特征被映射到一 个第二区域,每个所述第一区域与所述第二区域相接;以及 基于神经网络的分类器,其输入为所述特征图。
【专利摘要】本发明提供一种训练卷积神经网路分类器的方法和图像处理装置。根据该训练卷积神经网络分类器的方法,从训练用图像中提取全局特征和局部特征。根据预定模式将全局特征和局部特征映射到特征图以作为分类器的输入样本。根据预定模式,全局特征被映射到至少一个第一区域,局部特征被映射到一个第二区域,每个第一区域与第二区域相接。根据本公开的训练方法,较大程度上提高了检测的速度和准确度。
【IPC分类】G06K9/62, G06N3/02
【公开号】CN105488515
【申请号】CN201410474927
【发明人】吴春鹏, 陈理, 范伟, 孙俊
【申请人】富士通株式会社
【公开日】2016年4月13日
【申请日】2014年9月17日

最新回复(0)