用于改善分类器的分类结果的方法

xiaoxiao2020-7-22  18

用于改善分类器的分类结果的方法
【专利摘要】一种用于改善分类器的分类结果的方法,包括:接收针对被所述分类器分类为多个类别其中之一的多个要素的分类结果;构建具有多个节点和多个标记的图形,其中各节点与所述多个要素其中之一相对应,各标记与所述多个类别其中之一相对应;在与相关要素相对应的节点之间添加边;在各节点和各标记之间添加边;以及使用图形切割算法来切割向着节点的边并且将所述图形分割成各类别,其中所述图形切割算法使用针对与该节点相对应的要素和相关要素的分类结果作为输入。
【专利说明】用于改善分类器的分类结果的方法
[0001]本申请要求2011年3月4日提交的澳大利亚临时专利申请2011900783的优先权,其内容通过该引用而包含于此。
【技术领域】
[0002]本发明涉及用于改善分类器的分类结果的方法和软件。本发明将针对其在改善像素或图像分类结果方面的应用来进行说明;然而,应当理解,本发明的原理和概念等同地适用于其它分类任务。
【背景技术】
[0003]可以使用机器学习算法来训练分类器以将多个要素分类为多个类别中的一个。该分类器预测各要素的分类,并且还可以评估该预测的置信度。
[0004]分类器的一个现有示例是提升分类器(boosted classifier),其中该提升分类器组合一组“弱”分类器(分类精度低但比随机好)的输出以产生精度高的单个“强”分类器。在组合弱分类器时,根据各弱分类器的正确性的置信度来对弱分类器的结果进行加权。提升算法在训练下一弱分类器时可以通过向被弱分类器进行了误分类的样本赋予较大的权重来自适应地改善分类器的性能。
[0005]尽管组合多个弱分类器,但强分类器并非必须针对给定问题产生精确分类。例如,在使用提升分类器来分割或选择图像中的特征的情况下,可能会误标记图像中的一些像素,这导致在由此得到的分割中存在噪声。
[0006]可以通过使用诸如标记的腐蚀和膨胀等的简单形态滤波运算以去除小区域的噪声来在一定程度上清除该噪声。腐蚀使对象的大小缩小并且消除异常,膨胀使对象的大小增大并且填充孔。然而,这些运算的标准公式使运算的性质简化,因而这些运算在应用时无法包含附加信息。
[0007]其它现有技术包括使用更加复杂的膨胀技术来对结果进行细化。在各膨胀步骤中,计算属于分割区域的该区域的边界附近的点的似然性,并且添加似然性为阈值以上的点。该似然性基于该区域内的图像强度。
[0008]另一替代例是颜色分水岭分割来改善分类结果。该分类用来提取各区域的种子点。然后应用分水岭分割以扩展这些区域直到标记了所有像素为止。该扩展基于区域颜色信息。
[0009]本发明的目的是提供用于改善分类器的分类结果的替代方法。
[0010]以上【背景技术】部分的论述是为了解释本发明的上下文。该论述不应被视为承认所引用的任何文献或其它材料被公开、被已知或者是属于本申请的权利要求中任一项的 优先权日:的公知常识的一部分。

【发明内容】

[0011]本发明提供一种用于改善分类器的分类结果的方法,包括:接收针对被所述分类器分类为多个类别其中之一的多个要素的分类结果;构建具有多个节点和多个标记的图形,其中,各节点与所述多个要素其中之一相对应,各标记与所述多个类别其中之一相对应;在与相关要素相对应的节点之间添加边;在各节点和各标记之间添加边;以及使用图形切割算法来切割向着节点的边并且将所述图形划分成各类别,其中,所述图形切割算法使用针对与该节点相对应的要素和相关要素的分类结果作为输入。
[0012]图形切割算法通过使能量函数最小化来计算图形向着两个以上的类别的最佳划分。在这种情况下,能量函数使用要素及其相关要素的分类结果作为输入。图形切割算法的应用可以使得对分类器进行了误分类的一些要素进行重新分类,从而改善分类结果。
[0013]进行所述初始分类的分类器可以是为了将所述多个要素分类成三个以上的类别其中之一所应用的多类别分类器。因此,所述图形切割算法是用于将所述图形划分成三个以上的类别的多类别图形切割算法。多类别图形切割算法比二值图形切割更加复杂,但使得能够提供要素的更加有意义的分类。这种算法可以包括如Yuri Boykov、Olga Veksler和 Ramin Zabih^Fast approximate energy minimization via graph cuts,,IEEE Trans.Pattern Anal.Mach.1ntell., 23:1222 - 1239,November2001 所述的 α 扩展程序或 a β 扩展程序,其内容通过引用包含于此。
[0014]在a扩展中,每当在各节点的当前标记和来自一组可能标记的候选标记之间进行分割时,进行一系列图形切割。重复该过程,迭代各可能标记,直到收敛为止。在构建图形时,向标记不同的相邻节点之间添加辅助节点,以将该加标记的成本包括在切割中。
[0015]所述分类器可以是提升分类器,其中所述提升分类器组合一组弱分类器的输出以产生强分类器。可选地,所述分类器可以是决策树、随机森林,或者可以使用线性判别分析(LDA)或任何其它技术以对要素分类。
[0016]来自所述分类器的分类结果可以包括针对各要素的表示该要素的分类的置信度的置信度值,并且所述图形切割算法还使用针对与该节点相对应的要素的分类的置信度值作为输入。另外,所述图形切割算法还使用针对相关要素的分类的置信度值作为输入。图形分割在空间上使结果平滑化,从而降低分类或标记中的噪声。特别地,通常将保持置信度高的分类,而可以替换置信度低的分类以获得更加均质的输出。例如,在置信度低的要素被分类成置信度高的相同类别的相关要素包围的情况下,在置信度低的要素的分类中可能存在更多的置信度。基于同样的理由,在将相关要素分类成置信度高的不同类别的情况下,有充分的理由将置信度低的要素的分类改变为该类别。
[0017]所述图形切割算法还使用相关要素具有相同分类的似然性作为输入。因而,利用图形分割算法最小化后的能量函数可以包括基于给定节点具有给定标记的置信度和两个相邻节点具有不同标记的似然性的项。
[0018]分类中的要素可以是图像中的像素并且相关要素可以是图像中的相邻像素。可选地,这些要素可以是例如来自MRI扫描的3D体中的体素,并且相关要素可以是相邻体素。在另一示例中,这些要素可以是根据内容进行分类的文档,并且相关要素可以是其中一个文档包含针对另一文档的参考的文档对。
[0019]在示例中,诸如递交日相同的同一 申请人:的标题为“Method and Software forAnalysing Microbial Growth”的共同未决的国际申请(其内容通过引用而包含于此)所述等,该方法可用来清理被训练成对固体培养基的图像数据中的像素和该固体培养基上的任何微生物生长(诸如细菌菌落等)进行分类的分类器的像素分类结果。在该示例中,还发现该方法改善了针对提升分类器的预测置信度低的像素的分类结果,从而得到固体培养基和任何微生物生长的更加精确的微生物评估。
[0020]本领域技术人员应当理解,培养基例如通常是琼脂且通常包含在诸如平板等的容器中,并且在更具体的示例中,包含在可以具有盖的皮氏(Petri)培养皿中。在整个说明书中,以下将培养基和平板的组合称为“培养平板”(在现有技术中有时可能还称为“琼脂平板”)。
[0021]在实施例中,相关要素包括8个相邻像素,使得在图形中,各像素完全连接至图像中的周围像素。这将得到图像的最精确划分但在计算上昂贵。为了减少计算并且提高算法的速度,可以仅向四个相邻像素添加边,例如在像素的3X3块中可以使角落像素连接至中间像素。
[0022]在用于减少计算的又一替代例中,各要素可以是例如图像中的连续区域。因而相关要素可以是图像中的相邻连续区域。要素可以是颜色相同并且存在于边界内的一组邻近像素。在固体培养基上的细菌菌落的图像中,例如,分类器所检测到的各圆形区域或菌落可以是图形中的节点。连续区域还可以包括分类相同且置信度值高于阈值(例如,定义高置信度的阈值)的像素。该组像素可以定义图形中的单个要素。
[0023]图形切割算法还可以使用诸如固体培养基上的细菌类型的预期菌落大小等的、图像中的对象的预期大小作为输入。这将使得图形切割算法能够去除比该大小小得多的簇。可选地或另外,图形切割算法还可以使用与邻近像素有关的预定规则作为输入。该规则可以从专家系统获得,并且可以包括诸如特定细菌类型不会彼此邻接地生长等的先验信息。
[0024]另外,本发明扩展至一种计算机所使用的软件,所述计算机包括处理器和用于存储所述软件的存储器,所述软件包括所述处理器能够执行的一系列指令以执行根据任一个下述实施例的方法。
[0025]本发明还扩展至一种计算机可读介质,其包括根据所述软件,并且设备包括:处理器;存储器;以及软件,其驻存于所述处理器能够访问的存储器中,所述软件包括所述处理器能够执行的一系列指令以执行根据任一个下述实施例的方法。
【专利附图】

【附图说明】
[0026]现在将参考附图仅通过示例方式来说明本发明的实施例。应当理解,附图的特殊性无法取代前面对本发明的描述的一般性。
[0027]图1是用于进行根据本发明实施例的方法的示例处理系统的功能框图。
[0028]图2是用于应用图形切割算法以改善分类器的分类结果的流程图。
[0029]图3示出(a)初始图形和(b)表示应用了图形切割算法之后的标记的划分图形。
[0030]图4示出α扩展程序中使用的利用辅助节点所构建的图形。
[0031]图5是示出α扩展程序中可以进行的可能切割的一组图形。
【具体实施方式】
[0032]示例处理系统
[0033]将参考图1来说明本发明的实施例所使用的示例处理系统。处理系统10包括处理器12、存储器14、至少一个输入装置16、至少一个输出装置18、通信端口 20、接口 22和存储装置24。如所示,处理系统10的各组件经由总线或总线组26连接到一起。
[0034]处理器12可以包括一个以上的处理装置以例如对处理系统10内的不同功能进行处理。存储器14可以包括任何适当的存储器装置,并且例如包括易失性或非易失性存储器、固态存储装置、磁性装置等。存储器14可以存储处理器12所执行的指令。
[0035]输入装置16接收输入数据,并且可以包括例如键盘、鼠标或其它指示装置、追踪球、操纵杆或触摸屏、麦克风、诸如调制解调器或无线数据适配器等的数据接收器或天线、数据获取卡等。输入装置16可以是用户能够操作的以进行输入数据的输入,或者该输入装置16可以接收来自其它输入数据源的数据。
[0036]输出装置18产生或生成输出数据。输出装置18可以包括显示装置、一组音频扬声器、打印机、端口(例如USB端口)、外围组件适配器、诸如调制解调器或无线网络适配器等的数据发送器或者天线等。
[0037]存储装置24可以包括例如易失性或非易失性存储器、固态存储装置、磁性装置等的任何形式的数据或者信息存储部件。可以将文件系统和文件存储在存储装置24上。
[0038]通信端口 20使得处理系统10能够经由硬有线或无线网络与其它装置进行通信。接口 22使处理系统10连接至一个或多个外围装置。例如,接口 22可以包括PCI卡或PC卡。
[0039]处理系统10可以是如下的任何形式:终端、服务器处理系统、专用硬件、计算机、计算机系统或计算机化装置、个人计算机(PC)、移动或蜂窝电话、移动数据终端、便携计算机、个人数字助理(PDA)、寻呼机或任何其它相似类型的装置。
[0040]用于改善分类结果的方法
[0041]可以使用存储在存储器14或存储装置24中的软件来在处理器12上执行用于改善分类器的分类结果的方法。将说明用于清理多类别提升决策树分类器、特别是用于对培养平板上的固体培养基和任何微生物生长的图像数据中的像素进行分类的分类器的分类结果的实施例。这种分类器在以上列出的共同未决的申请中进行了更加详细的说明,并且可以用于获得培养平板上的固体培养基和任何微生物生长的微生物评估、例如检测固体培养基上的细菌菌落的有无。
[0042]参考图2,在步骤30中,利用与图像数据中的像素(或像素样本其中之一)相对应的各节点来构建图形。还添加标记,其中各标记与类别相对应。在步骤32中,在与相邻或邻近像素相对应的节点之间添加边,并且在步骤34中,在各节点和各标记之间添加边。在步骤36中,使用图形切割算法来切割向着节点的边并且将图像分割成各类别,其中该图形切割算法使用针对与该节点相对应的像素和邻近像素的像素分类结果作为输入。
[0043]图3示出初始图形(a)和表示切割之后的标记的划分图形(b)的示例。在图3中,源节点S和汇节点T与可能的节点标记相对应。图形切割确定各节点的标记,从而切割各节点与汇或源之间的边并且切割具有不同标记的相邻节点之间的边。每当切割特定链路时,产生成本。在计算最小成本切割时,图形切割程序使以下形式的能量函数最小化:
[0044][0045]其中,I是标记的集合,N是节点的集合,M是所有邻近节点的集合,X是特征数据,U(IilXi)向各节点分配成本以进行(作为与切割向着源或汇的边有关的成本所实现的)各可能标记分配,并且V(lp,Iq)向各边分配成本以向附属的节点分配不同的标记。
【权利要求】
1.一种用于改善分类器的分类结果的方法,包括: 接收针对被所述分类器分类为多个类别其中之一的多个要素的分类结果; 构建具有多个节点和多个标记的图形,其中,各节点与所述多个要素其中之一相对应,各标记与所述多个类别其中之一相对应; 在与相关要素相对应的节点之间添加边; 在各节点和各标记之间添加边;以及 使用图形切割算法来切割向着节点的边并且将所述图形划分成各类别,其中,所述图形切割算法使用针对与该节点相对应的要素和相关要素的分类结果作为输入。
2.根据权利要求1所述的方法,其中,所述分类器是为了将所述多个要素分类成三个以上的类别其中之一所应用的多类别分类器。
3.根据权利要求1或2所述的方法,其中,所述图形切割算法是用于将所述图形划分成三个以上的类别的多类别图形切割算法。
4.根据权利要求1至3中任一项所述的方法,其中,所述分类器是提升分类器。
5.根据权利要求1至4中任一项所述的方法,其中,所述分类结果包括针对各要素的表示该要素的分类的置信度的置信度值,并且所述图形切割算法还使用针对与该节点相对应的要素的分类的置信度值作 为输入。
6.根据权利要求5所述的方法,其中,所述图形切割算法还使用针对相关要素的分类的置信度值作为输入。
7.根据权利要求1至6中任一项所述的方法,其中,所述图形切割算法还使用相关要素具有相同分类的似然性作为输入。
8.根据权利要求3所述的方法,其中,所述图形切割算法包括α扩展程序。
9.根据权利要求1至8中任一项所述的方法,其中,各要素是图像中的像素。
10.根据权利要求9所述的方法,其中,相关要素是所述图像中的相邻像素。
11.根据权利要求10所述的方法,其中,相关要素是8个相邻像素。
12.根据权利要求10所述的方法,其中,相关要素是4个相邻像素。
13.根据权利要求1至8中任一项所述的方法,其中,各要素是图像中的连续区域。
14.根据权利要求13所述的方法,其中,相关要素是所述图像中的相邻连续区域。
15.根据从属于权利要求5的权利要求13或14所述的方法,其中,各连续区域包括分类相同且置信度值为阈值以上的像素。
16.根据权利要求9至15中任一项所述的方法,其中,所述图形切割算法还使用所述图像中的对象的预期大小作为输入。
17.根据权利要求9至14中任一项所述的方法,其中,所述图形切割算法还使用与相邻像素有关的预定规则作为输入。
18.一种计算机所使用的软件,所述计算机包括处理器和用于存储所述软件的存储器,所述软件包括所述处理器能够执行的一系列指令以执行根据权利要求1至17中任一项所述的方法。
19.一种计算机可读介质,其包括根据权利要求18所述的软件。
20.—种设备,包括: 处理器;存储器;以及 软件,其驻存于所述处理器能够访问的存储器中,所述软件包括所述处理器能够执行的一系列指令以执行根据权`利要求1至17中任一项所述的方法。
【文档编号】G06T7/40GK103534711SQ201280021794
【公开日】2014年1月22日 申请日期:2012年3月2日 优先权日:2011年3月4日
【发明者】A·J·瓦登亨志, B·W·S·沃德, R·E·希尔 申请人:Lbt创新有限公司

最新回复(0)