用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序的制作方法

xiaoxiao2020-7-22  1

【专利下载】Tel:18215660330

用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序的制作方法
【专利摘要】学习每个物理特征值的权重而使得能够进行反映主观相似性程度的层级聚类。本发明的信息处理装置连同标签信息一起获取划分到在三个一组内容的集合(此后称作三元组“三组内容集合”)中中间隔开来的多个内容组和标签信息作为学习数据,该标签信息指示该三元组的三组内容的集合中被用户指定为具有最高相似性程度的配对。该信息处理装置使用学习数据中的每种内容的各个特征值矢量以及每个特征值的权重执行层级聚类,并获得该学习数据的层级结构。该信息处理装置对每个特征值的权重进行更新以使得在所获得的层级结构中的三组内容的集合中联接为相同聚类中的配对和与三组内容的集合相对应标签信息所指示的配对之间的匹配程度增加。
【专利说明】用于确定主观层级聚类中的每个特征的权重的信息处理装置、方法和程序
【技术领域】
[0001]本发明涉及层级聚类技术,尤其涉及用于确定可能对被表达为物理特征的组合的内容进行层级聚类以使得主观相似性的程度得以反映的每个特征的权重的信息处理装置、方法和程序。
【背景技术】
[0002]需要对诸如语音、图像、语句和网站之类的多媒体内容进行聚类,以使得人们从内容所感觉到的情感内容之间的主观相似性程度能够有所反映。这里,情感内容不仅意味着诸如愤怒和喜悦之类的人们明确表达出的感情,而且还有那些能够被人们所感觉但是无法必然地以词语进行归类的,包括微秒的精神状态。情感内容是主观相似还是不同取决于接收一侧的人们准备对其加以区分的敏感程度。因此,为了满足以上需求,期望使用其中聚类数量并未事先确定的层级聚类。通常,多媒体内容通过物理特征的组合进行表达。然而,所有物理特征并非必然具有等同的重要性。因此,有必要学习每个物理特征的权重以便在聚类结果上反映主观相似性的程度。
[0003]作为其中从用户观点来看的主观相似性程度得以反映的一种常规聚类技术,存在有非专利文献I。在非专利文献I所公开的约束聚类之中,必然包括在相同聚类中的配对(ML:must-link)以及必然包括在不同聚类中的配对(CL:connot_link)被用作训练数据。如图1(a)所示,在学习时,训练数据(ML/CL配对)100被输入监督聚类部110,并且对监督聚类算法进行调整以满足ML/CL配对的约束。在操作时,测试数据105被输入到监督聚类部110,并且通过使用经调整的算法而获得聚类结果115。
[0004]作为其中从用户观点来看主观相似性程度得以反映的另一种常规聚类技术,存在有非专利文献2。在非专利文献2所公开的半监督聚类中,对于训练数据的每个集合(X,A和B),由用户指定X与A和B中的哪一个更为接近(此后,这样的训练数据被称作XAB型相似性数据)。如图1(b)所示,在学习时,包括用户指定的训练数据(XAB型相似性数据)120被输入到监督权重学习部125,并且确定每个物理特征的权重130以使得训练数据120所指示的关系得以满足。在操作时,测试数据135被输入到非监督聚类部140,并且通过使用每个物理特征的权重130执行非监督聚类并且获得聚类结果145。
[0005]以下将对针对本发明而在现有技术检索中找到的其它常规技术进行描述。
[0006]在专利文献I中,所要解决的问题是使得可能以高准确性将人们感到彼此类似的文档一起放入到相同聚类之中并且获得用户意图在其上得以反映的聚类结果。专利文献I公开了一种聚类方法,其中获取用户所指定的多个聚类中的文档中共同出现的共用词语;在所述共用词语中,选择与用户所没有指定的聚类中的出现频率相比在用户所指定的聚类中出现频率相对高的共用词语;所述共用词语在关键词存储装置中被记录为关键词;并且,在对相同或另一组文档进行聚类时,执行聚类,其中记录在关键词存储装置中的关键词的影响得以被强调。[0007]专利文献2公开了一种图像处理装置,其通过基于训练数据所学习的分类器对图像信息进行区分,所述图像处理装置包括:特征提取装置,其从图像信息提取特征;组合特征计算装置,其计算作为特征提取装置所提取的特征的组合的组合特征;学习装置,其通过组合特征计算装置所计算的特征和特征提取装置所提取的特征对分类器进行学习;校准装置,其将训练数据应用于由学习装置所学习的鉴别器以利用从外界所给出的理想分类结果对鉴别结果进行校准;和优化装置,其基于校准装置的结果而改变组合特征计算装置用于特征组合的方法。
[0008]专利文献3公开了一种模式识别装置,其包括:用于参考事先准备的识别空间以通过最近邻法执行样本模式的模式识别的装置;用于基于模式识别所获得的识别距离顺序确定识别置信度的装置;以及用于判断所参考的识别空间是否是用于样本模式识别的良好识别空间。专利文献3还公开了用于针对样本模式可能所属的类别准备识别空间的装置;控制装置,用于在接收到识别装置基于通过参考事先准备的识别空间并且对已知样本模式执行模式识别而获得的识别置信度所给出的识别结果,并且所述判断结果指示所述识别空间并非良好识别空间时,对创建装置进行控制以使得对已知样本模式的类别准备新的识别空间的装置,所述新的识别空间使用与事先准备的识别空间的特征不同的特征;以及用于将事先准备的识别空间和新准备的识别空间进行累加的装置,所述识别空间相互层级关联。
[0009]在专利文献4中,所要解决的问题是提供一种能够根据聚类目标将文档数据归类为多个聚类的文档聚类系统。专利文献4公开了一种文档聚类系统,其对特征矢量创建装置103所创建的文档的特征矢量集合执行单数数值分解;从单数数值分解结果106创建文档相似性矢量108以便计算文档之间的相似性程度;由聚类创建装置110针对目标文档使用文档相似性矢量来计算文档和聚类中心之间的距离;增加用于第一分类的文档相似性矢量的维度数量以对相同目标文档再执行第二分类;将两个分类的结果进行比较并且将几乎没有变化的聚类设置为稳定聚类;由数据选择装置109从目标中排除稳定聚类的文档并且选择由聚类创建装置进行下一次分类的目标文档;并且重复所述试验。
[0010]非专利文献3公开了一种半监督的聚类方法,其中整合了常规的基于约束的方法以及基于距离的方法(距离函数学习方法)。
[0011][引用列表]
[0012][专利文献]
[0013][专利文献I]
[0014][专利文献I] JP2OO7-3IM388A
[0015][专利文献2] JP2006-127446A
[0016][专利文献3HPO7-12I7O9A
[0017][专利文献4] JP2OO2-183I7IA
[0018][非专利文献]
[0019][非专利文献 I] Eric P.Xing, Andrew Y.Nq, Michael 1.Jordan, StuartRussell, "Distance metric learning, with application to clustering with sideinformation", In Advances in Neural Information Processing Systemsl5, Vol.15(2002), pp.505-512[0020][非专利文献 2]Matthew Schultz, Torsten Joachims, "Learning a distancemetric from relative comparisons", In Advances in Neural Information ProcessingSystemsl6, MIT Press, Cambridge, MA, (2004)
[0021][非专利文献 3]Mikhail Bilenko, Sugato Basu, RaymondJ.Mooney, "Integrating Constraints and Metric Learning in Sem1-SupervisedClustering", Proceedings of the21st International Conference on Machine Learning, Banff, Canada, July, pp.81-88

【发明内容】

[0022][本发明所要解决的问题]
[0023]如以上所描述的,非专利文献I所公开的约束聚类需要准备ML/CL型约束作为训练数据。然而,是否将某些数据配对的要素分类为相同聚类取决于分类聚类的数量。例如,即使数据配对在分类为四个聚类的情况下应当为ML,所述数据配对在更为详细地分类为八个聚类的情况下应当是CL也可能是适宜的。因此,除非事先确定了分类聚类的数量,否则无法创建ML/CL型的训练数据,并且非专利文献I的技术无法被应用于其中并不事先确定聚类数量的层级聚类。
[0024]另一方面,在非专利文献2所公开的半监督聚类中,准备指示X与A和B中的哪一个更为接近的训练数据足矣,并且因此即使在没有首先确定分类聚类的数量的情况下也能够创建训练数据。然而,非专利文献2所公开的训练数据所存在的问题在于,大约1/3的训练数据对于评估聚类结果而言是无效的。例如,假设作为三个内容X、A和B的层级聚类的结果,如图3(a)所示,A和B在与X组合之前首先进行组合。随后,无法从聚类结果判断X与A和B中的哪一个更为接近,并且因此不可能使用训练数据对聚类结果进行评估。虽然可能通过增加训练数据的数量来学习特征的权重,但是权重的学习是在增加无效数据的方向中执行,这是因为其导致了更高的得分。终究,有必要对学习算法进行设计,并且需要复杂的处理。
[0025]在专利文献I的技术中,当多次执行聚类时,由用户给出有关之前的聚类结果中的正确配对和错误配对的反馈。然而,由于所述反馈可以被认为是ML/CL型的训练数据,所以由于关于非专利文献I所描述的相同原因,专利文献I的技术无法被应用于其中并不首先确定聚类数量的层级聚类。
[0026]在专利文献2中,给出k均值(k-means)方法和k最近邻点方法作为聚类方法。也就是说,专利文献2的技术要被应用于非层级聚类方法,并且不可能将专利文献2的技术应用于其中并不首先确定聚类数量的层级聚类。
[0027]在专利文献3的技术中,通过针对无法被模式识别所识别的类别反复继续进行模式识别处理,能够获得作为结果的层级结构。然而,这样的层级结构并不指示数据之间的相似性程度。专利文献3所公开的聚类是其中首先确定聚类数量的聚类。如以上所描述的,即使使用专利文献3的技术,也不可能满足对多媒体内容进行聚类的要求而使得人们从内容所感觉到的情感内容之间的主观相似性的程度能够得以反映。
[0028]在专利文献4的技术中,两种特征矢量中的每一个被用来执行聚类,并且从两个结果所获得的这种聚类被采用作为稳定聚类。结果,并不需要训练数据。因此,在专利文献4的技术中,不可能对特征的权重进行学习以使得能够执行对人们所感到的情感内容之间的主观相似性的程度有所反映的聚类。
[0029]在非专利文献3的技术中,使用ML/CL型约束数据和XAB型相对相似性数据作为训练数据。因此,非专利文献3的技术包括关于非专利文献I的技术所描述的问题以及关于非专利文献2的技术所描述的问题。
[0030]已经考虑到常规技术中的上述问题而做出了本发明,并且本发明的目标是提供一种信息处理装置、方法和程序,其可能学习物理特征的权重并且根据聚类数量采用特征的权重以使得能够针对被表达为物理特征组合的内容执行反映主观相似性程度的层级聚类,并且因此能够实现执行所述层级聚类而使得人们从内容所感觉到的情感内容之间的主观相似性的程度能够得以反映。
[0031][用于解决问题的手段]
[0032]为了解决常规技术的上述问题,本发明提供了一种信息处理装置,其确定每个特征在被表达为物理特征组合的内容的主观层级聚类中的权重并且具有以下所描述的特性。本发明的信息处理装置获取在三条内容的集合(此后称作三元组)中间隔开来的多条内容和标签信息作为训练数据,所述标签信息指示在所述三元组的三条内容中被用户指定为具有最高相似性程度的配对。所述信息处理装置使用训练数据中的每条内容的特征矢量以及每个特征的权重执行层级聚类以确定所述训练数据的层级结构。所述信息处理装置对每个特征的权重进行更新以使得作为所确定层级结构中的三元组中的三条内容中的相同聚类的首先组合的配对和对应于所述三元组的标签信息所指示的配对之间的一致程度有所增加。
[0033]优选地,所述信息处理装置计算错误率,这是层级聚类结果和标签信息并不彼此一致的这种三元组的数量与三元组总数的比率。所述信息处理装置使用每个特征的更新权重对训练数据反复执行层级聚类,并且响应于收敛至预定数值的错误率而输出每个特征的更新权重。
[0034]更为优选地,所述信息处理装置针对每个层级聚类结果和标签信息并不彼此一致这样的三元组确定被假定为所述不一致的原因的特征,并且通过降低被确定为不一致的原因的特征的权重而使其小于未被确定为不一致的原因的特征的权重而对每个特征的权重进行更新。这里,如果对应于不一致的三元组的标签信息所指示的配对的特征的数值之间的差异与处于不一致的三元组的其它配对的相对应特征的数值之间的差异相比时相对大,则所述信息装置可以推定所述特征为不一致的原因。
[0035]优选地,所述信息处理装置向每个三元组附加以权重。所述信息处理装置针对每个特征而仅使用所述特征对加权三元组执行层级聚类,并且在考虑每个三元组的权重的情况下针对每个特征确定层级聚类的错误率。所述信息处理装置使用最低错误率对具有最低错误率的特征的权重进行更新,并且利用经更新的特征权重对每个三元组的权重进行更新。所述信息处理装置响应于层级聚类结果不再有所改进或者更新处理已经执行了与总特征数相对应的次数而输出每个特征的更新权重。更优选地,所述信息处理装置利用特征的更新权重更新每个三元组的权重,以使得层级聚类结果和标签信息并不彼此一致的三元组的权重大于层级聚类结果和标签信息彼此一致的三元组的权重。
[0036]优选地,所述信息处理装置向每个三元组附加以权重。所述信息处理装置针对每个特征而仅使用所述特征对加权三元组执行层级聚类,并且在考虑每个三元组的权重的情况下针对每个特征确定层级聚类的错误率。所述信息处理装置使用最低错误率确定具有最低错误率的特征的临时权重,并且利用所述临时权重更新每个三元组的权重。所述信息处理装置重复以上一系列处理,并且响应于层级聚类结果不再有所改进或者更新处理已经执行的次数大于总特征数而针对每个特征输出针对所述特征所确定的临时权重之和而作为所述特征的权重。更为优选地,所述信息处理装置利用特征的临时权重更新每个三元组的权重,以使得层级聚类结果和标签信息并不彼此一致的三元组的权重大于层级聚类结果和标签信息彼此一致的三元组的权重。
[0037]优选地,所述信息处理装置获取每个特征的权重要针对其进行切换的一个或多个级别I以及每个级别I的聚类上限数量队。所述信息处理装置使用针对级别1-1所确定的每个特征的权重以从下向上的方法执行层级聚类直至聚类的上限数量达到Nh,所述级别1-1是低于要针对其切换权重的级别I的一个级别。所述信息处理装置利用Nh个聚类作为新的训练数据执行用于确定权重的一系列处理,并且输出每个特征所确定的权重作为级别I每个特征的权重。
[0038]优选地,所述信息处理装置获取测试数据以及所要显示的层级层的规范,并且响应于测试数据的获取使用所学习的每个特征的权重对测试数据执行层级聚类。所述信息处理装置从作为层级聚类的结果而获得的层级结构中取出被分类为指定层级层的多个聚类的测试数据,并且将其在显示部上进行显示。
[0039]本发明已经被描述为一种确定主观层级聚类中的每个特征的权重的信息处理装置。然而,本发明也可以被掌握为一种由这样的信息处理装置所执行的用于确定主观层级聚类中每个特征的权重的方法,以及安装在这样的信息处理装置中并由其执行的用于确定主观层级聚类中每个特征的权重的程序。
[0040][本发明的优势]
[0041]根据本发明,通过使用指示由用户指定为在三元组的三条内容之中具有最高相似性的配对的标签信息来对作为层级聚类的结果的层级结构进行评估,并且基于所述评估的结果对每个特征的权重进行更新。因此,可能有效且准确地学习每个物理特征的权重以使得能够在聚类结果上反映出主观相似性的程度。此外,通过使用所学习的每个特征的权重,可能执行聚类以使得人们所感觉到的多条情感内容之间的主观相似性的程度能够得以反映。此外,有可能根据聚类的数量改变每个特征的权重,并且可能在人们对执行粗糙分类的情形和执行详细分类的情形之间的不同特征加以关注的类别中对人类特性进行模拟。
【专利附图】

【附图说明】
[0042]图1 (a)是图示作为常规技术的约束聚类的概况的示图;
[0043]图1 (b)是图示作为常规技术的基于距离的半监督聚类的概况的示图;
[0044]图2是根据本发明实施例的权重学习装置200的功能框图;
[0045]图3(a)是图示作为常规技术的基于距离的半监督聚类的结果的示图;
[0046]图3(b)是图示根据本发明实施例的聚类的结果的示图;
[0047]图4是示出根据本发明实施例的权重计算处理在学习时的整体流程的流程图;
[0048]图5是示出根据本发明实施例的聚类结果评估处理的流程的流程图;[0049]图6是示出根据本发明实施例的聚类处理在操作时的整体流程的流程图;
[0050]图7是示出根据本发明第一示例的权重计算处理在学习时的流程的流程图;
[0051]图8是示出根据本发明第二示例的权重计算处理在学习时的流程的流程图;
[0052]图9是示出根据本发明第三示例的权重计算处理在学习时的流程的流程图;
[0053]图10是图示本发明实施例中的层级编号以及每个层级的聚类数量的上限的示图;
[0054]图11是示出根据本发明实施例的针对每个层级改变特征权重的处理的流程的流程图;
[0055]图12是图示根据本发明实施例的聚类结果显示方法的示图;
[0056]图13是示出多个实验示例的结果以及常规方法的比较示例的结果的错误率表格;和
[0057]图14示出了如所涉及的申请中请求保护的优选地用于实现根据本发明实施例的学习装置200的信息处理装置的硬件配置示例。
【具体实施方式】
[0058]以下将基于附图对用于实践如所涉及申请中请求保护的发明的实施例进行详细描述。然而,以下实施例并不对根据权利要求的本发明进行限制,并且实施例中所描述特征的所有组合对于本发明的解决方案而言并非是必然要求的。贯穿对实施例的整体描述,相同组件被给予相同的附图标记。
[0059]1.新格式的训练数据
[0060]将对用于表达根据本发明实施例的聚类将其作为目标的多媒体内容的方法进行描述。总体上,诸如声音、图像、语句和网站之类的多媒体内容通过物理特征的组合进行表达,所述物理特征也就是特征矢量Vi,它是多个特征Xu在其中进行设置的矢量。这里,i表示内容的索弓丨,而k则表示矢量的维度。当维度的数量由D表示时,Vi= [XM, Xi, 2,Xi,3,..., Xi,D]T被满足。这里,T指示所述矩阵是转置矩阵。例如,在声音的情况下,可以使用基本频率[Hz]、持续时间长度[msec]等作为特征\k。然而,由于特征Xi,,的变化针对每个维度k有所不同,所以期望对特征进行归一化以使得平均值和变化中的每一个分别变为0,如以下公式(I)所示。
[0061][公式I]
[0062]
【权利要求】
1.一种信息处理装置,用于确定被表示为特征组合的内容的主观层级聚类中每个特征的权重,所述信息处理装置包括: 获取部,其获取在三条一组的集合(此后称作三元组)中分离的多条内容和标签信息作为训练数据,所述标签信息指示所述三元组的三条内容中被用户指定为具有最高相似度的配对; 层级聚类部,其使用所述训练数据的每条内容的特征矢量以及每个特征的所述权重执行层级聚类并且确定所述训练数据的层级结构;以及 权重更新部,其对每个特征的所述权重进行更新,以使得在所述层级结构中的所述三元组中的所述三条内容之间首先结合为处于相同聚类中的配对与由相对应标签信息所指示的配对之间的一致程度增加。
2.根据权利要求1的信息处理装置,进一步包括评估部,其计算错误率,所述错误率是所述层级聚类结果和所述标签信息并不彼此一致的这种三元组的数量与所述三元组总数的比率;其中 所述层级聚类部使用每个特征的更新的权重对所述训练数据反复执行层级聚类;并且 所述权重更新部响应于所述错误率收敛至预定数值而输出每个特征的所述更新的权重。
3.根据权利要求2的信息处理装置,其中 所述层级聚类部使用通过将每条内容的所述特征矢量的每个要素乘以对应于所述要素的所述特征的所述权重所获得的结果来执行所述层级聚类;并且 所述权重更新部针对所述层级聚类结果和所述标签信息并不彼此一致这样的三元组中的每个来确定被假定为所述不一致的原因的特征,并且通过将被确定为所述不一致的所述原因的所述特征的所述权重降低至小于未被确定为所述不一致的原因的特征的所述权重而对每个特征的所述权重进行更新。
4.根据权利要求3的信息处理装置,其中被假定为所述不一致的原因的所述特征是如下特征,该特征使得对应于所述层级聚类结果和所述标签信息并不彼此一致的三元组的所述标签信息所指示的所述配对的所述特征的值之间的差异比所述层级聚类结果和所述标签信息并不彼此一致的所述三元组中的其它配对的相应特征的值之间的差异大。
5.根据权利要求2的信息处理装置,其中 向每个所述三元组附加权重; 所述层级聚类部针对每个特征而仅使用所述特征对加权的所述三元组执行层级聚类; 所述评估部考虑到每个三元组的所述权重而针对每个特征确定所述层级聚类的错误率;并且 所述权重更新部使用最低错误率对具有所述最低错误率的特征的所述权重进行更新,利用所述特征的更新的权重对每个所述三元组的所述权重进行更新,并且响应于所述层级聚类结果不再有所改进或者所述更新处理已经执行了与特征总数相对应的次数而输出每个特征的所述更新的权重。
6.根据权利要求5的信息处理装置,其中所述权重更新部利用所述特征的所述更新的权重更新每个所述三元组的所述权重,以使得所述层级聚类结果和所述标签信息并不彼此一致的所述三元组的所述权重大于所述层级聚类结果和所述标签信息彼此一致的所述三元组的所述权重。
7.根据权利要求1的信息处理装置,其中 向每个所述三元组附加权重; 所述层级聚类部针对每个特征而仅使用所述特征对加权的所述三元组执行层级聚类,所述信息处理装置进一步包括评估部,其考虑到每个三元组的所述权重而针对每个特征确定所述层级聚类的错误率 ; 所述权重更新部使用最低错误率确定具有所述最低错误率的特征的临时权重,并且利用所述临时权重更新每个所述三元组的所述权重;并且 所述层级聚类部和所述权重更新部重复它们的处理直至所述层级聚类结果不再有所改进,并且所述权重更新部响应于所述层级聚类结果不再有所改进或者所述更新处理已经执行大于特征总数的次数而针对每个特征输出针对所述特征所确定的临时权重之和以作为所述特征的所述权重。
8.根据权利要求7的信息处理装置,其中所述权重更新部利用所述临时权重更新每个所述三元组的所述权重,以使得所述层级聚类结果和所述标签信息并不彼此一致的所述三元组的所述权重大于所述层级聚类结果和所述标签信息彼此一致的所述三元组的所述权重。
9.根据权利要求1的信息处理装置,其中 所述输入部获取要针对其每个特征的所述权重进行切换的一个或多个级别I以及针对每个级别I的聚类上限数量N1 ; 所述层级聚类部使用针对级别1-1所确定的每个特征的所述权重以从下向上的方法执行层级聚类直至聚类的数量达到Nw,所述级别1-1是低于要针对其切换所述权重的所述级别I的一个级别;并且 所述层级聚类部和所述权重更新部利用Nh个聚类作为新的训练数据执行它们的处理,并且输出每个特征所确定的权重作为所述级别I每个特征的所述权重。
10.根据权利要求1的信息处理装置,其中所述层级聚类部依据离差平方和法执行层级聚类。
11.根据权利要求1的信息处理装置,其中 所述获取部获取测试数据以及所要显示的层级分层的规范; 所述层级聚类部响应于所述测试数据的所述获取使用由所述权重更新部确定的每个特征的所述权重对所述测试数据执行层级聚类;并且 所述信息处理装置进一步包括显示部,其对被分类为所指定层级分层的多个聚类中的所述测试数据进行显示。
12.—种在包括处理器和存储部的计算机中执行以便确定被表示为物理特征组合的内容的主观层级聚类中每个特征的权重的方法,所述方法包括步骤: 所述处理器获取在三条一组的集合(此后称作三元组)中分离的多条内容和标签信息作为训练数据,所述标签信息指示所述三元组中的三条内容中被用户指定为具有最高相似度的配对,并且将所述标签信息存储到所述存储部中; 所述处理器使用所述训练数据的每条内容的特征矢量以及每个特征的所述权重执行层级聚类并且确定所述训练数据的层级结构;并且 所述处理器参考存储部中所存储的所述标签信息而对每个特征的所述权重进行更新,以使得在所述层级结构中的所述三元组的所述三条内容中首先结合为处于相同聚类的配对和相对应标签信息所指示的配对之间的一致程度增加。
13.根据权利要求12的方法,进一步包括步骤:所述处理器计算错误率,所述错误率是所述层级聚类结果和所述标签信息并不彼此一致的这种三元组的数量与所述三元组总数的比率;其中 使用每个特征的更新的权重对所述训练数据反复执行所述层级聚类;并且 所述处理器响应于所述错误率收敛至预定数值而输出每个特征的所述更新的权重。
14.根据权利要求13的方法,其中 向每个所述三元组附加权重; 所述确定所述层级结构的步骤包括针对每个特征而仅使用所述特征对加权的所述三元组执行层级聚类的步骤; 所述计算所述错误率的步骤包括考虑到每个三元组的所述权重而针对每个特征计算所述层级聚类的所述错误率的步骤;并且 所述更新每个特征的所述权重的步骤包括如下步骤:使用最低错误率更新具有所述最低错误率的特征的所述权重,利用所述特征的所述更新的权重更新每个所述三元组的所述权重,并且响应于所述层级聚类结果不再有所改进或者所述更新处理已经执行对应于特征总数的次数而输出每个特征的所述更新的权重。
15.根据权利要求12的方法,其中 向每个所述三元组附加权重; 所述确定所述层级结构的步骤包括针对每个特征而仅使用所述特征对加权的所述三元组执行层级聚类的步骤; 所述方法进一步包括所述处理器考虑到每个三元组的所述权重而针对每个特征确定所述层级聚类的错误率的步骤;并且 所述更新每个特征的所述权重的步骤包括使用最低错误率确定具有所述最低错误率的特征的临时权重,并且利用所述临时权重更新每个所述三元组的所述权重的步骤;并且所述处理器重复所述执行所述层级聚类的步骤和所述更新每个特征的所述权重的步骤,并且响应于所述层级聚类结果不再有所改进或者所述更新处理已经执行大于特征总数的次数而针对每个特征输出针对所述特征所确定的临时权重之和以作为所述特征的所述权重。
16.根据权利要求12的方法,进一步包括所述处理器获取其每个特征的所述权重要进行切换的一个或多个级别I以及每个级别I的聚类上限数量N1的步骤; 所述确定所述层级结构的步骤包括使用针对层级分层1-1所确定的每个特征的所述权重以从下向上的方法执行层级聚类直至聚类的上限数量达到Nw的步骤,所述层级分层1-1是低于要针对其切换权重的级别I的一个级别;并且 所述执行所述层级聚类的步骤和所述更新每个特征的所述权重的步骤包括利用Nw个聚类作为新的训练数据执行它们的处理的步骤,并且所述更新每个特征的所述权重的步骤包括输出每个特征所确定的权重作为所述级别I的每个特征的所述权重的步骤。
17.一种用于确定被表示为物理特征组合的内容的主观层级聚类中每个特征的权重的程序,所述程序使得计算机执行根据权利要求12至16中任一项的方法。
【文档编号】G06N3/00GK103548041SQ201280024881
【公开日】2014年1月29日 申请日期:2012年4月13日 优先权日:2011年6月28日
【发明者】立花隆辉, 长野彻, 西村雅史, 高岛辽一 申请人:国际商业机器公司

最新回复(0)