一种多标签分类方法及其装置的制造方法

xiaoxiao2020-10-23  24

一种多标签分类方法及其装置的制造方法
【技术领域】
[0001] 本发明涉及机器学习、模式识别和数据挖掘,特别涉及一种多标签分类方法及其 相应装置。
【背景技术】
[0002] 多标签最先应用在自动文档分类。随着最近一些年海量数字信息的出现,人们迫 切需要开发出自动方法来对这些内容进行自动注释。比如,Irieetal.提出了用于电影情 感场景(movieaffectivescene)多标签分类方法,Suetal.给出一种方法叫图像-概 念分布模型注释方法(annotationbyImage-to-ConceptDistributionModel,AICDM)用 于图像注释,而Loetal.记录标签次数作为代价,将声音标记问题转变成代价敏感分类问 题(cost-sensitiveclassificationproblem)。如今,除了自动内容注释,多标签学习应 用到许多其他领域,包括生物信息,网络挖掘,图像等。
[0003] 解剖治疗化学(AnatomicalTherapeuticChemical,ATC)分类系统是著名的,被 世界健康组织(theWorldHealth0rganization,WH0)推荐的药物分类系统。识别药物的 ATC分类是一个重要的课题,它有助于对药物的开发和利用。现有的药物ATC分类系统仅仅 是用于药物的单标签(single-label,单标记)分类。单标签分类学习是从一个只属于一个 标签I的样本集合中学习,其中每一个标签属于一个互斥的标签集合L(|L| >1)。在多标 签(多标记,multi-label)分类中,每个样本属于一个L样本集合的一个子集。
[0004] 多标签(multi-label)分类器给一个新的实例指定多个类别。这个分类模型有很 广泛的实际应用,如:一个新闻文档可能同时涉及多个主题,如音乐、运动和奥林匹克竞赛; 一个蛋白质可能具有多个功能,如Geminin是一种定位于核内的蛋白质,它通过调节细胞 周期时相中的重要事件作用于细胞增殖:经多种途径参与DNA复制的调节;抑制中心体重 复复制;推进G2/M期和维持正常胞质分裂等。
[0005] 定义1假设多标签分类任务,指定一个数据集
[0006]D= {(xl,yl), . . . , (xn,yn)}XXY(1)
[0007] 输入xieX和输出标签子集yieY。依附于每个输入的标签通常是指与输入项 相关的标签。有时,当输入空间是P维欧式空间(Euclideanspace)时,我们将学习任务表 示为一对矩阵的形式:
[0008]D= (X,Y) (2)
[0009] 公式中X= (xl,? ? ?,xn),Y= (yl,? ? ?,yn)。当标签j与实例i相关时,其中Y 中的元素yij为1,否则为〇。多标签分类任务的目的就是要诱导以下假设。
[0010] 定义2多标签假设是一个从输入空间到输出空间(即标签的幂集P(L))的映射函 数,表示如下:
[0011] h:x-y=P(L) = {0,1}L (3)
[0012] 所以,h(x)指对象x通过h关联的标签集。有时,我们用h(X) =Y表示为对输入 集(用矩阵X表示)的h预测是矩阵Y所表示的标签集。
[0013] 过去几年,多标签学习已经成为机器学习领域一个热门话题,并且取得了相当 大的进步。Madjarovetal.将多标签学习归成三个类:(1)算法适应方法(Algorithm adaptationmethods),(II)问题车专换方法(Problemtransformationmethods)和(III) 集成方法(Ensemblemethods)。算法适应方法将一个已经存在的机器学习算法进行改进, 从而应用于多标签学习。ML-KNN,BPMLL和ML-C4. 5都是算法适应方法。问题变换方法将 多标签问题转换成一个或者多个单标签问题。最为人所熟知的问题转换方法是BR方法,分 类器链方法(ClassifierChainmethod,CC)和标签幕集方法(labelpower-setmethod, LP)等。集成方法包括分类器链的集成(ensemblesofclassifierchains,ECC),随机K标 签集(randomk_labelsets,RAKEL),修剪集(prunedsets,EPS),等。
[0014] 传统的多标签分类方法计算效率低,不适合高维特征数据或者大数据,或者准确 性(Accuracy)比较低,限制了多标签分类方法在实际工作和生活中的应用。随着Internet技术和生物基因工程技术的发展,数字信息量如爆炸性地增长,大数据处理得到越来越多 的科研人员的关注。如何快速、准确地进行预测成为急需解决的问题,传统的多标签分类方 法计算效率低,不适合于大数据和高维特征数据,或者准确性(Accuracy)比较低,限制了 多标签分类方法在实际工作和生活中的应用,大部分多标签分类方法在学习效率和精确度 方面都不能同时满足这两个要求,而药物的ATC分类是典型的多标签分类问题。

【发明内容】

[0015] 本发明提供一种新的多标签分类方法ML-GKR(Multi-labelGaussianKernel Regression),以解决传统多标签分类方法中计算效率低,不适合于大数据和高维特征数 据,或者准确性(Accuracy)比较低的问题。
[0016] 为实现上述目的,本发明是通过以下技术方案来实现的:
[0017] 本发明提供一种多标签分类方法,包括:
[0018] 步骤1,利用问题转换算法将多标签分类问题转换成多个单标签分类问题;
[0019] 步骤2,对于每个待预测的未标签实例X*,计算第j个预测实数值g>j= 1,…, q,q为标签向量的维数;
[0020] 步骤3,判断每个待预测标签实例X*的第j个预测实数值7所属类别;
[0021] 步骤4,综合所有单标签完成多标签分类。
[0022] 进一步,步骤2中所述第j个预测实数值 其中
9 |x*-XilI为两个向量X*和Xi之间的距离,已知一组训练 9 数据(Xi,yi),i= 1,…,N,Xi是第i个训练数据输入,yi是第i个训练数据的标签,b是 输入空间的长度尺度。
[0023] 进一步,所述两个向量X,Xi之间的距离可以是欧氏距离、曼哈顿距离 (ManhattanDistance)或马氏距离(Mahalanobisdistances) 〇
[0024] 进一步,对于每个待预测标签实例X*,第j个标签乂预测为:
[0026] 进一步,如果
X*属于类j,j= 1,…,q,否则,如果
X*不属于 类j。
[0027] 进一步,所述问题转换算法是BR(二元关联,Binaryrelevance)算法。
[0028] 进一步,所述步骤1具体为:利用问题转换算法将药物的ATC分类问题转换成多个 ATC组别的单标签分类问题;
[0029] 所述步骤2具体为:根据待分类药物的药物分子间交互特征、药物分子间相似特 征和药物分子指纹特征,计算第j个预测实数值gj= 1,…,q,q为ATC组别个数; 9
[0030] 所述步骤3具体为,判断第j个预测实数值7所属类别;
[0031] 所述步骤4具体为,综合所有组别的单标签完成药物的ATC分类。
[0032] 进一步,所述步骤1具体为:利用问题转换算法将音乐的情感分类问题转换为多 个情感类别分类的单标签问题;
[0033] 所述步骤2具体为:根据待分类的音乐的节奏特征和音色特征,计算第j个预测实 数值乃>j= 1,…,q,q为音乐情感的类别数;
[0034] 所述步骤3具体为,判断第j个预测实数值$所属类别;
[0035] 所述步骤4具体为,综合所有单标签完成音乐的情感分类。
[0036] 本发明还提供一种多标签分类装置,包括:第一模块,用于利用问题转换算法将多 标签分类问题转换成多个单标签分类问题;
[0037] 第二模块,用于对于每个待预测的未标签实例X*,计算第j个预测实数值gj , =1,…,q,q为标签向量的维数;
[0038] 第三模块,用于判断每个待预测标签实例X*的第j个预测实数值$所属类别;
[0039] 第四模块,用于综合所有单标签问题完成多标签分类。
[0040] 本发明的有益效果在于:
[0041] 本发明提出的ML-GKR方法通过特定的技术手段,将待预测样本标签进行标记,结 果为与已知训练样本的距离最接近的标签,而无需计算每个样本之间的距离。
[0042] 在运算效率方面,ML-GKR时间复杂度为0 (Cnm)(设样本维数n,训练样本个数m, C为常数),而ML-KNN的时间复杂度为0 (Cm2n2)。因此,运算效率高于ML-KNN,可以应用于 大数据处理。
[0043] 此外ML-GKR可以用Matlab、Java和python等多种语言实现,应用于生物信息、文 本分类和音乐分类等多标签学习中。
【附图说明】
[0044] 图1高斯核回归算法
[0045] 图2本发明ML-GKR多标签分类方法流程图
[0046] 图3利用本发明的ML-GKR多标签方法实现药物ATC分类的流程图
[0047] 图4利用本发明的ML-GKR多标签分类方法实现音乐情感分类的流程图
【具体实施方式】
[0048] 本发明的主要思想在于,使用问题转换算法将多标签学习问题转化为"二类分类 (binary classification)"问题求解。在已知训练样本及其标签的情况下,通过高斯核回 归方法预测未知样本的二 类分类的标签,结合多个二类分类结果,得到多标签分类的结果。 [0049] 为使本发明的目的、技术方案和优点更加清楚明了,下面结合【具体实施方式】并参 照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发 明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本 发明的概念。
[0050] 首先介绍GKR方法(又叫高斯核平滑算法,GaussianKernelSmoother,或者基于 高斯核的线性回归GaussianKernel-basedlinearregression,径向基回归,RBFkernel regression)〇
[0051] 设(xl,yl)"* (xN,yN)为训练数据集,x*为待预测的实例,预测它的实值输出y*。 GKR模型如下所示:
[0053]公式⑷中的Xi是第i个训练数据输入,yi是第i个训练数据输出,x#是待预测 未标签样本(aquerypoint)j""是预测输出。k(x%xD为高斯核函数,定义为公式(5),函 数的另一个名字是径向基函数(RadialBasisFunction,RBF),因为它与高斯函数又不完 全一样。
[0054]
其中b是输入空间的长度尺度。
[0055] 下面,我们给出ML-GKR的定义。已知一组数据(Xi,Yi),i= 1,…,N,为训练数 据,通过它来构造预测规则。Xi是d-维实例,Yi= (yi,1,yi,2…yi,q)为Xi的q-维标 签向量,如果yi,j= +l,Xi属于类j,j= 1,…,q,否则,如果yi,j= -l,Xi不属于类j。
[0056] 给定实例X*,第j个标签%预测为:
[0058] Y的定义为
[0060] ^^,义,)通过1^*,\)可以获得。^^,{)为
[0062] | K-X」|为两个向量X,Xi之间的距离,这个距离可以是欧氏距离、曼哈顿距离 (Manhattan Distance)、马氏距离(Mahalanobis distances)等。最常见的是欧氏距离,在 此简单介绍一下欧氏距离。两个n维向量a(xll,xl2,…,xln)与b (x21,x22,…,x2n) 间的欧氏距离可以表示为:
[0064] 参见图3,给出本发明利用ML-GKR方法实现药物的ATC分类的实施例:
[0065] 药物分子特征由三个部分组成:药物分子间交互(interaction)特征、药物分子 间相似(simulation)特征和药物分子指纹相似特征,然后,将三种特征信息融合。
[0066] 1)药物分子间交互特征
[0067] http://stitch. embl. de:8080/download/chemical_chemical. links. v2.0.tsv. gz,从上述网址可以下载化合物-化合物交互成分信息。任何药物di的化合 物-化合物交互成分可以用下面公式表示:
[0068] C(di) = {cia,cU2, . . . ,ci>14} (i = 1,2, . . . , n) (10)
[0070] (10)式中,Cu指药物di的14种化合物-化合物交互成分中的第一个成分,Ci, 2是第二个成分,ci,』第j个成分。Qi(屯,dk)指药物屯和dk的交互信任分(interaction confidencescore)。(^下标"i"代表英文"interaction"的第一个字母,意思是这个指标 是药物屯和dk的化合物-化合物交互成分。
[0071] 2)药物分子间相似特征
[0072] 化合物之间的相似分数可以从http ://www. genome. jp/tools/simcomp2/获取。
[0073]药物di的化合物-化合物相似成分可以用下面公式表示:
[0074] E(di) = {eia,eU2, . . . ,ei>14} (i = 1,2, . . . , n) (12)
[0076]公式(12)中的ei>1指药物di的14种化合物-化合物相似成分中的第一个成分,ei>2指药物di的14种化合物-化合物相似成分中的第二个成分,eu指药物di的14种化 合物-化合物相似成分中的第j个成分。Qs(di,dk)指ddPdk的相似信任分(similarity confidencescore),下标"s"代表"similarity"的第一个字母,代表分值是基于化合 物-化合物相似成分。
[0077] 3)FP2 分子指纹成分(FingerprintComposition)
[0078]FP2分子指纹是基于路径的分子指纹,它将小分子片段(多达7个原子的线性片 段)进行编号(类似Daylight分子指纹)。通过辨识长度为1-7个原子的线性片段来分 析分子结构。单原子片段C,N,和0被忽视,当原子形成一个环,一个片段终止,对于每个片 段,原子、原子键合(bonding)及它们是否形成一个完整的环,都被记录、保存在一个集中, 每个片段类型都是唯一的。化学上等同的多版本(如多个原子逆序方式表示及一个相同的 环以不同的原子为起点表示)被标识出来,并只保留一个经典片段。每个保留的片段赋予 一个哈希数,从〇到1020,对应1024位的向量。
[0079] 分子指纹方法能为人们研宄和分析复杂生物系统提供有用的依据和见解,有不少 研宄论文都用到该方法。对药物di的分子指纹成分可以用公式表示为:
[0080] = {fia,fU2, . . .fi>14}(i= 1,2, . . . ,n) (14)
[0082]Qjdpdk)是一种使用Tanimoto描述两个化合物相似性或距离的指标,公式16给 出了Tanimoto的计算公式,其中的一些中间量在公式17、18、19中给出:
[0083] Qt(di,dk) =c/ (a+b~c) (16)
[0087]FA是药物A的分子指纹,FB是药物B的分子指纹,a是FA中置1位的数量,b是 FB中置1位的数量,c是FA和FB共同置1位的数量。
[0088] 对药物进行ATC分类,实际是将多标签分类问题转换14个ATC组别的单标签分类 问题,根据待预测药物的药物分子间交互特征、药物分子间相似特征、FP2分子指纹成分, 利用公式(6)、(7)、(8),对每个ATC组别预测,最后将所有组别进行融合,得到药物的ATC 分类。
[0089] 以药物D07091为例,提取3882个药物作为训练样本,分别属于14个主要ATC类,
[0090]A:消化系统
[0091] B:血液系统
[0092] C:心血管系统
[0093] D :皮肤科用药
[0094]G:泌尿生殖系统及性激素
[0095]H:体激素
[0096] J:抗感染药
[0097]L:抗肿瘤药及免疫用药
[0098]M:肌骨骼系统
[0099]N:神经系统
[0100]P:抗寄生虫药
[0101] R:呼吸系统
[0102]S:感觉器
[0103]V:其它
[0104]找D07091与A:消化系统中的所有药物分子间交互信息(interaction),最大值为 359,与B:血液系统中的所有药物分子间交互信息,最大值为0,与C:心血管系统中的所有 药物分子间交互信息,最大值为171,D:皮肤科用药中的所有药物分子间交互信息,最大值 为0,G:泌尿生殖系统及性激素中的所有药物分子间交互信息,最大值为151,H:体激素中 的所有药物分子间交互信息,最大值为〇,J:抗感染药中的所有药物分子间交互信息,最 大值为211,L:抗肿瘤药及免疫用药中的所有药物分子间交互信息,最大值为0,M:肌骨骼 系统中的所有药物分子间交互信息,最大值为242,N:神经系统中的所有药物分子间交互 信息,最大值为〇,P:抗寄生虫药中的所有药物分子间交互信息,最大值为〇,R:呼吸系统中 的所有药物分子间交互信息,最大值为〇,S:感觉器中的所有药物分子间交互信息,最大值 为0,V:其它中的所有药物分子间交互信息,最大值为0,我们可以得到公式(10)的向量:
[0105] (359,0,171,0,151,0,211,0,242,0,0,0,0,0)
[0106] 同样,找D07091与A:消化系统中的所有药物分子间相似信息,最大值为0. 95,与 B:血液系统中的所有药物分子间相似信息,最大值为0. 11,与C:心血管系统中的所有药物 分子间相似信息,最大值为〇. 16,D:皮肤科用药中的所有药物分子间相似信息,最大值为 0,G:泌尿生殖系统及性激素中的所有药物分子间相似信息,最大值为0,H:体激素中的所 有药物分子间相似信息,最大值为〇. 34,J:抗感染药中的所有药物分子间相似信息,最大 值为〇,L:抗肿瘤药及免疫用药中的所有药物分子间相似信息,最大值为0. 45,M:肌骨骼系 统中的所有药物分子间相似信息,最大值为〇,N:神经系统中的所有药物分子间相似信息, 最大值为〇,P:抗寄生虫药中的所有药物分子间相似信息,最大值为〇,R:呼吸系统中的所 有药物分子间相似信息,最大值为〇,S:感觉器中的所有药物分子间相似信息,最大值为0, V:其它中的所有药物分子间相似信息,最大值为0,我们可以得到公式(12)的向量:
[0107] (0? 95,0? 11,0? 16,0,0,0? 34,0,0? 45,0,0,0,0,0,0)
[0108]同样,找D07091与A:消化系统中的所有药物分子指纹信息,最大值为0.85,与 B:血液系统中的所有药物分子指纹信息,最大值为0. 79,与C:心血管系统中的所有药物分 子指纹信息 ,最大值为〇. 45,D:皮肤科用药中的所有药物分子指纹信息,最大值为0. 34, G:泌尿生殖系统及性激素中的所有药物分子指纹信息,最大值为0. 22,H:体激素中的所有 药物分子指纹信息,最大值为〇. 12,J:抗感染药中的所有药物子指纹信息,最大值为0. 26, L:抗肿瘤药及免疫用药中的所有药物分子指纹信息,最大值为0. 27,M:肌骨骼系统中的所 有药物分子指纹信息,最大值为〇. 41,N:神经系统中的所有药物分子指纹信息,最大值为 0. 37,P:抗寄生虫药中的所有药物分子指纹信息,最大值为0. 18,R:呼吸系统中的所有药 物分子指纹信息,最大值为〇. 26,S:感觉器中的所有药物分子指纹信息,最大值为0. 39,V: 其它中的所有药物分子指纹信息,最大值为0.32,我们可以得到公式(14)的向量:
[0109] (0. 85,0. 79,0. 45,0. 34,0. 22,0. 12,0. 26,0. 27,0. 41,0. 37,0. 18,0. 26,0. 39, 0. 32)〇
[0110]三种向量融合后,得到:
[0111] (359,0, 171,0, 151,0, 211,0,242,0,0,0,0,0,0? 95,0? 11,0? 16,0,0,0? 34,0, 0? 45,0,0,0,0,0,0,0. 85,0. 79,0. 45,0. 34,0. 22,0. 12,0. 26,0. 27,0. 41,0. 37,0. 18,0. 26, 0. 39,0. 32)
[0112] 将这个向量输入到ML-GKR模型,分别得到每个ATC组别的单标签,融合后得到这 种药的预测向量为
[0113] (+1,_1,+1,_1,_1,_1,_1,_1,_1,_1,_1,_1,_1,_1)
[0114] +1表示属于这个类,-1表示不属于这个类,因此D07091属于A:消化系统,C:心血 管系统。
[0115] 参见图4,给出本发明利用ML-GKR方法实现音乐情感分类的实施例:-
[0116]Hevner是第一个研宄音乐与情感的关系的人,她发现通过聚类可以把音乐分为8 个类。Farnsworth将音乐继续进行细化为10个类。
[0117] 特征抽取
[0118]节奏特征(RhythmicFeatures)
[0119] 节奏特征通过从节奏柱状图提取周期性的变化。使用自相关算法识别峰值,选择 两个最高峰值,计算它们的振幅,频率(BMPs,beatsperminute),和BMPs高-低比,另外, 3个特征是计算频率在40-90,90-140和140-250之间的直方图模块的和。整个过程得到8 个节奏特征。
[0120] 音色特征(TimbreFeatures)
[0121] 使用了梅尔倒频谱参数(MelFrequencyCepstralCoefficients,MFCCs)来进 行语音识别和音乐建模。为了获取MFCCs特征,信号按帧获取帧和振幅谱,然后使用对数 进行规划,最后选择13个MFCCs特征。另外三个特征与音质相关,使用快速傅里叶变换 (FourierTransform,FFT)获取。所有帧对以上16个特征,每个特征计算平均值(mean), 标准差(standarddeviation),均数标准差(meanstandarddeviation)和标准差的标准 差(standarddeviationofstandarddeviation),我们可以获得 64 个特征值。
[0122] 情感标签(EmotionLabeling)
[0123] 使用了Tellegen-Watson-Clark模型进行情感标签,相应的标签如表一所示。
[0126] 已知M个训练样本,每个样本有72个特征和6个标签,当L1为+1时,表示该音乐 为惊讶,为-1时,该音乐非惊讶,其它标签依次类推。给定一个未知标签的案例,
[0127] (0. 092565,0. 31292,0. 085962, -69. 077208,2. 639976, 1. 564388, 1. 576656, 0.255043,0.955882,0.587556,0. 423435,0. 520499,0. 40651,0. 554551,0. 31633, 0. 321789,0. 084952,0. 281762,0. 032662,5.498476,1.505243,0.990168,1.078498, 0.95629,0.624933,0.591018,0.647529,0.531299,0.585403,0. 546337,0. 511499, 0. 511172,0. 026462,0. 067844,0. 007887,2. 361893,0. 579488,0. 626683,0.411554, 0.407856,0. 199635,0. 265587,0.211859,0.235174,0.220972,0. 192332,0. 176956, 0. 175724,0.035017,0.077664,0.029688,3.714091,0. 406592,0. 252498,0. 246138, 0.186199,0.120267,0.102217,0.119625,0.090132,0.085782,0.105026,0.095775, 0?083248,0?312616,64,0? 034558,192, 3,0? 481622,0? 262755,0? 832237),
[0128] 72个属性值分别为
[0129] ?attributeMean_Accl298_Mean_Mem40_Centroidnumeric
[0130] ?attributeMean_Accl298_Mean_Mem40_Rolloffnumeric
[0131] ?attributeMean-Accl298-Mean-Mem40-Fluxnumeric
[0132] ?attributeMean-Accl298-Mean-Mem40-MFCC-0numeric
[0133] ?attributeMean-Accl298-Mean-Mem40-MFCC-1numeric
[0134] ?attributeMean-Accl298-Mean-Mem40-MFCC-2numeric
[0135] ?attributeMean-Accl298-Mean-Mem40-MFCC-3numeric
[0136] ?attributeMean-Accl298-Mean-Mem40-MFCC-4numeric
[0137] ?attributeMean-Accl298-Mean-Mem40-MFCC-5numeric
[0138] ?attributeMean-Accl298-Mean-Mem40-MFCC-6numeric
[0139] ?attributeMean-Accl298-Mean-Mem40-MFCC-7numeric
[0140] ?attributeMean_Accl298_Mean_Mem40_MFCC_8numeric
[0141] ?attributeMean-Accl298-Mean-Mem40-MFCC-9numeric
[0142] ?attributeMean-Accl298-Mean-Mem40-MFCC-10numeric
[0143] ?attributeMean-Accl298-Mean-Mem40-MFCC-11numeric
[0144] ?attributeMean-Accl298-Mean-Mem40-MFCC-12numeric
[0145] ?attributeMean-Accl298-Std-Mem40-Centroidnumeric
[0146] ?attributeMean-Accl298-Std-Mem40-Rolloffnumeric
[0147] ?attributeMean_Accl298_Std_Mem40_Fluxnumeric
[0148] ?attributeMean_Accl298_Std_Mem40_MFCC_0numeric
[0149] ?attributeMean_Accl298_Std_Mem40_MFCC_lnumeric
[0150] ?attributeMean_Accl298_Std_Mem40_MFCC_2numeric
[0151] ?attributeMean_Accl298_Std_Mem40_MFCC_3numeric
[0152] ?attributeMean_Accl298_Std_Mem40_MFCC_4numeric
[0153] ?attributeMean_Accl298_Std_Mem40_MFCC_5numeric
[0154] ?attributeMean_Accl298_Std_Mem40_MFCC_6numeric
[0155] ?attributeMean_Accl298_Std_Mem40_MFCC_7numeric
[0156] ?attributeMean_Accl298_Std_Mem40_MFCC_8numeric
[0157] ?attributeMean_Accl298_Std_Mem40_MFCC_9numeric
[0158] ?attributeMean_Accl298_Std_Mem40_MFCC_10numeric
[0159] ? attributeMean_Accl298_Std_Mem40_MFCC_llnumeric
[0160] ?attributeMean_Accl298_Std_Mem40_MFCC_12numeric
[0161] ?attributeStd-Accl298-Mean-Mem40-Centroidnumeric
[0162] ?attributeStd-Acc1298-Mean-Mem40-Rolloffnumeric
[0163] ?attributeStd_Accl298_Mean_Mem40_Fluxnumeric
[0164] ?attributeStd_Accl298_Mean_Mem40_MFCC_0 numeric
[0165] ?attributeStd_Accl298_Mean_Mem40_MFCC_lnumeric
[0166] ?attributeStd_Accl298_Mean_Mem40_MFCC_2 numeric
[0167] ?attributeStd_Accl298_Mean_Mem40_MFCC_3 numeric
[0168] ?attributeStd_Accl298_Mean_Mem40_MFCC_4 numeric
[0169] ?attributeStd_Accl298_Mean_Mem40_MFCC_5 numeric
[0170] ?attributeStd_Accl298_Mean_Mem40_MFCC_6 numeric
[0171] ?attributeStd_Accl298_Mean_Mem40_MFCC_7 numeric
[0172] ?attributeStd_Accl298_Mean_Mem40_MFCC_8 numeric
[0173] ?attributeStd_Accl298_Mean_Mem40_MFCC_9 numeric
[0174] ?attributeStd_Accl298_Mean_Mem40_MFCC_10 numeric
[0175] ?attributeStd_Accl298_Mean_Mem40_MFCC_llnumeric
[0176] ?attributeStd_Accl298_Mean_Mem40_MFCC_12 numeric
[0177] ?attributeStd_Accl298_Std_Mem40_Centroidnumeric
[0178] ?attributeStd_Accl298_Std_Mem40_Rolloffnumeric
[0179] ?attributeStd_Accl298_Std_Mem40_Fluxnumeric
[0180] ?attributeStd_Accl298_Std_Mem40_MFCC_0 numeric
[0181] ?attributeStd_Accl298_Std_Mem40_MFCC_lnumeric
[0182] ?attributeStd_Accl298_Std_Mem40_MFCC_2 numeric
[0183] ?attributeStd_Accl298_Std_Mem40_MFCC_3 numeric
[0184] ?attributeStd_Accl298_Std_Mem40_MFCC_4 numeric
[0185] ?attributeStd_Accl298_Std_Mem40_MFCC_5 numeric
[0186] ?attributeStd_Accl298_Std_Mem40_MFCC_6 numeric
[0187] ?attributeStd_Accl298_Std_Mem40_MFCC_7 numeric
[0188] ?attributeStd_Accl298_Std_Mem40_MFCC_8 numeric
[0189] ?attributeStd_Accl298_Std_Mem40_MFCC_9 numeric
[0190] ?attributeStd_Accl298_Std_Mem40_MFCC_10 numeric
[0191] ?attributeStd_Accl298_Std_Mem40_MFCC_llnumeric
[0192] ?attributeStd_Accl298_Std_Mem40_MFCC_12 numeric
[0193] ?attributeBH_LowPeakAmpnumeric
[0194] ?attributeBH_LowPeakBPMnumeric
[0195] ?attributeBH-HighPeakAmpnumeric
[0196] ?attributeBH_HighPeakBPMnumeric
[0197] ?attributeBH_HighLowRationumeric
[0198] ?attributeBHSUM1 numeric
[0199] ?attributeBHSUM2 numeric
[0200] ?attributeBHSUM3 numeric
[0201] 使用ML-GKR进行预测,L1-L6的标签分别是(0,0,0,0,0,1),可以得出结论,该音 乐属于L6 (生气)。
[0202] 应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明 的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任 何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求 旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和 修改例。
【主权项】
1. 一种多标签分类方法,其特征在于,所述方法包括: 步骤1,利用问题转换算法将多标签分类问题转换成多个单标签分类问题; 步骤2,对于每个待预测的未标签实例X*,计算第j个预测实数值g,j = 1,…,q,q 为标签向量的维数; 步骤3,判断每个待预测标签实例X*的第j个预测实数值7所属类别; 步骤4,综合所有单标签完成多标签分类。2. 如权利要求1所述的多标签分类方法,其特征在于:步骤2中所述第j个预测实数值 I IXi-XiI I为两个向量矿和 9 J Xi之间的距离,已知一组训练数据(X i,yi),i = 1,…,N,Xi是第i个训练数据输入,y肩 第i个训练数据的标签,b是输入空间的长度尺度。3. 如权利要求2所述的多标签分类方法,其特征在于,所述两个向量X #和X 间的距 离可以是欧氏距离、曼哈顿距离或马氏距离。4. 如权利要求2所述的多标签分类方法,对于每个待预测标签实例X*,第j个标签少;; 预测为: 、- O5. 如权利要求4所述的多标签分类方法,其特征在于:如果:^ =+1 > X*属于类j,j = 1,·",α,否则,如果·>0 =-1 X*不属于类j。6. 如权利要求1-5任一项所述的多标签分类方法,其特征在于,所述问题转换算法是 BR算法。7. 如权利要求1-5任一项所述的多标签分类方法,其特征在于: 所述步骤1具体为:利用问题转换算法将药物的ATC分类问题转换成多个ATC组别的 单标签分类问题; 所述步骤2具体为:根据待分类药物的药物分子间交互特征、药物分子间相似特征和 药物分子指纹特征,计算第j个预测实数值7 j = 1,…,q,q为ATC组别个数; 9 所述步骤3具体为,判断第j个预测实数值7所属类别; 所述步骤4具体为,综合所有组别的单标签完成药物的ATC分类。8. 如权利要求1-5任一项所述的多标签分类方法,其特征在于: 所述步骤1具体为:利用问题转换算法将音乐的情感分类问题转换为多个情感类别分 类的单标签问题; 所述步骤2具体为:根据待分类的音乐的节奏特征和音色特征,计算第j个预测实数值 ·>0_ j = 1,···,q,q为音乐情感的类别数; 9 所述步骤3具体为,判断第j个预测实数值g所属类别; 所述步骤4具体为,综合所有单标签完成音乐的情感分类。9. 如权利要求7或8所述的多标签分类方法,其特征在于,所述问题转换算法是BR算 法。10. -种多标签分类装置,其特征在于,所述装置包括: 第一模块,用于利用问题转换算法将多标签分类问题转换成多个单标签分类问题; 第二模块,用于对于每个待预测的未标签实例X*,计算第j个预测实数值j = 1,为标签向量的维数; 第三模块,用于判断每个待预测标签实例X*的第j个预测实数值7所属类别; 第四模块,用于综合所有单标签问题完成多标签分类。
【专利摘要】本发明公开了一种多标签分类方法及相应装置,该方法利用问题转换算法将多标签分类问题转换成多个单标签分类问题;对于每个待预测的未标签实例X*,计算第j个预测实数值j=1,…,q,q为标签向量的维数;判断每个待预测标签实例X*的第j个预测实数值所属类别;综合所有单标签完成多标签分类。本发明提出的多标签分类方法通过特定的技术手段,将待预测样本标签进行标记,结果为与已知训练样本的距离最接近的标签,而无需计算每个样本之间的距离,运算效率高于ML-KNN,可以应用于大数据处理,可应用于生物信息、文本分类和音乐分类等多标签分类中。
【IPC分类】G06K9/62
【公开号】CN104899596
【申请号】CN201510114326
【发明人】程翔, 肖绚
【申请人】景德镇陶瓷学院
【公开日】2015年9月9日
【申请日】2015年3月16日

最新回复(0)