一种基于多源实例迁移学习的恐怖行为预测方法
【技术领域】
[0001] 本发明涉及计算机数据挖掘与应用领域,具体而言涉及一种基于多源实例迀移学 习预测恐怖行为的预测算法。
【背景技术】
[0002] 2001年9月11日,美国纽约、华盛顿遭受恐怖分子袭击,造成3100多人死亡。此 次事件被认为是自珍珠港事件后美国遭受到的最严重的恐怖袭击事件,标志着恐怖主义组 织已经成为对国际安全造成重大影响的一支非国家力量。如何利用现有的信息预测将会发 生的恐怖行为,成为一个重要的研宄方向。
[0003] 恐怖行为预测是预测知识挖掘的典型应用,它利用数据挖掘和机器学习的相关技 术,对过去、现在恐怖组织策划实施的恐怖行为的情况进行科学的统计分析,然后预测其发 展趋势。恐怖预测不是证实过去,也不是说明现实,而是从显性的恐怖组织与恐怖袭击事件 的数据入手,寻找出某些隐性的有用信息。从恐怖袭击事件数据中可能隐藏的特征、行为或 者其他的因素来提炼出相关的模式,以此来提供线索,预测恐怖主义组织的发展趋势。其目 的在于为采取有效的预防措施提供决策支持。
[0004] 早期对恐怖预测的研宄主要是针对当局的统计数据对恐怖行为进行长期预测,但 由于当时的数据信息只考虑到恐怖事件发生的时间、地点、袭击目标等因素,而没有考虑导 致恐怖事件的社会学等深层次的因素,因此单纯的从数据驱动并不能有效对其进行预测。 而且传统的分析方法过于依赖社会学专家的分析,对于大数据量而言不具备可操作性。
[0005] 目前,对恐怖预测的研宄开始以跨学科(计算机数据挖掘技术与社会学,犯罪学 等)为基础,统计的信息更为详细,不仅包括传统恐怖活动发生的信息,而且还从经济矛 盾、政治矛盾(如民族矛盾、宗教价值观差异以及种族政策的失误)、文化矛盾等方面搜集 信息和数据挖掘,以便通过对这些数据的分析为当局提供更有效的预测分析。因此,通过分 析恐怖组织的背景因素对其行为的影响成为研宄的热点。
[0006] 在当前的研宄中,选取的研宄对象往往是存在时间久且样本量较为丰富的恐怖组 织,但随着恐怖主义的全球化,近年来不断有新的恐怖组织产生。这类组织由于产生时间短 导致收集到的数据极为稀少,使得对于这类组织的预测缺乏依据,预测精度低。然而,恐怖 组织间往往是相关的,他们存在和发展的过程中有着或多或少的共性。因此如何能够有效 的利用组织间的共性,来帮助新产生组织的进行预测,是当前恐怖行为预测需要解决的一 个刻不容缓的问题。
【发明内容】
[0007] 针对现有技术中存在的问题,本发明旨在提出一种基于多源实例迀移学习的恐怖 行为预测方法,通过在组织间进行实例迀移学习,利用源组织中的有用的知识来帮助目标 组织进行行为预测,解决了新产生组织由于样本稀少使得预测缺乏依据所造成的预测精度 低的问题,有效的提高了预测算法的精确度。
[0008] 为达成上述目的,本发明技术方案为:
[0009] -种基于多源实例迀移学习的恐怖行为预测方法,包括以下步骤:
[0010] 步骤1,背景数据的预处理:背景数据由背景知识和行为知识构成,标记为向量对 (CS,AS),其中CS= (CpQ,. . .,CM)表示背景数据中的背景属性,AS= (ApA2,. . .,AN)表 示背景数据中涉及的行为属性,为了在组织间实现迀移,对背景数据进行预处理,将多个行 为属性合并为一个行为属性,形成(CS,A)的数据集,其中A=A」|A2| |... | |AN为合并的行 为属性;
[0011] 步骤2,训练候选预测模型:通过步骤1得到形如(CS,A)的源组织和目标组织样 本集,对多个源组织样本集分别同目标组织样本集取并集,在每个并集上采用SVM进行迭 代的训练,每次迭代训练中都对错分样本进行权重修正,进而得到候选预测模型集;
[0012] 步骤3,集成最终预测模型:过滤步骤2得到的候选预测模型集中对于目标数据集 的误差超过阈值的部分,剩余的模型以加权投票的方式实现行为预测。
[0013] 进一步,在步骤2中,训练候选预测模型具体包括以下步骤:
[0014] 步骤2. 1,初始化源组织和目标组织的权重向量
,其中
?为第k个源组织样本权重向量:
为目标组织的样 本权重向量,为了避免权重不匹配问题,对目标组织样本赋予较高的权重;
[0015] 步骤2. 2,对于第一个源组织样本集仏同目标组织样本集Dt取并集仏,在 上进行迭代的训练得到第一个源组织的候选预测模型;
[0016] 步骤2. 3,对所有源组织完成了迭代的训练得到候选预测模型集G。
[0017] 进一步,在步骤2. 2中,迭代的训练包括以下步骤:
[0018] S1,对DS| 的样本权重向量妒= {%,%}利用公式
进行权重归一化处理,使所有样本的权重之和为1 ;
[0019] S2,根据归一化后的权重分布采用SVM分类算法在上训练分类预测模型 h:C一A;
[0020] S3,利用公式
计算h在目标组织样本集DT上的 误差e ;
[0021] S4,设
,其中&为源组织样本量,利用公式
修 正源组织样本权重;
[0022] S5,设aT=e/(I-e),为了保证aT> 1,所以e必须小于〇. 5,利用公式 % 以/"'11修正目标组织样本权重WT;
[0023] S6,记录预测模型已经对应的误差F- (h,e)完成第一轮迭代,并根据修正后的 样本权重进行第二轮迭代,直至导致最大迭代次数M;
[0024] S7,根据公式
得到该源组织的候选预测模型,根据公式
得到候选预测模型在DT上的平均误差,记录候选预测模型和平均 误差G-(hsum,eavg)。
[0025] 进一步,所述步骤S2中,SVM分类算法为标准SVM分类算法,使用的SVM的核函数 为高斯核函数。
[0026] 进一步,所述步骤3中,集成最终预测模型具体包括以下步骤:
[0027]步骤3. 1,根据阈值thr对候选预测模型集G中的预测模型中其平均误差超过阈值 的模型进行置零处理hSUffl=0;
[0028] 步骤3.2,根据源组织权重因子
利用公式进行加权集成
其中\为第k个源组织的权重因子,如果当前时刻为t,则
公式中的result⑴为第k个源组织在时刻i对目标组织迀 移预测的结果,成功为1,反之为〇;f(x)为时间衰减函数,x越大则f(x)越小;并且默认result(0) = 1〇
[0029] 由以上本发明的技术方案可知,本发明的有益效果为:本发明提出的基于多源实 例迀移学习的恐怖行为预测方法,通过迀移相关的组织的样本来辅助新产生的组织的行为 预测。在训练的过程中进行迭代地修正错分样本的权重,使阻碍目标任务预测的样本权重 减少,而对目标任务帮助大样本有着更高的权重。并且通过设置过滤机制以及根据源组织 权重因子进行加权集成来减少不匹配模型的影响,使相关组织中的有用信息能尽可能的参 与到新产生组织的行为预测中,以此来提高对于新产生的组织的行为预测的精度,增强了 预测算法的性能。
【附图说明】
[0030] 图1为本发明实施例的预测流程示意图。
[0031] 图2为预测的总体框架示意图。
【具体实施方式】
[0032] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述。
[0033] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0034] 如图1所示,根据本发明的实施例,基于恐怖组织背景知识子空间的恐怖行为预 测方法包括三个基本步骤:背景数据的预处理;训练候选预测模型;集成最终的预测模型。[0035] 一、背景数据的预处理
[0036] 背景数据由背景知识和行为知识构成,标记为向量对(CS,AS),其中CS= (Q, C2,...,CM)表示背景数据中的背景属性,AS= (Ai,A2,...,AN)表示背景数据中涉及的行为 属性。为了在组织间实现迀移,对背景数据进行预处理,将多个行为属性合并为一个行为属 性即A=A」|A2||... ||AN,形成(CS,A)的数据集;
[0037] 如下表1所示的背景数据子集,共有11个字段,分别标记为10、(^、(:2、(:3、(;、(: 5、(:6 和八1,六2,六3,六(:1:;[011。10标记为记录在表中的编号。((] 1,(]2,(]3,(]4,(]5,(] 6)=05(8)表示背 景属性,(Ai,A2,A3) =AS(g)表示行为属性,而Action为41,42,八3合并的行为属性。在本 例中用于预测的属性为Q、C2、C3、C4、C5、(:6和Action,其中C^C2、C3、C4、C5、C6为背景特征, Action为类标签。
[0039] 二、训练候选预测模型
[0040] 训练候选预测模型,通过预处理得到形如(CS,A)的源组织和目标组织样本集,对 多个源组织(已有的、样本丰富的组织)样本集分别同目标组织(新产生的组织)样本集 取并集,在每个并集上采用SVM进行迭代地训练,每次迭代训练中都对错分样本进行权重 修正,进而得到候选预测模型集,具体包括以下步骤:
[0041] 步骤1 :初始化源组织和目标组织的权重向量
,其中
为第k个源组织样本权重向量,
,为目标组织的 样本权重向量。为了避免权重不匹配问题,对目标组织样本赋予较高的权重;
[0042] 步骤2 :对于第一个源组织样本集同目标组织样本集DT取并集,在 Aul)r上进行迭代的训练得到第一个源组
织的候选预测模型;
[0043] 本实施例中,对数据迭代的训练包括以下步骤:
[0044] 1. 1对DSiU仏的样本权重向量F ^利用公式
进行 权重归一化处理,使所有样本的权重之和为1;
[0045] 1.2根据归一化后的权重分布采用支持向量机(SVM)分类算法在D.sUR上训练 分类预测模型h:C-A;其中本实施例采用的SVM为标准SVM,使用的核函数为高斯核函数。
[0046] 1.3利用公式
计算h在目标组织样本集化上 的误差e;
[0047] 1.4设
,其中&为源组织样本量。利用公式
修正 源组织错分样本权重%;;
[0048] 1. 5设aT=e/(I-e),为了保证aT> 1,所以e必须小于〇. 5。利用公式
修正目标组织错分样本权重WT;
[0049] 1. 6记录预测模型已经对应的误差F- (h,e)完成第一轮迭代,并根据修正后的 样本权重进行第二轮迭代,直至达到最大迭代次数M;其中本实施例中的最大迭代次数设 定为20。
[0050] 1. 7根据公式
得到该源组织的候选预测模型,根据公式
得到候选预测模型在DT上的平均误差。记录候选预测模型和平均 误差G- (hsum,eavg)。
[0051]步骤3:对所有源组织完成了迭代的训练得到候选预测模型集G。
[0052] 三、集成最终的预测模型
[0053] 本实施例中,集成最终的预测模型包括以下步骤:
[0054] 步骤1:根据阈值thr对候选预测模型集G中的预测模型中其平均误差超过阈值 的模型进行置零处理hsum= 0 ;其中本实施例中的thr设置为0. 3。
[0055] 步骤2 :如图2所示,根据源组织权重因子
利用公式进行加权 集成
其中\为第k个源组织的权重因子,如果当前时刻为t,则
,公式中的result(i)为第k个源组织在时刻i对目标组织迀 移预测的结果,成功为1,反之为〇 ;f(x)为时间衰减函数,x越大则f(x)越小;并且默认result(O) = 1。本例中使用的时间衰减函数为f(x) =0. 9X。
[0056] 根据本实施例进行预测的统计结果以及与其它的传统算法的预测结果的对比如 表2所示。算法评估采用的主要评估标准主要包括查全率(recall)、查准率(precision) 和F值(F-measure)。查全率评估的是待测样本中少数类预测成功的比率;查准率评估的 是预测为少数类的样本中预测正确的样本所占的比率;F值是基于查全率和查准率的综合 评估。上述几种标准也在文本分类、信息检索等领域得到了广泛应用。
[0057]
[0058] 从表2所示的实验结果可以看出,采用了本文提出的基于多源实例迀移学习的行 为预测方法的预测效果明显好于传统的预测算法,由于CONVEX和SVM没有从源组织迀移到 任何知识,仅仅依靠目标组织的少量样本导致预测效果低下。而基于结构风险最小的SVM 预测效果相较CONVEX算法又略好一点。
[0059] 综上所述,本发明提出一种基于多源实例迀移学习的恐怖行为预测方法,包括以 下步骤:步骤1 :背景数据的预处理,背景数据由背景知识和行为知识构成,标记为向量对 (CS,AS),其中CS= (CpQ,. . .,CM)表示背景数据中的背景属性,AS= (ApA2,. . .,AN)表 示背景数据中涉及的行为属性。为了在组织间实现迀移,对背景数据进行预处理,将多个行 为属性合并为一个行为属性,形成(CS,A)的数据集;步骤2 :训练候选预测模型,对多个源 组织样本集分别同目标组织样本集取并集,在每个并集上采用SVM进行迭代地训练,在每 次迭代训练中都对错分样本进行权重修正,进而得到候选预测模型集;步骤3 :集成最终预 测模型,过滤候选预测模型集中对于目标数据集的误差超过阈值的部分,剩余的模型以加 权投票的方式进行集成,最终实现行为预测。本发明的预测方法是针对新产生的恐怖组织 的行为预测,解决了新产生的组织由于缺乏样本而导致难以预测的问题,提高了预测的精 度。
[0060] 本发明的基于多源实例迀移学习的恐怖行为预测方法,利用相关组织的知识来帮 助新产生的组织进行行为预测。并通过迭代的修正错分样本权重、设置过滤机制及加入了 源组织权重因子使源组织有用的信息尽可能参与到目标任务预测之中,有效的解决了新产 生的组织由于产生时间短、缺乏可用样本导致的对组织的行为预测精度低的问题。
[0061] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示意性实施例"、 "示例"、"具体示例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结 构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的 示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特 点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0062] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不 脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本 发明的范围由权利要求及其等同物限定。
【主权项】
1. 一种基于多源实例迀移学习的恐怖行为预测方法,其特征在于,包括以下步骤: 步骤1,背景数据的预处理:背景数据由背景知识和行为知识构成,标记为向量对(CS, AS),其中CS = (C1, C2, . . .,Cm)表示背景数据中的背景属性,AS = (A1, A2, . . .,An)表示背 景数据中涉及的行为属性,为了在组织间实现迀移,对背景数据进行预处理,将多个行为属 性合并为一个行为属性,形成(CS,A)的数据集,其中A = A1I IA2I I... I IanS合并的行为属 性; 步骤2,训练候选预测模型:通过步骤1得到形如(CS,A)的源组织和目标组织样本集, 对多个源组织样本集分别同目标组织样本集取并集,在每个并集上采用SVM进行迭代的训 练,每次迭代训练中都对错分样本进行权重修正,进而得到候选预测模型集; 步骤3,集成最终预测模型:过滤步骤2得到的候选预测模型集中对于目标数据集的误 差超过阈值的部分,剩余的模型以加权投票的方式实现行为预测。2. 根据权利要求1所述的基于多源实例迀移学习的恐怖行为预测方法,其特征在于, 在步骤2中,训练候选预测模型具体包括以下步骤: 步骤2.1,初始化源组织和目标组织的权重向量其中 = M11 ?为第k个源组织样本权重向量,灰T = i为目标组织的 样本权重向量,为了避免权重不匹配问题,对目标组织样本赋予较高的权重; 步骤2. 2,对于第一个源组织样本集Ds,同目标组织样本集Dt取并集Dsl UjDr,在 A UDr上进行迭代的训练得到第一个源组织的候选预测模型; 步骤2. 3,对所有源组织完成了迭代的训练得到候选预测模型集G。3. 根据权利要求2所述的基于多源实例迀移学习的恐怖行为预测方法,其特征在于, 在步骤2. 2中,迭代的训练包括以下步骤: Sl,对& u 4的样本权重向量,=, FFr |利用公式进 行权重归一化处理,使所有样本的权重之和为1 ; 52, 根据归一化后的权重分布采用SVM分类算法在A1 UDr上训练分类预测模型h : C - A ; 53, 利用公式:计算h在目标组织样本集Dt上的误 差ε ; 54, 设其中&为源组织样本量,利用公式修 正源组织样本权重#Si ; 55, 设α τ= ε /(1- ε ),为了保证α τ> 1,所以ε必须小于〇. 5,利用公式 A 4I修正目标组织样本权重Wt; 56, 记录预测模型已经对应的误差F - (h,ε)完成第一轮迭代,并根据修正后的样本 权重进行第二轮迭代,直至导致最大迭代次数M ; S7,根据公式得到该源组织的候选预测模型,根据公式得到候选预测模型在Dt上的平均误差,记录候选预测模型和平均 误差 G - (hsum,ε avg)。4. 根据权利要求3所述的基于多源实例迀移学习的恐怖行为预测方法,其特征在于, 所述步骤S2中,SVM分类算法为标准SVM分类算法,使用的SVM的核函数为高斯核函数。5. 根据权利要求1所述的基于多源实例迀移学习的恐怖行为预测方法,其特征在于, 所述步骤3中,集成最终预测模型具体包括以下步骤: 步骤3. 1,根据阈值thr对候选预测模型集G中的预测模型中其平均误差超过阈值的模 型进行置零处理h_=0; 步骤3. 2,根据源组织权重因子利用公式进行加权集成,其中土为第k个源组织的权重因子,如果当前时刻为t,则公式中的result⑴为第k个源组织在时刻i对目标组织迀 移预测的结果,成功为1,反之为〇 ;f(x)为时间衰减函数,X越大则f(x)越小;并且默认 result (O) =1〇
【专利摘要】本发明提出一种基于多源实例迁移学习的恐怖行为预测方法,包括步骤:背景数据的预处理,背景数据由背景知识和行为知识构成,标记为向量对。为了在组织间实现迁移,对背景数据进行预处理,将多个行为属性合并为一个行为属性;训练候选预测模型,对多个源组织样本集分别同目标组织样本集取并集,在每个并集上采用SVM进行迭代地训练,在每次迭代训练中都对错分样本进行权重修正,得到候选预测模型集;集成最终预测模型,过滤候选预测模型集中对于目标数据集的误差超过阂值的部分,剩余的模型以加权投票的方式进行集成。本发明的预测方法是针对新产生的恐怖组织的行为预测,解决了新产生的组织由于缺乏样本而导致难以预测的问题,提高了预测的精度。
【IPC分类】G06F19/00
【公开号】CN104899430
【申请号】CN201510246797
【发明人】薛安荣, 陈泉浈
【申请人】江苏大学
【公开日】2015年9月9日
【申请日】2015年5月14日