一种社交网络僵尸账号检测方法及装置的制造方法

xiaoxiao2020-10-23  8

一种社交网络僵尸账号检测方法及装置的制造方法
【技术领域】
[0001] 本发明设及互联网社交技术领域,尤其设及一种社交网络僵尸账号检测方法及装 置。
【背景技术】
[0002] 社交网络W其内容简洁、交互便捷和快速传播等特点,迅速发展成为人们表达观 点、抒发情绪、传递信息的重要社会媒体。W新浪微博、Twitter、化cebook为代表的社交网 络在大量社会事件的发酵和爆发过程中都起到了重要的推动作用,所W社交网络是当前舆 情分析必不可少的数据来源之一。社交网络作为舆情传播平台的同时也是网络营销的重要 手段,其中蕴藏着巨大的经济价值,于是僵尸账号应运而生,僵尸账号是指申请了帐号但是 基本不登录的帐号或者利用使用构造虚假内容的方式达到传播某一特定内容的目的。前 者通过低廉的注册成本自动注册大量账号,用户可W通过购买的方式短期内增加大量粉丝 量,一定程度上扩大自己的影响力。后者通过僵尸账号发布大量内容重复或含有特定营销 目标的链接W达到提高曝光率的目的,增加被点击概率。随着社交网络平台对僵尸账号检 测力度的加大,僵尸账号运营方也使用了多种逃避检测的方法,W提高僵尸账号的存活时 间。例如通过增加发帖数和登录次数逃避基于活跃度的检测,通过渗杂无关文本内容降低 营销关键词频率逃避基于重复率的检测等。如何高效、准确地检测出僵尸账号对提高社交 网络数据分析具有重要意义。
[0003] 现有方法多基于关注图模型或交互图模型,根据交互性特征对僵尸账号进行检 巧。,其检出率、检出效率和准确率较低。

【发明内容】

[0004] 本发明要解决的技术问题是,提供一种社交网络僵尸账号检测方法及装置,提高 检测僵尸账户的检出率和准确率。
[0005] 本发明采用的技术方案是,所述社交网络僵尸账号检测方法,包括:
[0006] 从僵尸账号样本集和正常账号样本集中分别提取出层次化特征,基于提取出的所 述层次化特征分层次的建立各层分类器;
[0007] 基于各层分类器对待预测账号进行检测,判断所述待预测账号是否属于僵尸账 号。
[0008] 进一步的,所述层次化特征,包括W下四个层次的特征:
[0009] 第一层的特征:账号资料特征;
[0010] 其余层的特征分别是;微博内容特征、发帖时间特征、发帖行为一致性特征。
[0011] 进一步的,所述账号资料特征,包括:
[0012] 用户昵称中字符与数字的长度之和占用用户昵称总长度的比例;
[0013] 是否填写了家庭住址;
[0014] 账号发帖数;
[0015] 账号粉丝数;
[0016] 账号关注数;
[0017] 账号关注数与粉丝数的比例;
[0018] 所述微博内容特征,包括;
[0019] 账号所发微博中含有册LOJniformResoureLocator,统一资源定位器)的微博的 比例;
[0020] 账号所发微博中所含U化去重后的数量与账号所发微博中所有U化数量的比值;
[0021] 账号所发微博中所含内容关键词去重后的数量与账号所发微博中所有关键词数 量的比值;
[0022] 所述发帖时间特征,包括:
[0023] 最后一次发帖与第一次发帖的时间跨度;
[0024] 发帖时间分布情况;
[00巧]所述发帖一致性特征,包括:
[0026] 基于发帖时间间隔,构建发帖时间间隔序列,按照如下公式计算发帖时间间隔序 列的波动性S;
[0027]
[002引其中,X康示第i个帖子和第i-1个帖子之间的发帖时间间隔,i为变量,W秒为 单位,n-1是所有帖子数减一,X表示发帖时间间隔平均值。
[0029] 进一步的,所述基于提取出的所述层次化特征分层次的建立各层分类器,包括:
[0030] 步骤A1,在账号资料特征的基础上利用分类模型算法建立第一层分类器;
[0031] 步骤A2,在微博内容特征、发帖时间特征、发帖行为一致性特征中任选其一、W及 账号资料特征的基础上利用分类模型算法建立第二层分类器;
[0032] 步骤A3,在剩余的两项层次化特征之一、W及步骤A1~A2中已经使用的层次化特 征的基础上利用分类模型算法建立第=层分类器;
[0033] 步骤A4,在最后一项层次化特征、W及步骤A1~A3中已经使用的层次化特征的基 础上利用分类模型算法建立第四层分类器。
[0034] 进一步的,所述分类模型算法,包括;C4. 5决策树算法、SVM(SuppcxrtVector Machine,支持向量机)算法或者贝叶斯分类算法。
[0035] 进一步的,在第一层~第四层分类器分别对应于;账号资料特征;账号资料特征 和微博内容特征;账号资料特征、微博内容特征和发帖时间特征;账号资料特征、微博内容 特征、发帖时间特征和发帖行为一致性特征的情况下;所述基于各层分类器对待预测账号 进行检测,判断所述待预测账号是否属于僵尸账号,包括:
[0036] 步骤B1,将待预测账号的账号资料特征输入第一层分类器进行处理,如果分类结 果为僵尸账号,则流程结束,如果分类结果为正常账号,则执行步骤B2 ;
[0037] 步骤B2,将待预测账号的微博内容特征、连同该待预测账号的账号资料特征一起, 输入第二层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分类结果为正常 账号,则执行步骤B3;
[0038] 步骤B3,将待预测账号的发帖时间特征、连同该待预测账号的账号资料特征和微 博内容特征一起,输入第S层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如 果分类结果为正常账号,则执行步骤B4 ;
[0039] 步骤B4,将待预测账号的发帖行为一致性特征、连同该待预测账号的账号资料特 征、微博内容特征和发帖时间特征一起,输入第四层分类器进行处理,如果分类结果为僵尸 账号,则流程结束,如果分类结果为正常账号,则判定为正常账号,流程结束。
[0040] 本发明还提供一种社交网络僵尸账号检测装置,包括:
[0041] 训练模块,用于从僵尸账号样本集和正常账号样本集中分别提取出层次化特征, 基于提取出的所述层次化特征分层次的建立各层分类器;
[0042] 检测模块,用于基于各层分类器对待预测账号进行检测,判断所述待预测账号是 否属于僵尸账号。
[0043] 进一步的,所述层次化特征,包括W下四个层次的特征:
[0044] 第一层的特征:账号资料特征;
[0045] 其余层的特征分别是;微博内容特征、发帖时间特征、发帖行为一致性特征。
[0046] 进一步的,所述训练模块,具体用于执行W下流程:
[0047] 步骤A1,在账号资料特征的基础上利用分类模型算法建立第一层分类器;
[0048] 步骤A2,在微博内容特征、发帖时间特征、发帖行为一致性特征中任选其一、W及 账号资料特征的基础上利用分类模型算法建立第二层分类器;
[0049] 步骤A3,在剩余的两项层次化特征之一、W及步骤A1~A2中已经使用的层次化 特 征的基础上利用分类模型算法建立第=层分类器;
[0050] 步骤A4,在最后一项层次化特征、W及步骤A1~A3中已经使用的层次化特征的基 础上利用分类模型算法建立第四层分类器。
[0051] 进一步的,在第一层~第四层分类器分别对应于;账号资料特征;账号资料特征 和微博内容特征;账号资料特征、微博内容特征和发帖时间特征;账号资料特征、微博内容 特征、发帖时间特征和发帖行为一致性特征的情况下:
[0052] 所述检测模块,具体用于执行W下流程:
[0053] 步骤B1,将待预测账号的账号资料特征输入第一层分类器进行处理,如果分类结 果为僵尸账号,则流程结束,如果分类结果为正常账号,则执行步骤B2 ;
[0054] 步骤B2,将待预测账号的微博内容特征、连同该待预测账号的账号资料特征一起, 输入第二层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分类结果为正常 账号,则执行步骤B3;
[0055] 步骤B3,将待预测账号的发帖时间特征、连同该待预测账号的账号资料特征和微 博内容特征一起,输入第S层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如 果分类结果为正常账号,则执行步骤B4 ;
[0056] 步骤B4,将待预测账号的发帖行为一致性特征、连同该待预测账号的账号资料特 征、微博内容特征和发帖时间特征一起,输入第四层分类器进行处理,如果分类结果为僵尸 账号,则流程结束,如果分类结果为正常账号,则判定为正常账号,流程结束。
[0057] 采用上述技术方案,本发明至少具有下列优点:
[0058] 本发明所述社交网络僵尸账号检测方法及装置,采用层次化启发式方法进行僵尸 账号检测,利用账号资料特征、微博内容特征、发帖时间特征、发帖行为一致性特征,按照计 算时间代价逐步判别,一旦判别成功就停止计算,否则就继续下一层次特征的计算,考虑到 大部分僵尸账号的生成和维护依靠自动化程序进行,成本低,可W通过较低代价的判别方 法检测,所W本发明的所述方法可W大幅提高检出效率,另一方面,本方法使用了账号资 料、微博内容和行为特征等多维度特征,能够提高僵尸账号的检出率和准确率。
【附图说明】
[0059] 图1为本发明第一实施例的社交网络僵尸账号检测方法流程图;
[0060] 图2为本发明第二实施例的社交网络僵尸账号检测装置组成结构示意图;
[0061] 图3为本发明第S实施例的训练过程示意图;
[0062] 图4为本发明第S实施例的检测过程示意图。
【具体实施方式】
[0063] 为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,W下结合附图 及较佳实施例,对本发明进行详细说明如后。
[0064] 本发明第一实施例,一种社交网络僵尸账号检测方法,如图1所示,包括W下具体 步骤:
[0065] 步骤S101,从僵尸账号样本集和正常账号样本集中分别提取出层次化特征,基于 提取出的所述层次化特征分层次的建立各层分类器;
[0066] 具体的,所述层次化特征,包括W下四个层次的特征:
[0067] 第一层的特征:账号资料特征;
[0068] 其余层的特征分别是;微博内容特征、发帖时间特征、发帖行为一致性特征。
[0069] 进一步的,所述账号资料特征,包括:
[0070] 用户昵称中字符与数字的长度之和占用用户昵称总长度的比例;
[0071] 是否填写了家庭住址;
[0072] 账号发帖数;
[0073] 账号粉丝数;
[0074] 账号关注数;
[00巧]账号关注数与粉丝数的比例;
[0076] 所述微博内容特征,包括:
[0077] 账号所发微博中含有U化的微博的比例;
[007引账号所发微博中所含U化去重后的数量与账号所发微博中所有m?L数量的比值;
[0079] 账号所发微博中所含内容关键词去重后的数量与账号所发微博中所有关键词数 量的比值;
[0080] 所述发帖时间特征,包括:
[0081] 最后一次发帖与第一次发帖的时间跨度;
[0082] 发帖时间分布情况;
[0083] 所述发帖一致性特征,包括:
[0084] 基于发帖时间间隔,构建发帖时间间隔序列,按照如下公式计算发帖时间间隔序 列的波动性S:
[0085]
[008引其中,X康示第i个帖子和第i-1个帖子之间的发帖时间间隔,i为变量,W秒为 单位,n-1是所有帖子数减一,X表示发帖时间间隔平均值。
[0087] 在步骤S101中,所述基于提取出的所述层次化特征分层次的建立各层分类器,包 括:
[0088] 步骤A1,在账号资料特征的基础上利用分类模型算法建立第一层分类器;
[0089] 步骤A2,在微博内容特征、发帖时间特征、发帖行为一致性特征中任选其一、W及 账号资料特征的基础上利用分类模型算法建立第二层分类器;
[0090] 步骤A3,在剩余的两项层次化特征之一、W及步骤A1~A2中已经使用的层次化特 征的基础上利用分类模型算法建立第=层分类器;
[0091] 步骤A4,在最后一项层次化特征、W及步骤A1~A3中已经使用的层次化特征的基 础上利用分类模型算法建立第四层分类器。
[0092] 进一步的,在本发明实施例中,所述分类模型算法,包括;C4. 5决策树算法、 SVM(SuppcxrtVectorMachine,支持向量机)算法或者贝叶斯分类算法。
[0093] 步骤S102,基于各层分类器对待预测账号进行检测,判断所述待预测账号是否属 于僵尸账号。
[0094] 具体的,本发明实施例中,需要按照第一~第四分类器的顺序参与判断僵尸账号。 在第一层~第四层分类器分别对应于:账号资料特征;账号资料特征和微博内容特征;账 号资料特征、微博内容特征和发帖时间特征;账号资料特征、微博内容特征、发帖时间特征 和发帖行为一致性特征的情况下:
[009引 步骤S102,包括;
[0096] 步骤B1,将待预测账号的账号资料特征输入第一层分类器进行处理,如果分类结 果为僵尸账号,则流程结束,如果分类结果为正常账号,则执行步骤B2 ;
[0097] 步骤B2,将待预测账号的微博内容特征、连同该待预测账号的账号资料特征一起, 输入第二层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分类结果为正常 账号,则执行步骤B3;
[0098] 步骤B3,将待预测账号的发帖时间特征、连同该待预测账号的账号资料特征和微 博内容特征一起,输入第S层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如 果分类结果为正常账号,则执行步骤B4 ;
[0099] 步骤B4,将待预测账号的发帖行为一致性特征、连同该待预测账号的账号资料特 征、微博内容特征和发帖时间特征一起,输入第四层分类器进行处理,如果分类结果为僵尸 账号,则流程结束,如果分类结果为正常账号,则判定为正常账号,流程结束。
[0100] 本发明第二实施例,与第一实施例对应,本 实施例介绍一种社交网络僵尸账号检 测装置,如图2所示,包括W下组成部分:
[0101] 1)训练模块100,用于从僵尸账号样本集和正常账号样本集中分别提取出层次化 特征,基于提取出的所述层次化特征分层次的建立各层分类器;
[0102] 具体的,所述层次化特征,包括W下四个层次的特征:
[0103] 第一层的特征:账号资料特征;
[0104] 其余层的特征分别是;微博内容特征、发帖时间特征、发帖行为一致性特征。
[0105] 进一步的,训练模块100,具体用于执行W下流程:
[0106] 步骤A1,在账号资料特征的基础上利用分类模型算法建立第一层分类器;
[0107] 步骤A2,在微博内容特征、发帖时间特征、发帖行为一致性特征中任选其一、W及 账号资料特征的基础上利用分类模型算法建立第二层分类器;
[010引步骤A3,在剩余的两项层次化特征之一、W及步骤A1~A2中已经使用的层次化特 征的基础上利用分类模型算法建立第=层分类器;
[0109] 步骤A4,在最后一项层次化特征、W及步骤A1~A3中已经使用的层次化特征的基 础上利用分类模型算法建立第四层分类器。
[0110] 2)检测模块200,用于基于各层分类器对待预测账号进行检测,判断所述待预测 账号是否属于僵尸账号。
[0111] 具体的,在第一层~第四层分类器分别对应于;账号资料特征;账号资料特征和 微博内容特征;账号资料特征、微博内容特征和发帖时间特征;账号资料特征、微博内容特 征、发帖时间特征和发帖行为一致性特征的情况下:检测模块200,具体用于执行W下流 程:
[0112] 步骤B1,将待预测账号的账号资料特征输入第一层分类器进行处理,如果分类结 果为僵尸账号,则流程结束,如果分类结果为正常账号,则执行步骤B2 ;
[0113] 步骤B2,将待预测账号的微博内容特征、连同该待预测账号的账号资料特征一起, 输入第二层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分类结果为正常 账号,则执行步骤B3;
[0114] 步骤B3,将待预测账号的发帖时间特征、连同该待预测账号的账号资料特征和微 博内容特征一起,输入第S层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如 果分类结果为正常账号,则执行步骤B4 ;
[0115] 步骤B4,将待预测账号的发帖行为一致性特征、连同该待预测账号的账号资料特 征、微博内容特征和发帖时间特征一起,输入第四层分类器进行处理,如果分类结果为僵尸 账号,则流程结束,如果分类结果为正常账号,则判定为正常账号,流程结束。
[0116] 本发明第=实施例,本实施例是在上述实施例的基础上,W使用C4. 5决策树分类 模型算法建立各层分类器为例,结合附图3~4介绍一个本发明的应用实例。
[0117] 图3是本发明实施例的训练过程示意图。如图1所示,本发明实施例的训练过程 设及如下具体步骤:
[0118] 步骤一、数据收集
[0119] a)选择僵尸账号样本集合及相关特征;
[0120] b)选择正常账号样本集合及相关特征;
[0121] 步骤二、分别计算僵尸账号和正常账号的层次化特征,如下:
[0122]a)账号资料特征,包括:
[0123] 用户昵称:字符和数字的长度之和占用户昵称总长度的比例;
[0124] 是否填写了家庭住址;填写为1,未填写为0 ;
[0125] 账号发帖数;
[0126] 账号粉丝数;
[0127] 账号关注数;
[0128] 账号关注粉丝比:账号关注数与粉丝数的比例;
[0129] b)微博内容特征,包括;
[0130] 微博含U化比例;账号所发微博中含有U化的微博比例;比例越高,说明W推荐为 目的的内容越多,是僵尸账号概率越大。
[0131] U化重复率;账号所发微博中所含U化去重后的数量与所有U化数量的比值;比值 越低,说明经常重复发同一链接地址,是僵尸账号的概率越大;
[0132] 微博内容重复率;账号所发微博所含内容关键词去重后的数量与所有关键词数量 的比值;比值越低,说明内容重复度越高,越有可能是僵尸账号。该里的关键词是指,从微博 账号中抓取内容进行分词,去掉停用词后选取的名称、动词和形容词。
[0133] C)发帖时间特征,包括:
[0134] 发帖时间跨度:最后一次发帖时间与第一次发帖的差值,差值越小,表明活跃期越 短;
[0135] 发帖时间分布;W24小时为周期,计算每小时发帖数量;发帖数量分布越接近 日常作息时间,越有可能是正常用户;该里的日常作息时间,比如是一天中6:00~9:00、 17:00~20:00为微博发帖的高峰时段,而凌晨3:00~4:00则为低峰时段。
[0136] 发帖行为一致性特征:计算发帖时间间隔,构建发帖时间间隔序列,进而计算时间 间隔序列的波动性S,计算方法如下:
[0137]
[013引 Xi表示第i个帖子和第i-1个帖子之间的发帖时间间隔,W秒为单位,i为变量, n-1是所有帖子数减一,X表示发帖时间间隔平均值。
[0139] 步骤S、模型训练
[0140] 从训练集提取僵尸账号和正常账号及其特征值,分层次输入C4. 5决策树分类模 型,对各层分类模型参数进行训练;
[0141] 步骤四、僵尸账号检测
[0142] 如图4所示,对待预测账号的检测流程如下:
[0143] a)计算待预测账号资料特征,输入第一层分类器,如果分类结果为僵尸账号,则停 止,如果结果为正常账号,则进入下一层分类器;
[0144] b)计算待预测账号所发微博内容特征,连同第一层特征一起输入第二层分类器, 如果分类结果为僵尸账号,则停止,如果结果为正常账号,则进入下一层分类器;
[0145] C)计算待预测账号发帖时间特征,连同第一层、第二层特征一起输入第=层分类 器,如果分类结果为僵尸账号,则停止,如果结果为正常账号,则进入下一层分类器;
[0146] d)计算发帖行为一致性特征,连同第一层、第二层、第=层特征一起输入第四层分 类器,如果分类结果为僵尸账号,则停止,如果结果为正常账号,则判定为正常账号。
[0147] 本发明实施例所述社交网络僵尸账号检测方法和装置,针对僵尸账号检出率、检 出效率和准确率较低的问题,采用层次化方法进行僵尸账号检测,利用账号资料特征、微博 内容特征、发帖时间、发帖行为一致性特征,按照计算时间代价逐步判别,一但判别成功就 停止计算,否则就继续下一层次特征的计算,考虑到大部分僵尸账号的生成和维护依靠自 动化程序进行,成本低,可W通过较低代价的判别方法检测,所W该方法可W大幅检出效 率,另一方面,与现有技术相比,本发明提出的技术方案使用账号资料、微博内容和行为特 征等多维度特征,能够提高僵尸账号的检出率和准确率。同时,通过训练多层分类器的方 法,分层次进行僵尸账号检测,提高检出效率的同时降低计算代价。
[014引通过【具体实施方式】的说明,应当可对本发明为达成预定目的所采 取的技术手段及 功效得W更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本 发明加W限制。
【主权项】
1. 一种社交网络僵尸账号检测方法,其特征在于,包括: 从僵尸账号样本集和正常账号样本集中分别提取出层次化特征,基于提取出的所述层 次化特征分层次的建立各层分类器; 基于各层分类器对待预测账号进行检测,判断所述待预测账号是否属于僵尸账号。2. 根据权利要求1所述的社交网络僵尸账号检测方法,其特征在于,所述层次化特征, 包括以下四个层次的特征: 第一层的特征:账号资料特征; 其余三层的特征分别是:微博内容特征、发帖时间特征、发帖行为一致性特征。3. 根据权利要求2所述的社交网络僵尸账号检测方法,其特征在于,所述账号资料特 征,包括: 用户昵称中字符与数字的长度之和占用用户昵称总长度的比例; 是否填写了家庭住址; 账号发帖数; 账号粉丝数; 账号关注数; 账号关注数与粉丝数的比例; 所述微博内容特征,包括: 账号所发微博中含有统一资源定位器URL的微博的比例; 账号所发微博中所含URL去重后的数量与账号所发微博中所有URL数量的比值; 账号所发微博中所含内容关键词去重后的数量与账号所发微博中所有关键词数量的 比值; 所述发帖时间特征,包括: 最后一次发帖与第一次发帖的时间跨度; 发帖时间分布情况; 所述发帖一致性特征,包括: 基于发帖时间间隔,构建发帖时间间隔序列,按照如下公式计算发帖时间间隔序列的 波动性s :其中,Xi表示第i个帖子和第i-Ι个帖子之间的发帖时间间隔,i为变量,以秒为单位, n-1是所有帖子数减一,f表示发帖时间间隔平均值。4. 根据权利要求2所述的社交网络僵尸账号检测方法,其特征在于,所述基于提取出 的所述层次化特征分层次的建立各层分类器,包括: 步骤Al,在账号资料特征的基础上利用分类模型算法建立第一层分类器; 步骤A2,在微博内容特征、发帖时间特征、发帖行为一致性特征中任选其一、以及账号 资料特征的基础上利用分类模型算法建立第二层分类器; 步骤A3,在剩余的两项层次化特征之一、以及步骤Al~A2中已经使用的层次化特征的 基础上利用分类模型算法建立第三层分类器; 步骤A4,在最后一项层次化特征、以及步骤Al~A3中已经使用的层次化特征的基础上 利用分类模型算法建立第四层分类器。5. 根据权利要求4所述的社交网络僵尸账号检测方法,其特征在于,所述分类模型算 法,包括:C4. 5决策树算法、支持向量机SVM算法或者贝叶斯分类算法。6. 根据权利要求4所述的社交网络僵尸账号检测方法,其特征在于,在第一层~第四 层分类器分别对应于:账号资料特征;账号资料特征和微博内容特征;账号资料特征、微博 内容特征和发帖时间特征;账号资料特征、微博内容特征、发帖时间特征和发帖行为一致性 特征的情况下: 所述基于各层分类器对待预测账号进行检测,判断所述待预测账号是否属于僵尸账 号,包括: 步骤B1,将待预测账号的账号资料特征输入第一层分类器进行处理,如果分类结果为 僵尸账号,则流程结束,如果分类结果为正常账号,则执行步骤B2 ; 步骤B2,将待预测账号的微博内容特征、连同该待预测账号的账号资料特征一起,输 入第二层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分类结果为正常账 号,则执行步骤B3; 步骤B3,将待预测账号的发帖时间特征、连同该待预测账号的账号资料特征和微博内 容特征一起,输入第三层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分 类结果为正常账号,则执行步骤B4 ; 步骤M,将待预测账号的发帖行为一致性特征、连同该待预测账号的账号资料特征、微 博内容特征和发帖时间特征一起,输入第四层分类器进行处理,如果分类结果为僵尸账号, 则流程结束,如果分类结果为正常账号,则判定为正常账号,流程结束。7. -种社交网络僵尸账号检测装置,其特征在于,包括: 训练模块,用于从僵尸账号样本集和正常账号样本集中分别提取出层次化特征,基于 提取出的所述层次化特征分层次的建立各层分类器; 检测模块,用于基于各层分类器对待预测账号进行检测,判断所述待预测账号是否属 于僵尸账号。8. 根据权利要求7所述的社交网络僵尸账号检测装置,其特征在于,所述层次化特征, 包括以下四个层次的特征: 第一层的特征:账号资料特征; 其余层的特征分别是:微博内容特征、发帖时间特征、发帖行为一致性特征。9. 根据权利要求8所述的社交网络僵尸账号检测装置,其特征在于,所述训练模块,具 体用于执行以下流程: 步骤Al,在账号资料特征的基础上利用分类模型算法建立第一层分类器; 步骤A2,在微博内容特征、发帖时间特征、发帖行为一致性特征中任选其一、以及账号 资料特征的基础上利用分类模型算法建立第二层分类器; 步骤A3,在剩余的两项层次化特征之一、以及步骤Al~A2中已经使用的层次化特征的 基础上利用分类模型算法建立第三层分类器; 步骤A4,在最后一项层次化特征、以及步骤Al~A3中已经使用的层次化特征的基础上 利用分类模型算法建立第四层分类器。10.根据权利要求9所述的社交网络僵尸账号检测装置,其特征在于,在第一层~第四 层分类器分别对应于:账号资料特征;账号资料特征和微博内容特征;账号资料特征、微博 内容特征和发帖时间特征;账号资料特征、微博内容特征、发帖时间特征和发帖行为一致性 特征的情况下:所述检测模块,具体用于执行以下流程: 步骤B1,将待预测账号的账号资料特征输入第一层分类器进行处理,如果分类结果为 僵尸账号,则流程结束,如果分类结果为正常账号,则执行步骤B2 ; 步骤B2,将待预测账号的微博内容特征、连同该待预测账号的账号资料特征一起,输 入第二层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分类结果为正常账 号,则执行步骤B3; 步骤B3,将待预测账号的发帖时间特征、连同该待预测账号的账号资料特征和微博内 容特征一起,输入第三层分类器进行处理,如果分类结果为僵尸账号,则流程结束,如果分 类结果为正常账号,则执行步骤B4 ; 步骤M,将待预测账号的发帖行为一致性特征、连同该待预测账号的账号资料特征、微 博内容特征和发帖时间特征一起,输入第四层分类器进行处理,如果分类结果为僵尸账号, 则流程结束,如果分类结果为正常账号,则判定为正常账号,流程结束。
【专利摘要】本发明提出了一种社交网络僵尸账号检测方法及装置,采用层次化启发式方法进行僵尸账号检测,利用账号资料特征、微博内容特征、发帖时间特征、发帖行为一致性特征,按照计算时间代价逐步判别,一旦判别成功就停止计算,否则就继续下一层次特征的计算,考虑到大部分僵尸账号的生成和维护依靠自动化程序进行,成本低,可以通过较低代价的判别方法检测,所以本发明的所述方法可以大幅提高检出效率,另一方面,本方法使用了账号资料、微博内容和行为特征等多维度特征,能够提高僵尸账号的检出率和准确率。
【IPC分类】H04L12/26, H04L29/06, G06F17/30
【公开号】CN104901847
【申请号】CN201510278739
【发明人】刘玮, 王丽宏, 张同虎
【申请人】国家计算机网络与信息安全管理中心
【公开日】2015年9月9日
【申请日】2015年5月27日

最新回复(0)