基于特征分析的用户群确定方法
【技术领域】
[0001] 本发明涉及大数据,特别涉及一种基于特征分析的用户群确定方法。
【背景技术】
[0002] 随着移动互联网的发展,将生活中的社交关系迀移到了互联网上,带来了信息交 换方式的变革,而且改变了传统的人际沟通方式,对社会生活的各个领域具有深远的意义。 用户之间可以广泛地沟通、互动,通过撰写、中转、收藏等手段对文本数据进行操作。在社交 网络中,总存在部分节点连接比较紧密,而这些节点同其他节点之间的联系则相对稀疏,由 此可将这部分连接紧密的节点归为同一个群体。群体作为一种重要的社交关系属性,无形 中给舆情控制以及网络监管带来了巨大的挑战。如果没有对群体关系进行充分识别识别, 则无法识别群体兴趣,推荐感兴趣内容,更无法及时发现危害信息,维护良好的网络环境。
【发明内容】
[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于特征分析的用户群确 定方法,包括:
[0004] 对社交网站服务器上的用户信息和社交内容进行采集,分析用户的特征,基于所 分析的特征来识别特定用户群体。
[0005] 优选地,所述分析用户的特征,基于所分析的来识别特定用户群体,进一步包括:
[0006] 首先对待识别的群体进行描述,并按照群体特性抽象出一组关键词列表,即群体 特征词;其次,对检测到的用户进行识别,发现属于该群体的用户节点;在用户行为过滤过 程中采用字符串正则匹配将用户个人属性与群体特征词进行匹配,如果在用户个人属性或 用户名称文本数据中包含这些特征词,则将该用户划分至待识别的群体;
[0007] 在用户行为过滤中,利用以下过程处理由社交网络中用户产生的文本数据,计算 用户与群体之间的相似度:
[0008] 首先建立一个基于群体特征词的N维向量空间U,具体如下表示:
[0009] U=[Ti,T2,T3,· · ·,TN]
[0010 ]其中T代表在群体中某个特征词出现的频率向量,N表示特征词的下标;
[0011] 其次,利用文本分割对用户A的全部文本PA进行处理:
[0012] Pa= [keyi,key2, · · ·,keyN],
[0013 ]其中key值为用户会话文本中每个特征词出现的频率向量 [0014]比较用户文本数据与群体之间的行为特征是否相近:
[0015] sim(A,U) = (PA.U)/| |(PA| | | |U| |)
[0016] 若相似度sim(A,U)超过预定的阈值,则将该用户节点A划分至群体U内;
[0017]利用数据结构对会话过程进行描述;将参与会话的用户以关系连接在一起,构建 成基于单个事件的群体;最后在社交关系拓扑中采用节点衡量指标识别强关系群体中的节 点,最后以树形的层级结构将该事件存储至文件;其中所述强关系群体具体定义为,如果已 知群体α满足:对于群体α内的每个用户节点i,均满足i与群体α内节点构成的节点数量大于 该节点与群体α外节点构成的节点数量,则群体α被称为强关系群体。
[0018]本发明相比现有技术,具有以下优点:
[0019]本发明提出了一种基于特征分析的用户群确定方法,有效提高互联网社交组群的 识别准确率和时效性。
【附图说明】
[0020] 图1是根据本发明实施例的基于特征分析的用户群确定方法的流程图。
【具体实施方式】
[0021] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利 要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以 便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的 一些或者所有细节也可以根据权利要求书实现本发明。
[0022] 本发明的一方面提供了一种基于特征分析的用户群确定方法。图1是根据本发明 实施例的基于特征分析的用户群确定方法流程图。
[0023] 为了完成对社交网络的群体分析,首先建立数据采集系统对社交网站服务器上的 数据进行采集,其中数据类型包括:用户信息如用户ID、用户名、文本数据如会话ID、会话文 本,以及关系数据如关注列表与关注者列表。该系统包含以下模块:用户信息获取、文本数 据获取、社交关系生成、去冗余、多线程、数据存储、优先级选择、令牌批量获取。数据采集系 统中的主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库操作;数据获取线 程借助API开放接口进行数据采集,采集过程包括接口请求、j son数据解析、指针更新,最终 返回给主控线程总数据列表。在去冗余计算的选择上,本发明采用二进制向量和一系列随 机映射函数。为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加了去冗余函数,种 子列表,抓取用户列表、社交列表均以其唯一标识ID进行,而关系的格式则将两个用户的ID 组合到一起,并区分两者的先后顺序,前者为被关注,后者为前者的关注者。系统在多个模 块添加了相应操作:提取种子ID时,多线程对数据库的操作添加互斥锁;为每个线程分配抓 取任务,如线程1只负责文本的获取;线程2获取用户个人信息;为每个线程令牌资源库进行 区分式排列组合。并为每个线程单独设置一个断点文件,记录抓取的位置。数据库模块将数 据库连接、关闭、查询、增加、删除操作进行统一管理,抓取对象的ID首先由人工方式输入至 文件,每次开始抓取任务之前都加载一遍优先级文件。在分任务处理中在抓取对象上,为每 个线程制定一套特定的抓取任务,从用户信息获取、文本获取、关系获取中选取的一个或多 个处理目标。从速度的控制上系统共提出了两种调节方式,一是控制线程的数量,二是调整 API请求后获取的数据量。
[0024] 用户个人属性可以反映出用户的特性,而这种特性恰好提供了识别群体所需的强 特征。本发明首先通过人工方式对待识别的群体进行描述,并按照这些群体特性抽象出一 组关键词列表,即群体特征词。其次,利用用户信息过滤模块对检测到的用户进行识别,发 现属于该群体的用户节点。在过滤过程中采用字符串正则匹配将用户个人属性与群体特征 词进行匹配,如果在用户个人属性或用户名称等文本数据中包含这些特征词,则将该用户 划分至待识别的群体。
[0025] 用户行为过滤模块处理由社交网络中用户的主观意愿而产生的文本数据,利用以 下过程计算用户与群体之间的相似度。
[0026] 首先建立一个基于群体特征词的N维向量空间U,具体如下表示:
[0027] U=[Ti,T2,T3,· · ·,TN]
[0028] 其中T代表在群体中某个特征词出现的频率向量,N表示特征词的下标。
[0029]其次,利用文本分割对用户A的全部文本Pa进行处理。
[0030] Pa= [keyi,key2,· · ·,keyN]
[0031] sim(A,U) = (PA.U)/| |(Pa| I I |U| I)
[0032] 这里的key值为用户会话文本中每个特征词出现的频率向量,比较用户文本数据 与群体之间的行为特征是否相近,如若相似度sim(A,U)超过预定的阈值,则将该用户节点A 划分至群体U内。当该节点加入群体后,群体特征词会随着群体内用户集合所产生的文本数 据动态变化,识别当前群体内的潜在特征词。
[0033] 在社交关系过滤模块中,本发明应用了社交网络中的关系属性识别未知节点是否 属于群体。如果已知群体α满足以下要求,则群体α被称为强关系群体:对于群体α内的每个 用户节点i,均满足i与群体α内节点构成的节点数量大于该节点与群体α外节点构成的节点 数量。
[0034] 采用以
下方法进行强关系群体识别,首先对会话过程进行还原,以数据结构加以 描述;其次将参与会话的用户以真实的关系连接在一起,构建成基于单个事件的群体;最后 在社交关系拓扑中采用相应的节点衡量指标识别强关系群体中的节点。
[0035] 本发明对于社交网络中信息的会话规律进行了分析,并通过中转关系还原真实的 事件发展过程,最后以树形的层级结构将该事件存储至文件。
[0036] 每个会话拓扑中都会包含一个指向上级节点的备注信息,据此可找到某个特定节 点的父节点。每条会话也都会维护一个中转列表,记录所有中转该信息的用户以及评论,据 此可以发现该信息节点的子节点集。在会话树的基础上,通过用户之间的真实关系,将参与 会话的节点构建成关系网络。获取真实的社交关系。采用API与网页解析相结合共同关注方 法,建立社交关系的拓扑,利用每个节点L完成对参与事件会话用户u的关注,由此可知如果 m关注了叫则节点L与m具有共同关注,8卩叫节点。通过这种方式得至ijm是否关注了群体内 的其他节点。
[0037] 在利用语义、关系、用户数据进行群组识别的过程中,首先提取候选用户的语义信 息,在此基础上将语义信息与会话标题匹配的用户筛选出来作为相同语义用户,再对相同 语义用户进行社交关系分析,对于关系分析排名前面的用户筛选出来作为新的候选用户。 候选用户又分为文本相关用户和关系相关用户。在每一次的迭代过程中关系相关用户通过 语义分析产生文本相关用户,再计算文本相关用户的会话标题关联度阈值,从而得到目标 群体。
[0038]候选用户集合使用符号us表示,利用搜索引擎获取初始候选用户集合,具体步骤 如下:获得群体特征词,在搜索引擎中进行检索,对检索的结果进行抓取,获得发表文本内 容的用户的链接信息,通过分析上述用户的链接信息,对每个用户的社交内容进行抓取,作 为初始化候选用户。
[0039] 第i次迭代过程中产生的候选用户集合用uSl表示,其候选用户用Ulj表示,1!81与1^ 之间的关系可表示为:
[0040] usi= (uii, ???Uij) j<Ni
[0041] K表示第i次迭代过程中产生的候选用户的个数。
[0042] 候选用户根据不同的生成过程和特定属性通常分为文本相关用户、关系相关用户 和群体节点。
[0043] 对相关候选用户进行语义分析是模型迭代的第一步。候选用户是上一次迭代的关 系相关用户。对用户的会话文本进行分析,通过计算用户会话标题关联度来比较每个用户 与特定会话标题之间的相关程度。若存在第i次模型迭代后的关系用户集合,为了得到第i+ 1次的文本相关用户集合,对关系用户集合中的每一个元素即每一个文本相关用户,给定语 义关键词,计算每个文本相关用户的会话标题关联度。用户i的会话标题关联度等于该用户 出现关键词的次数除以用户的文本总数,一个用户i的会话标题关联度值越高,说明用户i 与该会话标题之间的关联度越高。通过计算用户会话标题关联度,分辨出哪些用户与该会 话标题关联紧密。
[0044] 在得到了文本相关用户集合之后,确定哪些文本相关用户是有效的,得到群体节 点。通过计算文本相关用户的不重复的会话标题关联度值的个数,进而得到群体节点的 ΤορΝ阈值。
[0045] 若计算第i次迭代后的文本相关用户有Μ个,其中非重复的用户有MU个。则,群体节 点的前Ν个用户表达为:
[0046] 对Μ个文本相关用户按照会话标题关联度值降序排列,排序后的前Ν个用户是有效 的,即这前Ν个用户是群体中的一员。得到Ν个用户之后就可以将他们作为群体节点加入群 体节点集合。
[0047] 当得到群体节点之后,通过增加样本,扩大搜索范围。通过社交关系分析从群体节 点的关系网中识别深层的候选用户。社交关系分析包括步骤:
[0048]得到群体节点中关注者和被关注者集合构成的有向网络图。计算网络中每个用户 的共同关注度,即用户i的关注者集合中每两个关注者形成互相关注的次数。共同关注度大 于预定义阈值的用户,即为所需要的关系用户。
[0049] 在得到关系用户之后,即可对模型继续迭代,通过数据抓取程序继续抓取关系用 户的社交行为,从而对其进行语义分析。
[0050] 综上所述,本发明提出了一种基于特征分析的用户群确定方法,有效提高互联网 社交组群的识别准确率和时效性。
[0051] 显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用 的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成 的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储 在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
[0052] 应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的 原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨 在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修 改例。
【主权项】
1. 一种基于特征分析的用户群确定方法,其特征在于,包括: 对社交网站服务器上的用户信息和社交内容进行采集,分析用户的特征,基于所分析 的特征来识别特定用户群体。2. 根据权利要求1所述的方法,其特征在于,所述分析用户的特征,基于所分析的来识 别特定用户群体,进一步包括: 首先对待识别的群体进行描述,并按照群体特性抽象出一组关键词列表,即群体特征 词;其次,对检测到的用户进行识别,发现属于该群体的用户节点;在用户行为过滤过程中 采用字符串正则匹配将用户个人属性与群体特征词进行匹配,如果在用户个人属性或用户 名称文本数据中包含这些特征词,则将该用户划分至待识别的群体; 在用户行为过滤中,利用以下过程处理由社交网络中用户产生的文本数据,计算用户 与群体之间的相似度: 首先建立一个基于群体特征词的N维向量空间U,具体如下表示: U= [Tl,T2,T3, · · ·,Tn] 其中T代表在群体中某个特征词出现的频率向量,N表示特征词的下标; 其次,利用文本分割对用户A的全部文本Pa进行处理: Pa=[keyi,key2, · · ·,keyN], 其中key值为用户会话文本中每个特征词出现的频率向量 比较用户文本数据与群体之间的行为特征是否相近: sim(A,U) = (PA·u)/| |(Pa| 11 |U|I) 若相似度sim(A,U)超过预定的阈值,则将该用户节点A划分至群体U内; 利用数据结构对会话过程进行描述;将参与会话的用户以关系连接在一起,构建成基 于单个事件的群体;最后在社交关系拓扑中采用节点衡量指标识别强关系群体中的节点, 最后以树形的层级结构将该事件存储至文件;其中所述强关系群体具体定义为,如果已知 群体α满足:对于群体α内的每个用户节点i,均满足i与群体α内节点构成的节点数量大于该 节点与群体α外节点构成的节点数量,则群体α被称为强关系群体。
【专利摘要】本发明提供了一种基于特征分析的用户群确定方法,该方法包括:对社交网站服务器上的用户信息和社交内容进行采集,分析用户的特征,基于所分析的特征来识别特定用户群体。本发明提出了一种基于特征分析的用户群确定方法,有效提高互联网社交组群的识别准确率和时效性。
【IPC分类】G06F17/30, G06Q50/00
【公开号】CN105488211
【申请号】CN201510924814
【发明人】董政, 吴文杰, 陈露, 李学生
【申请人】成都陌云科技有限公司
【公开日】2016年4月13日
【申请日】2015年12月11日