一种数据处理方法及相关装置与流程

xiaoxiao2月前  16


本技术涉及人工智能,尤其涉及一种数据处理方法及相关装置。


背景技术:

1、用户通过脚本代码或外挂程序对应用进行操控以获得应用中的资产、虚拟装备或者提高应用对象等级,这种作弊行为的对象也称黑产对象,黑产对象会导致在程序中对其他用户造成不公平的情况。

2、目前,一般识别黑产对象的方法主要是基于设定规则对黑产对象进行识别,例如将每天的程序在线时长及每周在线天数作为黑产对象的识别条件,当对象累计一周在线时长超过150小时,且每天在线时长超过20小时时,则判定该对象为黑产对象。但是基于设定规则对黑产对象进行识别方法每次只能针对黑产个体进行识别,对于由大量黑产对象组成的黑产团伙进行识别时,识别效率较低。而目前的基于人工智能的黑产团体识别方法无法准确的对由大量黑产对象组成的黑产团伙进行识别,存在识别准确率较低的问题。


技术实现思路

1、本技术实施例提供了一种数据处理方法以及相关装置,通过目标对象组识别模型中的属性特征融合网络对属性数据组进行处理,以及通过目标对象组识别模型中的图注意力融合网络对绑定信息进行处理,通过聚类网络对得到的目标对象全局信息向量进行聚类,根据聚类簇的密集度判断目标对象组,以及通过训练对象的原始绑定信息、正例绑定信息及负例绑定信息训练目标对象组识别模型,解决了对目标对象组进行识别效率较低及识别准确率较低的问题。

2、本技术的一方面提供一种数据处理方法,包括:

3、获取n个目标对象的n个属性数据组及n个绑定信息,其中,n个属性数据组中的每个属性数据组包括属性统计数据和行为序列数据,属性统计数据用于表征对目标对象在预设时间内进行相关属性统计后得到的数据,行为序列数据用于表征根据目标对象在预设时间的目标行为产生的数据,n≥1;

4、将n个属性数据组作为目标对象组识别模型中属性特征融合网络的输入,通过属性特征融合网络输出n个目标对象特征向量,其中,目标对象组识别模型根据训练对象的原始绑定信息、正例绑定信息及负例绑定信息训练得到,原始绑定信息用于表征训练对象与训练对象对应的m个邻接对象的绑定关系,正例绑定信息用于表征训练对象与从m个邻接对象中确定的l个邻接对象的绑定关系,负例绑定信息用于表征训练对象与非邻接对象构造得到的绑定关系,m≥l≥1;

5、将n个目标对象特征向量及n个绑定信息作为目标对象组识别模型中图注意力融合网络的输入,通过图注意力融合网络输出n个目标对象全局信息向量;

6、根据聚类网络对n个目标对象全局信息向量进行聚类,生成k个聚类簇,其中,k≥1;

7、计算k个聚类簇的密集度,根据k个聚类簇的密集度确定目标对象组,其中,目标对象组中包括至少一个目标对象。

8、本技术的另一方面提供了一种数据处理装置,数据处理装置包括:目标对象数据获取模块、目标对象特征向量生成模块、目标对象全局信息向量生成模块、聚类模块及目标对象组确定模块;具体的:

9、目标对象数据获取模块,用于获取n个目标对象的n个属性数据组及n个绑定信息,其中,n个属性数据组中的每个属性数据组包括属性统计数据和行为序列数据,属性统计数据用于表征对目标对象在预设时间内进行相关属性统计后得到的数据,行为序列数据用于表征根据目标对象在预设时间的目标行为产生的数据,n≥1;

10、目标对象特征向量生成模块,用于将n个属性数据组作为目标对象组识别模型中属性特征融合网络的输入,通过属性特征融合网络输出n个目标对象特征向量,其中,目标对象组识别模型根据训练对象的原始绑定信息、正例绑定信息及负例绑定信息训练得到,原始绑定信息用于表征训练对象与训练对象对应的m个邻接对象的绑定关系,正例绑定信息用于表征训练对象与从m个邻接对象中确定的l个邻接对象的绑定关系,负例绑定信息用于表征训练对象与非邻接对象构造得到的绑定关系,m≥l≥1;

11、目标对象全局信息向量生成模块,用于将n个目标对象特征向量及n个绑定信息作为目标对象组识别模型中图注意力融合网络的输入,通过图注意力融合网络输出n个目标对象全局信息向量;

12、聚类模块,用于根据聚类网络对n个目标对象全局信息向量进行聚类,生成k个聚类簇,其中,k≥1;

13、目标对象组确定模块,用于计算k个聚类簇的密集度,根据k个聚类簇的密集度确定目标对象组,其中,目标对象组中包括至少一个目标对象。

14、在本技术实施例的另一种实现方式中,数据处理装置还包括:训练对象数据获取模块、正例绑定信息生成模块、负例绑定信息构造模块、训练对象特征向量生成模块、训练对象全局信息向量生成模块、主损失结果计算模块及网络参数优化模块;具体的:

15、训练对象数据获取模块,用于获取训练对象的属性数据组及原始绑定信息、训练对象的m个邻接对象以及训练对象的非邻接对象,其中,属性数据组包括属性统计数据和行为序列数据,属性统计数据用于表征对训练对象在预设时间内进行相关属性统计后得到的数据,行为序列数据用于表征根据训练对象在预设时间的目标行为产生的数据,原始绑定信息用于表征训练对象与邻接对象的绑定关系;

16、正例绑定信息生成模块,用于从m个邻接对象中确定l个邻接对象,根据l个邻接对象与训练对象的原始绑定信息,生成训练对象的正例绑定信息;

17、负例绑定信息构造模块,用于构造训练对象与非邻接对象的绑定关系,生成训练对象的负例绑定信息;

18、训练对象特征向量生成模块,用于将属性数据组作为属性特征融合网络的输入,通过属性特征融合网络输出训练对象特征向量;

19、训练对象全局信息向量生成模块,用于将训练对象特征向量、原始绑定信息、正例绑定信息及负例绑定信息作为图注意力融合网络的输入,通过图注意力融合网络输出训练对象正例全局信息向量、训练对象原始全局信息向量及训练对象负例全局信息向量;

20、主损失结果计算模块,用于根据训练对象正例全局信息向量、训练对象原始全局信息向量及训练对象负例全局信息向量生成主损失结果;

21、网络参数优化模块,用于通过主损失结果对属性特征融合网络及图注意力融合网络的参数进行优化。

22、在本技术实施例的另一种实现方式中,训练对象全局信息向量生成模块包括:训练对象原始全局信息向量生成子模块、训练对象正例全局信息向量生成子模块及训练对象负例全局信息向量生成子模块;具体的:

23、训练对象原始全局信息向量生成子模块,用于将训练对象特征向量及原始绑定信息作为图注意力融合网络的输入,通过图注意力融合网络输出训练对象原始全局信息向量;

24、训练对象正例全局信息向量生成子模块,用于将训练对象特征向量及正例绑定信息作为图注意力融合网络的输入,通过图注意力融合网络输出训练对象正例全局信息向量;

25、训练对象负例全局信息向量生成子模块,用于将训练对象特征向量及负例绑定信息作为图注意力融合网络的输入,通过图注意力融合网络输出训练对象负例全局信息向量。

26、在本技术实施例的另一种实现方式中,原始绑定信息包括原始对象绑定信息及原始设备绑定信息,原始对象绑定信息包括用户关联原始对象,用户关联原始对象与训练对象对应于同一用户信息;原始设备绑定信息包括设备关联原始对象,设备关联原始对象与训练对象对应于同一设备信息;

27、图注意力融合网络包括对象绑定关系图注意力层、设备绑定关系图注意力层、绑定信息融合层及多源特征融合层;

28、训练对象原始全局信息向量生成子模块,还用于:

29、将原始对象绑定信息及训练对象特征向量作为对象绑定关系图注意力层的输入,通过对象绑定关系图注意力层输出原始对象绑定向量;

30、将原始设备绑定信息及训练对象特征向量作为设备绑定关系图注意力层的输入,通过设备绑定关系图注意力层输出原始设备绑定向量;

31、将原始对象绑定向量及原始设备绑定向量作为绑定信息融合层的输入,通过绑定信息融合层输出融合原始绑定关系的二级原始设备绑定全局特征向量及融合原始设备关系的二级原始对象绑定全局特征向量,其中,融合原始绑定关系的二级原始设备绑定全局特征向量根据原始设备绑定向量及设备绑定邻接矩阵得到,融合原始设备关系的二级原始对象绑定全局特征向量根据原始对象绑定向量及对象绑定邻接矩阵得到;

32、将融合原始绑定关系的二级原始设备绑定全局特征向量及融合原始设备关系的二级原始对象绑定全局特征向量作为多源特征融合层的输入,通过多源特征融合层输出训练对象原始全局信息向量。

33、在本技术实施例的另一种实现方式中,正例绑定信息包括正例对象绑定信息及正例设备绑定信息,正例对象绑定信息包括用户关联正例对象,用户关联正例对象与训练对象对应于同一用户信息;正例设备绑定信息包括设备关联正例对象,设备关联正例对象与训练对象对应于同一设备信息;

34、图注意力融合网络包括对象绑定关系图注意力层、设备绑定关系图注意力层、绑定信息融合层及多源特征融合层;

35、训练对象正例全局信息向量生成子模块,还用于:

36、将正例对象绑定信息及训练对象特征向量作为对象绑定关系图注意力层的输入,通过对象绑定关系图注意力层输出正例对象绑定向量;

37、将正例设备绑定信息及训练对象特征向量作为设备绑定关系图注意力层的输入,通过设备绑定关系图注意力层输出正例设备绑定向量;

38、将正例对象绑定向量及正例设备绑定向量作为绑定信息融合层的输入,通过绑定信息融合层输出融合正例绑定关系的二级正例设备绑定全局特征向量及融合正例设备关系的二级正例对象绑定全局特征向量,其中,融合正例绑定关系的二级正例设备绑定全局特征向量根据正例设备绑定向量及设备绑定邻接矩阵得到,融合正例设备关系的二级正例对象绑定全局特征向量根据正例对象绑定向量及对象绑定邻接矩阵得到;

39、将融合正例绑定关系的二级正例设备绑定全局特征向量及融合正例设备关系的二级正例对象绑定全局特征向量作为多源特征融合层的输入,通过多源特征融合层输出训练对象正例全局信息向量。

40、在本技术实施例的另一种实现方式中,负例绑定信息包括负例对象绑定信息及负例设备绑定信息,负例对象绑定信息包括用户关联负例对象,用户关联负例对象与训练对象对应于同一用户信息;负例设备绑定信息包括设备关联负例对象,设备关联负例对象与训练对象对应于同一设备信息;

41、图注意力融合网络包括对象绑定关系图注意力层、设备绑定关系图注意力层、绑定信息融合层及多源特征融合层;

42、训练对象负例全局信息向量生成子模块,还用于:

43、将负例对象绑定信息及训练对象特征向量作为对象绑定关系图注意力层的输入,通过对象绑定关系图注意力层输出负例对象绑定向量;

44、将负例设备绑定信息及训练对象特征向量作为设备绑定关系图注意力层的输入,通过设备绑定关系图注意力层输出负例设备绑定向量;

45、将负例对象绑定向量及负例设备绑定向量作为绑定信息融合层的输入,通过绑定信息融合层输出融合负例绑定关系的二级负例设备绑定全局特征向量及融合负例设备关系的二级负例对象绑定全局特征向量,其中,融合负例绑定关系的二级负例设备绑定全局特征向量根据负例设备绑定向量及设备绑定邻接矩阵得到,融合负例设备关系的二级负例对象绑定全局特征向量根据负例对象绑定向量及对象绑定邻接矩阵得到;

46、将融合负例绑定关系的二级负例设备绑定全局特征向量及融合负例设备关系的二级负例对象绑定全局特征向量作为多源特征融合层的输入,通过多源特征融合层输出训练对象负例全局信息向量。

47、在本技术实施例的另一种实现方式中,主损失结果计算模块,还用于:

48、根据训练对象正例全局信息向量与训练对象原始全局信息向量的相似度,建立正样本损失函数;

49、根据训练对象负例全局信息向量与训练对象原始全局信息向量的相似度,建立负样本损失函数;

50、根据正样本损失函数及负样本损失函数,生成主损失结果。

51、在本技术实施例的另一种实现方式中,n个属性数据组包括n个属性统计数据及n个行为序列数据,属性特征融合网络包括统计特征融合网络、序列特征提取网络及门限网络;

52、目标对象特征向量生成模块,还用于:

53、将n个属性统计数据作为统计特征融合网络的输入,通过统计特征融合网络输出n个属性特征向量;

54、将n个行为序列数据作为序列特征提取网络的输入,通过属性特征融合网络输出n个序列特征向量;

55、将n个属性特征向量及n个序列特征向量作为门限网络的输入,通过门限网络的输入输出n个目标对象特征向量。

56、在本技术实施例的另一种实现方式中,统计特征融合网络包括特征映射层及特征交叉层;

57、目标对象特征向量生成模块,还用于:

58、根据n个属性统计数据的数据特征及n个属性统计数据,生成n个属性特征子向量;

59、将n个属性特征子向量作为特征映射层的输入,通过特征映射层输出n个属性特征一阶子向量,其中,特征映射层用于将n个属性特征子向量中每个属性特征子向量中的对应元素相加;

60、将n个属性特征子向量作为特征交叉层的输入,通过特征交叉层输出n个属性特征二阶子向量,其中,特征交叉层用于将n个属性特征子向量中每个属性特征子向量中的对应元素相乘,将对应元素相乘的结果进行相加;

61、将n个属性特征一阶子向量与n个属性特征二阶子向量进行向量拼接,得到n个属性特征向量。

62、在本技术实施例的另一种实现方式中,序列特征提取网络包括卷积层及特征过滤层;

63、目标对象特征向量生成模块,还用于:

64、将n个行为序列数据作为卷积层的输入,通过卷积层输出n×p个行为序列片段,其中,行为序列片段由至少一个行为序列数据中的元素组成,p为大于1的整数;

65、通过合并函数,将n×p个行为序列片段进行合并,得到n个行为卷积序列;

66、将n个行为卷积序列作为特征过滤层的输入,通过特征过滤层输出n个序列特征向量。

67、在本技术实施例的另一种实现方式中,门限网络包括特征融合层及全连接层;

68、目标对象特征向量生成模块,还用于:

69、将n个属性特征向量中的每个属性特征向量与n个序列特征向量中的每个序列特征向量进行拼接,得到n个拼接向量;

70、将n个拼接向量作为特征融合层的输入,通过特征融合层输出n个拼接特征向量;

71、将n个拼接特征向量作为全连接层的输入,通过全连接层输出n个目标对象特征向量。

72、在本技术实施例的另一种实现方式中,n个绑定信息包括n个目标对象绑定信息及n个设备绑定信息,目标对象绑定信息包括用户关联目标对象,用户关联目标对象与目标对象对应于同一用户信息;设备绑定信息包括设备关联目标对象,设备关联目标对象与目标对象对应于同一设备信息;

73、图注意力融合网络包括目标对象绑定关系图注意力层、设备绑定关系图注意力层、绑定信息融合层及多源特征融合层;

74、目标对象全局信息向量生成模块,还用于:

75、将n个目标对象绑定信息及n个目标对象特征向量作为目标对象绑定关系图注意力层的输入,通过目标对象绑定关系图注意力层输出n个目标对象绑定向量;

76、将n个设备绑定信息及n个目标对象特征向量作为设备绑定关系图注意力层的输入,通过设备绑定关系图注意力层输出n个设备绑定向量;

77、将n个目标对象绑定向量及n个设备绑定向量作为绑定信息融合层的输入,通过绑定信息融合层输出n个融合绑定关系的二级设备绑定全局特征向量及n个融合设备关系的二级目标对象绑定全局特征向量,其中,融合绑定关系的二级设备绑定全局特征向量根据融合目标对象绑定向量的设备绑定向量及设备绑定邻接矩阵得到,融合设备关系的二级目标对象绑定全局特征向量根据融合设备绑定向量的目标对象绑定向量及目标对象绑定邻接矩阵得到;

78、将n个融合绑定关系的二级设备绑定全局特征向量及n个融合设备关系的二级目标对象绑定全局特征向量作为多源特征融合层的输入,通过多源特征融合层输出n个目标对象全局信息向量。

79、在本技术实施例的另一种实现方式中,聚类模块,还用于:

80、获取k个聚类簇中每个聚类簇中的目标对象全局信息向量;

81、计算每个聚类簇中的目标对象全局信息向量的平均值,得到聚类簇中心;

82、计算k个聚类簇中每个聚类簇中的目标对象全局信息向量与聚类簇中心的距离的平均值,得到k个聚类簇的密集度。

83、在本技术实施例的另一种实现方式中,目标对象组确定模块,还用于:

84、根据k个聚类簇的密集度,对k个聚类簇进行排序,得到聚类簇队列;

85、将位于聚类簇队列中的前x个聚类簇确定为目标对象组,其中,k≤x≤1。

86、在本技术实施例的另一种实现方式中,目标对象组确定模块,还用于:

87、获取k个聚类簇中每个聚类簇中的目标对象全局信息向量的数量;

88、若聚类簇中的目标对象全局信息向量的数量大于数量阈值且密集度大于密集度阈值,则聚类簇为目标对象组。

89、本技术的另一方面提供了一种计算机设备,包括:

90、存储器、收发器、处理器以及总线系统;

91、其中,存储器用于存储程序;

92、处理器用于执行存储器中的程序,包括执行上述各方面的方法;

93、总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。

94、本技术的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。

95、本技术的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。

96、从以上技术方案可以看出,本技术实施例具有以下优点:

97、本技术提供了一种数据处理方法以及相关装置,其方法包括:首先,获取n个目标对象的n个属性数据组及n个绑定信息,其中,n个属性数据组中的每个属性数据组包括属性统计数据和行为序列数据,属性统计数据用于表征对目标对象在预设时间内进行相关属性统计后得到的数据,行为序列数据用于表征根据目标对象在预设时间的目标行为产生的数据;其次,将n个属性数据组作为目标对象组识别模型中属性特征融合网络的输入,通过属性特征融合网络输出n个目标对象特征向量,其中,目标对象组识别模型根据训练对象的原始绑定信息、正例绑定信息及负例绑定信息训练得到,原始绑定信息用于表征训练对象与训练对象对应的m个邻接对象的绑定关系,正例绑定信息用于表征训练对象与从m个邻接对象中确定的l个邻接对象的绑定关系,负例绑定信息用于表征训练对象与非邻接对象构造得到的绑定关系;接着,将n个目标对象特征向量及n个绑定信息作为目标对象组识别模型中图注意力融合网络的输入,通过图注意力融合网络输出n个目标对象全局信息向量;然后,根据聚类网络对n个目标对象全局信息向量进行聚类,生成k个聚类簇;最后,计算k个聚类簇的密集度,根据k个聚类簇的密集度确定目标对象组,其中,目标对象组中包括至少一个目标对象。本技术实施例提供的数据处理方法,通过目标对象组识别模型中的属性特征融合网络对属性数据组进行处理,以及通过目标对象组识别模型中的图注意力融合网络对绑定信息进行处理得到的目标对象全局信息向量,通过聚类网络对目标对象全局信息向量进行聚类,根据聚类簇的密集度判断目标对象组,以及通过训练对象的原始绑定信息、正例绑定信息及负例绑定信息训练目标对象组识别模型,使得目标对象组识别模型能够更好地学习原始绑定信息与正例绑定信息的相似性及原始绑定信息与负例绑定信息的不相似性,提高了目标对象组识别模型的对目标对象组识别的准确性。


技术特征:

1.一种数据处理方法,其特征在于,包括:

2.如权利要求1所述的数据处理方法,其特征在于,所述方法还包括:

3.如权利要求2所述的数据处理方法,其特征在于,所述将所述训练对象特征向量、所述原始绑定信息、所述正例绑定信息及所述负例绑定信息作为图注意力融合网络的输入,通过所述图注意力融合网络输出训练对象正例全局信息向量、训练对象原始全局信息向量及训练对象负例全局信息向量,包括:

4.如权利要求3所述的数据处理方法,其特征在于,原始绑定信息包括原始对象绑定信息及原始设备绑定信息,所述原始对象绑定信息包括用户关联原始对象,所述用户关联原始对象与所述训练对象对应于同一用户信息;所述原始设备绑定信息包括设备关联原始对象,所述设备关联原始对象与所述训练对象对应于同一设备信息;

5.如权利要求3所述的数据处理方法,其特征在于,正例绑定信息包括正例对象绑定信息及正例设备绑定信息,所述正例对象绑定信息包括用户关联正例对象,所述用户关联正例对象与所述训练对象对应于同一用户信息;所述正例设备绑定信息包括设备关联正例对象,所述设备关联正例对象与所述训练对象对应于同一设备信息;

6.如权利要求3所述的数据处理方法,其特征在于,负例绑定信息包括负例对象绑定信息及负例设备绑定信息,所述负例对象绑定信息包括用户关联负例对象,所述用户关联负例对象与所述训练对象对应于同一用户信息;所述负例设备绑定信息包括设备关联负例对象,所述设备关联负例对象与所述训练对象对应于同一设备信息;

7.如权利要求2所述的数据处理方法,其特征在于,所述根据所述训练对象正例全局信息向量、所述训练对象原始全局信息向量及所述训练对象负例全局信息向量生成主损失结果,包括:

8.如权利要求1所述的数据处理方法,其特征在于,所述n个属性数据组包括n个属性统计数据及n个行为序列数据,所述属性特征融合网络包括统计特征融合网络、序列特征提取网络及门限网络;

9.如权利要求8所述的数据处理方法,其特征在于,所述统计特征融合网络包括特征映射层及特征交叉层;

10.如权利要求8所述的数据处理方法,其特征在于,所述序列特征提取网络包括卷积层及特征过滤层;

11.如权利要求8所述的数据处理方法,其特征在于,所述门限网络包括特征融合层及全连接层;

12.如权利要求1所述的数据处理方法,其特征在于,所述n个绑定信息包括n个目标对象绑定信息及n个设备绑定信息,所述目标对象绑定信息包括用户关联目标对象,所述用户关联目标对象与所述目标对象对应于同一用户信息;所述设备绑定信息包括设备关联目标对象,所述设备关联目标对象与所述目标对象对应于同一设备信息;

13.如权利要求1所述的数据处理方法,其特征在于,所述计算所述k个聚类簇的密集度,包括:

14.如权利要求1所述的数据处理方法,其特征在于,所述根据所述k个聚类簇的密集度确定目标对象组,包括:

15.如权利要求1所述的数据处理方法,其特征在于,所述根据所述k个聚类簇的密集度确定目标对象组,包括:

16.一种数据处理装置,其特征在于,包括:

17.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;

18.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至15中任一项所述的数据处理方法。

19.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行如权利要求1至15中任一项所述的数据处理方法。


技术总结
本申请提供了一种数据处理方法以及相关装置。本申请实施例可应用于人工智能领域。其方法包括:通过目标对象组识别模型中的属性特征融合网络对属性数据组进行处理,以及通过目标对象组识别模型中的图注意力融合网络对绑定信息进行处理得到的目标对象全局信息向量,通过聚类网络对目标对象全局信息向量进行聚类,根据聚类簇的密集度判断目标对象组,以及通过训练对象的原始绑定信息、正例绑定信息及负例绑定信息训练目标对象组识别模型,使得目标对象组识别模型能够更好地学习原始绑定信息与正例绑定信息的相似性及原始绑定信息与负例绑定信息的不相似性,提高了目标对象组识别模型的对目标对象组识别的准确性。

技术研发人员:陈观钦
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)