数据处理方法、装置、设备和存储介质与流程

xiaoxiao5天前  5


本公开涉及人工智能和信息安全,具体地涉及一种数据处理方法、装置、设备和存储介质。


背景技术:

1、随着科技的快速发展,金融机构网点的智能化程度得到提升。在传统的金融机构网点中,客户等待时间较长并且办理业务效率较低。在智能化金融机构网点中,随着自助终端以及虚拟助手等引入,可以为客户提供高效且安全的金融服务。此外,为了满足客户需求,智能化金融机构网点还提供个性化建议服务以及实时服务。

2、金融机构网点会存储客户的客户信息、资源值、资源交换历史等隐私数据,即使在征得客户同意之后,利用传统分布式学习对隐私数据进行模型训练也会产生数据安全问题,例如恶意攻击、数据篡改、模型伪造等,由此带来金融欺诈、身份盗窃等风险。


技术实现思路

1、鉴于上述问题,本公开提供了数据处理方法、装置、设备、存储介质和程序产品。

2、根据本公开的第一个方面,提供了一种数据处理方法,包括:基于图像数据集与共享数据比例,确定数据需求量n;基于数据需求量n,从时序概率数据集中随机选取n个第一概率数据;分别将n个第一概率数据输入生成对抗网络的生成器中,得到局部伪图像数据集;将由服务端发送的全局伪图像数据集与图像数据集进行整合,得到增强数据集。

3、根据本公开的实施例,n个第一概率数据均不相同,第一概率数据为正态分布类型数据,n为正整数。全局伪图像数据集是通过服务端对由联邦学习的其他客户端发送的其他局部伪图像数据集和局部伪图像数据集进行标注得到的。生成对抗网络是基于图像数据集对初始生成对抗网络训练得到的,初始生成对抗网络是由联邦学习的服务端发送的。

4、根据本公开的实施例,全局伪图像数据集是通过如下方式获取的:对由联邦学习的其他客户端发送的其他局部伪图像数据集和局部伪图像数据集进行合并,得到数据集;利用目标检测模型对合并数据集中每个模拟图像数据进行检测,得到每个模拟图像数据各自的标签;基于每个模拟图像数据的标签和数据集,确定全局伪图像数据集。

5、根据本公开的实施例,数据处理方法还包括:基于增强数据集,对生成对抗网络进行训练,得到本地目标生成对抗网络;将增强数据集的数量和本地目标生成对抗网络的本地网络参数发送至服务端;基于由服务端发送的网络参数,更新本地生成对抗网络,得到目标生成对抗网络。

6、根据本公开的实施例,网络参数是通过如下方式确定的:根据由其他客户端发送的其他增强数据集的数量和增强数据集的数量,计算多个聚合权重;根据由其他客户端发送的其他本地网络参数、本地网络参数和聚合权重,计算多个聚合参数;对多个聚合参数进行几何运算,得到目标生成对抗网络的网络参数。

7、根据本公开的实施例,初始生成对抗网络包括初始生成器和初始判别器。

8、根据本公开的实施例,对初始生成对抗网络的训练方法包括:在循环次数小于预设循环次数且隐私预算小于预设隐私预算的情况下,重复执行以下操作:将第二概率数据和图像数据输入初始生成器,得到模拟图像数据,其中,第二概率数据是从时序概率数据集中随机选取得到的,图像数据是从图像数据集中随机选取得到的;将图像数据和模拟图像数据输入至初始判别器中,得到判别结果;基于判别结果,对初始判别器的梯度进行裁剪,得到裁剪梯度;基于裁剪梯度和噪声值,更新初始判别器;基于模拟图像数据的判别结果,更新初始生成器;基于循环次数、预设噪声尺度、图像数据、图像数据集,更新隐私预算;更新循环次数;在确定隐私预算大于或等于预设隐私预算的情况下,将初始判别器确定为判别器,以及将初始生成器确定为生成器。

9、根据本公开的实施例,噪声值是基于裁剪梯度和预设噪声尺度确定的。

10、根据本公开的实施例,数据处理方法还包括:在确定循环次数大于预设循环次数的情况下,将初始判别器的参数确定为判别器的参数,以及将初始生成器的参数确定为生成器的参数。

11、根据本公开的实施例,裁剪梯度的数量为多个。

12、根据本公开的实施例,基于裁剪梯度和噪声值,更新初始判别器,包括:计算多个裁剪梯度和噪声值进行几何平均,得到参数调整值;利用参数调整值调整初始判别器的参数,得到更新后的初始判别器。

13、根据本公开的实施例,基于判别结果,对初始判别器的梯度进行裁剪,得到裁剪梯度,包括:根据判别结果,计算初始判别器的梯度;计算初始判别器的梯度与梯度裁剪阈值的比值,得到初始裁剪阈值;基于初始裁剪阈值和预设裁剪阈值,得到裁剪阈值;利用裁剪阈值对初始判别器的梯度进行几何运算,得到裁剪梯度。

14、本公开的第二方面提供了一种数据处理装置,包括:

15、确定模块,用于基于图像数据集与共享数据比例,确定数据需求量n。

16、选取模块,用于基于数据需求量n,从时序概率数据集中随机选取n个第一概率数据。

17、根据本公开的实施例,n个第一概率数据均不相同,第一概率数据为正态分布类型数据,n为正整数。

18、输入模块,用于分别将n个第一概率数据输入生成对抗网络的生成器中,得到局部伪图像数据集。

19、根据本公开的实施例,生成对抗网络是基于图像数据集对初始生成对抗网络训练得到的,初始生成对抗网络是由联邦学习的服务端发送的。

20、整合模块,用于将由服务端发送的全局伪图像数据集与图像数据集进行整合,得到增强数据集。

21、根据本公开的实施例,全局伪图像数据集是通过服务端对由联邦学习的其他客户端发送的其他局部伪图像数据集和局部伪图像数据集进行标注得到的。

22、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,其中,上述一个或多个处理器执行上述一个或多个计算机程序以实现上述方法的步骤。

23、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。

24、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。

25、根据本公开的实施例,通过全局伪图像数据集与图像数据集进行整合,相较于直接根据图像数据集获取增强数据集,可以有效保护图像数据集的隐私。此外,由于增强数据集包括全局伪图像数据集,使得增强数据集为独立同分布,保证联邦学习的服务端的正常运行,减少传统集中式机器学习所带来的系统性隐私风险和通信开销。



技术特征:

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其中,所述全局伪图像数据集是通过如下方式获取的:

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,其特征在于,所述初始生成对抗网络包括初始生成器和初始判别器,对所述初始生成对抗网络的训练方法包括:

5.根据权利要求4所述的方法,还包括:

6.根据权利要求4所述的方法,其中,所述裁剪梯度的数量为多个,其特征在于,所述基于所述裁剪梯度和噪声值,更新所述初始判别器,包括:

7.根据权利要求4所述的方法,其中,其特征在于,所述基于所述判别结果,对所述初始判别器的梯度进行裁剪,得到裁剪梯度,包括:

8.一种数据处理装置,其特征在于,所述装置包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~7中任一项所述方法的步骤。


技术总结
本公开提供了一种数据处理方法,可以应用于人工智能技术领域和信息安全技术领域。该数据处理方法包括:基于图像数据集与共享数据比例,确定数据需求量N;基于数据需求量N,从时序概率数据集中随机选取N个第一概率数据;分别将N个第一概率数据输入生成对抗网络的生成器中,得到局部伪图像数据集;将由服务端发送的全局伪图像数据集与图像数据集进行整合,得到增强数据集。本公开还提供了一种数据处理装置、设备和存储介质。

技术研发人员:李鑫,赵文锦,孙浩,马昌林
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)