本技术涉及互联网,尤其涉及一种数据处理方法、装置、设备、可读存储介质及程序产品。
背景技术:
1、联邦学习以一个中央服务器为中心节点,通过与多个参与训练的本地服务器交换数据信息以实现人工智能模型的更新迭代。联邦学习可以在各个本地服务器的自有数据不出域,不违反数据隐私法规的前提下,通过加密机制下的数据交换方式建立一个虚拟的联邦学习模型,以充分利用多方数据训练深度学习模型,从而在保障数据交换的安全的同时,提升模型效果。其中,纵向联邦深度学习模型可以通过联合多个本地服务器的样本数据来扩展数据特征维度或者获得数据标签信息,以便训练得到输出精度更高的模型。
2、本技术的发明人在研究和实践过程中发现,现有技术中,在进行纵向联邦深度学习模型训练之前,可以通过将不同参与方(本地服务器)的样本数据进行对齐,以得到样本数据集,并通过样本数据集对纵向联邦深度学习模型进行训练。然而,经过样本数据对齐之后生成的样本数据集为固定顺序,即不同参与方的样本数据按照固定顺序进行排列。基于该固定顺序的样本数据集对纵向联邦深度学习模型进行训练时,会限制梯度优化方向的可选择性,导致模型训练的收敛点选择空间变少,从而使得纵向联邦深度学习模型出现过拟合,影响模型的训练效果。
技术实现思路
1、本技术实施例提供了一种数据处理方法、装置、设备、可读存储介质及程序产品,可以提高联邦学习的泛化性,提升联邦学习机器模型的训练效果,适用性高。
2、第一方面,本技术提供了一种数据处理方法,该方法包括:
3、第一参与方获取按照第一排列顺序排序的多个第一样本数据,并基于上述多个第一样本数据对联邦学习机器模型的第一特征网络进行迭代训练,以获得上述第一特征网络迭代训练输出的第一网络特征数据;
4、上述第一参与方获取第二参与方基于按照上述第一排列顺序排序的多个第二样本数据对上述联邦学习机器模型的第二特征网络进行迭代训练后返回的第二网络特征数据,以基于上述第一网络特征数据和上述第二网络特征数据对上述联邦学习机器模型的顶层特征网络进行迭代训练;
5、上述第一参与方基于预置的排序策略生成上述多个第一样本数据中各个第一样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息对上述多个第一样本数据进行重新排序,并向上述第二参与方发送上述排序策略和重新排序后上述各个第一样本数据的索引序号信息,触发上述第二参与方基于上述排序策略和重新排序后上述各个第一样本数据的索引序号信息对上述多个第二样本数据进行重新排序;
6、上述第一参与方基于重新排序后的多个第一样本数据对上述第一特征网络进行迭代训练,以获得上述第一特征网络迭代训练输出的第三网络特征数据,并获取上述第二参与方基于按照重新排序后的多个第二样本数据对上述第二特征网络进行迭代训练后返回的第四网络特征数据,以基于上述第三网络特征数据和上述第四网络特征数据对上述顶层特征网络进行迭代训练。
7、在一种可能的实现方式中,上述预置的排序策略为按照数据粒度进行排序,上述第一参与方基于预置的排序策略生成上述多个第一样本数据中各个第一样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息对上述多个第一样本数据进行重新排序,包括:
8、上述第一参与方按照数据粒度确定各个第一样本数据在上述多个第一样本数据中的排序位置,并基于上述各个第一样本数据在上述多个第一样本数据中的排序位置生成上述各个第一样本数据的第一索引序号信息,其中,一个第一索引序号信息用于索引一个第一样本数据;
9、上述第一参与方对上述多个第一样本数据的多个第一索引序号信息进行随机打散,并基于随机打散后的上述各个第一样本数据的第一索引序号信息的排列顺序对上述多个第一样本数据进行重新排序。
10、在一种可能的实现方式中,上述预置的排序策略为按照数据块粒度进行排序,上述第一参与方基于预置的排序策略生成上述多个第一样本数据中各个第一样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息对上述多个第一样本数据进行重新排序,包括:
11、上述第一参与方基于各个第一样本数据在上述多个第一样本数据中的排序位置按照数据块粒度将上述多个第一样本数据划分为多个第一样本数据块,一个第一样本数据块中包括至少一个第一样本数据;
12、上述第一参与方基于各个第一样本数据块在上述多个第一样本数据块中的排序位置生成上述各个第一样本数据块的第二索引序号信息以得到上述各个第一样本数据的索引序号信息,其中,一个第二索引序号信息用于索引一个第一样本数据块中的各个第一样本数据;
13、上述第一参与方对上述多个第一样本数据块的多个第二索引序号信息进行随机打散,并基于随机打散后的上述各个第一样本数据块的第二索引序号信息的排列顺序对上述多个第一样本数据块进行重新排序,以实现对上述多个第一样本数据进行重新排序。
14、在一种可能的实现方式中,上述预置的排序策略为按照数据文件粒度进行排序,上述第一参与方基于预置的排序策略生成各个第一样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息对上述多个第一样本数据进行重新排序,包括:
15、上述第一参与方基于各个第一样本数据在上述多个第一样本数据中的排序位置按照数据文件粒度生成依次排列的多个第一样本特征数据文件,一个第一样本特征数据文件中包括至少一个第一样本数据;
16、上述第一参与方基于各个第一样本特征数据文件在上述多个第一样本特征数据文件中的排序位置生成上述各个第一样本特征数据文件的第三索引序号信息,其中,一个第三索引序号信息用于索引一个第一样本特征数据文件中的各个第一样本数据;
17、上述第一参与方对上述多个第一样本特征数据文件的多个第三索引序号信息进行随机打散,并基于随机打散后的上述各个第一样本特征数据文件的第三索引序号信息的排列顺序对上述多个第一样本特征数据文件进行重新排序,以实现对上述多个第一样本数据进行重新排序。
18、在一种可能的实现方式中,上述方法还包括:
19、将上述第一网络特征数据和上述第二网络特征数据输入上述顶层特征网络,通过上述顶层特征网络对上述第一网络特征数据和上述第二网络特征数据进行特征融合和学习以实现对上述顶层特征网络进行迭代训练;
20、将上述第三网络特征数据和上述第四网络特征数据输入上述顶层特征网络,通过上述顶层特征网络对上述第三网络特征数据和上述第四网络特征数据进行特征融合和学习以实现对上述顶层特征网络进行迭代训练。
21、第二方面,本技术还提供了一种数据处理方法,该方法包括:
22、第二参与方获取按照第一排列顺序排序的多个第二样本数据,基于上述多个第二样本数据对联邦学习机器模型的第二特征网络进行迭代训练,并向第一参与方发送上述第二特征网络迭代训练输出的第二网络特征数据,其中,上述第一排列顺序为上述第一参与方对上述联邦学习机器模型的第一特征网络进行迭代训练所使用的多个第一样本数据的排列顺序;
23、上述第二参与方获取上述第一参与方发送的排序策略和上述多个第一样本数据中各个第一样本数据的索引序号信息,并基于上述排序策略生成上述多个第二样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息以及上述多个第二样本数据的索引序号信息对上述多个第二样本数据进行重新排序;
24、上述第二参与方基于重新排序的上述多个第二样本数据对上述第二特征网络对进行迭代训练,并向第一参与方发送上述第二特征网络迭代训练输出的第四网络特征数据。
25、在一种可能的实现方式中,上述排序策略为按照数据粒度进行排序;上述基于上述排序策略生成上述多个第二样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息以及上述多个第二样本数据的索引序号信息对上述多个第二样本数据进行重新排序,包括:
26、按照数据粒度确定各个第二样本数据在上述多个第二样本数据中的排序位置,并基于上述各个第二样本数据在上述多个第二样本数据中的排序位置生成上述各个第二样本数据的第一索引序号信息,其中,一个第一索引序号信息用于索引一个第二样本数据;
27、将上述各个第二样本数据的第一索引序号信息与上述各个第一样本数据的索引序号信息对齐,以实现对上述多个第二样本数据进行重新排序。
28、在一种可能的实现方式中,上述排序策略为按照数据块粒度进行排序,上述各个第一样本数据的索引序号信息为上述各个第一样本数据所属数据块的索引序号信息;上述基于上述排序策略生成上述多个第二样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息以及上述多个第二样本数据的索引序号信息对上述多个第二样本数据进行重新排序,包括:
29、基于各个第二样本数据在上述多个第二样本数据中的排序位置按照数据块粒度将上述多个第二样本数据划分为多个第二样本数据块,一个第二样本数据块中包括至少一个第二样本数据;
30、基于各个第二样本数据块在上述多个第二样本数据块中的排序位置生成上述各个第二样本数据块的第二索引序号信息以得到上述各个第二样本数据的索引序号信息,其中,一个第二索引序号信息用于索引一个第一样本数据块中的各个第二样本数据;
31、将上述各个第二样本数据块的第二索引序号信息和上述各个第一样本数据所属数据块的索引序号信息对齐,以实现对上述多个第二样本数据进行重新排序。
32、在一种可能的实现方式中,上述排序策略为按照数据文件粒度进行排序,上述各个第一样本数据的索引序号信息为上述各个第一样本数据所属数据文件的索引序号信息;上述基于上述排序策略生成上述多个第二样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息以及上述多个第二样本数据的索引序号信息对上述多个第二样本数据进行重新排序,包括:
33、基于各个第二样本数据在上述多个第二样本数据中的排序位置按照数据文件粒度生成依次排列的多个第二样本特征数据文件,一个第二样本特征数据文件中包括至少一个第二样本数据;
34、基于各个第二样本特征数据文件在上述多个第二样本特征数据文件中的排序位置生成上述各个第二样本特征数据文件的第三索引序号信息,其中,一个第三索引序号信息用于索引一个第二样本特征数据文件中的各个第二样本数据;
35、将上述各个第二样本特征数据文件的第三索引序号信息与上述各个第一样本数据所属数据文件的索引序号信息对齐,以实现对上述多个第二样本数据进行重新排序。
36、第三方面,本技术还提供了一种数据处理装置,该装置包括:
37、特征训练模块,用于获取按照第一排列顺序排序的多个第一样本数据,并基于上述多个第一样本数据对联邦学习机器模型的第一特征网络进行迭代训练,以获得上述第一特征网络迭代训练输出的第一网络特征数据;
38、顶层训练模块,用于获取第二参与方基于按照上述第一排列顺序排序的多个第二样本数据对上述联邦学习机器模型的第二特征网络进行迭代训练后返回的第二网络特征数据,以基于上述第一网络特征数据和上述第二网络特征数据对上述联邦学习机器模型的顶层特征网络进行迭代训练;
39、重排模块,用于基于预置的排序策略生成上述多个第一样本数据中各个第一样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息对上述多个第一样本数据进行重新排序,并向上述第二参与方发送上述排序策略和重新排序后上述各个第一样本数据的索引序号信息,触发上述第二参与方基于上述排序策略和重新排序后上述各个第一样本数据的索引序号信息对上述多个第二样本数据进行重新排序;
40、其中,上述特征训练模块还用于:
41、基于重新排序后的多个第一样本数据对上述第一特征网络进行迭代训练,以获得上述第一特征网络迭代训练输出的第三网络特征数据。
42、其中,上述顶层训练模块还用于:
43、获取上述第二参与方基于按照重新排序后的多个第二样本数据对上述第二特征网络进行迭代训练后返回的第四网络特征数据,以基于上述第三网络特征数据和上述第四网络特征数据对上述顶层特征网络进行迭代训练。
44、其中,上述重排模块包括:
45、索引确定单元,用于按照数据粒度确定各个第一样本数据在上述多个第一样本数据中的排序位置,并基于上述各个第一样本数据在上述多个第一样本数据中的排序位置生成上述各个第一样本数据的第一索引序号信息,其中,一个第一索引序号信息用于索引一个第一样本数据;
46、重排单元,用于对上述多个第一样本数据的多个第一索引序号信息进行随机打散,并基于随机打散后的上述各个第一样本数据的第一索引序号信息的排列顺序对上述多个第一样本数据进行重新排序。
47、其中,上述索引确定单元还用于:
48、基于各个第一样本数据在上述多个第一样本数据中的排序位置按照数据块粒度将上述多个第一样本数据划分为多个第一样本数据块,一个第一样本数据块中包括至少一个第一样本数据;基于各个第一样本数据块在上述多个第一样本数据块中的排序位置生成上述各个第一样本数据块的第二索引序号信息以得到上述各个第一样本数据的索引序号信息,其中,一个第二索引序号信息用于索引一个第一样本数据块中的各个第一样本数据。
49、其中,上述重排单元还用于:
50、对上述多个第一样本数据块的多个第二索引序号信息进行随机打散,并基于随机打散后的上述各个第一样本数据块的第二索引序号信息的排列顺序对上述多个第一样本数据块进行重新排序,以实现对上述多个第一样本数据进行重新排序。
51、其中,上述索引确定单元还用于:
52、基于各个第一样本数据在上述多个第一样本数据中的排序位置按照数据文件粒度生成依次排列的多个第一样本特征数据文件,一个第一样本特征数据文件中包括至少一个第一样本数据;基于各个第一样本特征数据文件在上述多个第一样本特征数据文件中的排序位置生成上述各个第一样本特征数据文件的第三索引序号信息,其中,一个第三索引序号信息用于索引一个第一样本特征数据文件中的各个第一样本数据;
53、其中,上述重排单元还用于:
54、对上述多个第一样本特征数据文件的多个第三索引序号信息进行随机打散,并基于随机打散后的上述各个第一样本特征数据文件的第三索引序号信息的排列顺序对上述多个第一样本特征数据文件进行重新排序,以实现对上述多个第一样本数据进行重新排序。
55、其中,上述顶层训练模块还用于:
56、将上述第一网络特征数据和上述第二网络特征数据输入上述顶层特征网络,通过上述顶层特征网络对上述第一网络特征数据和上述第二网络特征数据进行特征融合和学习以实现对上述顶层特征网络进行迭代训练。
57、其中,上述顶层训练模块还用于:
58、将上述第三网络特征数据和上述第四网络特征数据输入上述顶层特征网络,通过上述顶层特征网络对上述第三网络特征数据和上述第四网络特征数据进行特征融合和学习以实现对上述顶层特征网络进行迭代训练。
59、第四方面,本技术还提供了一种数据处理装置,该装置包括:
60、特征训练模块,用于获取按照第一排列顺序排序的多个第二样本数据,基于上述多个第二样本数据对联邦学习机器模型的第二特征网络进行迭代训练,并向第一参与方发送上述第二特征网络迭代训练输出的第二网络特征数据,其中,上述第一排列顺序为上述第一参与方对上述联邦学习机器模型的第一特征网络进行迭代训练所使用的多个第一样本数据的排列顺序;
61、重排模块,用于获取上述第一参与方发送的排序策略和上述多个第一样本数据中各个第一样本数据的索引序号信息,并基于上述排序策略生成上述多个第二样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息以及上述多个第二样本数据的索引序号信息对上述多个第二样本数据进行重新排序;
62、其中,上述特征训练模块还用于:
63、基于重新排序的上述多个第二样本数据对上述特征网络对进行迭代训练,并向第一参与方发送上述第二特征网络迭代训练输出的第四网络特征数据。
64、其中,上述重排模块包括:
65、索引确定单元,用于按照数据粒度确定各个第二样本数据在上述多个第二样本数据中的排序位置,并基于上述各个第二样本数据在上述多个第二样本数据中的排序位置生成上述各个第二样本数据的第一索引序号信息,其中,一个第一索引序号信息用于索引一个第二样本数据;
66、重排单元,用于将上述各个第二样本数据的第一索引序号信息与上述各个第一样本数据的索引序号信息对齐,以实现对上述多个第二样本数据进行重新排序。
67、其中,上述索引确定单元还用于:
68、基于各个第二样本数据在上述多个第二样本数据中的排序位置按照数据块粒度将上述多个第二样本数据划分为多个第二样本数据块,一个第二样本数据块中包括至少一个第二样本数据;基于各个第二样本数据块在上述多个第二样本数据块中的排序位置生成上述各个第二样本数据块的第二索引序号信息以得到上述各个第二样本数据的索引序号信息,其中,一个第二索引序号信息用于索引一个第一样本数据块中的各个第二样本数据。
69、其中,上述重排单元还用于:
70、将上述各个第二样本数据块的第二索引序号信息和上述各个第一样本数据所属数据块的索引序号信息对齐,以实现对上述多个第二样本数据进行重新排序。
71、其中,上述索引确定单元还用于:
72、基于各个第二样本数据在上述多个第二样本数据中的排序位置按照数据文件粒度生成依次排列的多个第二样本特征数据文件,一个第二样本特征数据文件中包括至少一个第二样本数据;基于各个第二样本特征数据文件在上述多个第二样本特征数据文件中的排序位置生成上述各个第二样本特征数据文件的第三索引序号信息,其中,一个第三索引序号信息用于索引一个第二样本特征数据文件中的各个第二样本数据。
73、其中,上述重排单元还用于:将上述各个第二样本特征数据文件的第三索引序号信息与上述各个第一样本数据所属数据文件的索引序号信息对齐,以实现对上述多个第二样本数据进行重新排序。
74、第五方面,本技术还提供了一种计算机设备,包括:处理器、存储器以及网络接口;
75、上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储程序代码,上述处理器用于调用上述程序代码,以执行如本技术第一方面提供的方法。
76、第六方面,本技术还提供了一种计算机设备,上述计算机设备包括:处理器、存储器以及网络接口;
77、上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储程序代码,上述处理器用于调用上述程序代码,以执行如本技术第二方面提供的方法。
78、第七方面,本技术还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,当上述处理器执行上述程序指令时执行如本技术第一方面提供的方法。
79、第八方面,本技术还提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,当上述处理器执行上述程序指令时执行如本技术第二方面提供的方法。
80、第九方面,本技术还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本技术第一方面和第二方面提供的方法。
81、本技术实施例提供的数据处理方法中,纵向联邦学习模型可以在根据基于第一排列顺序排列的多个第一样本数据和多个第二样本数据进行迭代训练之后,第一参与方基于预置的排序策略获取多个第一样本数据的索引序号信息,并根据上述各个第一样本数据的索引序号信息对上述多个第一样本数据进行重新排序。同时,第一参与方可以向第二参与方发送上述排序策略和重新排序后各个第一样本数据的索引序号信息,触发上述第二参与方基于上述排序策略和重新排序后上述各个第一样本数据的索引序号信息对上述多个第二样本数据进行重新排序,以使第一参与方和第二参与方的样本数据对齐,避免产生噪声数据。进一步的,本技术实施例的纵向联邦学习模型可以基于重新排序后的多个第一样本数据和多个第二样本数据进行迭代训练,纵向联邦学习模型。本技术实施例提供的基于联邦学习的处理方法通过在纵向联邦学习模型每次迭代训练之后重新排序样本数据的顺序,增加样本数据排列的随机性,提高联邦学习的泛化性,提升联邦学习机器模型的训练效果,适用性高。
1.一种数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述预置的排序策略为按照数据粒度进行排序,所述第一参与方基于预置的排序策略生成所述多个第一样本数据中各个第一样本数据的索引序号信息,并根据所述各个第一样本数据的索引序号信息对所述多个第一样本数据进行重新排序,包括:
3.根据权利要求1所述的方法,其特征在于,所述预置的排序策略为按照数据块粒度进行排序,所述第一参与方基于预置的排序策略生成所述多个第一样本数据中各个第一样本数据的索引序号信息,并根据所述各个第一样本数据的索引序号信息对所述多个第一样本数据进行重新排序,包括:
4.根据权利要求1所述的方法,其特征在于,所述预置的排序策略为按照数据文件粒度进行排序,所述第一参与方基于预置的排序策略生成各个第一样本数据的索引序号信息,并根据所述各个第一样本数据的索引序号信息对所述多个第一样本数据进行重新排序,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
6.一种数据处理方法,其特征在于,包括:
7.根据权利要求6所述的方法,其特征在于,所述排序策略为按照数据粒度进行排序;所述基于所述排序策略生成所述多个第二样本数据的索引序号信息,并根据所述各个第一样本数据的索引序号信息以及所述多个第二样本数据的索引序号信息对所述多个第二样本数据进行重新排序,包括:
8.根据权利要求6所述的方法,其特征在于,所述排序策略为按照数据块粒度进行排序,所述各个第一样本数据的索引序号信息为所述各个第一样本数据所属数据块的索引序号信息;所述基于所述排序策略生成所述多个第二样本数据的索引序号信息,并根据所述各个第一样本数据的索引序号信息以及所述多个第二样本数据的索引序号信息对所述多个第二样本数据进行重新排序,包括:
9.根据权利要求6所述的方法,其特征在于,所述排序策略为按照数据文件粒度进行排序,所述各个第一样本数据的索引序号信息为所述各个第一样本数据所属数据文件的索引序号信息;所述基于所述排序策略生成所述多个第二样本数据的索引序号信息,并根据所述各个第一样本数据的索引序号信息以及所述多个第二样本数据的索引序号信息对所述多个第二样本数据进行重新排序,包括:
10.一种数据处理装置,其特征在于,所述数据处理装置适用于第一参与方,所述数据处理装置包括:
11.一种数据处理装置,其特征在于,所述数据处理装置适用于第二参与方,所述数据处理装置包括:
12.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
13.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1至9中任一项所述方法的步骤。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述权利要求1至9任一项所述方法的步骤。