本发明属于物联网安全,具体涉及一种基于联邦学习的机器学习模型训练方法及装置。
背景技术:
1、随着移动智能设备和无人机等分布式计算设备的快速普及,网络边缘的数据生成量呈现出了前所未有的激增趋势。这些数据具有极高的价值,为机器学习模型的构建提供了丰富的资源,推动了智能应用如智慧城市和智能医疗等领域的飞速发展。然而,传统的机器学习范式在数据收集和使用方面面临着重大的挑战,尤其是隐私泄露问题。在传统的机器学习范式中,为了进行模型训练,需要集中收集和存储来自数据所有者的数据。这种数据集中化的方式不仅效率低下,而且存在严重的隐私泄露风险。一旦数据中心被攻击或内部人员泄露数据,将可能导致个人隐私信息的泄露,给个人和社会带来不可估量的损失。
2、为了解决这个问题,联邦学习作为一种新型的分布式人工智能范式应运而生。联邦学习允许数据所有者在联邦服务器的调度下协作训练人工智能模型,同时保持数据的本地化。在联邦学习中,客户端只需将包含相对少量数据的模型更新传输到联邦服务器,从而减少了数据传输量,降低了网络拥塞的风险,同时也增强了参与客户端的隐私保护。
3、然而,尽管联邦学习在保护隐私和缓解网络拥塞方面具有显著优势,但仍存在一些挑战和问题。首先,由于客户端上传的模型更新中可能包含敏感信息,攻击者仍然有可能通过推理攻击来推断出这些数据。因此,当前的联邦学习框架缺乏有效的抵御外部攻击者的隐私保护方案。其次,资源有限的客户端在参与联邦学习过程中需要频繁地训练局部模型,这会给客户端带来显著的成本,包括能耗、计算资源消耗以及潜在的隐私泄露风险等。这些成本可能降低客户端参与联邦学习的意愿,从而影响整个联邦学习系统的效率和效果。最后,由于客户端的不可信任性,可能存在恶意的客户端提供虚假的局部模型更新来破坏联邦学习过程。这些虚假的模型更新可能导致全局模型的性能下降甚至失效,给整个联邦学习系统带来严重的安全风险。
技术实现思路
1、针对现有技术中存在的问题,本发明提供了一种基于联邦学习的机器学习模型训练方法及装置,其目的在于解决上述问题。
2、为了解决上述技术问题,本发明通过以下技术方案予以实现:
3、一种基于联邦学习的机器学习模型训练方法,应用于由联邦服务器以及与联邦服务器通信连接的若干客户端共同构成的训练系统中的联邦服务器;
4、所述训练方法包括:
5、在每轮全局迭代训练过程中,至少执行以下步骤:
6、基于与每个客户端的历史交互可信记录评估每个客户端的声誉值,根据声誉值选择满足要求的客户端;
7、接收满足要求的客户端发送的隐私等级和类型,根据满足要求的客户端的隐私等级和类型设计包含训练样本大小和奖励的契约集合;其中,所述隐私等级和类型为每个满足要求的客户端的固有属性;
8、将全局模型和契约集合发送至满足要求的客户端;
9、接收满足要求的客户端发送的经过隐私扰动后的本地模型更新参数,并结合满足要求的客户端对应的训练样本大小、隐私等级以及在当前轮的声誉值,对经过隐私扰动后的本地模型更新参数进行聚合得到全局模型更新参数;其中,所述经过隐私扰动后的本地模型更新参数是指每个满足要求的客户端根据固有属性从契约集合中选择相匹配的契约项,根据契约项规定的训练样本大小选择样本进行本地模型训练,并根据隐私等级对训练好的本地模型更新参数进行隐私扰动后得到的本地模型更新参数;
10、将奖励发送给满足要求的客户端,对经过隐私扰动后的本地模型更新参数进行质量评估,根据质量评估结果更新对应的历史交互可信记录;其中,所述奖励为每个满足要求的客户端根据固有属性从契约集合中选择相匹配的契约项中规定的奖励。
11、进一步的,所述基于与每个客户端的历史交互可信记录评估每个客户端的声誉值,具体为:
12、定义在第t轮全局迭代时,联邦服务器与每个客户端m的历史交互可信记录表示为:
13、
14、其中,表示客户端m在第t轮全局迭代时是可信的,否则
15、根据每个客户端的历史交互可信记录评估每个客户端的声誉值,表示为:
16、
17、式中,为客户端m在第t轮全局迭代时的声誉值;为客户端m在第k轮全局迭代时的交互可信记录;为衰减因子;tk为当前全局迭代轮。
18、进一步的,所述根据声誉值选择满足要求的客户端,包括:
19、将所有客户端的声誉值进行降序排列;
20、选择位于设定名次阈值之前的客户端为满足要求的客户端。
21、进一步的,所述根据满足要求的客户端的隐私等级和类型设计包含训练样本大小和奖励的契约集合,包括:
22、根据满足要求的客户端的隐私等级和类型建立契约模型;
23、基于所述契约模型,利用前景理论制定联邦服务器的主观效用函数与满足要求的客户端的效用函数;
24、根据联邦服务器的主观效用函数与满足要求的客户端的效用函数,利用前景理论驱动下的契约理论设计包含每个满足要求的客户端的训练样本大小和奖励的最优契约,构成契约集合。
25、进一步的,所述契约模型为:
26、λ(θ,ψ)={φj,l,1≤j≤j,1≤l≤l}
27、式中,φj,l=(dj,l,rj,l)是对类型为(j,l)的客户端的契约项,dj,l为训练样本大小,rj,l为奖励;θ=(θj:1≤j≤j}为j个训练成本类型的集合;为l个隐私泄露成本类型的集合;
28、所述满足要求的客户端的效用函数为:
29、
30、式中,uj,l是类型(j,l)的客户端的效用函数;θj是类型(j,l)的客户端的训练成本类型;是类型(j,l)的客户端的隐私泄露成本类型;
31、所述联邦服务器的主观效用函数为:
32、
33、式中,γ和ζ是风险参数;δ是联邦服务器的风险厌恶程度;uref是联邦服务器设置的参考点;β是类型(j,l)的客户端的数量;us,j,l=ωsln(1+dj,l)-rj,l为联邦服务器针对类型(j,l)的客户端的客观效用函数,式内第一项是与训练样本大小成对数函数关系的用户满意度,第二项是支付给参与模型训练的客户端的奖励;ωs是联邦服务器的满意度参数。
34、进一步的,所述根据联邦服务器的主观效用函数与满足要求的客户端的效用函数,利用前景理论驱动下的契约理论设计包含每个满足要求的客户端的训练样本大小和奖励的最优契约,具体为:
35、最优契约的优化问题为最大化联邦服务器的主观效用函数,同时对不同类型的满足要求的客户端满足个人理性约束和激励兼容约束;
36、引入边际成本将满足要求的客户端的训练样本大小和隐私等级转化为一维边际成本类型,将最优契约设计问题改写为一维边际成本类型的最优契约优化问题;
37、通过简化满足要求的客户端的个人理性约束和激励兼容约束,将所述一维边际成本类型的最优契约优化问题转化为松弛的一维边际成本类型最优契约设计问题,求解所述松弛的一维边际成本类型最优契约设计问题,得到完全理性情况下的训练样本大小-奖励契约的最优松弛解;
38、对所述完全理性情况下的训练样本大小-奖励契约的最优松弛解进一步分析,得到前景理论驱动下的最优契约设计问题的最优松弛解,同时对不满足单调性约束的最优松弛解进行动态指派,完成最优契约的动态分配。
39、进一步的,所述对所述完全理性情况下的训练样本大小-奖励契约的最优松弛解进一步分析,得到前景理论驱动下的最优契约设计问题的最优松弛解,具体为:
40、对us,i≥uref,1≤i≤jl,所述松弛的一维边际成本类型最优契约设计问题的最优契约训练样本大小为:其中,为类型(j,l)的客户端的边际成本;利用边际成本,类型(j,l)的客户端转化为类型i的客户端;所述松弛的一维边际成本类型最优契约设计问题的最优契约奖励为:其中,α(φjl)为类型jl客户端的边际成本;djl,pt为类型jl客户端的最优契约训练样本大小;α(φk)为类型k客户端的边际成本;
41、对us,i<uref,1≤i≤jl,所述松弛的一维边际成本类型最优契约设计问题的最优契约训练样本大小和最优契约奖励与us,i≥uref,1≤i≤jl情况下的最优契约训练样本大小和最优契约奖励一致;
42、对us,jl≤…≤us,y≤…≤us,n+1≤uref≤us,n≤…≤us,x≤…≤us,1,,所述松弛的一维边际成本类型最优契约设计问题的最优契约训练样本大小为:所述松弛的一维边际成本类型最优契约设计问题的最优契约奖励为:
43、进一步的,所述对不满足单调性约束的最优松弛解进行动态指派,具体为:
44、联邦服务器对所有满足要求的客户端的最优契约训练样本大小按照边际成本类型进行排序,当存在违反单调性约束的最优契约训练样本大小时,利用集群和熨烫算法来调整客户端的最优契约训练样本大小序列,使其满足单调性约束,从而得到调整后的最优契约训练样本大小,同时基于调整后的最优契约训练样本大小计算最优契约奖励。
45、进一步的,结合满足要求的客户端对应的训练样本大小、隐私等级以及在当前轮的声誉值,对经过隐私扰动后的本地模型更新参数进行聚合得到全局模型更新参数,具体为:
46、
47、式中,为类型i的客户端的本地模型更新参数;μt+1为第(t+1)次迭代的全局模型参数;εi为类型i的客户端的隐私等级;βi为类型i的客户端的个数。
48、一种基于联邦学习的机器学习模型训练装置,应用于由联邦服务器以及与联邦服务器通信连接的若干客户端共同构成的训练系统中的联邦服务器;
49、所述训练装置包括:
50、选择模块,用于基于与每个客户端的历史交互可信记录评估每个客户端的声誉值,根据声誉值选择满足要求的客户端;
51、契约设计模块,用于接收满足要求的客户端发送的隐私等级和类型,根据满足要求的客户端的隐私等级和类型设计包含训练样本大小和奖励的契约集合;其中,所述隐私等级和类型为每个满足要求的客户端的固有属性;
52、任务下发模块,用于将全局模型和契约集合发送至满足要求的客户端;
53、聚合模块,用于接收满足要求的客户端发送的经过隐私扰动后的本地模型更新参数,并结合满足要求的客户端对应的训练样本大小、隐私等级以及在当前轮的声誉值,对经过隐私扰动后的本地模型更新参数进行聚合得到全局模型更新参数;其中,所述经过隐私扰动后的本地模型更新参数是指每个满足要求的客户端根据固有属性从契约集合中选择相匹配的契约项,根据契约项规定的训练样本大小选择样本进行本地模型训练,并根据隐私等级对训练好的本地模型更新参数进行隐私扰动后得到的本地模型更新参数;
54、奖励下发和交互可信记录更新模块,用于将奖励发送给满足要求的客户端,对经过隐私扰动后的本地模型更新参数进行质量评估,根据质量评估结果更新对应的历史交互可信记录;其中,所述奖励为每个满足要求的客户端根据固有属性从契约集合中选择相匹配的契约项中规定的奖励。
55、与现有技术相比,本发明至少具有以下有益效果:
56、本发明提供的一种基于联邦学习的机器学习模型训练方法,通过联邦学习框架,使得客户端无需上传原始数据,仅传送本地模型更新参数,从而有效保护了数据的隐私性和安全性。为不同客户端分配个性化的隐私预算,并在本地模型更新中进行隐私扰动,有效抵御了外部攻击者的推断攻击,进一步增强了数据的安全性。相较于传统的云服务器为中心的机器学习模型训练方式,本发明中客户端仅定期向服务器传送由相对较少的数据量组成的本地模型更新,从而显著减少了数据传输量,有效缓解了网络流量拥塞问题。通过根据满足要求的客户端的隐私等级和类型设计包含训练样本大小和奖励的契约,针对客户端差异化的训练成本和隐私重视程度提供最优的参与激励,既满足了个人理性和激励兼容性约束,又激发了客户端参与高质量模型训练的积极性。考虑了客户端的异质性和隐私需求为每个客户端设计了个性化的隐私预算和契约集合,展现了较高的适应性和灵活性,能够应对不同场景下的联邦学习需求。利用基于客户端历史交互可信记录的声誉评估,对客户端提供的本地模型更新参数进行质量评估,并基于评估结果更新历史交互可信记录,进而更新客户端的声誉值,从而选择可信赖的客户端参与模型训练,提高了联邦学习的整体可靠性。联邦服务器在聚合客户端提供的本地模型更新时,不仅考虑了客户端的声誉值,还结合了训练样本大小和隐私等级因素,使得模型聚合过程更加鲁棒,提高了最终全局模型的准确性和稳定性。
57、综上所述,本发明基于联邦学习的机器学习模型训练方法在提高数据安全性、缓解网络流量拥塞、提升参与者积极性、增强联邦学习可靠性、提高模型聚合鲁棒性以及增强系统适应性和灵活性等方面均表现出显著的优势。
58、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
1.一种基于联邦学习的机器学习模型训练方法,其特征在于,应用于由联邦服务器以及与联邦服务器通信连接的若干客户端共同构成的训练系统中的联邦服务器;
2.根据权利要求1所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,所述基于与每个客户端的历史交互可信记录评估每个客户端的声誉值,具体为:
3.根据权利要求1所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,所述根据声誉值选择满足要求的客户端,包括:
4.根据权利要求1所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,所述根据满足要求的客户端的隐私等级和类型设计包含训练样本大小和奖励的契约集合,包括:
5.根据权利要求4所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,所述契约模型为:
6.根据权利要求5所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,所述根据联邦服务器的主观效用函数与满足要求的客户端的效用函数,利用前景理论驱动下的契约理论设计包含每个满足要求的客户端的训练样本大小和奖励的最优契约,具体为:
7.根据权利要求6所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,所述对所述完全理性情况下的训练样本大小-奖励契约的最优松弛解进一步分析,得到前景理论驱动下的最优契约设计问题的最优松弛解,具体为:
8.根据权利要求6所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,所述对不满足单调性约束的最优松弛解进行动态指派,具体为:
9.根据权利要求6所述的一种基于联邦学习的机器学习模型训练方法,其特征在于,结合满足要求的客户端对应的训练样本大小、隐私等级以及在当前轮的声誉值,对经过隐私扰动后的本地模型更新参数进行聚合得到全局模型更新参数,具体为:
10.一种基于联邦学习的机器学习模型训练装置,其特征在于,应用于由联邦服务器以及与联邦服务器通信连接的若干客户端共同构成的训练系统中的联邦服务器;