无需第三方的多方伽马回归模型训练方法、装置、设备及介质与流程

xiaoxiao3月前  15


本发明涉及隐私计算,尤其是涉及一种无需第三方的隐私计算下多方伽马回归模型训练方法、装置、设备及介质。


背景技术:

1、隐私计算(privacy preserving computation)是“面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。”(《隐私计算研究范畴和发展趋势》,2016)。隐私计算本质上是在保护数据隐私的前提下,解决数据流通、数据应用等数据服务问题,实现“数据可用不可见”。隐私计算的概念从推出至今已被不同领域广泛应用,如政务领域精准施策、金融反欺诈场景、医疗领域疾病检查、广告领域精准投放等。根据目前市场上隐私计算的技术可以分为三类:基于协议的安全多方计算(mpc,secure muti-party computation)、基于现代密码的联邦学习(fl,federated learning)和基于硬件的可信执行计算(tee,trusted execution environment)。但在应用层面最受广泛关注的还是安全多方计算和联邦学习。

2、经过对现有技术的文献检索发现,大量安全多方计算、联邦机器学习的研究方向倾向于解决风控和营销场景的分类问题,但不能从统计学角度上对事件的“计数”进行建模。广义线性模型(generalized linear models)是一种应用灵活的线性回归模型,常用于解决房价、销售量、访客量等预测问题。在保险行业中,伽马回归可以解决当n个随机时间都发生,需要经历多久时间,常用于拟合汽车保险理赔,根据理赔次数和强度计算平均理赔金额。

3、有“可信第三方”、中央节点(协作方)是传统联邦学习的实现方式。协作方生成密钥对,协助各参与方利用本地数据训练模型,在保证协作方获取不到任何中间信息的前提下,帮助各方完成梯度更新。整个过程中,各参与方的数据始终保存在本地服务器,降低了数据泄露的风险,该方法解决了建模过程中数据特征单一的问题,各参与方计算的数据体量未增加、算力成本小。但是,有协作方的缺点在于,第三方中心服务器会收集到每轮迭代过程中模型加盐的梯度和损失函数等信息,不同的选择会使得“可信第三方”能够看到的数据、信息量有限,并且,有一定的概率能够反推出参与方数据分布,安全性可能会因此受到影响。实际应用中,存在不同业务方拥有不同领域的数据集,而这些数据集在特征上互补时,为了让模型适应各个域的特点,提升模型的准确性和泛化性,可能需要进行不止两方之间的建模,此时会出现多个数据源方。因此,需要一种能够剔除第三方保证通讯成本最低有效且能够保证数据安全的多方之间的建模方法。


技术实现思路

1、本发明的目的是为了提供一种无需第三方的隐私计算下多方伽马回归模型训练方法、装置、设备及介质,用于隐私计算多方通过联邦学习和同态加密进行纵向联邦伽马回归建模,利用了可在密文状态下计算的同态加密手段和加盐的方式,成功去除了“可信第三方”,有效规避内部人员窜谋带来的安全性隐患,保证数据应用的合规,从节点部署和性能要求上来说极大降低产品的使用成本。

2、本发明的目的可以通过以下技术方案来实现:

3、根据本发明的第一方面,提供一种无需第三方的隐私计算下多方伽马回归模型训练方法,用于实现标签方和多个数据源方之间的多方伽马回归模型训练,包括以下步骤:

4、s1,标签方和各数据源方分别生成密钥,以及,从多个数据源方中选取一个数据源代表方,数据源代表方将其生成的密钥发送给标签方和其他数据源方,其他数据源方将其生成的密钥发送给标签方;

5、s2,各数据源方基于多方伽马回归模型计算各自的数据源方变量对应的线性函数,除数据源代表方外的其他数据源方根据密钥进行加密后发送给标签方;

6、s3,标签方基于多方伽马回归模型计算标签方变量对应的线性函数,并整合其他数据源方发送的数据源方变量对应的线性函数密文计算除数据源代表方外的样本的线性函数密文,加盐并发送给数据源代表方以计算总样本的损失函数导数的密文,基于损失函数导数的密文计算标签方变量梯度的密文,加盐后通过数据源代表方解密,并由标签方去盐以计算标签方变量的梯度,更新标签方相关的模型参数;

7、s4,标签方对损失函数导数的密文加盐,并通过数据源代表方解密和去盐,得到以标签方密钥加密的损失函数密文,数据源代表方基于以标签方密钥加密的损失函数密文计算数据源代表方变量梯度的密文,加盐并通过标签方解加密后进行解密和去盐,计算得到数据源代表方变量的梯度,更新数据源代表方相关的模型参数;

8、s5,数据源代表方将以标签方密钥加密的损失函数密文发送给其他各数据源方,其他各数据源方基于以标签方密钥加密的损失函数密文计算其他各数据源方变量梯度的密文,加盐并通过标签方解加密后进行解密和去盐,计算得到其他各数据源方变量的梯度,更新其他各数据源方相关的模型参数;

9、s6,重复步骤s2-s5直至多方伽马回归模型收敛或达到预设的迭代次数,完成多方伽马回归模型训练。

10、作为优选的技术方案,所述多方伽马回归模型表示为:

11、

12、其中,为预测值,即多方伽马回归模型的输出结果;zg=xg·wg+b,zhi=xhi·whi,下角标g代表标签方,hi代表第i个数据源方,xg表示标签方的变量,xhi表示第i个数据源方的变量,wg、b分别表示标签方变量的模型权重和偏置,whi表示第i个数据源方变量的模型权重,zg表示标签方变量对应的线性函数,zhi表示第i个数据源方变量对应的线性函数,表示标签方模型结果,表示第i个数据源方模型结果。

13、作为优选的技术方案,所述s1包括以下步骤:

14、s11,标签方生成ckks密钥对(pkg,skg),其中,pkg表示标签方公钥,skg表示标签方私钥;

15、s12,从多个数据源方中选取一个数据源代表方,数据源代表方生成ckks密钥对(pkh,skh),并将pkh发给标签方和其他数据源方,其中,pkh表示数据源代表方公钥,skh表示数据源代表方私钥;

16、s13,其他数据源方分别生成各自的ckks密钥对(pkhi,skhi),并将pkhi发给标签方,其中,pkhi表示第i个数据源方公钥,skhi表示第i个数据源方私钥,i=2,3,…n,n为数据源方数量。

17、作为优选的技术方案,所述s2具体为数据源代表方和其他数据源方分别基于多方伽马回归模型计算各自的数据源方变量xhi对应的线性函数zhi,i=1,2,3,...n,i=1为数据源代表方,以数据源代表方公钥pkh加密得到密文,除数据源代表方外的其他各数据源方将密文发送给标签方,其中,表示ckks同态加密的x密文,表示以数据源代表方密钥加密的x密文。

18、作为优选的技术方案,所述s3包括以下步骤:

19、s31,标签方基于多方伽马回归模型计算标签方变量xg对应的线性函数zg,并结合其他数据源方发送的密文i=2,3,…n,计算除数据源代表方外的样本的线性函数密文

20、s32,标签方生成第一随机向量rg1,对除数据源代表方外的样本的线性函数密文加盐得到并发送给数据源代表方,

21、s33,数据源代表方结合其线性函数密文计算总样本的加盐线性函数密文并基于数据源代表方私钥skh解密得到总样本的加盐线性函数z′,并计算其对应的模型结果e-z′,通过数据源代表方公钥pkh加密后得到并与总样本的加盐线性函数密文共同发送给标签方;

22、s34,标签方计算并与相乘计算得到预测值倒数的密文

23、s35,标签方基于预测值倒数的密文计算以数据源代表方密钥加密的损失函数cost关于z的导数dz的密文

24、s36,标签方生成第二随机向量rg2和第三随机向量rg3,并基于以数据源代表方密钥加密的损失函数导数的密文计算以数据源代表方密钥加密的标签方变量的梯度的密文和其中,mean表示取平均,dwg、db表示标签方变量的梯度;基于随机数rg2和rg3分别对标签方变量的梯度的密文进行加盐得到和并发送给数据源代表方;

25、s37,数据源代表方用数据源代表方私钥skh解密和得到第一梯度dw′g和db′,发送给标签方;

26、s38,标签方基于第一梯度dw′g和db′进行去盐,计算得到标签方变量的梯度dwg=dw′g-rg2和db=db′-rg3;

27、s39,标签方基于计算得到的标签方变量的梯度更新模型参数:wg←wg-learning_rate·dwg,b←b-learning_rate·db,其中,learning_rate为学习率。

28、作为优选的技术方案,所述s4包括以下步骤:

29、s41,标签方生成第四随机向量rg4,并以标签方公钥pkg加密得到以标签方密钥加密的第四随机向量密文其中,表示以标签方密钥加密的x密文;

30、s42,标签方基于第四随机向量对步骤s35计算得到的损失函数导数dz的密文进行加盐,得到并将密文和第四随机向量密文发送给数据源代表方;

31、s43,数据源代表方基于数据源代表方私钥skh对密文进行解密得到加盐的明文dz′,并基于第四随机向量密文进行去盐,得到以标签方密钥加密的损失函数导数密文

32、s44,数据源代表方生成随机数rh,并基于以标签方密钥加密的损失函数导数密文计算数据源代表方变量的梯度的密文:其中,dwh表示数据源代表方变量的梯度;基于随机数rh对数据源代表方变量的梯度的密文进行加盐得到并发送给标签方;

33、s45,标签方用标签方私钥skg解密得到第二梯度dw′h,再用数据源代表方公钥pkh加密得到发送给数据源代表方;

34、s46,数据源代表方基于数据源代表方私钥skh对解密得到第二梯度dw′h,并进行去盐,计算得到数据源代表方变量的梯度dwh=dw′h-rh;

35、s47,数据源代表方基于计算得到的数据源代表方变量的梯度更新模型参数:wh←wh-learning_rate·dwh。

36、作为优选的技术方案,所述s5包括以下步骤:

37、s51,数据源代表方将步骤s43中计算得到的以标签方密钥加密的损失函数导数密文发送给其他数据源方hosti,其中i=2,3,...,n;

38、s52,第i个数据源方生成随机数rhi,并基于以标签方密钥加密的损失函数导数密文计算各数据源方变量的梯度的密文:其中,dwhi表示第i个数据源方变量的梯度;基于随机数rhi对第i个数据源方变量的梯度的密文进行加盐得到并发送给标签方;

39、s53,标签方用标签方私钥skg分别解密得到各数据源方的第三梯度dw′hi,再用对应的各数据源方公钥pkhi加密得到发送给各个对应的数据源方;

40、s54,各数据源方基于各自的数据源方私钥skhi对解密得到第三梯度dw′hi,并进行去盐,计算得到数据源方变量的梯度dwhi=dw′hi-rhi;

41、s55,各数据源方基于计算得到的数据源方变量的梯度更新模型参数:whi←whi-learning_rate·dwhi。

42、作为优选的技术方案,所述s6中,收敛通过损失函数进行判断,判断流程如下:

43、标签方对总样本的加盐线性函数密文进行去盐得到总样本的线性函数密文并结合预测值倒数的密文计算以数据源代表方密钥加密的损失函数密文其中y为真实值;

44、标签方生成第五随机向量rg5,并基于第五随机向量rg5对损失函数密文加盐得到损失函数加盐密文将损失函数加盐密文发送给数据源代表方;

45、数据源代表方基于数据源代表方私钥skh解密损失函数加盐密文得到cost′;

46、标签方对加盐的cost′去盐得到损失函数cost,cost=cost’-rg5,并判断是否收敛。

47、根据本发明的第二方面,提供了一种无需第三方的隐私计算下多方伽马回归模型训练装置,用于实现标签方和数据源方之间的多方伽马回归模型训练,包括:

48、密钥生成与发送模块:标签方和各数据源方分别生成密钥,以及,从多个数据源方中选取一个数据源代表方,数据源代表方将其生成的密钥发送给标签方和其他数据源方,其他数据源方将其生成的密钥发送给标签方;

49、数据源方模型结果计算模块:各数据源方基于多方伽马回归模型计算各自的数据源方变量对应的线性函数,除数据源代表方外的其他数据源方根据密钥进行加密后发送给标签方;

50、标签方模型参数更新模块:标签方基于多方伽马回归模型计算标签方变量对应的线性函数,并整合其他数据源方发送的数据源方变量对应的线性函数密文计算除数据源代表方外的样本的线性函数密文,加盐并发送给数据源代表方以计算总样本的损失函数导数的密文,基于损失函数导数的密文计算标签方变量梯度的密文,加盐后通过数据源代表方解密,并由标签方去盐以计算标签方变量的梯度,更新标签方相关的模型参数;

51、数据源代表方模型参数更新模块:标签方对损失函数导数的密文加盐,并通过数据源代表方解密和去盐,得到以标签方密钥加密的损失函数密文,数据源代表方基于以标签方密钥加密的损失函数密文计算数据源代表方变量梯度的密文,加盐并通过标签方解加密后进行解密和去盐,计算得到数据源代表方变量的梯度,更新数据源代表方相关的模型参数;

52、其他数据源方模型参数更新模块:数据源代表方将以标签方密钥加密的损失函数密文发送给其他各数据源方,其他各数据源方基于以标签方密钥加密的损失函数密文计算其他各数据源方变量梯度的密文,加盐并通过标签方解加密后进行解密和去盐,计算得到其他各数据源方变量的梯度,更新其他各数据源方相关的模型参数;

53、迭代模块:重复调用数据源方模型结果计算模块、标签方模型参数更新模块、数据源代表方模型参数更新模块、其他数据源方模型参数更新模块,直至多方伽马回归模型收敛或达到预设的迭代次数,完成多方伽马回归模型训练。

54、根据本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现所述的方法。

55、根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的方法。

56、与现有技术相比,本发明具有以下有益效果:

57、(1)本发明实现了隐私计算下的多方伽马回归建模及模型训练。在无需输出/传递任何原始数据的情况下,利用了可在密文状态下计算的同态加密手段和加盐的方式,只需拥有数据的多方传递结果即可完成联合建模,能够有效规避内部人员窜谋带来的安全性隐患,保证数据应用的合规。

58、(2)成本低:本发明在项目部署中减少了“可信第三方”的协调节点的部署,降低了部署成本。

59、(3)可扩展:无论是同态加密还是加盐的方式,本发明的安全性都是可以拓展的。用户可根据实际需求和应用场景,配置同态加密密钥的长度和随机数的大小范围。对于安全性要求较高的场景,可以选择较大的同态加密密钥的长度和随机数的大小范围,以满足数据合规需要;对于安全性要求较低的场景,可以选择较小的同态加密密钥的长度或仅使用简单加盐的方式,在提升运算速度同时减小传输量,实现安全性和计算速度、时间、带宽等物理资源的权衡,更好地满足不同场景的需求。

60、(4)准确性高:在准确性上,在同一数据集上使用相同的参数,本发明的计算结果与明文相比基本无损。


技术特征:

1.一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,用于实现标签方和多个数据源方之间的多方伽马回归模型训练,包括以下步骤:

2.根据权利要求1所述的一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,所述多方伽马回归模型表示为:

3.根据权利要求2所述的一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,所述s1包括以下步骤:

4.根据权利要求3所述的一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,所述s2具体为:数据源代表方和其他数据源方分别基于多方伽马回归模型计算各自的数据源方变量xhi对应的线性函数zhi,i=1,2,3,…n,i=1为数据源代表方,以数据源代表方公钥pkh加密得到密文除数据源代表方外的其他各数据源方将密文发送给标签方,其中,表示ckks同态加密的x密文,表示以数据源代表方密钥加密的x密文。

5.根据权利要求3所述的一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,所述s3包括以下步骤:

6.根据权利要求5所述的一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,所述s4包括以下步骤:

7.根据权利要求6所述的一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,所述s5包括以下步骤:

8.根据权利要求5所述的一种无需第三方的隐私计算下多方伽马回归模型训练方法,其特征在于,所述s6中,收敛通过损失函数进行判断,判断流程如下:

9.一种无需第三方的隐私计算下多方伽马回归模型训练装置,其特征在于,用于实现标签方和数据源方之间的多方伽马回归模型训练,包括:

10.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~8中任一项所述的方法。

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~8中任一项所述的方法。


技术总结
本发明涉及一种无需第三方的多方伽马回归模型训练方法、装置、设备及介质,其中方法包括:标签方和各数据源方分别生成密钥并进行密钥发送;各数据源方计算各自的数据源方变量对应的线性函数,并发送给标签方;标签方计算标签方变量对应的线性函数,并整合各数据源方的数据计算总样本的线性函数密文,根据相关数据结果计算损失函数导数密文并进一步计算标签方变量梯度,更新相关模型参数;数据源代表方基于损失函数导数的密文计算数据源代表方变量梯度,更新相关模型参数;其他各数据源方基于损失函数导数的密文计算其他各数据源方变量的梯度,更新相关模型参数;重复上述步骤直至模型收敛或达到预设的迭代次数,完成模型训练。与现有技术相比,本发明具有隐私性强、准确性好等优点。

技术研发人员:薛瑞东,孙朋慧,梅品
受保护的技术使用者:上海数据集团金融科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)