本发明实施例涉及psi,具体涉及一种基于秘密分享的群体稳定性评估方法和系统。
背景技术:
1、风控场景中,模型的稳定性是至关重要的,模型不稳定将直接影响决策者判断,这在风控业务中是不可接受的。psi是反映验证样本和训练样本的稳定性指标,在机器学习建模中,常用来筛选特征变量、评估模型的稳定性。
2、目前的psi算法只适用单方数据样本,而联邦学习场景下,需要多方参与计算样本psi,基于这种场景,一般做法是将参与方的样本发送给发起方,由发起方基于本方样本以及参与方的样本进行psi计算,这种方式存在非常严重的隐私数据泄漏风险。
技术实现思路
1、为了克服现有技术的不足,本发明实施例的目的在于提供一种基于秘密分享的群体稳定性评估方法和系统,其可以在数据不出域的情况下实现多方参与的psi计算,同时,也只有发起方可以获取明文的psi结果,极大提升了数据隐私保护。
2、为解决上述问题,本发明实施例第一方面公开一种基于秘密分享的群体稳定性评估方法,包括:
3、发起方根据本方特征对本方期望样本进行分箱处理,并根据分箱处理获取各箱期望样本数,基于所述各箱期望样本数计算各箱期望样本数占总期望样本数的比值,记为第一比值,同时将分箱切分点同步给参与方;
4、所述参与方根据接收的分箱切分点对本方验证样本进行分箱,并根据分箱处理获取各箱验证样本数,基于所述各箱验证样本数计算各箱验证样本数占总验证样本数的比值,记为第二比值;
5、发起方和参与方使用秘密分享算法分别将所述第一比值和第二比值进行秘密分片,分别记为第一秘密分片和第二秘密分片;
6、参与方将所述第二秘密分片发送给发起方,以使所述发起方根据所述第一秘密分片和所述第二秘密分片通过秘密分享算法计算各个本方特征的密态psi;
7、发起方利用所述秘密法算法的解密计算,基于各个本方特征的密态psi,获取各个本方特征的明文psi结果。
8、作为较佳的实施例,在本发明实施例的第一方面中,所述方法还包括:
9、发起方和参与方采用相同的逻辑对时间特征进行分组,得到多个时间周期;
10、计算每个时间周期的第一比值和第二比值、以及获取每个时间周期的第一秘密分片和第二秘密分片;
11、发起方根据每个时间周期的第一秘密分片和第二秘密分片获取各个本方特征在每个时间周期的明文psi结果。
12、本发明实施例第二方面公开一种基于秘密分享的群体稳定性评估系统,其包括第一电子设备和第二电子设备;
13、发起方使用第一电子设备根据本方特征对本方期望样本进行分箱处理,并根据分箱处理获取各箱期望样本数,基于所述各箱期望样本数计算各箱期望样本数占总期望样本数的比值,记为第一比值,同时将分箱切分点同步给参与方使用的第二电子设备;
14、所述第二电子设备根据接收的分箱切分点对本方验证样本进行分箱,并根据分箱处理获取各箱验证样本数,基于所述各箱验证样本数计算各箱验证样本数占总验证样本数的比值,记为第二比值;
15、第一电子设备和第二电子设备均使用秘密分享算法分别将所述第一比值和第二比值进行秘密分片,分别记为第一秘密分片和第二秘密分片;
16、第二电子设备将所述第二秘密分片发送给第一电子设备,以使所述第一电子设备根据所述第一秘密分片和所述第二秘密分片通过秘密分享算法计算各个本方特征的密态psi;
17、第一电子设备利用所述秘密法算法的解密计算,基于各个本方特征的密态psi,获取各个本方特征的明文psi结果。
18、作为较佳的实施例,在本发明实施例的第二方面中,其还包括:
19、第一电子设备和第二电子设备采用相同的逻辑对时间特征进行分组,得到多个时间周期;
20、第一电子设备和第二电子设备分别计算每个时间周期的第一比值和第二比值、以及分别获取每个时间周期的第一秘密分片和第二秘密分片;
21、第一电子设备根据每个时间周期的第一秘密分片和第二秘密分片获取各个本方特征在每个时间周期的明文psi结果。
22、与现有技术相比,本发明实施例的有益效果在于:
23、本发明实施例通过发起方进行分箱并将分箱点同步给参与方进行自行分箱,保证了发起方和参与方的数据均不出域,初步保护了数据隐私,然后将中间结果(第一比值和第二比值)通过秘密分享算法进行分片操作,实现明文的psi结果只有发起方可见,进一步保护了数据隐私。
1.一种基于秘密分享的群体稳定性评估方法,其特征在于,其包括:
2.根据权利要求1所述的基于秘密分享的群体稳定性评估方法,其特征在于,所述方法还包括:
3.一种基于秘密分享的群体稳定性评估系统,其特征在于,其包括第一电子设备和第二电子设备;
4.根据权利要求3所述的基于秘密分享的群体稳定性评估系统,其特征在于,其还包括: