本发明涉及模型迁移,具体是涉及基于神经网络优化的不确定性场景下策略的快速迁移方法。
背景技术:
1、在传统的机器学习方法中,每当遇到一个新的任务时,通常需要重新收集数据、设计特征并从头开始训练模型。这一过程既耗时又耗费资源。模型迁移允许我们利用在类似任务上已经训练好的模型,通过微调或特征提取等方式,快速适应新任务,从而大幅缩短了训练时间,迁移学习中的源任务模型已经学习到了大量的先验知识,这些知识对于目标任务来说是有价值的。通过迁移学习,我们可以将这些先验知识应用到目标任务上,从而提升模型在新任务上的性能。
2、源任务模型是迁移学习中的基础,通过合理的构建源任务模型,可以快速有效的实现模型在不确定场景下的快速微调适应,现有技术中,针对源任务模型的训练,缺乏任务环境的整体性分析,源任务模型与任务环境不具有适配性,导致源任务模型在面对任务环境下的不确定性场景的迁移训练学习时,需要耗费大量的时间,模型迁移的效率不高。
技术实现思路
1、为解决上述技术问题,提供一种基于神经网络优化的不确定性场景下策略的快速迁移方法,本技术方案解决了上述的现有技术中,针对源任务模型的训练,缺乏任务环境的整体性分析,源任务模型与任务环境不具有适配性,导致源任务模型在面对任务环境下的不确定性场景的迁移训练学习时,需要耗费大量的时间,模型迁移的效率不高的问题。
2、为达到以上目的,本发明采用的技术方案为:
3、基于神经网络优化的不确定性场景下策略的快速迁移方法,包括:
4、获取所有已知场景下的决策任务;
5、基于所有已知场景下的决策任务的任务特征,构建每一个已知场景下的决策任务的任务特征集合;
6、基于决策任务日志,确定每一个已知场景下的决策任务的执行次数;
7、基于每一个已知场景下的的决策任务的任务特征集合和已知场景下的决策任务的执行次数,确定环境泛用特征数据;
8、基于环境泛用特征数据,调整环境泛用策略模型的神经网络参数;
9、基于调整的环境泛用策略模型的神经网络参数训练得到环境泛用策略模型;
10、调用环境泛用策略模型迁移应用于新场景下的决策任务,并基于环境泛用策略模型迁移在新场景下的决策任务执行情况进行迁移强化学习,得到新场景下的决策任务的场景决策任务模型。
11、优选的,所述基于每一个已知场景下的的决策任务的任务特征集合和已知场景下的决策任务的执行次数,确定环境泛用特征数据具体包括:
12、将所有已知场景下的的决策任务的任务特征集合求并集,得到任务特征总集合,记任务特征总集合为a,,其中,为第i个任务特征,为任务特征总集合的元素总数;
13、基于已知场景下的决策任务的执行次数,确定任务特征总集合中每个任务特征的基准执行次数,并构建基准执行次数集合b,,其中,为第i个任务特征的基准执行次数,等于所有包括的已知场景下的决策任务的执行次数总和;
14、基于基准执行次数集合b进行标准化处理,得到每个任务特征的训练侧重,并构建训练侧重集合c,;
15、其中,;为第i个任务特征的训练侧重;
16、将任务特征总集合和训练侧重集合封装为环境泛用特征数据。
17、优选的,所述基于环境泛用特征数据,调整环境泛用策略模型的神经网络参数具体包括:
18、设定环境泛用策略模型的训练集总数量,记为n;
19、确定所有已知场景下的决策任务的总个数,记为h;
20、从每个已知场景下的决策任务的历史执行事件中随机选择个执行结果作为神经网络的训练集;
21、从每个已知场景下的决策任务的历史执行事件中随机选择个不同于训练集的执行结果作为神经网络的第一测试集;
22、基于环境泛用特征数据,确定第二测试集。
23、优选的,所述基于环境泛用特征数据,确定第二测试集具体包括:
24、基于环境泛用特征数据,构建第二测试集的生成限制条件;
25、基于第二测试集的生成限制条件从所有已知场景下的决策任务的历史执行事件中选择个执行结果作为第二测试集;
26、所述第二测试集的生成限制条件具体为:;
27、为第二测试集中的执行结果对应的决策任务包括的历史执行事件数量。
28、优选的,所述基于调整的环境泛用策略模型的神经网络参数训练得到环境泛用策略模型具体包括:
29、基于环境泛用策略模型的属性,确定环境泛用策略模型训练过程中的损失值函数,记为;
30、基于构建环境泛用策略模型训练过程中的正则化损失值函数,记为;
31、其中,所述正则化损失值函数具体为:;
32、其中,为l1正则化项的系数,为l2正则化项的系数,为神经网络的第j个参数;
33、通过调整正则化损失值函数中的和得到若干个不同的正则化损失值函数;
34、基于每个正则化损失值函数训练得到若干个初步环境泛用策略模型;
35、计算每个初步环境泛用策略模型在第一测试集和第二测试集上的综合损失值;
36、筛选出综合损失值最小的初步环境泛用策略模型,作为最终的环境泛用策略模型。
37、优选的,所述基于每个正则化损失值函数训练得到若干个初步环境泛用策略模型具体包括:
38、s1、将训练集的输入特征输入神经网络,神经网络基于训练集的输入特征生成对应的预测值;
39、s2、基于预测值与训练集的真实值,通过正则化损失值函数计算神经网络对于训练集的损失值;
40、s3、判断神经网络的迭代次数是否大于阈值,若是,则输出训练的神经网络参数,得到初步环境泛用策略模型,若否,则基于神经网络对于训练集的损失值,通过反向传播算法,计算损失函数对神经网络中每个参数的梯度,并根据每个参数的梯度信息更新神经网络中的参数,并返回步骤s1。
41、优选的,所述通过调整正则化损失值函数中的和,得到若干个不同的正则化损失值函数具体包括:
42、设定的搜索范围和的搜索步长,基于的搜索步长从的搜索范围取若干个值,组成的搜索值集合;
43、设定的搜索范围和的搜索步长,基于的搜索步长从的搜索范围取若干个值,组成的搜索值集合;
44、将的搜索值集合和的搜索值集合中的元素进行任意的两两组合,得到若干组搜索值组合;
45、基于搜索值组合,生成对应的正则化损失值函数。
46、优选的,所述计算每个初步环境泛用策略模型在第一测试集和第二测试集上的综合损失值具体包括:
47、分别将第一测试集和第二测试集的输入特征输入初步环境泛用策略模型,得到第一测试集对应的初步环境泛用策略模型预测值和第二测试集对应的初步环境泛用策略模型预测值;
48、基于第一测试集的真实值和第二测试集的真实值和第一测试集对应的初步环境泛用策略模型预测值和第二测试集对应的初步环境泛用策略模型预测值,通过损失值函数,计算初步环境泛用策略模型对于第一测试集的损失值和第二测试集的损失值;
49、基于初步环境泛用策略模型对于第一测试集的损失和第二测试集的损失值,通过综合损失公式,计算初步环境泛用策略模型在第一测试集和第二测试集上的综合损失值;
50、所述综合损失公式的表达式为:;
51、式中,为初步环境泛用策略模型在第一测试集和第二测试集上的综合损失值,为初步环境泛用策略模型对于第一测试集的损失值,为初步环境泛用策略模型对于第二测试集的损失值,为环境侧重系数,环境侧重系数的取值范围为。
52、与现有技术相比,本发明的有益效果在于:
53、1.通过综合分析多个不同应用场景下的任务特征,该方法能够准确捕捉执行环境的综合任务特征。这种能力使得构建的模型不仅能够在训练环境中表现良好,还能够在更广泛的实际环境中展现高度的适配性;
54、2.结合第一测试集和第二测试集,该策略能够更全面、细致地评估环境泛用策略模型的泛用能力和特定环境下的应对能力。这种双重验证机制有助于提升模型的可靠性和鲁棒性;
55、3.在面对不确定性场景时,传统的迁移学习方法往往需要大量的时间和数据来适应新环境。而本方法通过神经网络的优化和双重测试集的评估,能够在较短时间内完成模型对新环境的适应,显著缩短了迁移学习的时间,提高了迁移效率。
1.基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,包括:
2.根据权利要求1所述的基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,所述基于每一个已知场景下的的决策任务的任务特征集合和已知场景下的决策任务的执行次数,确定环境泛用特征数据具体包括:
3.根据权利要求2所述的基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,所述基于环境泛用特征数据,调整环境泛用策略模型的神经网络参数具体包括:
4.根据权利要求3所述的基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,所述基于环境泛用特征数据,确定第二测试集具体包括:
5.根据权利要求4所述的基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,所述基于调整的环境泛用策略模型的神经网络参数训练得到环境泛用策略模型具体包括:
6.根据权利要求5所述的基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,所述基于每个正则化损失值函数训练得到若干个初步环境泛用策略模型具体包括:
7.根据权利要求6所述的基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,所述通过调整正则化损失值函数中的和,得到若干个不同的正则化损失值函数具体包括:
8.根据权利要求7所述的基于神经网络优化的不确定性场景下策略的快速迁移方法,其特征在于,所述计算每个初步环境泛用策略模型在第一测试集和第二测试集上的综合损失值具体包括:
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的基于神经网络优化的不确定性场景下策略的快速迁移方法。
