本发明涉及了雷达资源分配调度,具体涉及了基于近端策略优化的机载雷达引导搜索决策方法及系统。
背景技术:
1、当前,在集群目标超视距大空域分布场景下,机载雷达引导搜索任务需要结合雷达搜索空域集合覆盖决策和搜索性能优化算法进行多维复杂决策。一方面结合战场目标和我方载机态势信息以及对应雷达搜索资源等因素特征,确定各空域搜索方位及搜索次序,实现搜索空域对目标潜在位置的精准覆盖,进而发挥最大的搜索效能;另一方面基于目标引导信息优化待搜索空域内部雷达搜索性能,确定子空域划分策略和子空域内部搜索波位编排策略,计算不同搜索任务资源负载下的对应子空域波束驻留时间和波位搜索数据率,构建不同搜索任务资源负载下的全局雷达搜索性能优化模型。
2、集群目标大空域分布场景下的雷达空域引导搜索问题需要构建空域覆盖决策模型,并采用高精度实时求解算法,实现空域引导搜索方案的高质量在线生成。蒋建林,程坤,王璨璨等人在数学的实践与认识,2012,42(05):120-126中发表《基于改进遗传算法的集合覆盖问题》中指出一种改进遗传算法来解决集合覆盖问题,主要针对初始种群生成,不可行解的修补,多点交叉的推广几个方面进行改进。然而,现有研究主要关注对典型问题算法求解性能的提升,缺乏处理实际目标高动态约束能力,对空域任务以及雷达资源等约束研究较少。关于载机雷达待搜索空域确定后的搜索性能优化问题,传统雷达最优搜索模型通常需要结合目标引导信息和本机雷达性能及占位信息,确定子空域划分和波位编排策略,分别针对不同搜索参数和子空域搜索资源分配进行优化。
3、因此,在集群目标超视距大空域分布场景下,上述雷达引导搜索任务需要构建搜索空域集合覆盖在线决策模型,并基于双方态势信息和载机雷达参数优化决策空域集内部搜索性能。针对上述多维决策问题,传统决策方法则需要事先确定好优化目标和约束条件,且只能在已知的搜索空间内寻找最优解,难以满足未来高动态作战的实时决策需求。
技术实现思路
1、针对现有技术中的不足,本发明提供了基于近端策略优化的机载雷达引导搜索决策方法及系统,解决了集群目标大空域超视距分布场景下雷达引导搜索问题,具备较好的鲁棒性和收敛性。
2、本发明的目的是由以下技术方案实现的:
3、一种基于近端策略优化的机载雷达引导搜索决策方法,包括:
4、s1、构建包括上层策略模块和底层策略模块的决策模型,所述上层策略模块包括策略网络及价值网络;
5、s2、通过步骤s1得到的决策模型采集雷达轨迹,使用雷达轨迹进行上层策略模块策略网络和价值网络的训练,更新策略网络参数和价值网络参数;
6、s3、将当前观测状态输入步骤s2训练好的决策模型,基于上层策略模块得到待搜索空域方位坐标,基于底层策略模块得到雷达波束驻留时间及波位搜索数据率,实现集群目标空域超视距分布场景下雷达引导搜索任务的决策。
7、作为本发明的进一步改进,所述空域集合覆盖模型满足每一个目标都能够被空域集合中的至少一个空域覆盖,且该空域集合的所有空域代价之和最小,计算表达式为:
8、
9、xj∈{0,1},j=1,2,...,m.
10、式中,cj为空域集合x中第j空域代价,j为空域集合x中的某一空域,m为空域集合x中的总空域数量,n为目标总数量,当aij=1时表示为第i个目标被第j个空域覆盖,aij=0时表示第i个目标没有被第j个空域覆盖,xj=1为第j空域包含在空域集合x内,xj=0表示第j空域不在空域集合x中。
11、作为本发明的进一步改进,空域代价的计算表达式为:
12、
13、其中,nj为引导搜索开始时刻,根据引导信息计算的落入第j空域的目标数目,sj为第j空域的覆盖区域,pdj/sj为随着搜索进行,第j空域的单位面积上对所有目标的综合截获概率,所述综合截获概率pdj根据第j空域的覆盖区域和基于恒速目标位置分布概率的高斯混合模型计算得到。
14、作为本发明的进一步改进,上层策略模块的网络结构包括依次连接的长短期记忆神经网络层、多头注意力机制单元和全连接神经网络层。
15、作为本发明的进一步改进,雷达搜索参数优化模型包括基于集群目标最大期望发现距离的子空域波束驻留时间优化模型,和基于集群目标最大平均积累发现概率的子空域波位搜索数据率优化模型,所述子空域波束驻留时间优化模型为:
16、
17、式中,为整个搜索空域的目标加权期望发现距离,n表示子空域数量,αi为子空域威胁度权系数,ωi为各子空域与雷达系统相关的常数,τsi表示为子空域i的波束驻留时间,snrd表示雷达探测距离处的回波信噪比,ns表示子空域搜索波位数,vk表示目标速度;n表示目标数目,wk表示目标的归一化威胁度系数,满足
18、所述子空域波位搜索数据率优化模型为:
19、
20、式中,pd0为雷达对目标的检测概率,其中一个雷达搜索帧周期tf内对子空域第j空域内的第k波位进行了次重照,为目标i对应的各波位搜索数据率,为目标出现在此波位上的概率。
21、作为本发明的进一步改进,上层策略模块的观测空间、动作空间分别为:
22、
23、式中,为上层策略模块的观测空间,为上层策略模块的动作空间,u表示未发现目标集合,分别表示引导信息包含的目标方位和俯仰坐标信息,所述观测空间为可变观测空间,azimuth_center为方位角中心,pitch_center为俯仰角坐标。
24、作为本发明的进一步改进,底层策略模块的观测空间、动作空间分别为:
25、
26、式中,为底层策略模块的观测空间,为底层策略模块的动作空间,τsi表示为子空域i的波束驻留时间,为目标i对应的各波位搜索数据率,n表示子空域数量,ns表示子空域搜索波位数。
27、作为本发明的进一步改进,所述决策模型的训练过程包括:
28、所述决策模型的训练过程包括:
29、初始化上层策略模块中的策略网络、价值网络、策略网络参数和价值网络参数,策略网络学习率、价值网络学习率、初始化最大训练步数、最大回合步数、经验回放池;
30、根据当前更新步的观测状态,基于上层策略模块和底层策略模块得到综合动作,执行综合动作得到该步综合奖励函数和转移状态,将该步的观测状态、综合动作、奖励函数以及转移状态组成四元组存入经验回放池,基于此步骤循环更新,直至经验回放池的四元组数据量达到设定的最小训练数据量时,从经验回放池中选取若干个四元组输入至所述上层策略模块中,根据策略网络学习率和四元组不断更新策略网络参数,根据价值网络学习率、期望价值更新价值网络参数,更新完毕后判断是否达到最大训练步数,若未达到重新采集轨迹继续训练,直至达到最大训练步数后,得到训练后的策略网络和价值网络。
31、作为本发明的进一步改进,所述决策模型对应的回合综合奖励函数为:
32、
33、式中,reward1为基于贪心算法得到的奖励函数;reward2为过程奖励函数;reward3为回合搜索空域冗余度奖励函数,所述回合搜索空域冗余度奖励函数根据训练步数和搜索空域重合面积得到;reward4为底层策略模块优化效果奖励函数,所述底层策略模块优化效果奖励函数根据搜索空域的目标加权期望发现距离和集群目标综合积累发现概率得到,reward5为回合任务完成度奖励函数,所述回合任务完成度奖励函数根据训练的最大回合步长得到,t表示回合总执行步数,表示每次搜索空域前的未发现目标数,表示搜索完成后的未发现目标数。
34、本发明还提供了一种基于近端策略优化的机载雷达引导搜索决策系统,基于上述的基于近端策略优化的机载雷达引导搜索决策方法,包括:
35、构建模块,构建包括上层策略模块和底层策略模块的决策模型,上层策略模块包括策略网络及价值网络;
36、训练模块,通过决策模型采集轨迹,使用轨迹进行上层策略模块策略网络和价值网络的训练,更新策略网络参数和价值网络参数;
37、测试模块,将当前观测状态输入训练好的决策模型,得到待搜索空域方位坐标和雷达波束驻留时间及波位搜索数据率,实现集群目标空域超视距分布场景下雷达引导搜索任务的决策。
38、本发明的有益效果在于:本发明的一种基于近端策略优化的机载雷达引导搜索决策方法及系统,针对集群目标引导信息分别构建上层策略模块和底层策略模块,上层策略模块包括策略网络及价值网络,基于对上层策略模块的强化学习训练,策略网络能够得到待搜索空域方位坐标,价值网络进一步评价策略网络的决策动作的优劣,而底层策略模块得到雷达波束驻留时间及波位搜索数据率,进一步优化上层策略模块得到的结果,在强化学习环境中训练后可根据当前观测状态迅速得到精确的自主决策。本发明设计的基于近端策略优化的雷达引导搜索智能决策方法能够有效解决集群目标大空域超视距分布场景下雷达引导搜索问题,具备较好的鲁棒性和收敛性。
1.一种基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,包括:
2.根据权利要求1所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,所述上层策略模块基于空域集合覆盖模型构建得到,所述空域集合覆盖模型满足每一个目标都能够被空域集合中的至少一个空域覆盖,且该空域集合的所有空域代价之和最小,计算表达式为:
3.根据权利要求2所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,空域代价的计算表达式为:
4.根据权利要求1所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,上层策略模块的网络结构包括依次连接的长短期记忆神经网络层、多头注意力机制单元和全连接神经网络层。
5.根据权利要求1所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,所述底层策略模块基于雷达搜索参数优化模型构建得到,雷达搜索参数优化模型包括基于集群目标最大期望发现距离的子空域波束驻留时间优化模型,和基于集群目标最大平均积累发现概率的子空域波位搜索数据率优化模型,所述子空域波束驻留时间优化模型为:
6.根据权利要求1所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,上层策略模块的观测空间、动作空间分别为:
7.根据权利要求6所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,底层策略模块的观测空间、动作空间分别为:
8.根据权利要求1所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,所述决策模型的训练过程包括:
9.根据权利要求8所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,所述决策模型对应的回合综合奖励函数为:
10.一种基于近端策略优化的机载雷达引导搜索决策系统,基于权利要求1-9任一项所述的基于近端策略优化的机载雷达引导搜索决策方法,其特征在于,包括: