本发明涉及一种基于happo算法的无人机集群对抗决策优化方法、装置及存储介质,属于无人机控制。
背景技术:
1、随着科技的快速发展,无人机在替代人类执飞任务中展现了巨大优势,尤其是4d(dull,dirty,dangerous and deep)任务的复杂、多变、难以预测使得以小体积却速度快的低成本无人机脱颖而出。相对于单无人机作战模式,无人机集群作战模式不仅融合了单无人机的强大功能,并且更加注重无人机集群协同作战、共同抗击,以集结单一的作战能力优势以及集群协作能力优势。
2、随着无人机等智能化平台的不断发展,现代战役越来越呈现出智能化发展趋势,快节奏、强对抗导致的战场态势瞬息万变,无人系统面临的火力拦截和战场气象地理等复杂环境,要求对抗方案必须能够随之完成动态调整生成,对行动规划提出了非常高的效率要求。然而,面对大规模、快节奏的智能化对抗行动,传统的数学规划或仿生进化等行动规划方法,建模困难、计算速度慢,已很难满足智能化行动规划任务要求。
技术实现思路
1、本发明的目的在于提供一种基于happo算法的无人机集群对抗决策优化方法、装置及存储介质,旨在使得无人机集群在面临复杂战场态势时能够做出实时有效的动态调整,提高对抗作战实力及效率。
2、为解决上述技术问题,本发明是采用下述技术方案实现的:
3、一方面,本发明提供了一种无人机集群对抗决策优化方法,其包括:
4、获取目标点位置信息、红方无人机的位置与状态信息、蓝方无人机的位置与状态信息;
5、将各无人机作为决策者,将目标点位置信息、无人机的位置与态势信息作为状态,将无人机选择的航迹点作为动作,基于预设的奖励函数与折扣因子,将预先构建的无人机集群对抗决策优化模型转化为马尔可夫决策过程;
6、各无人机利用预先训练的深度强化神经网络,并基于所述目标点位置信息、红方无人机的位置与状态信息、蓝方无人机的位置与状态信息,对所述马尔可夫决策过程进行求解,得到优化后的无人机集群对抗策略。
7、本发明利用改进的多智能体算法happo进行学习,通过设计智能体的全局状态空间、动作空间、奖励函数等,通过多次迭代推演,使得智能体可以控制无人机在不同态势下做出最优的航迹规划以及对抗决策。
8、可选的,所述马尔可夫决策过程的状态,表示为:
9、;
10、式中,表示智能体的状态空间,表示红方无人机的坐标与战场长度的比值,表示红方无人机的坐标与战场宽度的比值,表示红方无人机的速度标量,表示红方无人机航向角与的比值,表示红方无人机与地面目标点的距离,表示红方无人机可观测范围的半径,表示地面目标点和红方无人机连线与红方无人机航向之间的夹角;表示蓝方无人机坐标与战场长度的比值,表示蓝方无人机坐标与战场宽度的比值,表示蓝方无人机的速度标量,表示蓝方无人机航向角与的比值,表示蓝方无人机和红方无人机连线与红方无人机航向之间的夹角,表示蓝方无人机与红方无人机的直线距离;
11、所述马尔可夫决策过程的动作为:无人机下一时刻的航迹点。
12、可选的,所述马尔可夫决策过程的奖励函数,表示为:
13、;
14、式中,表示智能体在时刻得到的综合即时奖励,表示撞击敌机的奖励,表示撞击敌机数量;表示撞击障碍物或进入威胁区域的惩罚,表示队友数量,表示靠近边界(boundary)时受到的出界威胁惩罚,表示价值场对无人机的引力,表示追击(chase)敌机时距离靠近的奖励,表示追击数量,表示受到敌机正面威胁的惩罚,表示正面敌机数量,、、及表示权重系数。
15、可选的,所述价值场对无人机的引力,表示为:
16、;
17、式中,表示价值场对智能体的价值,表示价值场的梯度,表示价值尺度因子,表示价值体的价值量,价值量为正表示奖励,价值量为负表示威胁,表示无人机距价值体的距离。
18、可选的,所述价值场对智能体的价值,表示为:
19、。
20、可选的,所述预先训练的深度强化神经网络,采用happo算法训练得到,其中,每个智能体享有一个actor网络,输入状态信息,输出智能体动作,所有智能体共享一个critic网络,输入状态信息,输出状态价值,所述actor网络及critic网络均为全连接网络,对应的网络层数及网络的神经元数量为超参数,训练过程包括:
21、各智能体使用actor网络与环境交互,生成一组样本数据,所述样本数据包括状态、动作、奖励及下一个状态,并根据所述样本数据,定义任意有序智能体的动作价值函数;
22、基于所述动作价值函数,得到多智能体的优势函数;以及,基于所述优势函数,得到多智能体的策略梯度;进而基于所述策略梯度,得到actor网络的损失函数;
23、计算critic网络输出的状态价值与目标状态价值,得到critic网络的损失函数;
24、使用优化器最小化相应的损失函数,并更新相关神经网络模型的参数;
25、基于训练结果判断是否达到预期要求,若未能达到预期,则调整奖励函数权重与相关超参数,继续进行训练;反之,则保存该场景下的智能体模型。
26、可选的,所述动作价值函数,表示为:
27、;
28、式中,表示动作价值函数,表示任意有序智能体,表示智能体编号,表示智能体动作,表示策略,表示之内和之外的智能体联合动作价值,表示状态,表示之间的智能体的联合动作,表示之外的智能体的联合动作,表示之外的智能体的策略,表示计算动作空间服从策略的动作价值函数均值。
29、可选的,基于动作价值函数,得到多智能体的优势函数,表示为:
30、;
31、式中,表示优势函数,表示和区间内智能体的联合动作价值,表示区间内的智能体联合动作价值,表示区间内的智能体联合动作,表示区间内的智能体联合动作。
32、可选的,基于优势函数,得到多智能体的策略梯度,表示为:
33、;
34、式中,表示策略梯度,表示区间内的智能体联合动作,表示智能体的旧策略,表示智能体的新策略,表示优势函数。
35、可选的,所述actor网络的损失函数,表示为:
36、;
37、式中,表示actor网络的损失函数,表示初始状态服从分布,智能体动作服从的优势函数均值,表示将新旧策略比值裁剪到之内,表示超参数,表示智能体的旧策略,表示智能体的新策略,表示智能体的动作,表示取括号内元素中最小值。
38、可选的,所述critic网络的损失函数,表示为:
39、;
40、式中,表示神经网络参数为的损失函数,表示为计算状态价值差值的均值,表示critic网络输出的状态价值,表示目标状态价值。
41、可选的,所述目标状态价值,表示为:
42、;
43、式中,表示折扣因子的次方,表示第步的奖励值,表示折扣因子的次方,表示状态的状态价值,表示网络参数为状态价值函数,表示时刻的状态,表示初始时刻。
44、第二方面,本发明还提供了一种无人机集群对抗决策优化装置,其包括:
45、信息获取模块,被配置用于,获取目标点位置信息、红方无人机的位置与状态信息及蓝方无人机的位置与状态信息;
46、优化模型转化模块,被配置用于,将各无人机作为决策者,将目标点位置信息、无人机的位置与态势信息作为状态,将无人机选择的航迹点作为动作,基于预设的奖励函数与折扣因子,将预先构建的无人机集群对抗决策优化模型转化为马尔可夫决策过程;
47、以及,策略优化模块,被配置用于,各无人机利用预先训练的深度强化神经网络,并基于所述目标点位置信息、红方无人机的位置与状态信息、蓝方无人机的位置与状态信息,对所述马尔可夫决策过程进行求解,得到优化后的无人机集群对抗策略。
48、第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行如第一方面所述的无人机集群对抗决策优化方法的步骤。
49、与现有技术相比,本发明所达到的有益效果:
50、本发明基于多智能体深度强化学习算法的无人机自主对抗决策流程可以涉及多个无人机智能体,利用优势函数分解和各智能体顺序策略更新机制提高无人机间的协作性,智能体按照一定顺序进行更新,后序智能体在更新时可以利用前序智能体已经更新过的策略,考虑了智能体之间的交互和协作,使得智能体可以控制无人机集群在不同态势下做出最优的航迹规划,以完成任务或实现特定的目标;另外,本发明还在奖励函数中融入价值场的设计,以使得连续辅助奖励更加平滑,引导性更好,实用性较强。
1.一种无人机集群对抗决策优化方法,其特征在于,包括:
2.根据权利要求1所述的无人机集群对抗决策优化方法,其特征在于,所述马尔可夫决策过程的状态,表示为:
3.根据权利要求1所述的无人机集群对抗决策优化方法,其特征在于,所述马尔可夫决策过程的奖励函数,表示为:
4.根据权利要求3所述的无人机集群对抗决策优化方法,其特征在于,所述价值场对无人机的引力,表示为:
5.根据权利要求1所述的无人机集群对抗决策优化方法,其特征在于,所述预先训练的深度强化神经网络,采用happo算法训练得到,其中,每个智能体享有一个actor网络,输入状态信息,输出智能体动作,所有智能体共享一个critic网络,输入状态信息,输出状态价值,所述actor网络及critic网络均为全连接网络,对应的网络层数及网络的神经元数量为超参数,训练过程包括:
6.根据权利要求5所述的无人机集群对抗决策优化方法,其特征在于,所述动作价值函数,表示为:
7.根据权利要求6所述的无人机集群对抗决策优化方法,其特征在于,所述actor网络的损失函数,表示为:
8.根据权利要求7所述的无人机集群对抗决策优化方法,其特征在于,所述critic网络的损失函数,表示为:
9.一种无人机集群对抗决策优化装置,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行权利要求1-8中任一项所述的无人机集群对抗决策优化方法的步骤。
