本发明涉及一种基于深度强化学习的无人机蜂群通信质量优化系统及方法,属于数字通信。
背景技术:
1、例如公开号为cn114598440a的中国发明申请公开了一种基于二维混沌映射星座加密的ofdm传输方法及系统,该中国发明申请中,在发送信息时,将待传送的比特信息进行串并变换、ifft变换和并串变换;在接收信息时,将接收的信息进行串并变换、fft变换和并串变换,但是,现有技术系统参数是人为选择的,其通信质量低。
技术实现思路
1、为克服现有技术中存在的缺点,本发明的发明目的是提供一种基于深度强化学习的无人机蜂群通信质量优化系统及方法,其通过深度强化学习合理参数,大大地提高了通信质量。
2、为克服现有技术中存在的缺点,本发明一方面提供一种基于深度强化学习的无人机蜂群通信质量优化系统,其特征在于,包括中央控制设备和无人机蜂群,无人机蜂群中任一无人机均包括发送控制策略网络发信装置、接收控制策略网络和收信装置,式中,θ1为发送控制策略网络的参数,为发送状态,为发送动作,θ2为接受控制策略网络的参数,为接收状态,为接收动作;中央控制设备根据进行通信的无人机蜂群中无人机uk和无人机uj的发信装置的参数、收信装置的参数、发送动作、发送状态、接收动作、接收状态和奖励给该两个无人机发送误差;该两个无人机根据接收的误差修改发送控制策略网络、发信装置、接收控制策略网络和收信装置的参数。
3、为实现所述发明目的,本发明还提供相应于上述一种基于深度强化学习的无人机蜂群通信质量优化方法,所述方法包括如下步骤:
4、步骤1:中央控制设备根据无人机蜂群中进行通信的两个无人机uk和uj的发信装置的参数、收信装置的参数、发送动作、发送状态、接收动作、接收状态和奖励给该两个无人机发送误差;
5、步骤2:两个无人机根据接收的误差修改发送控制策略网络、发信装置、接收控制策略网络和收信装置的参数。
6、与现有技术相比,本发明提供的一种基于深度强化学习的无人机蜂群通信质量优化系统及方法具有如下有益效果:
7、1、其通过强化学习合理选择发信装置、收信装置的参数,大大地提高了通信质量;2、简化了通信系统,降低了成本。
1.一种基于深度强化学习的无人机蜂群通信质量优化系统,其特征在于,包括中央控制设备和无人机蜂群,无人机蜂群中任一无人机均包括发送控制策略网络发信装置、接收控制策略网络和收信装置,式中,θ1为发送控制策略网络的参数,为发送状态,为发送动作,θ2为接受控制策略网络的参数,为接收状态,为接收动作;中央控制设备根据进行通信的无人机蜂群中无人机uk和无人机uj的发信装置的参数、收信装置的参数、发送动作、发送状态、接收动作、接收状态和奖励给该两个无人机发送误差;该两个无人机根据接收的误差修改发送控制策略网络、发信装置、接收控制策略网络和收信装置的参数。
2.根据权利要求1所述的基于深度强化学习的无人机蜂群通信质量优化系统,其特征在于,中央控制设备包括第一强化学习模块,第一强化学习模块包括第一价值网络第一目标价值网络和第一误差计算器,式中,w1now为第一价值网络的参数,为第一目标价值网络的参数,和分别为进行通信的无人机uk的发送装置当时t的发送动作和发送状态,和分别为进行通信的无人机uj的接收装置当时t的接收动作和接收状态;对第一强化学习模块进行训练的过程包括:
3.根据权利要求2所述的基于深度强化学习的无人机蜂群通信质量优化系统,其特征在于,无人机uk和无人机uj接收中央控制设备发送来的δ1,并实施如下过程:
4.根据权利要求3所述的基于深度强化学习的无人机蜂群通信质量优化系统,其特征在于,中央控制设备还包括第二强化学习模块,第二强化学习模块包括第二价值网络第二目标价值网络和第二误差计算器,其中,w2now为第二价值网络的参数,为第二目标价值网络的参数;和分别为进行通信的无人机uk的接收装置当时t的接收动作和接收状态,和分别为进行通信的无人机uj的发送装置当时t的发送动作和发送状态;对第二强化学习模块进行训练的过程包括:
5.根据权利要求4所述的基于深度强化学习的无人机蜂群通信质量优化系统,其特征在于,无人机uk和无人机uj接收到中央控制设备发送来的第二误码差δ2,并实施如下过程:
6.一种基于深度强化学习的无人机蜂群通信质量优化方法,其特征在于,包括如下步骤:
7.根据权利要求6所述的基于深度强化学习的无人机蜂群通信质量优化方法,其特征在于,中央控制设备包括第一强化学习模块,第一强化学习模块包括第一价值网络第一目标价值网络和第一误差计算器,式中,w1now为第一价值网络的参数,为第一目标价值网络的参数,和分别为进行通信的无人机uk的发送装置当时t的发送动作和发送状态,和分别为进行通信的无人机uj的接收装置当时t的接收动作和接收状态;对第一强化学习模块进行训练的过程包括:
8.根据权利要求7所述的基于深度强化学习的无人机蜂群通信质量优化方法,其特征在于,无人机uk和无人机uj接收中央控制设备发送来的δ1,并实施如下过程:
9.根据权利要求8所述的基于深度强化学习的无人机蜂群通信质量优化系统,其特征在于,中央控制设备还包括第二强化学习模块,第二强化学习模块包括第二价值网络第二目标价值网络和第二误差计算器,其中,w2now为第二价值网络的参数,为第二目标价值网络的参数;和分别为进行通信的无人机uk的接收装置当时t的接收动作和接收状态,和分别为进行通信的无人机uj的发送装置当时t的发送动作和发送状态;对第二强化学习模块进行训练的过程包括:
10.根据权利要求9所述的基于深度强化学习的无人机蜂群通信质量优化方法,其特征在于,无人机uk和无人机uj接收到中央控制设备发送来的第二误差δ2,并实施如下过程:
