基于深度强化学习的无人机辅助通信路径规划方法及系统

xiaoxiao22小时前 4

本发明属于深度强化学习及无人机辅助通信，具体涉及基于深度强化学习的无人机辅助通信路径规划方法及系统。

背景技术：

1、随着5g通信技术的发展，科技不断进步，无人机通信技术也随之快速发展。由于其机动性、灵活性和自适应高度的特点，在无线系统中具有巨大的应用潜力。无人机在现代生活使用得越来越广泛，已经成为现代社会中的重要工具和关键组成部分。无人机由于其可不受地面障碍物影响，可深入到受灾区域内部的上空进行紧急通信救援任务，被广泛应用于监测、侦察、物流配送、紧急救灾救援等领域。在复杂动态环境中，如何高效地规划无人机的飞行路径以优化通信质量和资源利用率成为一个亟待解决的问题。

2、多无人机系统应用多智能体深度强化学习技术为无人机路径规划算法提供新的思路。通过多个智能体的协作实现最大化通信覆盖，可实现多无人机在复杂环境中高效的路径规划。基于多智能体深度强化学习的无人机辅助通信路径规划系统及方法，结合了无人机技术和智能决策算法的优势，为解决无人机在复杂环境中的路径规划问题提供了一种有效的解决方案。该系统不仅能够提高通信质量和资源利用率，还具备较强的适应性和鲁棒性，具有广阔的应用前景。但在实际应用中，多无人机在辅助通信方面的路径规划合作效率上，及飞行任务分配合理性上，仍有待提升。

技术实现思路

1、为解决现有技术的不足，实现提升多无人机在提供辅助通信方面的路径规划合作效率及飞行任务分配合理性的目的，本发明采用如下的技术方案：

2、基于深度强化学习的无人机辅助通信路径规划方法，包括如下步骤：

3、步骤s1：根据实际的多无人机基站通信覆盖任务场景，为无人机设定任务区域，设定地面用户设备分布信息，构建无人机基站与地面通信信息；

4、步骤s2：多无人机系统通过机载基站实时获取地面用户通信设备的相关信息；

5、步骤s3：将多无人机各自采集的所述通信设备相关信息与所述地面用户设备分布信息，输入多智能体深度强化学习的神经网络，将每台无人机飞行过程中采集到的信息结合作为状态s输入，神经网络根据输入的信息得到下一步的动作策略π以及获得算法奖励r，根据动作策略及算法奖励对神经网络进行训练，并将训练好的神经网络用于无人机辅助通信路径规划。

6、进一步地，所述步骤s1中的系统环境模型，设定整个任务区域的大小为sx,y＝lx*ly，lx、ly表示任务区域的长宽，地面的受灾人员个数为m＝{1,2,3...m}，多无人机系统的无人机个数为n，且每台无人机的位置坐标为pui＝(uxi,uyi),i∈n，(uxi,uyi)表示第i台无人机的横轴纵轴坐标，随着通信任务的进行中，无人机系统的位置坐标将变化，但不会超出限定的任务区域即ux∈[0,lx],uy∈[0,ly]。

7、进一步地，所述步骤s1中的地面用户分布模型，是将受灾人员位置建模为随机生成的n个簇的受灾人员位置，其簇的中心建模为泊松簇过程(possion cluster process，pcp)，每个簇的集群个数随机生成mi，其中m1+m1+...+mi+...+mn＝m，每个簇受灾人员的位置由方差σ2的托马斯簇过程(thomas cluster process，tcp)建模分布在每个簇中心的周围，由于受灾人员一般在倒塌的房屋下，所以本发明认定受灾人员的位置不会随着时间推移而变化，其位置坐标表示为pm＝[xm,ym,zm]，m∈[0,m]。

8、进一步地，所述步骤s1中的空对地通信模型，即无人机基站与地面通信传输模型，是一个既包含视距链路和非视距链路的概率传播模型，用于获取信号在发生视距传播和非视距传播时，产生的损耗分别为pllos和plnlos：

9、

10、其中，fc表示载波频率，c表示光速，d表示无人机与地面受灾人员之间的欧氏距离，θlos和θnlos表示视距链路和非视距链路损耗的平均额外损耗，这两个参数的大小仅仅与环境有关；

11、无人机基站对地通信的视距传播概率方程和非视距传播概率方程：

12、

13、p(nlos)＝1-p(los)

14、

15、其中，a,b为常数，大小取决于所处区域的环境(城市、农村等)，θ表示基站发射信号端和用户接收端之间的俯仰角，h表示无人机飞行高度，r表示无人机和地面受灾人员的水平距离。

16、进一步地，所述步骤s2中，由于地面信息是未知的，无法知道传播过程是视距损失还是非视距损失，考虑平均概率的路径损耗，则用户接收的信号平均路径损失为：

17、pl＝p(los)*pllos+p(nlos)*plnlos

18、

19、进一步地，所述步骤s2中，无人机基站发送的信号功率固定为pt，则无人机与地面用户i通信链路中的信噪比为：

20、

21、其中，gi表示信道增益，为路径损耗的倒数，σ表示高斯噪声，为了保证能够在不影响通信的情况下，设定一个信噪比sinr阈值，当超过信噪比阈值时，认为该用户与无人机建立了通信连接，使用香农容量公式表示无人机基站和地面用户i之间的数据传输速率ri：

22、ri＝bilog(1+sinri)

23、其中，bi为地面用户i和无人机通信时所占用的带宽。

24、进一步地，所述步骤s3中，输入的状态信息如下：

25、单台无人机及其基站所处的状态oti＝{ux,uy,{σ}}，其中(ux,uy)表示单台无人机的二维位置坐标，{σ}定义为选择接入无人机的地面用户设备列表，以向量形式表示，整个系统的全局状态由多无人机系统中每台无人机的状态信息拼接，全局状态为s＝{ot1,…,oti},i∈n，其中n为多无人机系统的无人机数量，将单台无人机基站在二维平面上的运动作为动作，构建的无人机动作空间a便由飞行方向θ及飞行速度v确定。

26、进一步地，所述步骤s3中，神经网络结合了遗传算法和maddpg多智能体深度强化学习算法网络，将maddpg算法中每个策略网络训练添加遗传算法中的交叉变异，对于每个智能体，推出多个群体，通过对群体进行评估，选择出表现最好的团队作为精英团队，然后进行交叉变异，提升群体的性能，最终选出最优的群体作为每个无人机的智能体组成多智能体群体。

27、进一步地，所述步骤s3中，获得的算法奖励r，其奖励函数为：

28、

29、其中，rd表示奖励系数，kr是fm的指数系数，fm表示多无人机通信系统为地面通信设备的公平性系数其中sm表示单个无人机在某时刻服务的地面用户的数量。cm,n表示单个无人机与地面用户通信的传输速率，cmean表示为多无人机系统与地面用户通信的平均传输速率，表示无人机超出限定区域的惩罚，rb、kb表示惩罚系数，umax、umin为最大、最小值，表示限定区域的边界，um表示无人机此时的坐标。

30、基于深度强化学习的无人机辅助通信路径规划系统，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的基于深度强化学习的无人机辅助通信路径规划方法。

31、本发明的优势和有益效果在于：

32、本发明搭建了更加符合实际的地面人员分布，并将这些模型建立成虚拟环境模型完成无人机的训练，使得仿真环境更加真实；本发明应用多智能体深度强化学习，将遗传算法与maddpg深度强化学习结合，改变网络结构，使得网络模型更适合解决相应场景下的通信问题。

技术特征：

1.基于深度强化学习的无人机辅助通信路径规划方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s1中的系统环境模型，设定整个任务区域的大小为sx,y＝lx*ly，lx、ly表示任务区域的长宽，地面的受灾人员个数为m，多无人机系统的无人机个数为n，且每台无人机的位置坐标为pui＝(uxi,uyi),i∈n，(uxi,uyi)表示第i台无人机的横轴纵轴坐标。

3.根据权利要求1所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s1中的地面用户分布模型，是将受灾人员位置建模为随机生成的n个簇的受灾人员位置，其簇的中心建模为泊松簇过程，每个簇的集群个数随机生成mi，每个簇受灾人员的位置由方差σ2的托马斯簇过程建模分布在每个簇中心的周围，受灾人员的位置坐标表示为pm＝[xm,ym,zm]，m∈[0,m]。

4.根据权利要求1所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s1中的空对地通信模型，用于获取信号在发生视距传播和非视距传播时，产生的损耗分别为pllos和plnlos：

5.根据权利要求4所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s2中，用户接收的信号平均路径损失为：

6.根据权利要求1所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s2中，无人机基站发送的信号功率固定为pt，则无人机与地面用户i通信链路中的信噪比为：

7.根据权利要求1所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s3中，输入的状态信息如下：

8.根据权利要求1所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s3中，神经网络结合了遗传算法和maddpg多智能体深度强化学习算法网络，将maddpg算法中每个策略网络训练添加遗传算法中的交叉变异，对于每个智能体，推出多个群体，通过对群体进行评估，选择出表现最好的团队作为精英团队，然后进行交叉变异，最终选出最优的群体作为每个无人机的智能体组成多智能体群体。

9.根据权利要求1所述的基于深度强化学习的无人机辅助通信路径规划方法，其特征在于：所述步骤s3中，获得的算法奖励r，其奖励函数为：

10.基于深度强化学习的无人机辅助通信路径规划系统，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-9中任一项所述的基于深度强化学习的无人机辅助通信路径规划方法。

技术总结
本发明公开了基于深度强化学习的无人机辅助通信路径规划方法及系统，根据实际的多无人机基站通信覆盖任务场景，为无人机设定任务区域，设定地面用户设备分布信息，构建无人机基站与地面通信信息；多无人机系统通过机载基站实时获取地面用户通信设备的相关信息；将多无人机各自采集的所述通信设备相关信息与所述地面用户设备分布信息，输入多智能体深度强化学习的神经网络，基于MADDPG深度确定性策略梯度算法框架，并结合将遗传算法，将多无人机辅助通信任务通过设立符合实际情况的奖励函数为多无人机系统能够最快的找到飞行路径提供帮助。本发明能够实现多无人机系统通过合作方式，自主决策飞行轨迹，提升通信覆盖效率，获得更好的性能。

技术研发人员：杨先登,岳克强,李文钧
受保护的技术使用者：杭州电子科技大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)