本发明属于无人机路径规划及隐蔽通信,具体涉及一种大容量低能耗的无人机隐蔽通信方法。
背景技术:
1、为了推动空天地网络的建设,利用无人机(uav)辅助的下一代空间网络已经被广泛应用多种场景,例如获取生态系统监测数据、应急救援、自然资源勘探、工厂监控、提供导航辅助、通信覆盖等。然而,脆弱的无线通信环境(时变和开放的信道、强环境噪声、严重的信号衰减)对建立稳定的无人机辅助通信系统提出了重大挑战。不稳定的无线通信链路给潜在的窃听者截获的机会,在这种情况下,恶意窃听者可以轻松检测到无人机的信号泄漏,获取敏感信息,包括控制命令、任务目标和传输内容。
2、目前大多数研究考虑的都是静态场景下的防窃听机制,没有考虑无人机在进行飞行任务时所遭受的窃听威胁,如何规划无人机飞行轨迹和信号发送策略,保护无人机飞行全过程中避免被窃听者窃听是一个关键问题。
3、现有的路径规划算法包括a*算法、快速随机树(rapidly exploring randomtree,rrt)算法、dijkstra算法、遗传算法和蚁群算法等。这些常用的路径规划算法通常只能用于实现避障或路径最短,无法适用于限制条件更高、约束条件非凸的任务场景,例如无人机能耗、通信吞吐量优化。
4、现有的隐蔽通信方法包括1)隐蔽功率控制;2)隐蔽波形设计,3)隐蔽信号调制,4)隐蔽频率/时间跳变。隐蔽功率控制通过自适应地改变传输功率,以便与窃听者信道上的噪声相融合,防止被窃听者窃听;隐蔽波形设计包含直接序列扩频谱(dsss)技术等,通过带宽扩展,降低功率谱密度,防止被窃听者窃听;隐蔽信号调制通过扩大带宽来隐藏通信链路,例如正交频分复用(ofdm);时间/频率跳变技术的设计原理是在通信过程中动态改变传输频率或时间,在收发器之间采用共享的跳变模式防止被窃听者窃听。
5、虽然上述技术提供了实现隐蔽通信的不同方法,但它们并不适用于动态环境,特别是在移动无人机和地面基站之间建立大容量的安全链路。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种大容量低能耗的无人机隐蔽通信方法,旨在规划无人机的轨迹,完成对目标区域的探测、勘察和测量等任务。
2、为达到上述目的,本发明提供如下技术方案:
3、一种大容量低能耗的无人机隐蔽通信方法,包括以下步骤:
4、s1:构建无人机隐蔽通信的系统模型;
5、s2:构建无人机隐蔽通信模型;
6、s3:构建无人机的运动能耗模型;
7、s4:基于所述系统模型、通信模型和运动能耗模型,找到无人机的任务目标为找到最优的发射功率和航行轨迹,使窃听者的检测误差概率最大化,并以此构建优化问题和约束条件;
8、s5:利用多目标深度确定性策略梯度算法moddpg求解所述优化问题。
9、进一步,所述无人机隐蔽通信的系统模型中,令无人机的起始点的位置为(xs,ys,zs)、目标点的位置为(xd,yd,zd)、无人机的位置为(xuav,yuav,zuav)和窃听者的位置为(xe,ye,ze);记无人机从起始点到目标点耗费总时间为t,将总时间t均分为n个持续时间为τ的极短时隙,在每个时隙i内视无人机为匀速直线运动;在第i个时隙时,记无人机与地面基站间的距离为dar[i]=||ruav[i]||2,无人机与窃听者之间的距离为doe[i]=||ruav[i]-re||2。
10、进一步,所述无人机隐蔽通信模型具体包括:
11、无人机与基站之间的信道模型设为los信道,并设无人机在信号发射采用块衰落信道,无人机信号的信道增益在同一个块中保持不变;
12、无人机在运动过程中,在不同时隙无人机将选择是否与地面基站进行通信,用h1代表无人机向地面基站发射信号,用h0表示无人机未与地面基站通信;
13、当无人机与地面基站通信时,无人机将发送的消息映射到码字其中m为所用的信道数;在第i个时隙地面基站接收到的第j条信道的信号为:
14、
15、其中ps[i]、sj和har[i]分别表示第i个时隙中第j条信道的发射功率增益、发射信号以及无人机到地面基站的信道增益,nr[i]为接收点处的噪声信号,sj和nr[i]的大小分别服从高斯分布和
16、窃听者采用能量计监听区域内的信号能量,并根据接收信号的信噪比大小判断无人机是否正在与地面基站通信;在第i个时隙窃听者接收到的第j条信道的信号为:
17、
18、其中,ne[i]为窃听者处的噪声信号,其大小服从高斯分布
19、窃听者通过检测接收到的信号信噪比是否超过设定的功率门限判断无人机是否正在与地面基站通信;如果该信噪比大于门限值,则判定无人机正在给地面基站发送信号;如果该信噪比小于门限值,则判定无人机没有发送信号;窃听者采用最大似然比检测(likelihood ratio test,lrt)的方法来最小化它的检测误差,表示为:
20、
21、其中是在第i时隙内窃听者接收来自所有信道的信号之和,是窃听者设置的检测门限值;
22、采用相对熵构建无人机通信不被窃听者检测到的概率约束,其中和分别为h0和h1假设下窃听者接收信号的最大似然函数,分别可以表示为:
23、
24、
25、相对熵表示了h0和h1假设下窃听者接收信号的分布概率之间的距离,通过降低该相对熵,可以是窃听者无法分辨发送者是否发送信号,即实现隐蔽通信。
26、进一步,假设窃听者有无人机发射功率ps[i]和噪声功率ne[i]的先验信息,则窃听者设置的最优阈值为:
27、
28、其中,γe[i]是窃听者处信号的信噪比,为:
29、进一步,所述采用相对熵构建无人机通信不被窃听者检测到的概率约束,具体为:
30、
31、其中为:
32、
33、其中∈为无人机通信被窃听者检测到的概率。
34、进一步,所述无人机的运动能耗模型如下:
35、在每个时隙中,假设无人机处于准静态平衡状态,并假设其速度在每个时隙中保持不变;
36、记无人机在第i个时隙内的速度为无人机的推进能耗是水平推进能耗、垂直推进能耗和与流体阻力相关的剖面能耗的线性和,其中:
37、第i个时隙内的水平推进能耗eh[i]表示为:
38、
39、其中g=mg为无人机的重量,m和g表示无人机的质量和重力加速度;a为无人机在运动方向上的横截面积,ρl为空气质量密度,τ为每个时隙的长度;
40、第i个时隙内的垂直推进能耗ev[i]表示为:
41、
42、与流体阻力相关的剖面能耗为:
43、
44、其中为无人机的流体阻力与其物理结构之间的关系,vr[i]=vuav[i]-vc为无人机相对于空气的速度,vc是风速,cd表示阻力系数;
45、无人机在第i个时隙内的总能耗e[i]为:
46、
47、其中,和
48、进一步,所述优化问题和约束条件如下:
49、
50、和为无人机路径规划时的两个优化目标,分别表示最大化无人机通信吞吐量和最小化无人机运动能耗,其中γr[i]=|har[i]|2ps[i]/nr[i],δ为解码错误概率;约束c1是在接收方处的解码错误概率约束;约束c2限制了无人机的每条信道的发射功率;约束c3限制了无人机和地面基站之间的隐蔽性要求;约束条件c4和c5分别限制了每个时隙内无人机的最大位移和速度的变化,其中amax表示可取到的最大加速度。
51、进一步,步骤s5中,将无人机的路径规划和传输功率控制建模为一个有限的马尔可夫决策过程(markov decision processes,mdp)问题,无人机依赖于与环境的交互来调整其行动并学习最优策略,其状态空间、动作空间和奖励函数如下:
52、状态空间:
53、动作空间:
54、奖励函数:其中,ri[i]和r2[i]对应于有效吞吐量的最大化和无人机能耗的最小化,分别表示为:
55、
56、r3[i]和r4[i]为两个辅助奖励函数:
57、
58、
59、r3[i]表示无人机通信安全性能,r4[i]反映了对较长路径长度的的惩罚;
60、为4个奖励函数设置不同的权重,记为w=[w1,w2,w3,w4],则完整的奖励记为:r(si,ai)=riwt。
61、进一步,所述moddpg算法包含两个网络结构:演员(actor)网络和评论家(critic)网络,这两个网络都由在线网络和目标网络两个子网络组成;其中在线演员网络通过指定主策略ai=μ(si|θμ)将观察到的状态映射到行动,在线评论者网络估计值q(si,ai|θq),其中θμ和θq是两个在线网络的参数;
62、采用演员-评论家架构的两个目标网络,通过在更新前冻结目标网络的参数来计算目标值,目标网络的参数θμ和θq在初始化阶段从在线演员-评论家网络中复制,在更新网络参数时,从经验回放池中随机抽取一个小批量样本;
63、使用线性加权方法将奖励向量的元素转换为标量加权和,考虑到多个目标、约束条件之间的偏好,记权重为w=[w1,w2,w3,w4],在演员策略中加入一个随时间变化的衰减噪声基于来自经验回放池的变换,策略目标值函数为:
64、yi=riwt+γq′(si+1,μ′(si+l|θμ)|)θq).
65、优化在线评论家网络的步骤如下:首先计算在线评论家网络给出的目标值与q值之间的差值,然后使用梯度下降法将损失函数最小化,损失函数定义为差值的均方误差(mean squared error,mse):
66、
67、在线评论家网络的优化目标为最小化mse;
68、使用在线评论家网络给出的q值然后计算在线演员网络的策略μ(s|θμ)的梯度:
69、
70、在线演员网络的优化目标为最大化梯度。
71、进一步,moddpg算法步骤如下:
72、s51:输入权重参数向量w=[w1,w2,w3,w4];
73、s52:随机初始化在线演员网络参数μ(s|θμ)和在线评论家网络参数q(s,a|θq);初始化目标演员网络参数μ′和目标评论家网络参数q′:θμ′←θμ,θq′←θq;初始化经验回放池小批量集大小k,折扣因子γ,探索噪声目标演员网络和评论家网络的学习因子τa和τc;
74、s53:获得初始观测状态s1;
75、s54:在每一个步长,根据当前状态和噪声选取并实施动作
76、s55:执行动作ai,并观测奖励ri下一时刻状态si+1;
77、s56:将(si,ai,ri,si+1)存入经验回放池
78、s57:从中随机抽取k个小批次数据;
79、s58:对每一个数据,计算目标函数值yi:
80、
81、s59:通过最小化损失函数更新在线评论家网络参数;通过最大化策略梯度更新在线演员网络参数;
82、s510:更新目标网络参数:
83、θμ←τ0μ+(1-τ)θμ
84、θq←τθq+(1-τ)θq′
85、s511:探索噪声衰减:σ2←βσ2;
86、s512:令步长加1,返回步骤s54,直至最大步长;
87、s513:返回步骤s53重新训练,直到达到最大训练次数。
88、本发明的有益效果在于:本发明设计了一种考虑通信安全的、基于多目标优化的无人机路径规划策略,该策略在满足发送者(无人机)、接收者(地面基站)之间通信链路不被窃听者探测到的前提下,实现链路吞吐量、无人机运动能耗的帕累托最优,为无人机开展任务提供安全性能、通信性能、节能性能的三重保障。
89、本发明的其他优点、目标和特征将在随后的说明书中进行阐述,并且在某种程度上对本领域技术人员而言是显而易见的,或者本领域技术人员可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
1.一种大容量低能耗的无人机隐蔽通信方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:所述无人机隐蔽通信的系统模型中,令无人机的起始点的位置为(xs,ys,zs)、目标点的位置为(xd,yd,zd)、无人机的位置为(xuav,yuav,zuav)和窃听者的位置为(xe,ye,ze);记无人机从起始点到目标点耗费总时间为t,将总时间t均分为n个持续时间为τ的极短时隙,在每个时隙i内视无人机为匀速直线运动;在第i个时隙时,记无人机与地面基站间的距离为dar[i]=||ruav[i]||2,无人机与窃听者之间的距离为dae[i]=||ruav[i]-re||2。
3.根据权利要求1所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:所述无人机隐蔽通信模型具体包括:
4.根据权利要求1所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:假设窃听者有无人机发射功率ps[i]和噪声功率ne[i]的先验信息,则窃听者设置的最优阈值为:
5.根据权利要求1所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:所述采用相对熵构建无人机通信不被窃听者检测到的概率约束,具体为:
6.根据权利要求1所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:所述无人机的运动能耗模型如下:
7.根据权利要求1所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:所述优化问题和约束条件如下:
8.根据权利要求1所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:步骤s5中,将无人机的路径规划和传输功率控制建模为一个有限的马尔可夫决策过程mdp问题,无人机依赖于与环境的交互来调整其行动并学习最优策略,其状态空间、动作空间和奖励函数如下:
9.根据权利要求8所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:所述moddpg算法包含两个网络结构:演员(actor)网络和评论家(critic)网络,这两个网络都由在线网络和目标网络两个子网络组成;其中在线演员网络通过指定主策略ai=μ(si|θμ)将观察到的状态映射到行动,在线评论者网络估计值q(si,ai|θq),其中θμ和θq是两个在线网络的参数;
10.根据权利要求9所述的大容量低能耗的无人机隐蔽通信方法,其特征在于:moddpg算法步骤如下: