本技术涉及无人机调度,具体而言,涉及一种基于改进双层强化学习的无人机巡检调度方法及相关设备。
背景技术:
1、空天地一体化社会治理工作,需要使用无人机群对整个城市进行巡检,以及时发现各种城市违法、违规、违建等行为。
2、传统的无人机巡检系统中,无人机和机巢之间一一配对使用,无人机只在对应机巢附近的固定区域巡飞,需要充电时也只能返回对应的机巢充电,为了在规定周期内完成巡飞航拍任务,需要投入更多资源建设机巢和购买无人机,造成了严重的浪费,且由于无人机续航能力有限需要多次充电,采用固定区域巡飞,导致无人机来回飞行,浪费了大量时间和续航(一般地,返航充电的续航航程无法有效利用于巡检工作,因此浪费续航),且遇到突发情况时可调动的无人机资源也会受到限制,导致资源利用率低。
3、为此,需要寻求一种无人机巡检调度方法,减小机巢和无人机资源的浪费,提高城市巡检效率和资源利用率。
技术实现思路
1、本技术的目的在于提供一种基于改进双层强化学习的无人机巡检调度方法及相关设备,能够减小机巢和无人机资源的浪费,提高城市巡检效率和资源利用率。
2、第一方面,本技术提供了一种基于改进双层强化学习的无人机巡检调度方法,应用于无人机巡检系统的机巢,所述无人机巡检系统包括多个无人机和多个机巢,所述机巢之间通信连接;所述基于改进双层强化学习的无人机巡检调度方法包括步骤:
3、a1.对被巡检城市进行网格划分;
4、a2.在有无人机达到本机巢时,把到达本机巢的所述无人机作为目标无人机,更新当前的巡检任务完成情况信息和各机巢当前的时间占用情况信息,并根据网格划分结果和所述目标无人机的续航距离,确定所述目标无人机下一步能够到达的可达机巢,得到可达机巢集;
5、a3.根据当前的巡检任务完成情况信息和所述续航距离,利用基于深度强化学习算法的候选路径生成网络模型分别生成从本机巢到各所述可达机巢的最优路径,记为候选路径,得到候选路径集;
6、a4.根据当前的巡检任务完成情况信息、各机巢当前的时间占用情况信息和所述可达机巢集,利用基于深度强化学习算法的候选路径选取网络模型从所述候选路径集中选取一条候选路径作为目标路径;
7、a5.根据各机巢当前的时间占用情况信息和所述目标路径进行冲突判断,并根据冲突判断结果把所述目标路径分配给所述目标无人机或重新规划目标路径后分配给所述目标无人机。
8、采取上述方式进行无人机巡检调度,各无人机无需与各机巢一一配对使用,且各无人机无需在固定区域巡飞,从而有利于减小机巢和无人机的配置数量,提高机巢和无人机的利用率,减小机巢和无人机资源的浪费;此外,无人机巡飞过程无需返回固定的机巢充电,节约时间,提高城市巡检效率,而且减小无人机由于返航充电而无法被有效利用造成的无人机资源浪费,即使部分无人机由于突发情况而无法执行巡检任务,也能够调动其它无人机完成巡检任务,提高资源利用率。
9、优选地,步骤a1包括:
10、获取所述被巡检城市的边界线的最小外接矩形;
11、对所述最小外接矩形进行网格划分,作为所述被巡检城市的网格划分结果;
12、所述巡检任务完成情况信息包括各个网格区域的网格状态信息;所述网格状态信息包括表示网格区域为禁飞区或市外区域的第一状态信息、表示网格区域暂时不合适飞行的第二状态信息、表示网格区域已经完成巡检的第三状态信息和表示网格区域未完成巡检的第四状态信息。
13、通过上述方式进行网格划分和各个网格区域的网格状态信息的设置,有助于引导无人机避开禁飞区和暂时不适合飞行的区域,使调度结果更合理和安全。
14、优选地,步骤a2中,根据网格划分结果和所述目标无人机的续航距离,确定所述目标无人机下一步能够到达的可达机巢,包括:
15、把满足以下条件的其它机巢作为候选机巢:以所述其它机巢所在的网格区域与本机巢所在的网格区域作为对角网格的网格矩阵中,不存在网格状态信息为第一状态信息的网格区域和网格状态信息为第二状态信息的网格区域;
16、根据切比雪夫距离计算公式,分别计算从本机巢到各所述候选机巢的最小网格距离,并换算为对应的飞行距离,记为最小飞行距离;
17、把所述最小飞行距离不大于所述续航距离的所述候选机巢作为所述可达机巢。
18、优选地,步骤a3包括依次以各所述可达机巢为目标机巢,并执行:
19、a301.获取当前时间步的动作空间;所述当前时间步的动作空间包括允许执行的动作,所述允许执行的动作包括向各个相邻的且网格状态信息不为第一状态信息也不为第二状态信息的网格区域移动;
20、a302.获取当前时间步的第一参考状态信息;所述当前时间步的第一参考状态信息包括当前时间步的巡检任务完成情况信息、所述续航距离和当前时间步的位置到所述目标机巢的最小网格距离;在首个时间步,所述当前时间步的巡检任务完成情况信息为所述当前的巡检任务完成情况信息,所述当前时间步的位置为本机巢的位置;
21、a303.根据所述第一参考状态信息和所述动作空间,利用所述候选路径生成网络模型计算各所述动作的第一价值函数;
22、a304.根据所述第一价值函数,结合softmax策略和ε-贪婪策略进行动作选取,并执行选取的动作;
23、a305.若执行选取的动作后到达所述目标机巢所在的网格区域,则结束路径规划,并以各个时间步选取的动作所指向的网格区域组成的路径作为从本机巢到所述目标机巢的候选路径,否则,进入下一时间步并返回执行步骤a301。
24、基于候选路径生成网络模型进行候选路径的生成,可以提高生成路径效率和候选路径的合理性,在生成候选路径的过程中,结合softmax策略和ε-贪婪策略进行动作选取,有利于避免陷入局部最优解且有利于提高规划效率。
25、优选地,步骤a303包括依次以各所述动作为目标动作,并执行:
26、把所述第一参考状态信息和所述目标动作输入所述候选路径生成网络模型,得到所述候选路径生成网络模型输出的第一价值函数预测值;
27、若执行所述目标动作后所述目标无人机的剩余续航距离不小于执行所述目标动作后的位置到所述目标机巢的最小网格距离对应的飞行距离,则把所述第一价值函数预测值作为所述目标动作的第一价值函数;
28、若执行所述目标动作后所述目标无人机的剩余续航距离小于执行所述目标动作后的位置到所述目标机巢的最小网格距离对应的飞行距离,则把所述目标动作的第一价值函数置为0。
29、优选地,步骤a304包括:
30、在[0,1]范围内随机生成一个数字b;
31、若b>ε,则从所述动作空间中随机选取一个动作,并执行选取的动作;ε为ε-贪婪策略的参考概率,且ε随时间步的增加逐渐增大;
32、若b≤ε,则根据所述第一价值函数,利用softmax策略从所述动作空间中选取一个动作,并执行选取的动作。
33、优选地,步骤a4包括:
34、a401.把所述当前的巡检任务完成情况信息、各机巢当前的时间占用情况信息和所述可达机巢集作为第二参考状态信息,根据所述第二参考状态信息和所述候选路径集,利用所述候选路径选取网络模型计算各所述候选路径的第二价值函数;
35、a402.根据所述第二价值函数,基于softmax策略从所述候选路径集中选取一条候选路径作为目标路径。
36、优选地,步骤a5包括:
37、a501.从各机巢当前的时间占用情况信息中提取所述目标路径的终点机巢当前的时间占用情况信息;所述终点机巢为所述目标路径的终点处的所述可达机巢;
38、a502.根据所述目标路径计算所述目标无人机对所述终点机巢的使用时段,记为第一时段;
39、a503.对比所述第一时段与终点机巢当前的时间占用情况信息,判断所述第一时段是否可用;
40、a504.若所述第一时段不可用,则从所述候选路径集中剔除所述目标路径后,返回执行步骤a4;
41、a505.若所述第一时段可用且不与其它机巢请求使用所述终点机巢的要求时段冲突,则把所述目标路径分配给所述目标无人机;
42、a506.若所述第一时段可用且与其它机巢请求使用所述终点机巢的要求时段冲突,则根据所述目标路径计算所述目标无人机的竞价值,用以进行竞价,并在竞价成功后把所述目标路径分配给所述目标无人机,在竞价失败后返回执行步骤a2。
43、第二方面,本技术提供了一种电子设备,包括处理器和存储器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时,运行如前文项所述基于改进双层强化学习的无人机巡检调度方法中的步骤。
44、第三方面,本技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如前文所述基于改进双层强化学习的无人机巡检调度方法中的步骤。
45、有益效果:本技术提供的基于改进双层强化学习的无人机巡检调度方法及相关设备,各无人机无需与各机巢一一配对使用,且各无人机无需在固定区域巡飞,从而有利于减小机巢和无人机的配置数量,提高机巢和无人机的利用率,减小机巢和无人机资源的浪费;此外,无人机巡飞过程无需返回固定的机巢充电,节约时间,提高城市巡检效率,而且减小无人机由于返航充电而无法被有效利用造成的无人机资源浪费,即使部分无人机由于突发情况而无法执行巡检任务,也能够调动其它无人机完成巡检任务,提高资源利用率。
1.一种基于改进双层强化学习的无人机巡检调度方法,应用于无人机巡检系统的机巢,所述无人机巡检系统包括多个无人机和多个机巢,所述机巢之间通信连接;其特征在于,所述基于改进双层强化学习的无人机巡检调度方法包括步骤:
2.根据权利要求1所述的基于改进双层强化学习的无人机巡检调度方法,其特征在于,步骤a1包括:
3.根据权利要求2所述的基于改进双层强化学习的无人机巡检调度方法,其特征在于,步骤a2中,根据网格划分结果和所述目标无人机的续航距离,确定所述目标无人机下一步能够到达的可达机巢,包括:
4.根据权利要求2所述的基于改进双层强化学习的无人机巡检调度方法,其特征在于,步骤a3包括依次以各所述可达机巢为目标机巢,并执行:
5.根据权利要求4所述的基于改进双层强化学习的无人机巡检调度方法,其特征在于,步骤a303包括依次以各所述动作为目标动作,并执行:
6.根据权利要求4所述的基于改进双层强化学习的无人机巡检调度方法,其特征在于,步骤a304包括:
7.根据权利要求1所述的基于改进双层强化学习的无人机巡检调度方法,其特征在于,步骤a4包括:
8.根据权利要求1所述的基于改进双层强化学习的无人机巡检调度方法,其特征在于,步骤a5包括:
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时,运行如权利要求1-8任一项所述基于改进双层强化学习的无人机巡检调度方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-8任一项所述基于改进双层强化学习的无人机巡检调度方法中的步骤。
