本发明涉及安防巡检智能化,具体涉及一种基于深度强化学习的巡检机器人导航方法。
背景技术:
1、随着人工智能的发展,工业厂房等场景的安全巡检正在朝着智能化与自主化的方向发展。传统的巡检机器人依赖于传感器创建的高精度全局地图,获得全局地图后在进行定位,然后进行路径规划,完成巡检任务。然而,传统方法仍然存在一些局限。首先,传统方法需要预先构建巡检机器人的路径,无法灵活应对未知的巡检场景。其次,传统方法依赖于传感器创建的高精度全局地图,但传感器成本高且易受噪声影响,导致导航性能较差。基于深度强化学习的导航方法已经被证明优于传统方法,无需环境先验信息。这类端到端的导航方法将传感器观测数据作为深度神经网络的输入,然后根据强化学习将当前状态信息映射为需要执行的动作。通过与环境不断交互学习,最终完成最优策略的学习。由于环境的部分可观察性,机器人无法收集有意义的奖励信号进行学习。现有的深度强化学习方案如双延迟深度确定性策略梯度算法(td3)依然存在奖励稀疏、学习效率低等问题,这导致机器人无法学习一个有效的导航策略。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种基于深度强化学习的巡检机器人导航方法解决了现有技术无法收集有意义的奖励信号进行学习,导致导航奖励稀疏且学习效率低,无法学习有效的导航策略的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:
3、提供了一种基于深度强化学习的巡检机器人导航方法,其包括以下步骤:
4、s1、确定巡检导航任务的目标点、障碍物的位姿和巡检机器人的位姿;
5、s2、构建导航决策模型;
6、s3、获取当前时刻的传感数据以及巡检机器人的外部信息并进行拼接,得到对应的状态空间;
7、s4、基于障碍物的位姿和巡检机器人的位姿,利用导航决策模型对状态空间进行处理,得到下一时刻的导航策略;
8、s5、根据步骤s4的导航策略,移动巡检机器人;
9、s6、重复步骤s3至步骤s5,直至巡检机器人到达巡检导航任务的目标点。
10、进一步地,导航决策模型采用td3算法,包括依次串联的输入层、一个actor网络和critic模块;critic模块包括两个完全相同且并行的critic网络;
11、actor网络采用依次串联的第一全连接层、lstm网络层、第二全连接层、第三全连接层、第四全连接层;第一全连接层、第二全连接层、第三全连接层均采用relu激活函数,且分别包括800个神经元、600个神经元和300个神经元;第四全连接采用tanh激活函数;第四全连接层包括1个神经元;
12、critic网络包括依次串联的lstm模块、第五全连接层、第六全连接层和第七全连接层;lstm模块包括并行的lstm子模块、第一残差模块;lstm子模块包括依次串联的第八全连接层、lstm网络层和第二残差模块;第五全连接层、第六全连接层和第八全连接层均采用relu激活函数,且分别包括600个神经元、300个神经元和800个神经元;第一残差模块和第二残差模块结构相同,均包括600个神经元;第七全连接层包括1个神经元。
13、进一步地,导航决策模型的训练过程为:
14、s4-1、初始化训练环境;其中,训练环境包括障碍物的位姿、巡检机器人的位姿以及巡检导航任务的目标点;
15、s4-2、确定最大训练回合数n、经验池大小与每回合最大训练步数;
16、s4-3、利用激光雷达和里程计获取当前状态的传感数据以及巡检机器人的外部信息并进行拼接,得到状态空间其中,当前的传感数据为激光雷达数据l;巡检机器人的外部信息包括上一状态的巡检机器人的动作at-1、巡检机器人坐标系下与目标点的距离dg和偏航角
17、s4-4、将状态空间s输入至导航决策模型,得到当前状态的动作at及其对应的策略价值;
18、s4-5、执行动作at,并更新状态信息与巡检机器人的位置;
19、s4-6、计算奖励函数,并将上一状态与环境交互产生的奖励与导航经验[st,at,rt,st+1,done]存入至经验池中;其中,rt表示上一状态与环境交互产生的奖励,st、st+1分别表示当前状态空间和更新后的状态空间,done为结束标志,表示当前状态下是否结束导航训练;
20、s4-7、判断是否达到训练条件;若是则初次更新actor网络参数和critic的网络参数,并进入步骤s4-8;反之则进行事后经验回放并存储到经验池,返回步骤s4-3;
21、s4-8、根据公式:
22、θμ′←τθμ+(1-τ)θμ′
23、
24、二次更新actor网络参数θμ′、critic网络参数其中,τ表示固定频率,qi表示critic网络输出第i个的策略价值,θμ表示初次更新后的actor网络参数,表示初次更新后的critic网络参数;
25、s4-9、循环步骤s4-3至步骤s4-8直至达到导航决策模型的收敛条件,完成训练。
26、进一步地,步骤s4-4进一步包括:
27、s4-4-1、将状态空间s输入至actor网络,得到当前状态的初始动作;
28、s4-4-2、将初始动作和状态状态空间s输入至critic模块,得到对应的策略价值;
29、s4-4-3、基于策略价值,通过actor网络调整初始动作,得到当前状态的动作at。
30、进一步地,步骤s4-5进一步包括:
31、s4-5-1、执行动作at,并获取激光雷达传感器观测值和里程计数据;
32、s4-5-2、并通过激光雷达传感器观测值判断是否与障碍物发生碰撞;若是则返回步骤s4-3;反之则进入步骤s4-5-3;
33、s4-5-3、通过里程计判断是否达到目标点;若是则产生导航经验并进入步骤s4-5-4;反之则重复步骤s4-3至步骤s4-5,直至达到目标点;
34、s4-5-4、将导航经验存入经验池并进行状态转移,当前回合数加1并返回步骤s4-1;其中,回合数的初始值为1。
35、进一步地,步骤s4-6的奖励函数包括内在奖励和外在奖励;其中,通过内在动机模块获取内在奖励,内在动机模块包括特征提取层、前向模型与反向模型;
36、奖励函数对应的公式如下:
37、r=ri+re
38、
39、其中,r表示奖励函数,ri表示内在奖励,re表示外在奖励,||·||2表示范数2,φ(st+1)分别表示前向模型根据当前状态st与动作at进行预测的新状态、当前实际的新状态,θf表示前向模型参数,f(·)表示前向模型,dt、da、dc、omin分别表示当前状态距离目标点的距离、判断是否到达目标点的阈值、判断是否碰撞的阈值和当前雷达数据中的最小值,rarrive、rcollision分别表示巡检机器人到达目标点的奖励值、巡检机器人与障碍物发生碰撞的惩罚值,v表示动作at的巡检机器人线速度,ω表示动作at的巡检机器人角速度,η表示避障系数,|·|表示绝对值。
40、进一步地,步骤s4-7的训练条件包括巡检机器人是否达到每回合最大训练步数、是否与障碍物发生碰撞以及是否到达目标点;若满足三个条件中的任意一个则进入步骤s4-8;
41、进一步地,步骤s4-7中的初次更新导航决策模型的网络参数具体过程是:根据公式:
42、
43、ε~clip(n(0,σ),-c,c)
44、获取目标值qtarget;其中,r表示奖励,γ表示折扣因子,min(·)表示最小值函数,q′i(·)表示critic网络输出的价值策略,表示actor网络参数,π(·)表示actor网络输出的动作,ε表示添加的噪音,σ、c分别表示标准差、常数,clip(n(0,σ),-c,c)表示被截断在区间[-c,c]内的均值为0、标准差为σ的正态分布,~为数学符号,表示元素和集合之间的关系;
45、基于目标值qtarget和对应的实际值q,获取均方差损失函数;根据均方差损失函数利用adam优化器执行梯度下降对actor网络参数和critic网络参数进行初次更新。
46、进一步地,步骤s4-9中的导航决策模型的收敛条件为满足导航决策模型收敛、训练回合数达到最大训练回合数中的任意一个,则结束训练。
47、本发明的有益效果为:
48、1.本发明仅利用经过特殊处理的激光雷达数据和里程计数据对机器人巡检环境进行感知,与基于深度相机与雷达融合数据相比,减少硬件计算成本的同时也减少了与现实环境的差距,使导航决策模型更容易部署且适用性更强;
49、2.本发明提供了一种改进的actor与critic网络,在actor与critic网络中添加了一个lstm层,提取最近几个时间步的动作信息之间的关系并优化最终的执行动作,使巡检机器人的移动动作更流畅,生成更加平滑的导航路径;
50、3.本发明设置经验池,储存每一训练回合巡检机器人的行动路径数据并生成对应的导航经验,并通过事后经验回放从失败中学习,在奖励稀疏的环境中,使原本无用的导航经验变得有价值,更充分的利用所有样本,提高样本的使用效率,加快模型的收敛速度;
51、4.本发明利用内在好动机模块获得内在奖励并结合外在奖励,使巡检机器人在探索过程中尽可能的探索环境,足够的探索让巡检机器人学习到达目标点的最佳方式。
1.一种基于深度强化学习的巡检机器人导航方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述导航决策模型采用td3算法,包括依次串联的输入层、一个actor网络和critic模块;所述critic模块包括两个完全相同且并行的critic网络;
3.根据权利要求2所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述导航决策模型的训练过程为:
4.根据权利要求3所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述步骤s4-4进一步包括:
5.根据权利要求3所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述步骤s4-5进一步包括:
6.根据权利要求3所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述步骤s4-6的奖励函数包括内在奖励和外在奖励;其中,通过内在动机模块获取内在奖励,内在动机模块包括特征提取层、前向模型与反向模型;
7.根据权利要求3所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述步骤s4-7的训练条件包括巡检机器人是否达到每回合最大训练步数、是否与障碍物发生碰撞以及是否到达目标点;若满足三个条件中的任意一个则进入步骤s4-8。
8.根据权利要求3所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述步骤s4-7中的初次更新导航决策模型的网络参数具体过程是:根据公式:
9.根据权利要求3所述的基于深度强化学习的巡检机器人导航方法,其特征在于:所述步骤s4-9中的导航决策模型的收敛条件为满足导航决策模型收敛、训练回合数达到最大训练回合数中的任意一个,则结束训练。
