本发明公开一种用于平流层飞艇自主飞行的控制方法,属于飞行控制。
背景技术:
1、平流层环境对飞艇的运行提出了严格的要求,要求其能够适应平流层与地面或低层大气层之间的显著差异。其次,平流层飞艇的执行机构的动作范围有效,传统方法设计的控制器,比如反步法会出现执行机构饱和问题,不能达到良好的控制效果。此外,由于平流层环境的复杂性,包括风、温度和大气压强等因素的不确定性,平流层飞艇的控制算法需要具备强大的适应性与鲁棒性。其他控制方法如比例-积分-微分(pid)控制器,虽然在某些简单环境下表现良好,但在动态和复杂环境中其性能有限。这主要是由于pid控制器依赖于预设的控制参数,无法自适应调整,导致其在处理非线性和高度耦合的飞行控制问题时表现不佳。近年来,深度强化学习技术在飞行控制领域展现出了巨大的潜力。强化学习算法通过与环境交互,不断优化策略,以实现最佳控制效果。软演员-评论家(sac)算法作为一种基于熵正则化的深度强化学习算法,具有较好的稳定性和收敛性,但在处理长时间序列数据时存在局限。
技术实现思路
1、本发明的目的在于提供一种用于平流层飞艇自主飞行的控制方法,以解决现有技术中,平流层飞艇自主性较弱、抗风扰能力差的问题。
2、一种用于平流层飞艇自主飞行的控制方法,包括:
3、s1建立飞艇飞行环境,将实际风场数据作为扰动加入到飞艇动力学模型中,采集状态信息储存在经验回放池中;
4、s2参考比例-积分-微分控制器pid对奖励函数进行改进,设计基于当前状态和过去状态的奖励函数,从多个角度衡量和优化控制效果;
5、s3将状态信息输入到基于软演员-评论家算法sac的策略网络,并将策略网络改进为注意力机制-长短期记忆网络alstm,alstm不断更新学习最优控制策略,根据选择最优控制动作;
6、s4将当前状态和过去状态、最优控制动作和奖励函数输入到基于sac的评价网络,并将评价网络改进为长短期记忆网络lstm,根据奖励信息和预测的q值更新网络,并指导alstm的更新,使alstm生成比更优的动作。
7、飞艇飞行环境包括建立关于经度、纬度、高度和时间的四维时空风场。
8、s2包括:
9、;
10、;;
11、;;
12、;;
13、式中,为奖励函数,、、分别为水平速度奖励、高度奖励和俯仰角姿态奖励,、、为三个奖励对应的状态误差,、、为三个奖励对应的任务指令,、、为三个奖励对应的上一时刻的状态误差,、、分别为水平速度、高度和俯仰角姿态,、、为三个奖励对应的比例项系数,、、为三个奖励对应的积分项系数,、、为三个奖励对应的误差响应,所述误差响应包括误差的比例响应、累积误差影响和误差变化率的响应。
14、在水平速度奖励、高度奖励和俯仰角姿态奖励基础上设置稳定性奖励,当状态误差小于给定值时,使用稳定性奖励补充水平速度奖励、高度奖励和俯仰角姿态奖励:
15、;
16、;
17、;
18、;
19、式中,、、分别为水平速度奖励、高度奖励和俯仰角姿态奖励对应的稳定性奖励。
20、alstm包括状态信息预处理单元、alstm策略网络单元、策略更新单元和动作选择单元。
21、状态信息预处理单元,对储存在经验回放池中的进行归一化处理,以适应alstm网络的输入要求;
22、alstm策略网络单元采用lstm网络与注意力机制相结合的网络结构,接收预处理后的,包括输入层、隐藏层1、隐藏层2和输出层;
23、策略更新单元在训练过程中不断更新alstm策略网络单元的参数,使alstm策略网络单元学习并逐步逼近;
24、动作选择单元根据alstm策略网络单元的输出,选择当前时刻的,并将应用于飞艇的执行机构。
25、alstm策略网络单元的输入层为lstm层,维度为6×128;隐藏层1为注意力机制,维度为128×128;隐藏层2为全连接层,维度为128×256;输出层为全连接层,维度为256×4。
26、lstm包括状态动作信息整合单元、lstm评价网络单元、q值计算单元、评价网络更新单元和反馈机制单元。
27、状态动作信息整合单元整合当前时刻的当前状态和过去状态、最优控制动作和奖励函数,并进行归一化处理;
28、lstm评价网络单元采用lstm网络结构,接收归一化处理后的当前状态和过去状态、最优控制动作和奖励函数,捕捉时间序列中的动态变化特征,包括输入层、隐藏层1、隐藏层2和输出层;
29、q值计算单元根据lstm评价网络单元的输出,计算当前状态-动作对的预测q值;
30、评价网络更新单元基于实际获得的奖励值和预测q值,使用梯度下降优化方法更新lstm评价网络单元的参数,提高预测精度;
31、反馈机制单元将lstm评价网络单元的预测q值反馈给alstm,指导alstm策略网络单元的参数更新和优化。
32、lstm评价网络单元的输入层为lstm层,维度为9×256;隐藏层1为全连接层,维度为256×128;隐藏层2为全连接层,维度为128×64;输出层为全连接层,维度为64×1;
33、反馈机制单元包括策略梯度计算单元和策略优化单元,策略梯度计算单元根据lstm评价网络单元的反馈结果计算策略梯度,指导alstm策略网络单元的优化方向;
34、策略优化单元利用策略梯度更新alstm策略网络单元的参数,使alstm策略网络单元生成更优的控制动作,提高整体控制系统的性能。
35、相对比现有技术,本发明具有以下有益效果:本发明能更有效地捕捉飞艇的动力学特性和复杂多变的风场环境,实现从飞艇的位置、速度和姿态等状态信息到具体的螺旋桨等执行机构端对端的控制,提高了系统响应和鲁棒性;利用深度强化学习中的sac算法,提升了飞艇的自主性和抗扰能力;结合lstm网络与注意力机制,优化了网络结构,使算法在处理时间序列数据和动态变化的环境时更为高效和稳定;通过设计基于当前状态和过去状态的奖励函数,从多个角度衡量和优化控制效果,提高了飞行过程中的控制响应速度和稳定性。
1.一种用于平流层飞艇自主飞行的控制方法,其特征在于,包括:
2.根据权利要求1所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,飞艇飞行环境包括建立关于经度、纬度、高度和时间的四维时空风场。
3.根据权利要求2所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,s2包括:
4.根据权利要求3所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,在水平速度奖励、高度奖励和俯仰角姿态奖励基础上设置稳定性奖励,当状态误差小于给定值时,使用稳定性奖励补充水平速度奖励、高度奖励和俯仰角姿态奖励:
5.根据权利要求4所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,alstm包括状态信息预处理单元、alstm策略网络单元、策略更新单元和动作选择单元。
6.根据权利要求5所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,状态信息预处理单元,对储存在经验回放池中的进行归一化处理,以适应alstm网络的输入要求;
7.根据权利要求6所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,alstm策略网络单元的输入层为lstm层,维度为6×128;隐藏层1为注意力机制,维度为128×128;隐藏层2为全连接层,维度为128×256;输出层为全连接层,维度为256×4。
8.根据权利要求7所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,lstm包括状态动作信息整合单元、lstm评价网络单元、q值计算单元、评价网络更新单元和反馈机制单元。
9.根据权利要求8所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,状态动作信息整合单元整合当前时刻的当前状态和过去状态、最优控制动作和奖励函数,并进行归一化处理;
10.根据权利要求9所述的一种用于平流层飞艇自主飞行的控制方法,其特征在于,lstm评价网络单元的输入层为lstm层,维度为9×256;隐藏层1为全连接层,维度为256×128;隐藏层2为全连接层,维度为128×64;输出层为全连接层,维度为64×1;
