一种用于平流层飞艇自主飞行的控制方法

xiaoxiao2月前 11

本发明公开一种用于平流层飞艇自主飞行的控制方法，属于飞行控制。

背景技术：

1、平流层环境对飞艇的运行提出了严格的要求，要求其能够适应平流层与地面或低层大气层之间的显著差异。其次，平流层飞艇的执行机构的动作范围有效，传统方法设计的控制器，比如反步法会出现执行机构饱和问题，不能达到良好的控制效果。此外，由于平流层环境的复杂性，包括风、温度和大气压强等因素的不确定性，平流层飞艇的控制算法需要具备强大的适应性与鲁棒性。其他控制方法如比例-积分-微分（pid）控制器，虽然在某些简单环境下表现良好，但在动态和复杂环境中其性能有限。这主要是由于pid控制器依赖于预设的控制参数，无法自适应调整，导致其在处理非线性和高度耦合的飞行控制问题时表现不佳。近年来，深度强化学习技术在飞行控制领域展现出了巨大的潜力。强化学习算法通过与环境交互，不断优化策略，以实现最佳控制效果。软演员-评论家（sac）算法作为一种基于熵正则化的深度强化学习算法，具有较好的稳定性和收敛性，但在处理长时间序列数据时存在局限。

技术实现思路

1、本发明的目的在于提供一种用于平流层飞艇自主飞行的控制方法，以解决现有技术中，平流层飞艇自主性较弱、抗风扰能力差的问题。

2、一种用于平流层飞艇自主飞行的控制方法，包括：

3、s1建立飞艇飞行环境，将实际风场数据作为扰动加入到飞艇动力学模型中，采集状态信息储存在经验回放池中；

4、s2参考比例-积分-微分控制器pid对奖励函数进行改进，设计基于当前状态和过去状态的奖励函数，从多个角度衡量和优化控制效果；

5、s3将状态信息输入到基于软演员-评论家算法sac的策略网络，并将策略网络改进为注意力机制-长短期记忆网络alstm，alstm不断更新学习最优控制策略，根据选择最优控制动作；

6、s4将当前状态和过去状态、最优控制动作和奖励函数输入到基于sac的评价网络，并将评价网络改进为长短期记忆网络lstm，根据奖励信息和预测的q值更新网络，并指导alstm的更新，使alstm生成比更优的动作。

7、飞艇飞行环境包括建立关于经度、纬度、高度和时间的四维时空风场。

8、s2包括：

9、；

10、；；

11、；；

12、；；

13、式中，为奖励函数，、、分别为水平速度奖励、高度奖励和俯仰角姿态奖励，、、为三个奖励对应的状态误差，、、为三个奖励对应的任务指令，、、为三个奖励对应的上一时刻的状态误差，、、分别为水平速度、高度和俯仰角姿态，、、为三个奖励对应的比例项系数，、、为三个奖励对应的积分项系数，、、为三个奖励对应的误差响应，所述误差响应包括误差的比例响应、累积误差影响和误差变化率的响应。

14、在水平速度奖励、高度奖励和俯仰角姿态奖励基础上设置稳定性奖励，当状态误差小于给定值时，使用稳定性奖励补充水平速度奖励、高度奖励和俯仰角姿态奖励：

15、；

16、；

17、；

18、；

19、式中，、、分别为水平速度奖励、高度奖励和俯仰角姿态奖励对应的稳定性奖励。

20、alstm包括状态信息预处理单元、alstm策略网络单元、策略更新单元和动作选择单元。

21、状态信息预处理单元，对储存在经验回放池中的进行归一化处理，以适应alstm网络的输入要求；

22、alstm策略网络单元采用lstm网络与注意力机制相结合的网络结构，接收预处理后的，包括输入层、隐藏层1、隐藏层2和输出层；

23、策略更新单元在训练过程中不断更新alstm策略网络单元的参数，使alstm策略网络单元学习并逐步逼近；

24、动作选择单元根据alstm策略网络单元的输出，选择当前时刻的，并将应用于飞艇的执行机构。

25、alstm策略网络单元的输入层为lstm层，维度为6×128；隐藏层1为注意力机制，维度为128×128；隐藏层2为全连接层，维度为128×256；输出层为全连接层，维度为256×4。

26、lstm包括状态动作信息整合单元、lstm评价网络单元、q值计算单元、评价网络更新单元和反馈机制单元。

27、状态动作信息整合单元整合当前时刻的当前状态和过去状态、最优控制动作和奖励函数，并进行归一化处理；

28、lstm评价网络单元采用lstm网络结构，接收归一化处理后的当前状态和过去状态、最优控制动作和奖励函数，捕捉时间序列中的动态变化特征，包括输入层、隐藏层1、隐藏层2和输出层；

29、q值计算单元根据lstm评价网络单元的输出，计算当前状态-动作对的预测q值；

30、评价网络更新单元基于实际获得的奖励值和预测q值，使用梯度下降优化方法更新lstm评价网络单元的参数，提高预测精度；

31、反馈机制单元将lstm评价网络单元的预测q值反馈给alstm，指导alstm策略网络单元的参数更新和优化。

32、lstm评价网络单元的输入层为lstm层，维度为9×256；隐藏层1为全连接层，维度为256×128；隐藏层2为全连接层，维度为128×64；输出层为全连接层，维度为64×1；

33、反馈机制单元包括策略梯度计算单元和策略优化单元，策略梯度计算单元根据lstm评价网络单元的反馈结果计算策略梯度，指导alstm策略网络单元的优化方向；

34、策略优化单元利用策略梯度更新alstm策略网络单元的参数，使alstm策略网络单元生成更优的控制动作，提高整体控制系统的性能。

35、相对比现有技术，本发明具有以下有益效果：本发明能更有效地捕捉飞艇的动力学特性和复杂多变的风场环境，实现从飞艇的位置、速度和姿态等状态信息到具体的螺旋桨等执行机构端对端的控制，提高了系统响应和鲁棒性；利用深度强化学习中的sac算法，提升了飞艇的自主性和抗扰能力；结合lstm网络与注意力机制，优化了网络结构，使算法在处理时间序列数据和动态变化的环境时更为高效和稳定；通过设计基于当前状态和过去状态的奖励函数，从多个角度衡量和优化控制效果，提高了飞行过程中的控制响应速度和稳定性。

技术特征：

1.一种用于平流层飞艇自主飞行的控制方法，其特征在于，包括：

2.根据权利要求1所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，飞艇飞行环境包括建立关于经度、纬度、高度和时间的四维时空风场。

3.根据权利要求2所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，s2包括：

4.根据权利要求3所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，在水平速度奖励、高度奖励和俯仰角姿态奖励基础上设置稳定性奖励，当状态误差小于给定值时，使用稳定性奖励补充水平速度奖励、高度奖励和俯仰角姿态奖励：

5.根据权利要求4所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，alstm包括状态信息预处理单元、alstm策略网络单元、策略更新单元和动作选择单元。

6.根据权利要求5所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，状态信息预处理单元，对储存在经验回放池中的进行归一化处理，以适应alstm网络的输入要求；

7.根据权利要求6所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，alstm策略网络单元的输入层为lstm层，维度为6×128；隐藏层1为注意力机制，维度为128×128；隐藏层2为全连接层，维度为128×256；输出层为全连接层，维度为256×4。

8.根据权利要求7所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，lstm包括状态动作信息整合单元、lstm评价网络单元、q值计算单元、评价网络更新单元和反馈机制单元。

9.根据权利要求8所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，状态动作信息整合单元整合当前时刻的当前状态和过去状态、最优控制动作和奖励函数，并进行归一化处理；

10.根据权利要求9所述的一种用于平流层飞艇自主飞行的控制方法，其特征在于，lstm评价网络单元的输入层为lstm层，维度为9×256；隐藏层1为全连接层，维度为256×128；隐藏层2为全连接层，维度为128×64；输出层为全连接层，维度为64×1；

技术总结
本发明公开一种用于平流层飞艇自主飞行的控制方法，属于飞行控制技术领域，用于飞艇控制，包括将状态信息输入到基于软演员‑评论家算法SAC的策略网络，并将策略网络改进为注意力机制‑长短期记忆网络ALSTM，ALSTM不断更新学习最优控制策略；将当前状态和过去状态、最优控制动作和奖励值输入到基于SAC的评价网络，并将评价网络改进为长短期记忆网络LSTM，根据奖励信息和预测的Q值更新网络，并指导ALSTM的更新。本发明能更有效地捕捉飞艇的动力学特性和复杂多变的风场环境，实现从飞艇的位置、速度和姿态等状态信息到具体的螺旋桨等执行机构端对端的控制，提高了系统响应和鲁棒性。

技术研发人员：李智斌,孟祥蕊
受保护的技术使用者：山东科技大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)