基于人类偏好的无人机实时模仿决策方法

xiaoxiao2月前 26

本发明涉及无人机控制，尤其是指一种基于人类偏好的无人机实时模仿决策方法。具体来说，本发明提出了一种基于演示的注意力机制和强化学习的无人机控制方法，旨在提高无人机在动态环境中的自主决策能力。

背景技术：

1、近年来，随着无人机技术的快速发展，无人机在民用和军事领域的应用日益广泛，涵盖了灾难响应、交通监控、农业监测、物流配送等多个方面。无人机操作的复杂性以及在多变环境中执行任务的需求日益增长，传统的无人机控制策略面临着新的挑战，尤其是如何在未知环境中实现高效的自主决策和操作。

2、在传统的无人机操作模式中，预设的飞行路径和固定的响应策略常常无法应对突发事件或环境中的不可预测变化。例如，在搜索救援任务中，无人机可能需要在未知地形中自主导航，并对突如其来的障碍物或气候变化做出快速反应。此外，人为直接控制无人机在操作上存在局限性，特别是在视线受限或环境复杂的情况下，操作的效率和安全性难以保证。

3、单视模仿学习(osil)作为一种新兴的学习策略，通过学习人类的操作技能，让无人机学会在特定场景下模仿人类的操作决策，做到高效的实时响应。目前来说，单视模仿学习方法在相对静态的环境中表现优异，但在面对动态环境中的意外变化时，其适应能力有限。在实际应用中，无人机需要应对在演示期间未遇到的情况，这对模仿策略提出了更高的泛化要求。例如，无人机必须在面对新出现的障碍物或动态变化时，能够适应并调整其行为以完成任务。现有的模仿学习方法通常假设演示收集和策略部署期间的环境高度相似，但在实际应用中，这种假设并不成立，导致无人机在部署时难以应对意外变化。

技术实现思路

1、发明目的：本发明旨在解决现有无人机控制中基于人类偏好的决策方法在动态环境和未预见变化下的适应性和决策稳定性问题。通过模仿人类操作者的偏好和行为模式，本发明提供一种能够实时学习和适应新任务的无人机自主决策方法。该方法特别关注于提高无人机在复杂环境中的自主性和灵活性，使其能够在执行任务过程中有效应对各种突发状况，从而显著提升任务完成的成功率和效率。

2、技术方案：一种基于人类偏好的无人机实时模仿决策方法。包括以下几个内容：

3、(1)利用无人机模拟器收集的n条人类完成不同任务的数据集d，数据集d为多条人类操作的无人机飞行轨迹：d＝{τi}ni＝0；

4、(2)基于演示的注意力机制的深度学习模型π(a|τ,s)，该模型以人类偏好轨迹和当前无人机面临的状态为输入，输出无人机为了模仿人类偏好轨迹τ，在当前状态s应该实施的决策动作a；

5、(3)基于采用上下文驱动的元强化学习框架，用于训练(2)中的深度学习模型，使得经过训练后的模型π(a|τ,s)能够感知输入任意的τ中的人类的偏好，并且在不同的状态s下做出自适应的决策。

6、所述轨迹τ是由一系列状态-动作对表示的人类示范轨迹：τ＝(s0,a0),…(st,at),…,(st,at)，其中t为第t个时间刻采集的人类示范，每一对代表无人机在特定状态下应执行的动作。这些轨迹是从模拟环境中采集的，其中人类轨迹的操作者控制无人机执行各种任务，如导航、搜索救援或货物运输等。每一个状态记录了无人机自身的状态信息和周围环境信息，包括飞机当前的速度，相对于北偏东坐标系的三个角度；每个动作都记录了在各种环境条件下的无人机响应，包括控制飞机飞行速度的油门控制指令，以及控制飞行的三个基本角度变化指令：俯仰指令、翻滚指令、偏航指令。所述环境信息包括障碍物位置、天气条件和地形特征，所述无人机自身状态信息包括位置、速度和姿态角。

7、所述的基于演示的注意力机制的深度学习模型，旨在通过特定的归纳偏置增强对未见数据的预测能力。该网络架构包括以下三个主要模块：(1)识别模块：该模块使用注意力加权模块，计算查询向量q与键向量k之间的相似性权重。这里，q代表访问状态的表征，而k代表人类状态的表征，该模块的输出为权重向量w。(2)分析模块：在注意力加权之后，进行逐点乘法运算以计算加权价值v″，即v″＝∑iviwi。每个向量值vi代表相应的人类状态-动作(si,ai)对的表征。(3)追踪模块，在此阶段，将当前状态表示q与加权的人类状态-动作对表示(即人类行为模式v″)整合，形成复合表示c。三个模块会重复叠加多层(三个模块的顺序组合构成一层)，每层查询向量q以上一层得到的复合表示c作为初始化进行后续的运算，最后，由复合表示c经过一个线性层输出模仿动作a。

8、所述的上下文驱动的元强化学习框架为基于soft-actor-critic算法的元强化学习算法，算法每次从人类示范数据集d中选择一条示范轨迹τ，使用深度学习模型π(a|τ,s)和无人机模拟器进行交互收集探索数据并加入经验池b，探索数据由一系列的状态-动作-模仿奖励-下一个时刻状态(s,a,r,s′)的数据对组成。算法定期调用基于soft-actor-critic的标准强化学习优化算子，使用经验池中b中的数据对模型π(a|τ,s)进行更新。经过不断的探索和更新，刺激模型学会模仿人类示范数据集中的人类偏好行为，完成指定的任务。

9、所述的模型奖励由两部分，即w和rt组成：

10、

11、其中，为人类数据集中与当前状态-动作对(s,a)最小距离的人类示范数据对，w为度量函数，根据不同的实际任务情况可以灵活设定为不同的函数，比如，可以使用1-欧氏距离作为w的一种实现。当(s,a)和越近时，欧式距离越小，该项奖励w越大。α为超参数，根据算法的实际训练情况调节。rt为任务奖励，当智能体完成人类示范数据所执行的任务时，给出1的反馈，如果出现意外，比如撞墙，坠落，则给出-1的反馈，其他情况给出0的反馈。

12、有益效果：与现有技术相比，本发明提供的基于人类偏好的无人机实时模仿决策方法，具有如下优点：

13、本发明提出了基于演示的注意力深度网络结构进行无人机的事实模仿决策，该方法有强大的表达能力，能够有效的感知大量的不同人类的偏好行为，做出对应的实时模仿决策。

14、本发明提出了上下文驱动的元强化学习框架，让深度学习模型在和环境的交互探索的过程，通过强化学习完成对人类偏好行为的模仿。由于探索过程无人机会采集到大量的未见过的情况的数据，因此强化学习得到的模仿策略能够自适应的根据各种未见过的情况调整自身行为，做到鲁棒的自适应决策。

技术特征：

1.一种基于人类偏好的无人机实时模仿决策方法，其特征在于，包括以下几个内容：

2.根据权利要求1所述的基于人类偏好的无人机实时模仿决策方法，其特征在于，所述轨迹τ是由一系列状态-动作对表示的人类示范轨迹：τ＝(s0,a0),…(st,at),…,(st,at)，其中t为第t个时间刻采集的人类示范，每一对代表无人机在特定状态下应执行的动作；这些轨迹是从模拟环境中采集的，其中人类轨迹的操作者控制无人机执行各种任务；每一个状态记录了无人机自身的状态信息和周围环境信息，包括飞机当前的速度，相对于北偏东坐标系的三个角度；每个动作都记录了在各种环境条件下的无人机响应，包括控制飞机飞行速度的油门控制指令，以及控制飞行的三个基本角度变化指令：俯仰指令、翻滚指令、偏航指令。

3.根据权利要求1所述的基于人类偏好的无人机实时模仿决策方法，其特征在于，所述的基于演示的注意力机制的深度学习模型，旨在通过特定的归纳偏置增强对未见数据的预测能力；该网络架构包括以下三个主要模块：(1)识别模块：该模块使用注意力加权模块，计算查询向量q与键向量k之间的相似性权重；q代表访问状态的表征，而k代表人类状态的表征，该模块的输出为权重向量w；(2)分析模块：在注意力加权之后，进行逐点乘法运算以计算加权价值v″，即v″＝∑iviwi；每个向量值vi代表相应的人类状态-动作(si,ai)对的表征；(3)追踪模块，在此阶段，将当前状态表示q与加权的人类状态-动作对表示整合，形成复合表示c；三个模块会重复叠加多层，每层查询向量q以上一层得到的复合表示c作为初始化进行后续的运算，最后，由复合表示c经过一个线性层输出模仿动作a。

4.根据权利要求1所述的基于人类偏好的无人机实时模仿决策方法，其特征在于，所述的上下文驱动的元强化学习框架为基于soft-actor-critic算法的元强化学习算法，算法每次从人类示范数据集d中选择一条示范轨迹τ，使用深度学习模型π(a|τ,s)和无人机模拟器进行交互收集探索数据并加入经验池b，探索数据由一系列的状态-动作-模仿奖励-下一个时刻状态(s,a,r,s′)的数据对组成；算法定期调用基于soft-actor-critic的标准强化学习优化算子，使用经验池中b中的数据对模型π(a|τ,s)进行更新；经过不断的探索和更新，刺激模型学会模仿人类示范数据集中的人类偏好行为，完成指定的任务。

5.根据权利要求1所述的基于人类偏好的无人机实时模仿决策方法，其特征在于，所述的模型奖励由两部分，即w和rt组成：

技术总结
本发明公开一种无人机的模仿决策方法，根据人类的偏好数据实时模仿，控制无人机完成人类的指定任务。该方法利用深度学习和强化学习技术，通过从人类示范中提取关键状态和行为模式，构建适应动态环境变化的决策模型。所述决策模型采用一种基于演示的注意力机制深度学习网络架构，使得无人机能够在复杂环境中自主学习并优化自身行为，以适应未预见的情况。该方法通过将单视演示学习（OSIL）融入上下文驱动的元强化学习框架中，使得无人机在面对新任务和环境变化时，能够迅速调整策略，提高任务完成的准确性和效率。本发明所提出的方法在处理动态环境中的突发变化方面表现优越，具有广泛的应用前景。

技术研发人员：俞扬,章宗长,陈雄辉,叶俊胤,李逸尘,杨思航
受保护的技术使用者：南京大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)