符合动态优化期望的强化学习方法、装置、设备及介质与流程

xiaoxiao2月前 15

本发明涉及强化学习领域，特别涉及一种符合动态优化期望的强化学习方法、装置、设备及介质。

背景技术：

1、在目前的端到端的控制方式中，基于深度强化学习的控制方法的目标函数无法兼顾控制策略的安全性与稳定性，而且对控制策略的优化不能根据实际运行情况进行自适应的动态优化，这些问题制约了无人控制策略的效果与应用。

技术实现思路

1、有鉴于此，本发明提出一种符合动态优化期望的强化学习方法、装置、设备及介质。旨在使控制策略在兼顾安全性与稳定性的同时，还能根据环境状态自适应的调整自身的控制方式。

2、为达到上述目的，本发明的技术方案是这样实现的：

3、一种符合动态优化期望的强化学习方法，所述强化学习方法包括：

4、根据控制策略所需达到的控制目标集合，分别构建全局优化期望和动态优化期望；

5、将构建的所述全局优化期望和所述动态优化期望与初始的强化学习模型结合，获得目标强化学习模型；

6、控制策略通过所述目标强化学习模型进行强化学习，获得目标控制策略。

7、进一步的，根据控制策略所需达到的控制目标集合，构建全局优化期望，包括：

8、根据控制策略所需达到的控制目标集合中的各个控制目标，创建与所述各个控制目标分别对应的优化期望项；

9、根据所述各个控制目标各自在控制任务中的重要程度，确定所述各个控制目标各自的权重；

10、通过创建的与所述各个控制目标分别对应的优化期望项和所述各个控制目标各自的权重，构建全局优化期望。

11、进一步的，根据控制策略所需达到的控制目标集合，构建动态优化期望，包括：

12、根据控制策略所需达到的控制目标集合，确定对应的动态需求集合，所述动态需求集合包括所述控制策略所需要达到的随环境状态而动态变化的各个动态控制目标；

13、根据所述动态需求集合，构建动态回报函数；

14、通过所述动态回报函数，构建对应的动态优化期望。

15、进一步的，所述根据控制策略所需达到的控制目标集合，确定对应的动态需求集合，包括：

16、根据控制策略所需达到的控制目标集合，确定与所述控制目标集合中的控制目标对应的动态控制目标；

17、将所有的动态控制目标构成的集合，确定为动态需求集合。

18、进一步的，所述根据所述动态需求集合，构建动态回报函数，包括：

19、根据专家经验，建立控制动作的分类标准集合，并定义每个分类标准中的动态阈值；

20、基于每个分类标准中的动态阈值和动态需求集合中的各个动态控制目标，构建与所述各个动态控制目标分别对应的各个子动态回报函数；

21、由所述各个子动态回报函数构建对控制动作进行随着环境状态变化而适应性回报的动态回报函数。

22、进一步的，每个分类标准中的动态阈值均由与环境状态相关的函数进行确定。

23、进一步的，在基于智能体与障碍物之间的距离建立的分类标准的情况下，对应的动态阈值为与智能体的速度相关的函数；

24、在基于智能体的控制动作是否合理建立的分类标准的情况下，对应的动态阈值为与智能体的直线加速度和转向加速度相关的函数。

25、本发明所述的一种符合动态优化期望的强化学习方法具有以下优势：

26、通过构建包括全局优化期望和动态优化期望的目标强化学习模型，使得控制策略在基于该目标强化学习模型进行强化学习的过程中，通过该目标强化学习模型中的全局优化期望使得控制策略能够同时兼顾稳定性和安全性的控制目标，通过该目标强化学习模型中的动态优化期望使得控制策略能够随着环境状态的变化自适应地调节自身的控制方式。

27、本发明的另一目的在于提出一种符合动态优化期望的强化学习装置，所述强化学习装置包括：

28、期望构建模块，用于根据控制策略所需达到的控制目标集合，分别构建全局优化期望和动态优化期望；

29、强化学习模型构建模块，用于将构建的所述全局优化期望和所述动态优化期望与初始的强化学习模型结合，获得目标强化学习模型；

30、强化学习模块，用于控制策略通过所述目标强化学习模型进行强化学习，获得目标控制策略。

31、本发明的另一目的在于提出一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

32、存储器，用于存放计算机程序；

33、处理器，用于执行存储器上所存放的程序时，实现上述符合动态优化期望的强化学习方法中的步骤。

34、本发明的另一目的在于提出一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述符合动态优化期望的强化学习方法中的步骤。

技术特征：

1.一种符合动态优化期望的强化学习方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据控制策略所需达到的控制目标集合，构建全局优化期望，包括：

3.根据权利要求1所述的方法，其特征在于，根据控制策略所需达到的控制目标集合，构建动态优化期望，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据控制策略所需达到的控制目标集合，确定对应的动态需求集合，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述动态需求集合，构建动态回报函数，包括：

6.根据权利要求5所述的方法，其特征在于，每个分类标准中的动态阈值均由与环境状态相关的函数进行确定。

7.根据权利要求6所述的方法，其特征在于，在基于智能体与障碍物之间的距离建立的分类标准的情况下，对应的动态阈值为与智能体的速度相关的函数；

8.一种符合动态优化期望的强化学习装置，其特征在于，所述强化学习装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的符合动态优化期望的强化学习方法中的步骤。

技术总结
本发明提供一种符合动态优化期望的强化学习方法、装置、设备及介质，包括：根据控制策略所需达到的控制目标集合，分别构建全局优化期望和动态优化期望；将构建的所述全局优化期望和所述动态优化期望与初始的强化学习模型结合，获得目标强化学习模型；控制策略通过所述目标强化学习模型进行强化学习，获得目标控制策略。旨在使控制策略在兼顾安全性与稳定性的同时，还能根据环境状态自适应的调整自身的控制方式。

技术研发人员：吕迪
受保护的技术使用者：毫末智行科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)