一种边缘云原生环境下的统一资源调度方法、装置及介质

xiaoxiao4月前 60

本发明属于边缘计算，尤其涉及一种基于场景表征模拟器的边缘云原生环境下的统一资源调度方法，具体为一种边缘云原生环境下的统一资源调度方法、装置及介质。

背景技术：

1、边缘云原生环境下多场景混部服务应用中，多混部服务群落运动特性及通信能力差异性显著，难以及时构成稳定集群；不同场景混部服务群体的数据流、控制流相互独立，多场景混部服务集群难以有效协同。

技术实现思路

1、本发明的目的是针对现有技术存在的问题，提供一种边缘云原生环境下的统一资源调度方法、装置及介质，通过构建环境模拟器，寻求一种策略来控制智能体根据模拟出的参数执行适应性行为以获得最优性能。

2、根据本发明说明书的一方面，提供一种边缘云原生环境下的统一资源调度方法，包括：

3、识别边缘云原生环境中的环境参数；

4、根据识别出的环境参数构建环境模拟器；

5、基于构建的环境模拟器，运用协同多智能体强化学习的方法来探索优化统一资源调度策略。

6、作为进一步的技术方案，根据识别出的环境参数构建环境模拟器，包括：构建基于transformer的环境参数提取器架构，用于将用户组的状态-动作数据嵌入到潜在向量中。

7、作为进一步的技术方案，所述环境模拟器在每个时间节点，根据预测更新状态和动作，并从真实数据集加载状态。

8、作为进一步的技术方案，所述环境模拟器的生成过程为：

9、

10、其中f、g和h分别表示观测函数、奖励函数和过渡动力学，et、εt和ηt是对应的独立同分布随机噪声，ot∈o表示在时间t时感知的信号，o是观察空间，at∈a是执行的动作，a是动作空间，表示潜在的底层状态，s为状态空间，rt∈r表示奖励变量，r是奖励空间。

11、作为进一步的技术方案，基于生成的环境模拟器，考虑约束，对变量上的图结构进行显式地编码，编码后的环境模拟器生成过程为：

12、

13、其中，i＝1,...,d，⊙表示元素级乘积，d(.)是二值矩阵。

14、作为进一步的技术方案，基于环境模拟器运用协同多智能体强化学习的方法来探索优化统一资源调度策略，包括：通过最大化长期奖励的强化学习算法离线训练，使得各个场景的部署策略由独立转变为合作与共赢。

15、作为进一步的技术方案，基于环境模拟器的强化学习的总体目标是找到一个最优策略，使所有用户的累积奖励最大化，其中，所述总体目标为：

16、

17、其中p(g)和p(u)是多场景混部服务和子场景的先验分布，τr～d(u,g)表示从日志数据集d中采样多场景混部服务g中子场景u的真实轨迹，p(τ|π,pm)是在策略π和过渡函数pm下生成轨迹τ＝[s0,a0,r0,...,st,at,rt]的概率。

18、根据本发明说明书的一方面，提供一种边缘云原生环境下的统一资源调度装置，包括：

19、识别模块，用于识别边缘云原生环境中的环境参数；

20、构建模块，用于根据识别出的环境参数构建环境模拟器；

21、调度模块，用于基于构建的环境模拟器，运用协同多智能体强化学习的方法来探索优化统一资源调度策略。

22、根据本发明说明书的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种边缘云原生环境下的统一资源调度方法的步骤。

23、根据本发明说明书的一方面，提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现所述的一种边缘云原生环境下的统一资源调度方法的步骤。

24、与现有技术相比，本发明的有益效果是：

25、本发明在边缘云原生环境中有效地识别环境参数，依据环境参数构建环境模拟器，然后基于环境模拟器运用协同多智能体强化学习的方法来探索优化统一资源调度策略，通过最大化长期奖励的强化学习算法离线训练，使得各个场景的部署策略由独立转变为合作与共赢。

26、本发明可在边缘云原生多应用场景下，感知系统状态变化、动态编排和部署容器资源的能力。

技术特征：

1.一种边缘云原生环境下的统一资源调度方法，其特征在于，包括：

2.根据权利要求1所述一种边缘云原生环境下的统一资源调度方法，其特征在于，根据识别出的环境参数构建环境模拟器，包括：构建基于transformer的环境参数提取器架构，用于将用户组的状态-动作数据嵌入到潜在向量中。

3.根据权利要求2所述一种边缘云原生环境下的统一资源调度方法，其特征在于，所述环境模拟器在每个时间节点，根据预测更新状态和动作，并从真实数据集加载状态。

4.根据权利要求2所述一种边缘云原生环境下的统一资源调度方法，其特征在于，所述环境模拟器的生成过程为：

5.根据权利要求4所述一种边缘云原生环境下的统一资源调度方法，其特征在于，基于生成的环境模拟器，考虑约束，对变量上的图结构进行显式地编码，编码后的环境模拟器生成过程为：

6.根据权利要求1所述一种边缘云原生环境下的统一资源调度方法，其特征在于，基于环境模拟器运用协同多智能体强化学习的方法来探索优化统一资源调度策略，包括：通过最大化长期奖励的强化学习算法离线训练，使得各个场景的部署策略由独立转变为合作与共赢。

7.根据权利要求6所述一种边缘云原生环境下的统一资源调度方法，其特征在于，基于环境模拟器的强化学习的总体目标是找到一个最优策略，使所有用户的累积奖励最大化，其中，所述总体目标为：

8.一种边缘云原生环境下的统一资源调度装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的一种边缘云原生环境下的统一资源调度方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的一种边缘云原生环境下的统一资源调度方法的步骤。

技术总结
本发明公开一种边缘云原生环境下的统一资源调度方法、装置及介质，方法包括：识别边缘云原生环境中的环境参数；根据识别出的环境参数构建环境模拟器；基于构建的环境模拟器，运用协同多智能体强化学习的方法来探索优化统一资源调度策略。本发明通过构建环境模拟器，寻求一种策略来控制智能体根据模拟出的参数执行适应性行为以获得最优性能。

技术研发人员：熊伟,杨成平
受保护的技术使用者：湖北文理学院
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)