本发明涉及数据处理,尤其涉及一种多智能体协同围捕方法、装置、电子设备及存储介质。
背景技术:
1、多智能体系统在近年来的研究中展现了极大的潜力,尤其在自动化和智能系统设计中发挥着越来越重要的角色。在多智能体强化学习的研究领域,智能体需要在一个共享环境中学习如何协作或竞争以达成特定目标。尤其是在合作性任务中,智能体共享奖励信号,并需学会协作以最大化整体收益。这一过程中面临的主要挑战之一是如何有效地分配学习任务和同步智能体间的策略更新。
2、目前,针对多智能体系统的研究主要集中在基于去中心化-部分可观测马尔可夫决策过程(dec-pomdp,decentralized partially observable markov decisionprocesses)框架的解决方案上。在这一框架下,每个智能体只能基于其局部观测来作出决策,这在自动驾驶车辆和无人机群等应用场景中尤为常见。然而,这一设置的限制在于,智能体必须在有限的信息基础上进行决策,并预测其他智能体的行为,从而增加了问题的复杂度。
技术实现思路
1、本发明实施例的主要目的在于提出一种多智能体协同围捕方法、装置、电子设备及存储介质,以期解决现有技术至少一种问题,本发明能够高效进行多智能体协同围捕。
2、为实现上述目的,本发明实施例的一方面提出了一种多智能体协同围捕方法,方法包括:
3、利用围捕者智能体集群中目标智能体获取其对应的局部信息;局部信息基于目标智能体预设范围内的障碍物、围捕目标和邻居智能体的位置和运动速度得到;
4、基于局部信息构建得到异构图;障碍物、围捕目标和围捕者智能体集群中的智能体对应异构图中不同类型的节点,每个节点包括的节点属性基于节点对应的位置和运动速度确定;
5、将异构图输入图神经网络进行推理,通过信息聚合生成语义层嵌入;图神经网络包括消息算子和聚合算子;
6、基于语义层嵌入结合历史嵌入进行近似多跳通信,得到近似多跳嵌入;历史嵌入表征历史时刻生成的语义层嵌入;
7、基于近似多跳嵌入进行去中心化决策学习,得到决策动作;
8、基于决策动作控制围捕者智能体集群执行相应操作,下一时刻返回执行利用围捕者智能体集群中目标智能体获取其对应的局部信息的步骤,直至完成围捕操作。
9、在一些实施例中,利用围捕者智能体集群中目标智能体获取其对应的局部信息,包括以下步骤:
10、利用目标智能体携带的传感器采集其感知范围内的障碍物和围捕目标的位置和运动速度,进而整理得到感知数据与感知拓扑;
11、利用围捕者智能体集群的内部通信,获取目标智能体通信范围内的邻居智能体的位置和运动速度,进而整理得到通信数据与通信拓扑;
12、基于感知数据与感知拓扑,以及,通信数据与通信拓扑构成目标智能体的局部信息。
13、在一些实施例中,聚合算子包括节点层聚合和语义层聚合;将异构图输入图神经网络进行推理,通过信息聚合生成语义层嵌入,包括以下步骤:
14、通过消息算子对节点属性进行编码,得到信息嵌入,进而利用消息算子将信息嵌入广播到相同类型的其它节点;
15、对相同类型的所有节点的信息嵌入进行节点层聚合,得到节点层嵌入;
16、对所有类型的节点对应的节点层嵌入进行语义层聚合,得到语义层嵌入。
17、在一些实施例中,聚合算子还包括平均聚合算子、注意力聚合算子和池化聚合算子;方法还包括以下至少之一:
18、通过平均聚合算子基于信息嵌入进行对称归一化和线性变换;
19、通过注意力聚合算子基于信息嵌入进行各向异性聚合;
20、通过池化聚合算子基于信息嵌入进行线性变换和逐元素最大池化操作。
21、在一些实施例中,历史嵌入伴随消息算子的广播获得;基于语义层嵌入结合历史嵌入进行近似多跳通信,得到近似多跳嵌入,包括以下步骤:
22、将当前时刻生成的语义层嵌入作为1跳嵌入;
23、基于消息广播从所有邻居智能体获取前k个时刻的历史嵌入,并按照时序顺序对所有历史嵌入进行排列,得到嵌入序列;k表征预设的聚合深度;
24、将1跳嵌入依次与嵌入序列中所有的历史嵌入进行聚合处理,得到近似多跳嵌入。
25、在一些实施例中,将1跳嵌入依次与嵌入序列中所有的历史嵌入进行聚合处理,得到近似多跳嵌入,包括以下步骤:
26、将1跳嵌入作为目标嵌入,将嵌入序列中的第一个历史嵌入作为目标历史嵌入;
27、对目标嵌入与目标历史嵌入进行聚合,将聚合的结果作为目标嵌入;
28、将嵌入序列中下一个历史嵌入作为目标历史嵌入,然后返回执行对目标嵌入与目标历史嵌入进行聚合的步骤,直至嵌入序列中所有历史嵌入都参与聚合,将最后一次聚合的结果作为近似多跳嵌入。
29、在一些实施例中,基于近似多跳嵌入进行去中心化决策学习,得到决策动作,包括以下步骤:
30、采用至少一种多智能体强化学习算法对近似多跳嵌入进行去中心化决策学习,得到决策动作;
31、其中,多智能体强化学习算法包括mappo、maddpg和masac。
32、为实现上述目的,本发明实施例的另一方面提出了一种多智能体协同围捕装置,装置包括:
33、第一模块,用于利用围捕者智能体集群中目标智能体获取其对应的局部信息;局部信息基于目标智能体预设范围内的障碍物、围捕目标和邻居智能体的位置和运动速度得到;
34、第二模块,用于基于局部信息构建得到异构图;障碍物、围捕目标和围捕者智能体集群中的智能体对应异构图中不同类型的节点,每个节点包括的节点属性基于节点对应的位置和运动速度确定;
35、第三模块,用于将异构图输入图神经网络进行推理,通过信息聚合生成语义层嵌入;图神经网络包括消息算子和聚合算子;
36、第四模块,用于基于语义层嵌入结合历史嵌入进行近似多跳通信,得到近似多跳嵌入;历史嵌入表征历史时刻生成的语义层嵌入;
37、第五模块,用于基于近似多跳嵌入进行去中心化决策学习,得到决策动作;
38、第六模块,用于基于决策动作控制围捕者智能体集群执行相应操作,下一时刻返回执行第一模块,直至完成围捕操作。
39、在一些实施例中,聚合算子还包括平均聚合算子、注意力聚合算子和池化聚合算子;装置还包括以下至少之一:
40、第七模块,用于通过平均聚合算子基于信息嵌入进行对称归一化和线性变换;
41、第八模块,用于通过注意力聚合算子基于信息嵌入进行各向异性聚合;
42、第九模块,用于通过池化聚合算子基于信息嵌入进行线性变换和逐元素最大池化操作。
43、为实现上述目的,本发明实施例的另一方面提出了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的方法。
44、为实现上述目的,本发明实施例的另一方面提出了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的方法。
45、本发明实施例至少包括以下有益效果:本发明提供一种多智能体协同围捕方法、装置、电子设备及存储介质,该方案通过利用围捕者智能体集群中目标智能体获取其对应的局部信息;局部信息基于目标智能体预设范围内的障碍物、围捕目标和邻居智能体的位置和运动速度得到;基于局部信息构建得到异构图;障碍物、围捕目标和围捕者智能体集群中的智能体对应异构图中不同类型的节点,每个节点包括的节点属性基于节点对应的位置和运动速度确定;将异构图输入图神经网络进行推理,通过信息聚合生成语义层嵌入;图神经网络包括消息算子和聚合算子;基于语义层嵌入结合历史嵌入进行近似多跳通信,得到近似多跳嵌入;历史嵌入表征历史时刻生成的语义层嵌入;基于近似多跳嵌入进行去中心化决策学习,得到决策动作;基于决策动作控制围捕者智能体集群执行相应操作,下一时刻返回执行利用围捕者智能体集群中目标智能体获取其对应的局部信息的步骤,直至完成围捕操作。本发明实施例通过改进决策机制和优化计算流程,旨在减少决策延迟,确保在动态环境中的快速响应能力,本发明通过优化图神经网络架构和多智能体强化学习算法,本发明旨在有效处理大规模多智能体系统,提高模型在智能体数量大幅增加时的性能和效率。本发明能够高效实现多智能体协同围捕。
1.一种多智能体协同围捕方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,所述利用围捕者智能体集群中目标智能体获取其对应的局部信息,包括以下步骤:
3.根据权利要求1所述的方法,其特征在于,所述聚合算子包括节点层聚合和语义层聚合;所述将所述异构图输入图神经网络进行推理,通过信息聚合生成语义层嵌入,包括以下步骤:
4.根据权利要求3所述的方法,其特征在于,所述聚合算子还包括平均聚合算子、注意力聚合算子和池化聚合算子;所述方法还包括以下至少之一:
5.根据权利要求1所述的方法,其特征在于,所述历史嵌入伴随所述消息算子的广播获得;所述基于所述语义层嵌入结合历史嵌入进行近似多跳通信,得到近似多跳嵌入,包括以下步骤:
6.根据权利要求1所述的方法,其特征在于,所述将所述1跳嵌入依次与所述嵌入序列中所有的所述历史嵌入进行聚合处理,得到所述近似多跳嵌入,包括以下步骤:
7.根据权利要求1所述的方法,其特征在于,所述基于所述近似多跳嵌入进行去中心化决策学习,得到决策动作,包括以下步骤:
8.一种多智能体协同围捕装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。