本申请涉及数据分析领域,尤其涉及一种基于深度强化学习智能体推演数据的知识抽取方法。
背景技术:
1、随着智能游戏技术的不断发展,飞行器类空战游戏已经越来越多的出现游戏智能体完胜玩家的场面,为了提高人机对抗的吸引力,迫切需要提供一种能提高游戏玩家对战水平的辅助方法。
2、目前,最具有代表性的实际方案主要有两种:一种是基于规则的方法,它主要是通过总结目前游戏中各类空中交战战法,形成策略规则,利用规则来推演每次的对抗游戏,帮助玩家提高对抗水平。这种方法不能描述复杂多变的游戏空战场景,培训效率低,效果较差;第二种方法是利用智能体进行对战模拟训练,然后输出数据供玩家学习以提高战术水平。虽然该方法能够适应复杂的对抗场景,且随着智能体技术的成熟,智能体获胜率不断提高,其输出的数据极具学习参考价值,但直接利用智能体输出数据来提升玩家的水平并不是很容易的事。首先,智能体的每步输出是飞机的基础操作量即飞机摇杆、油门和方向舵控制量,不是直接所采取的战术动作;其次,智能体没有提供对作战状态的高度抽象,使分析战术所对应的状态湮灭在连续变化的对战过程中,因此很难使玩家理解。
技术实现思路
1、有鉴于此,本申请提出了一种基于深度强化学习智能体推演数据的知识抽取方法,能够将智能体的输出数据转化为便于玩家理解的数据,从而提高玩家对抗战术的学习效率。
2、根据本申请的一方面,提供了一种基于深度强化学习智能体推演数据的知识抽取方法,所述方法包括:
3、获取智能体状态数据和对应的智能体动作数据;
4、根据所述智能体动作数据计算战术动作数据;
5、将所述战术动作数据划分为多个动作区间,计算每个动作区间内战术动作数据的平均值,根据所述平均值认定动作区间的标准战术动作类型;
6、根据每个动作区间内第一时刻的智能体状态数据计算态势状态数据和态势状态类型;
7、输出所述态势状态和所述战术动作的数据和类型。
8、进一步地,所述智能体为深度强化学习训练的智能体,能够在人机对抗中战胜高水平玩家;
9、且所述智能体经过1v1和2v1空战模拟对抗训练,能够取得模拟对抗胜利。
10、进一步地,所述战术动作数据包括:径向过载nx、法向过载nz、滚转角μ。
11、进一步地,所述态势状态数据包括:飞行方向、位置、距离、高度差、速度。
12、进一步地,所述战术动作类型包括:匀速前飞、加速前飞、减速前飞、匀速左转、加速左转、减速左转、匀速右转、加速右转、减速右转、匀速下降、加速下降、减速下降、匀速爬升、加速爬升、减速爬升。
13、进一步地,所述态势状态类型包括:平行反向、高速咬尾、咬尾、高度差、对冲、东斜咬、西斜咬、东远斜咬、西远斜咬、被东斜咬、被西斜咬、被东远斜咬、被西远斜咬、错位高度差、旋转追逐、剪刀追逐、错位平行。
14、进一步地,所述将所述战术动作数据划分为多个动作区间,计算每个动作区间内战术动作数据的平均值,根据所述平均值认定动作区间的标准战术动作类型,包括以下步骤:
15、设定战术动作数据的变化阈值;
16、比较每两个相邻时刻的战术动作数据,将所述战术动作数据中变化超过所述阈值的时刻作为区间分割点;
17、根据所述区间分割点,将所述战术动作数据划分为为多个动作区间,每个动作区间为一个战术动作,计算每个动作区间内战术动作数据的平均值;
18、将所述平均值与标准战术动作数据进行比较,找到差异最小的标准战术动作数据,将所述平均值对应的动作区间认定为所述标准动作数据对应的标准动作类型。
19、根据本申请的另一方面,提供了一种基于深度强化学习智能体推演数据的知识抽取系统,所述系统包括:
20、数据获取模块,用于获取智能体状态数据和对应的智能体动作数据;
21、战术动作计算模块,用于根据所述智能体动作数据计算战术动作数据;
22、动作区间划分模块,用于将所述战术动作数据划分为多个动作区间,计算每个动作区间内战术动作数据的平均值,根据所述平均值认定动作区间的标准战术动作类型;
23、态势状态计算模块,用于根据每个动作区间内第一时刻的智能体状态数据计算态势状态数据和态势状态类型;
24、数据输出模块,用于输出所述态势状态和所述战术动作的数据和类型。
25、根据本申请的另一方面,提供了一种电子设备,所述设备包括:
26、处理器;
27、用于存储处理器可执行指令的存储器;
28、其中,所述处理器被配置为执行所述可执行指令时实现上述所述的基于深度强化学习智能体推演数据的知识抽取方法。
29、本发明的有益效果:
30、本发明通过获取智能体状态数据和对应的智能体动作数据,计算战术动作数据,将所述战术动作数据划分为多个动作区间,认定区间的标准战术动作类型,根据每个动作区间内第一时刻状态数据计算态势状态数据和态势状态类型,输出所述态势状态和所述战术动作的数据和类型,能够将智能体的输出数据转化为便于玩家理解的信息,从而有效提升玩家对抗战术的学习效率,且能够使用各种深度强化学习方法,具备良好的可扩展性。
1.一种基于深度强化学习智能体推演数据的知识抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度强化学习智能体推演数据的知识抽取方法,其特征在于:
3.根据权利要求1所述的基于深度强化学习智能体推演数据的知识抽取方法,其特征在于,所述战术动作数据包括:径向过载nx、法向过载nz、滚转角μ。
4.根据权利要求1所述的基于深度强化学习智能体推演数据的知识抽取方法,其特征在于,所述态势状态数据包括:飞行方向、位置、距离、高度差、速度。
5.根据权利要求3所述的基于深度强化学习智能体推演数据的知识抽取方法,其特征在于,所述战术动作类型包括:匀速前飞、加速前飞、减速前飞、匀速左转、加速左转、减速左转、匀速右转、加速右转、减速右转、匀速下降、加速下降、减速下降、匀速爬升、加速爬升、减速爬升。
6.根据权利要求4所述的基于深度强化学习智能体推演数据的知识抽取方法,其特征在于,所述态势状态类型包括:平行反向、高速咬尾、咬尾、高度差、对冲、东斜咬、西斜咬、东远斜咬、西远斜咬、被东斜咬、被西斜咬、被东远斜咬、被西远斜咬、错位高度差、旋转追逐、剪刀追逐、错位平行。
7.根据权利要求5所述的基于深度强化学习智能体推演数据的知识抽取方法,其特征在于,所述将所述战术动作数据划分为多个动作区间,计算每个动作区间内战术动作数据的平均值,根据所述平均值认定动作区间的标准战术动作类型,包括以下步骤:
8.一种基于深度强化学习智能体推演数据的知识抽取系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
