本发明涉及一种无人卡车动态调度系统及方法,具体涉及一种基于强化学习的露天矿无人卡车动态调度系统及方法。
背景技术:
1、随着人工智能和5g通讯技术的发展,中国的露天矿行业正在逐步实现智慧化和无人化。露天矿无人驾驶卡车调度是矿业领域的一个重要发展方向。通过车辆监控、指令下达、运输调配响应等手段,对无人矿卡的全程管控及实时调度,是降低矿产企业成本的重要环节。但是,露天矿现广泛推广应用的卡车调度管理系统并未实现真正意义上的智能化调度,更多是在现场作为一种辅助工具。
2、目前,许多学者针对露天矿车辆调度问题进行了大量研究,但大部分研究是建立在理想情境下,研究的是基于确定性环境状态的静态调度问题,而现实矿山生产是一个动态变化的过程,目前仍缺乏对考虑不确定因素的卡车动态调度的深入研究。
技术实现思路
1、针对上述现有技术存在的问题,本发明提供一种基于强化学习的露天矿无人卡车动态调度系统及方法,实现露天矿无人卡车的动态调度,加快推进矿山智能化进程。
2、为了实现上述目的,本发明采用的技术方案是:一种基于强化学习的露天矿无人卡车动态调度系统,包括车载传感器、车载终端和动态调度系统,车载传感器与车载终端连接,车载终端通过网络与动态调度系统连接;
3、动态调度系统包括调度处理中心、数据存储模块、故障预警模块、通信模块和可视化人机交互平台;调度处理中心、数据存储模块、故障预警模块之间分别两两连接,三者通过通信模块与可视化人机交互平台连接;
4、调度处理中心包括调度处理主机和奖励更新模块,奖励更新模块集成在调度处理主机内:调度处理主机内包含有高精三维地图,基于强化学习和贪婪算法对矿卡进行动态调度;奖励更新模块采用自适应的奖励调整机制,通过分析模型性能指标和调整奖励权重,将更新的奖励函数反馈至调度处理主机,重复训练调度模型,实现系统的动态调度和自学习功能;
5、数据存储模块用于对系统获取及产生的历史数据、调度数据、故障数据进行存储和分析,构建数据库,以供调度处理主机学习;
6、故障预警模块用于对矿卡的故障进行预测诊断,通过分析车载终端传输的矿卡状态信息,预测矿卡可能出现的故障类型与发生时间,设定报警阈值,当超过此阈值时,故障预警模块进行报警,调度处理主机对该矿卡下达去维修站检修命令,同时故障预警模块将分析后的车辆实时状态、具体数据与维修情况传输在可视化人机交互平台上;
7、通信模块接入覆盖露天矿全矿的5g网络,用于整个系统数据、信息及调度命令的传输;
8、可视化人机交互平台实时显示矿山三维地图和系统输入的矿卡数据,同时提供设置人工干预模式,遇到紧急事故时,可由操作员设置临时方案,并对外语音播报。
9、进一步的,所述车载传感器包括激光雷达、imu、双目相机、速度传感器、加速度传感器、温度传感器、压力传感器、油量传感器、电量传感器和gps其中的一种或者多种;车载终端内设处理器,配备全局和局部路径规划算法。
10、进一步的,所述车载终端内设空载、装载、运输、卸载、故障、充能六种矿卡实时状态,根据车载传感器检测的信号数据结合故障预警模块,六种矿卡实时状态具体判断方法为:
11、空载状态判断:压力传感器检测到的压力数值小于预设的空载阈值,并且该状态持续一段时间;
12、装载状态判断:压力传感器检测到的压力数值以一定速度上升,速度传感器检测到的速度数值为0;
13、运输状态判断:压力传感器检测到的压力数值大于等于预设的满载阈值,同时速度传感器检测到的速度数值不为0或加速度传感器检测到的数值不为0;
14、卸载状态判断:压力传感器检测到的压力数值以一定速度下降;
15、故障状态判断:由故障预警模块判断;
16、充能状态判断:油量传感器或电量传感器检测到的剩余油量或剩余电量小于等于设定充能值。
17、进一步的,所述调度处理主机对矿卡进行动态调度的方法为:
18、s1:定义调度问题的状态空间s和动作空间a;
19、s2:选择算法和梯度,构建强化学习模型;
20、强化学习模型由智能体、环境、状态、动作、奖励和策略组成;其中,奖励函数r(s,a)包含多个与调度目标相关的指标,每个指标有一个初始权重ωi;初始化奖励函数:
21、r(s,a)=ω1·η+ω2·tavg+ω3·xavg+ω4·q+ω5·y;
22、其中,η是运输效率,tavg是平均等待时间,xavg是平均行驶距离,q是维护成本,y是安全性指标;
23、策略μ是一个函数,根据当前状态s选择动作a;策略函数表示为一个神经网络:
24、a=π(s|θ);
25、其中,θ是策略网络的参数;
26、目标是最大化长期累积奖励,同时确保矿卡的高效运行和降低维护成本,目标函数可以表示为:
27、
28、其中,π是策略,τ是一条轨迹,st是时间t的状态,at是时间t的动作,r(st,at)是时间t的奖励,γ是折扣因子,t是时间步长;
29、对于连续动作空间,选择ddpg算法,其策略梯度为:
30、
31、其中,ρ3是状态分布,qφ(s,a)是评论家网络评估的状态-动作值;
32、
33、
34、其中,θi和θμ是分别是评论家网络和演员网络的参数,α是学习率;
35、s3:利用历史数据训练模型,并引入贪婪算法来提升调度决策的质量;
36、首先初始化ddpg模型,其次收集经验,然后更新网络,以稳定学习过程;重复收集经验和更新网络,不断迭代优化演员网络和评论家网络;
37、更新评论家网络:
38、
39、其中,q(s,a)是评论家网络对于状态s和动作a的输出,r是即时奖励,γ是折扣因子,是目标评论家网络q′对于下一个状态s′和智能体根据策略μ′选择的动作a′的输出;
40、更新演员网络:
41、
42、其中,是计算策略梯度,是关于动作a的梯度,由评论家网络的参数θq决定,是关于策略μ的参数θμ的梯度;
43、更新目标网络:
44、θi′←τθi+(1-τ)θi′;
45、其中,θi是原始网络的参数,θi′是目标网络的参数,τ是更新率;
46、使用历史数据训练模型,在每一步选择动作时,引入贪婪算法,以概率ε进行随机探索,即ε-greedy策略,提高模型解的质量;
47、s4:将训练好的模型部署到实际的露天矿无人驾驶卡车动态调度系统中,进行实时调度;
48、s5:根据奖励更新模块生成的新权值奖励函数评估模型的性能,并重复训练模型,对模型进行迭代优化,以实现实时动态调度。
49、进一步的,所述奖励更新模块自适应的奖励调整方法为:
50、s1:奖励更新模块对奖励函数初始化,为函数中的每个指标分配一个初始权重ωi;
51、s2:开始训练调度模型,并使用初始化的奖励函数来指导学习过程;
52、s3:在训练过程中定期评估模型的性能,分析模型在不同指标上的表现,识别出哪些指标对模型性能有较大的影响;
53、s4:根据模型在不同指标上的表现,调整奖励函数中相应指标的权重ωi;权重更新公式为:
54、
55、其中,λ是权重更新的学习率,是奖励函数关于权重ωi的梯度;
56、s5:使用更新后的奖励函数重新训练模型,使模型更加关注对性能影响大的指标;
57、s6:重复步骤s3~s5,不断迭代优化奖励函数和模型性能。
58、进一步的,所述ε-greedy策略的具体方法为:
59、在训练初期,设置一个大的ε值,随着训练的进行,逐渐减小ε的值;然后在训练调度模型的同时应用ε-greedy策略;定期评估模型在不同ε值下的性能,根据模型在不同ε值下的性能,调整ε值的大小;在模型训练完成后,使用贪婪算法来指导实际应用中的决策。
60、一种基于强化学习的露天矿无人卡车动态调度方法,所述故障预警模块对矿卡状态信息进行分析计算,预测矿卡可能出现的故障类型与发生时间,设定报警阈值,当超过此阈值时,故障预警模块进行报警,并反馈至调度处理中心;调度处理中心对满足要求的所有矿卡进行调度优化,基于强化学习构建调度模型,利用历史数据进行训练,采用贪婪算法提升解的质量,采用自适应的奖励调整机制,并重复训练调度模型,从而得到更优解;数据存储模块对系统产生的数据进行存储分析,构建数据库;最后利用通信模块,动态调度系统各模块之间、动态调度系统与无人矿卡及电铲之间进行数据、指令传输,实现对无人矿卡的实时动态调度。
61、与现有技术相比,本发明有益效果是:基于强化学习构建调度模型,利用历史数据进行训练,采用贪婪算法提升解的质量,采用自适应的奖励调整机制,并重复训练调度模型,同时利用5g网络与计算机技术,实现了露天矿无人驾驶卡车实时动态调度的无人化,能够预测车辆故障,降低了人员劳动强度,提高了运输效率,保障了生产运输安全,加快了矿山智能化进程。
1.一种基于强化学习的露天矿无人卡车动态调度系统,其特征在于,包括车载传感器、车载终端和动态调度系统,车载传感器与车载终端连接,车载终端通过网络与动态调度系统连接;
2.根据权利要求1所述的一种基于强化学习的露天矿无人卡车动态调度系统,其特征在于,所述车载传感器包括激光雷达、imu、双目相机、速度传感器、加速度传感器、温度传感器、压力传感器、油量传感器、电量传感器和gps其中的一种或者多种;车载终端内设处理器,配备全局和局部路径规划算法。
3.根据权利要求2所述的一种基于强化学习的露天矿无人卡车动态调度系统,其特征在于,所述车载终端内设空载、装载、运输、卸载、故障、充能六种矿卡实时状态,根据车载传感器检测的信号数据结合故障预警模块,六种矿卡实时状态具体判断方法为:
4.根据权利要求1所述的一种基于强化学习的露天矿无人卡车动态调度系统,其特征在于,所述调度处理主机对矿卡进行动态调度的方法为:
5.根据权利要求1所述的一种基于强化学习的露天矿无人卡车动态调度系统,其特征在于,所述奖励更新模块自适应的奖励调整方法为:
6.根据权利要求4所述的一种基于强化学习的露天矿无人卡车动态调度系统,其特征在于,所述ε-greedy策略的具体方法为:
7.一种基于强化学习的露天矿无人卡车动态调度方法,其特征在于,所述故障预警模块对矿卡状态信息进行分析计算,预测矿卡可能出现的故障类型与发生时间,设定报警阈值,当超过此阈值时,故障预警模块进行报警,并反馈至调度处理中心;调度处理中心对满足要求的所有矿卡进行调度优化,基于强化学习构建调度模型,利用历史数据进行训练,采用贪婪算法提升解的质量,采用自适应的奖励调整机制,并重复训练调度模型,从而得到更优解;数据存储模块对系统产生的数据进行存储分析,构建数据库;最后利用通信模块,动态调度系统各模块之间、动态调度系统与无人矿卡及电铲之间进行数据、指令传输,实现对无人矿卡的实时动态调度。