本发明涉及城市轨道交通运营组织方案优化,更具体的,涉及一种基于强化学习的城市轨道交通列车运行图实时调整方法。
背景技术:
1、我国大部分城市的轨道交通系统已进入超大规模网络化运营新阶段,但随着运营年限增加,部分线路及设施老化,导致列车延误频发。尤其是高峰时段,一旦发生延误,影响范围广且时间长,包括乘客滞留、列车通行能力下降、服务质量降低,甚至危及乘客安全。目前,城轨列车延误的应急处置主要依赖调度员的经验决策和人工干预。
2、在理论研究层面,目前启发式的算法被广泛用于解决轨道交通调度问题,但考虑到启发式算法,容易陷入局部最优解,适应性差等问题,目前也使用强化学习的算法用于解决列车运行调整的问题,现有的针对城市轨道列车调整的方法存在如下问题:第一,现有人工或传统方法在处理复杂问题时需要大量的计算资源和时间,导致求解过程非常缓慢,限制了其在实际应用中的可行性。第二:运筹优化类算法容易在搜索过程中陷入局部最优解,无法找到全局最优解。这限制了它们在高维复杂问题中的效果。第三:部分强化学习方法通常需要手动调整参数或设计特定的启发式规则,以适应不同类型的问题。这种刚性使它们难以适应多样化的任务。第四:在需要实时响应或处理大规模数据的应用中,现有强化学习类方法往往无法提供足够的实时性,因为它们的计算开销较高。
技术实现思路
1、为了解决上述技术问题,本发明提出了一种基于强化学习的城市轨道交通列车运行图实时调整方法,提高了调度的编制效率,也满足了城市轨道交通运营管理人员对调度质量和效率的高标准要求。
2、本发明提供了一种基于强化学习的城市轨道交通列车运行图实时调整方法,包括:
3、s1:根据线路的运行基础条件,构建以调整后的实际列车运营时刻表与计划的列车运营时刻表的偏差值与乘客总等待时间之和最小为目标函数的调整模型;
4、s2:确定所述调整模型的约束条件;
5、s3:在调整模型基础上引入强化学习算法,初始化调整优化模型;
6、s4:利用竞争深度q网络对双重深度q网络进行改进,获取最终调整优化模型;
7、s5:利用所述调整优化模型反复训练不同线路的不同延误情况得到不同的矩阵查找表,导入城市轨道交通列车编图系统,基于需求信息根据延误情况实时获得改进的列车运行时刻表。
8、本方案中,构建调整模型,建模的目标是最小化调整后列车运营时刻表与计划列车运营时刻表的偏差值与乘客的总等待时间之和;
9、所述调整模型的目标函数表示为:其中,表示修改后的实际列车运营时刻表与计划的列车运营时刻表的偏差值与乘客总等待时间之和,表示列车标签,表示列车数总数;表示交路的车站索引,表示交路上下行的站台集合;和分别表示实际列车的到达站台的时间和计划列车的到达站台的时间;和分别表示实际列车的离开站台的时间和计划列车的离开站台的时间,表示列车的运营时间偏差值数量级的转换系数,表示表示乘客的总等待时间数量级的转换系数,表示乘客的总等待时间。
10、本方案中,基于行车间隔约束、运行时间约束、车站停站时间约束、乘客流量约束及折返时间约束构建调整模型的约束条件。
11、本方案中,在调整模型基础上引入强化学习算法,初始化调整优化模型,所述调整优化模型的状态表示,具体为:
12、初始时间步长对应于每条服务线上发生的事件所参考的主时钟时间,按照计划时刻表发车时,在发生延误条件下,前后车辆之间的间隔时间根据当前调整的时刻表下运行的列车间的间隔时间计算;定义状态特征集,表示为:,其中的表示每个时间步上的局部观测值,为站台的列车状态,使用操作符确定最近的列车,表示列车标签,表示实际列车的到达站台的时间,表示交路的车站索引,表示交路上下行的站台集合;
13、局部状态向量的计算过程,表示为:,其中表示延误值,表示站台的最近列车与前车的间隔距离,表示站台的最近列车与后车的间隔距离。
14、本方案中,在调整模型基础上引入强化学习算法,初始化调整优化模型,所述调整优化模型的动作表示,具体为:
15、根据实际运营情况设定三种动作策略,供列车在行进过程中选择使用:
16、策略a表示正常状态,列车不采取任何动作,维持当前状态;
17、策略b表示列车的运动,其中列车在进入区块时选择一个区间运行时间水平;符号表示取最大的值使函数最大化;
18、策略c设计列车滞留,列车在出发前确定在车站的滞留时间;
19、根据给定的状态特征集,列车将在每个时间步执行动作策略,动作策略的计算表示为:;
20、局部动作向量的计算过程,表示为:。
21、本方案中,在调整模型基础上引入强化学习算法,初始化调整优化模型,所述调整优化模型的奖励函数定义,具体为:
22、根据列车运行的前后间隔是否满足安全运行的要求以及能否快速地恢复为正常准时的列车运行时刻表设置奖励函数;
23、将列车的停站延误划分为两种情况,第一种情况是列车需要在车站停车,此时列车未按计划时刻表的预定时间发车或者延误未解决,根据当前检查时间与列车预定出发时间的差值和实际的列车运营时刻表和计划的列车运营时刻表的差值进行奖励计算;
24、第二种情况是延误问题已经解决并且延误的列车已经发车或者不受影响的列车正常发车时,根据列车的实际发车时间与预定的发车时间之差进行奖励计算;
25、两种情况的奖励合并延误相关的奖励计算,表示为:并将调整模型中的行车间隔约束、运行时间约束、车站停站时间约束、乘客流量约束及折返时间约束转化为奖励的表达。
26、本方案中,利用竞争深度q网络对双重深度q网络进行改进,获取最终调整优化模型,具体为:
27、引入双重深度q网络ddqn作为调整优化模型的基础模型,设置两个独立的q函数,主网络用于选择动作,目标网络用于评估动作,双重深度q网络ddqn的q值计算表示为:
28、其中,表示主网络的参数,表示局部状态向量,表示局部动作向量,表示学习率,表示双重深度q网络选择的动作,表示列车标签,表示交路的车站索引;
29、利用竞争深度q网络对双重深度q网络进行改进生成竞争双重深度q网络框架,通过引入两个分支网络,一个用于评估状态的价值,另一个用于评估每个动作的优劣,改进后网络框架更有效地学习状态和动作之间的关系,使得调整优化模型能够单独学习状态的价值和每个动作的相对优势。
30、本方案中,所述竞争双重深度q网络对应的动作值的计算,具体为:其中为状态的价值,通过一个全连接层直接输出;为动作相对于状态的优势,通过一个与动作空间大小相同的全连接层输出,每个动作对应一个优势值;为动作空间的大小,表示竞争双重深度q网络中的价值权衡参数,表示平衡竞争双重深度q网络中的优势参数。
31、与现有技术相比,本发明的有益效果为:
32、本发明提出的方法具有实时性调整的功能;支持提前训练好模型,以便后续出现延误等突发情况快速检索,实时动态的选择相应的列车扣留或改变运行等级等策略,具有很强的实时性。同时本发明具备较好的拓展迁移能力。
33、本发明优化后的列车运行图行车间隔更加均匀;根据现场延误的实际情况,在运行列车的总运行延误时间最小的目标下,统筹扣押后续列车及修改列车区间运行等级,使得后续列车运行尽量均匀。
1.一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,构建调整模型,建模的目标是最小化调整后列车运营时刻表与计划列车运营时刻表的偏差值与乘客的总等待时间之和;
3.根据权利要求1所述的一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,基于行车间隔约束、运行时间约束、车站停站时间约束、乘客流量约束及折返时间约束构建调整模型的约束条件。
4.根据权利要求1所述的一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,在调整模型基础上引入强化学习算法,初始化调整优化模型,所述调整优化模型的状态表示,具体为:
5.根据权利要求4所述的一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,在调整模型基础上引入强化学习算法,初始化调整优化模型,所述调整优化模型的动作表示,具体为:
6.根据权利要求5所述的一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,在调整模型基础上引入强化学习算法,初始化调整优化模型,所述调整优化模型的奖励函数定义,具体为:
7.根据权利要求1所述的一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,利用竞争深度q网络对双重深度q网络进行改进,获取最终调整优化模型,具体为:
8.根据权利要求7所述的一种基于强化学习的城市轨道交通列车运行图实时调整方法,其特征在于,所述竞争双重深度q网络对应的动作值的计算,具体为: 其中为状态的价值,通过一个全连接层直接输出;为动作相对于状态的优势,通过一个与动作空间大小相同的全连接层输出,每个动作对应一个优势值;为动作空间的大小,表示竞争双重深度q网络中的价值权衡参数,表示平衡竞争双重深度q网络中的优势参数。