本发明涉及供应链管控优化领域,特别涉及一种基于强化学习的weee回收再利用供应链管控优化方法。
背景技术:
1、随着全球废弃电子电气设备(weee)数量的迅速增长,环境管理者和资源政策制定者面临严峻挑战。weee主要包括废弃的家用电器、计算机、通信设备等电子产品,其中含有的铅、汞、镉等有毒有害物质。如果不当处理会对土壤、水源和空气质量造成严重影响,进而危害人类健康。为了解决这一挑战,许多企业贯彻落实生产者延伸责任原则,通过建立逆向供应链对weee产品进行再利用,在循环经济中发挥着至关重要的作用。在weee回收再利用供应链中,库存管控优化直接影响到成本控制、资源效率和供应链的整体可持续性。有效的库存管控策略可以减少库存积压,降低仓储成本,提高供应链的响应速度和灵活性。
2、与常规的逆向供应链相似,weee回收再利用供应链管控问题的主要挑战聚焦于回收量和需求的不确定性。工厂生产需求受到季节性和随机性的市场产品需求影响,表现出显著的不确定性。此外,当产品达到生命周期末端时,意味着它们将转变为潜在的可回收资源,即市场待回收量。与市场产品订单不确定性相似,市场待回收weee数量受消费者行为、产品耐用性、政策法规等多种因素影响,同样具有不确定性。
3、为了应对上述存在的不确定性,有研究者利用预测模型预测未来回收量,将具有不确定性的库存管控问题转化为确定性场景的优化问题进行求解。但该方法依赖于提前预测的场景进行求解,缺乏实时数据的反馈和调整机制,因此,现有研究方案多采用基于历史数据或经验的重新订货策略(reordering policies)。重新订货策略通过比较当前库存水平与预设的订货点,来确定是否需要生产和订购产品或原材料。例如,现有技术中有人针对可重复使用的气瓶供应链库存管控问题,采用了(t, s)策略,其中t代表审查周期,s代表目标库存水平。研究结果显示,该方法与耗时更长的模拟优化方法获得的结果相近。
4、尽管基于重新订货策略的优化方案展现出一定效果,但这些方案依赖于设置的固定参数,无法动态地适应当前市场环境的变化。近年来,研究者们针对具有随机和季节性需求特点的两级供应链库存控制系统进行了一系列深度强化学习的应用研究。他们综合考虑了生产限制、仓库容量和补货交货期等关键因素。实验结果表明,与(s,q)重新订货策略相比,强化学习算法在应对供应链动态复杂性方面表现更优。然而,在复杂的逆向供应链场景中,强化学习的应用仍较少,其潜力有待进一步探索。
技术实现思路
1、为解决供应链管控中存在的库存积压和缺货风险,供应链响应速度和灵活性差,整体运营效率低下的问题,本发明提供了一种基于强化学习的weee回收再利用供应链管控优化方法,通过训练并应用强化学习智能体,使其能够决策系统中各角色的物料流动、收集、拆解再利用等策略,以在保证供应链正常运行的同时,减少库存积压,提高供应链的响应速度和灵活性,从而最小化供应链的总运营成本,促进weee回收再利用企业的可持续发展。
2、为达到上述目的,本发明的技术方案如下:
3、一种基于强化学习的weee回收再利用供应链管控优化方法,包括如下步骤:
4、步骤1,构建可供交互的weee回收再利用供应链虚拟系统;
5、步骤2,采用双层深度q网络对智能体进行训练,智能体通过与建立的供应链虚拟系统的交互学习,逐步优化策略,直至供应链虚拟系统获得稳定的运营成本;
6、步骤3,将训练好的智能体部署到weee回收再利用供应链现实系统中,实时进行供应链管控。
7、上述方案中,步骤1中,构建的可供交互的weee回收再利用供应链虚拟系统包括收集中心、预处理中心和产品制造工厂三个角色;收集中心和预处理中心采取按库存生产模式,收集中心按计划收集weee,放入收集中心weee仓库,等待后续转运到预处理中心weee仓库,预处理中心进行weee拆解和废旧塑料再生造粒,在拆解和再利用weee后,将得到的再生塑料颗粒存入再生塑料颗粒仓库,等待产品制造工厂的订单;拆解出的废旧金属则售往金属加工厂;产品制造工厂采取按订单生产模式,提前向预处理中心和外部供应商下达塑料订单进行原材料储备,随后利用塑料原材料库存满足生产订单需求。
8、上述方案中,步骤2中,所述双层深度q网络包括主网络和目标网络,所述主网络用于选择动作和计算当前状态下的q值;所述目标网络用于计算下一个状态的最大q值;所述q值表示在当前状态下选择某个动作后可以获得的累积奖励的期望值。
9、上述方案中,步骤2的训练过程如下:
10、step1:初始化:
11、首先初始化两个结构相同的主网络和目标网络,以及经验回放池 p,并设置奖励折扣因子和策略中的探索率的初始值;
12、step2:环境交互:
13、智能体观察当前供应链状态,然后通过策略在一定概率下随机选择动作;在选择完动作后,将动作所对应的收集、拆解再利用决策输入供应链虚拟系统进行交互,获得系统返回的负的供应链运营成本,即奖励 rt,并观察供应链新的状态,最后将存入经验回放池 p,用于后续更新主网络参数;
14、step3:经验回放、主网络更新:
15、在经验回放过程中,从经验回放池 p中随机抽取一批样本;利用主网络估计在状态下采取动作的q值,即未来期望累积回报;随后,利用目标网络计算当前状态的目标值;最后计算损失函数,并利用梯度下降法更新主网络参数;
16、step4:目标网络更新:
17、每隔固定的时间间隔,将主网络的参数复制到目标网络中,以更新目标网络的参数,即;
18、step5: 探索率衰减:
19、在每个训练轮次后,逐步降低值,使得探索行为逐渐减少,让算法更多地利用已学习到的知识进行动作选择;
20、step6: 训练收敛:
21、随着训练的进行,主网络逐渐学会准确地估计各状态-动作对的q值,从而选择具有最高q值的动作,在每次交互中朝着最大化长期累积奖励的方向调整;当长度为t的回合累积奖励的增长趋于稳定时,强化学习智能体收敛,训练完成。
22、进一步的技术方案中,所述供应链状态表示如下:
23、;
24、其中,表示t时刻收集中心weee仓库库存, yt表示在时间步长t-1,…,t-lc期间,从收集中心运往预处理中心但尚未交付的weee数量,lc表示从收集中心到预处理中心的交付期,表示t时刻预处理中心weee仓库库存,表示t-1时刻预处理中心拆解再利用的weee数量,表示t时刻预处理中心再生塑料颗粒仓库库存,表示t时刻产品制造工厂从预处理中心和外部供应商订购但尚未交付的塑料颗粒数量在途库存,表示t时刻产品制造工厂塑料原材料仓库库存,表示t-σ时刻产品生产订单的塑料原材料需求,表示t-1时刻产品生产订单的塑料原材料需求,表示t-σ时刻市场待回收weee数量,表示t-1时刻市场待回收weee数量,σ表示所观察历史需求和历史待回收量的时间长度。
25、进一步的技术方案中,所述动作表示如下:
26、;
27、其中, xt表示t时刻制定的weee收集计划, yt表示t时刻收集中心运往预处理中心的weee数量, zt表示t时刻预处理中心拆解再利用的weee数量, qt表示t时刻产品制造工厂从预处理中心订购的再生塑料颗粒数量, pt表示t时刻产品制造工厂向外部供应商采购的塑料颗粒数量。
28、进一步的技术方案中,step2中,具体动作选择过程如下:
29、(1)以概率随机选择动作;
30、(2)以概率通过主网络获得最大q值对应的动作。
31、进一步的技术方案中,所述奖励 rt表示如下:
32、;
33、其中,第一项表示weee的收集成本,表示单位weee的收集成本,表示t时刻的实际weee收集量;
34、第二项表示weee的预处理可变成本,表示单位weee的预处理可变成本, zt表示t时刻预处理中心拆解再利用weee的数量;
35、第三项表示预处理产线设立成本,表示单位拆解线设置启动成本, lt表示t时刻产线启动数量;
36、第四项表示weee的运输成本,表示单位weee运输成本, yt表示t时刻收集中心运往预处理中心的weee数量;
37、第五项表示再生塑料颗粒的运输成本,表示单位再生塑料颗粒的运输成本, qt表示t时刻产品制造工厂从预处理中心订购的再生塑料颗粒数量;
38、第六项表示从外部供应商采购塑料颗粒的成本,表示单位塑料颗粒采购成本, pt表示t时刻产品制造工厂向外部供应商采购塑料颗粒的数量;
39、表示在规划期内,即,t时刻末各个仓库需要支付库存持有成本, hi表示各仓库单位库存的持有成本,i为仓库索引,收集中心weee仓库用索引0表示,预处理中心weee仓库用索引1表示,预处理中心的再生塑料颗粒仓库用索引2表示,产品制造工厂的塑料原材料仓库用索引3表示; h3表示产品制造工厂塑料原材料仓库的单位库存持有成本,表示t时刻末,t+1时刻初各仓库的库存,表示t时刻末产品制造工厂塑料原材料仓库的库存;表示塑料原材料缺货导致的生产订单延期成本,表示单位塑料原材料缺货导致的生产订单延期成本;
40、表示规划期结束时,即时,需要支付额外的库存管理成本,表示在规划期结束时,各仓库对冗余库存的单位库存管理成本,表示规划期t结束时各个仓库的库存,表示塑料原材料仓库对冗余库存的管理成本,表示规划期t结束时产品制造工厂塑料原材料仓库库存;表示规划期结束时,需要支付额外的生产订单损失成本,表示在规划期结束时,单位塑料原材料导致的生产订单损失的成本;
41、最后一项 sjt表示出售金属压块的收益,表示售卖单位金属压块的收益, jt表示t时刻拆解再利用weee产生的金属压块数量。
42、进一步的技术方案中,目标值表示如下:
43、;
44、其中, rt代表状态下采取动作后立即获得的奖励,γ表示折扣因子,其值介于0和1之间,用来衡量未来奖励相对于当前奖励的重要性;表示由目标网络给出的下一个状态下最佳动作所对应的q值。
45、上述方案中,步骤3的具体方法如下:
46、(1)将供应链现实系统的状态输入到主网络中获取一组q值,这组q值的各个元素分别对应于不同动作 a的q值;
47、(2)使用argmax函数选择q值最大的动作,即;
48、(3)根据指导供应链现实系统进行回收计划制定、运输、拆解再利用操作。
49、通过上述技术方案,本发明提供的一种基于强化学习的weee回收再利用供应链管控优化方法具有如下有益效果:
50、本发明通过设计、训练并应用强化学习智能体,使其通过观察历史生产订单需求和回收量推测未来市场情况,并基于实时供应链库存与在途库存情况,动态调整库存管控策略,降低库存积压和缺货风险,提高供应链响应速度和灵活性,从而提升整体运营效率。
51、此外,本发明通过制定合理的收集,拆解再利用和原材料采购等管控策略,避免过量的weee收集和拆解再利用、采购带来的资金占用,有效减少不必要的weee收集、原材料外部采购等运营成本,提高企业盈利能力,实现可持续发展。
1.一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,步骤1中,构建的可供交互的weee回收再利用供应链虚拟系统包括收集中心、预处理中心和产品制造工厂三个角色;收集中心和预处理中心采取按库存生产模式,收集中心按计划收集weee,放入收集中心weee仓库,等待后续转运到预处理中心weee仓库,预处理中心进行weee拆解和废旧塑料再生造粒,在拆解和再利用weee后,将得到的再生塑料颗粒存入再生塑料颗粒仓库,等待产品制造工厂的订单;拆解出的废旧金属则售往金属加工厂;产品制造工厂采取按订单生产模式,提前向预处理中心和外部供应商下达塑料订单进行原材料储备,随后利用塑料原材料库存满足生产订单需求。
3.根据权利要求1所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,步骤2中,所述双层深度q网络包括主网络和目标网络,所述主网络用于选择动作和计算当前状态下的q值;所述目标网络用于计算下一个状态的最大q值;所述q值表示在当前状态下选择某个动作后可以获得的累积奖励的期望值。
4.根据权利要求3所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,步骤2的训练过程如下:
5.根据权利要求4所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,所述供应链状态表示如下:
6.根据权利要求4所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,所述动作表示如下:
7.根据权利要求4所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,step2中,具体动作选择过程如下:
8.根据权利要求4所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,所述奖励rt表示如下:
9.根据权利要求4所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,目标值表示如下:
10.根据权利要求1所述的一种基于强化学习的weee回收再利用供应链管控优化方法,其特征在于,步骤3的具体方法如下: