数据流环境下的物流运单异常检测方法、系统及存储介质

xiaoxiao22天前  15


本发明涉及一种物流运单数据处理,特别是关于一种数据流环境下的物流运单异常检测方法、系统及存储介质。


背景技术:

1、随着全球经济的快速发展和电子商务的蓬勃发展,信息时代已然到来。现如今大多数零售销售都是通过网上商店完成的,同时,满帮、g7等货运平台企业的出现,使得采用大数据技术分析运输行为、提高运营效率成为可能。因此,物流行业的地位迅猛增长,成为支撑现代供应链运作的关键要素。物流运输作为供应链的重要环节,承担着将货物从生产地运送到目的地的重要任务。

2、公路货运是社会经济的重要指标。运单作为物流运输过程中的核心文档,记录了货物的起始点、目的地以及运输中的各个关键环节。运单在确保货物从源头到目的地顺利交付的过程中起着关键的作用,因此在这个快节奏、高效率的环境中,准确、及时地识别和处理运单异常情况变得至关重要。轨迹数据记录了运单起止过程中的运输轨迹,是运单异常检测的基础。轨迹数据通常来自各种渠道,如运输车辆传感器、全球定位系统(gps)、北斗导航系统等。然而,随着物流行业的高速发展和全球贸易的不断扩大,运量及轨迹数据量剧增使得传统静态场景下的异常检测算法面临着巨大的困境,因此如何在大数据环境下快速、准确地检测异常成为了物流运单异常检测的一个突出的挑战。传统的异常检测算法通常基于静态数据集进行训练和测试,并假设数据分布和异常模式保持不变。然而,在物流领域这样的动态环境中,运单异常模式是多样的,同时随着时间的推移,运单的数据分布和异常模式可能发生潜在的变化,即概念漂移现象,这导致了算法性能将会随着异常场景的不断变化而减弱。因此,在物流运单异常检测的实际业务场景中,能够适应不断变化的各种运单异常种类应当作为异常检测算法必备的能力之一。

3、综上所述,运单作为物流运输过程中的核心信息,如何对其轨迹数据进行异常检测是极具应用价值的研究课题,也是亟需解决的技术问题。


技术实现思路

1、针对上述问题,本发明的目的是提供一种数据流环境下的物流运单异常检测方法、系统及存储介质,其检测速度快、准确率高,并具有能抵抗概念漂移的能力。

2、为实现上述目的,第一方面,本发明采取的技术方案为:一种数据流环境下的物流运单异常检测方法,其包括:将物流公司原始运单数据和原始轨迹数据分别进行预处理后,进行正负样本的选取;将负样本和正样本进行整合,生成概念漂移数据集与非概念漂移的数据集,由非概念漂移的数据集模拟运单异常的概念漂移,并从各数据集中选取能够全面反映运单与轨迹之间关系的特征;对选取的特征采用efat算法进行处理,得到异常检测结果。

3、进一步,将物流公司原始运单数据进行预处理,包括:

4、基于地理信息对确定的原始运单数据条数进行过滤,通过经纬度及省市区的过滤,将运单限制在设定的范围内,同时限制了运单起始和终止地相关属性为非空值,以剔除无效或不完整的数据,缩小运单数据条数,并确保运单记录不重复;

5、对车辆数和运单数进行筛选,排除小于第一设定阈值的车辆,进一步剔除运输时间和运输里程超出设定范围的数据之后,排除行程异常,得到最终车辆数和运单数据条数;

6、将物流公司原始轨迹数据进行预处理,包括:

7、对原始轨迹数据中包含的多条轨迹记录,通过卡车号的相互匹配,以及触发时间与运单数据中起始时间和终止时间的匹配,筛选出与有效运单相关的轨迹记录数据,缩小轨迹记录条数;

8、限制货车速度大于第二设定阈值,滤除可能存在的无价值的冗余轨迹数据点,进一步缩小轨迹记录条数;

9、将剩余的轨迹记录条数进行经纬度及省市区的过滤,将轨迹限制在的设定范围内,同时限制轨迹省市区相关属性为非空值,排除无效或异常的轨迹数据,将轨迹记录条数再次进一步缩小,并对轨迹数据进行去重处理,确保数据集的一致性,得到最终的不重复的轨迹记录。

10、进一步,正负样本的选取,包括:

11、将取自某大型物流公司业务侧搜集的真实运单-轨迹数据作为正样本,正样本包括正确、完整的运单相关信息以及相应的轨迹数据,能反映实际运输过程中的正常行为;

12、采用人工生成的方式产生负样本以模拟潜在的异常情况;生成负样本的逻辑包括:轨迹不匹配的负样本、配送超时的负样本和丢失运单的负样本。

13、进一步,将负样本和正样本进行整合,生成概念漂移数据集与非概念漂移的数据集,包括:

14、通过限制正样本和负样本的分布方式,以形成非概念漂移的数据集和概念漂移数据集;在非概念漂移的数据集中,负样本是随机分布在各个位置的。

15、进一步,概念漂移数据集的分布,包括:

16、在概念漂移数据集中,轨迹不匹配的负样本正态分布在设定的第一正样本附近,配送超时的负样本正态分布在设定的第二正样本附近,丢失运单的负样本正态分布在第三正样本附近,以模拟运单异常的概念漂移。

17、进一步,从各数据集中选取能够全面反映运单与轨迹之间关系的特征,包括:

18、置信度,通过统计运单起始时间段的轨迹点个数a以及起始地和终止地对应轨迹点时间段的轨迹点个数b,计算a/b的值,以反映运单信息与轨迹信息的一致性;

19、始终点匹配,检查运单的起始地和终止地是否出现在对应轨迹的所有轨迹点中,以判断运单的起始点和终止点是否完全包含在轨迹中;

20、起始地偏移距离,计算运单记录的起始地与运单开始时间对应轨迹点的实际位置之间的距离,以揭示起始地点的真实位置偏离运单记录的情况;

21、终止地偏移距离,计算运单记录的终止地与运单结束时间对应轨迹点的实际位置之间的距离;

22、运单距离,利用运单记录的距离信息,作为运单的行驶距离特征;

23、始终点直线距离,计算运单记录的始终点在轨迹上的直线距离,以提供全局的运单轨迹长度参考;

24、运行时长,利用运单记录的时间信息,表示运单的行驶时长;

25、全轨迹时间长度,计算运单中实际第一个轨迹点的触发时间与最后一个轨迹点的触发时间所记录的时间长度,以提供运单整体实际时长的视角;

26、标签,用于区分正负样本。

27、进一步,对选取的特征采用efat算法进行处理,得到异常检测结果,包括:

28、比较最佳特征属性和次佳特征属性之间的差值是否大于hoeffding界限,如果大于,则在最佳特征属性上分裂叶节点,生成新的子节点;如果最佳特征属性和次佳特征属性的差值不满足条件,则进一步比较最佳特征属性和当前分裂特征属性的差值;

29、如果最佳特征属性是数据集中最频繁的类别,则将当前内部节点替换为叶节点,删除其子树;

30、如果最佳特征属性不是当前分裂特征属性,则更新分裂特征属性,将当前内部节点替换为在最佳特征属性上分裂的新内部节点;

31、同时,在每一个叶子节点上建立一个adwin检测器,用于监测该节点统计信息的变化;当新的数据样本到达时,efat节点会更新其统计信息,同时,这些统计信息会被输入到节点的adwin检测器中;adwin检测器持续监测输入数据的变化,当检测到统计特性发生变化,则表明可能发生了概念漂移,窗口发生自适应变化,随之efat树进行自适应剪枝操作,从而优化树结构,得到更加准确的异常检测结果。

32、第二方面,本发明采取的技术方案为:一种数据流环境下的物流运单异常检测系统,其包括:样本选取模块,将物流公司原始运单数据和原始轨迹数据分别进行预处理后,进行正负样本的选取;整合模块,将负样本和正样本进行整合,生成概念漂移数据集与非概念漂移的数据集,由非概念漂移的数据集模拟运单异常的概念漂移,并从各数据集中选取能够全面反映运单与轨迹之间关系的特征;efat模块,对选取的特征采用efat算法进行处理,得到异常检测结果。

33、第三方面,本发明采取的技术方案为:一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。

34、第四方面,本发明采取的技术方案为:一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

35、本发明由于采取以上技术方案,其具有以下优点:

36、1、本发明建立的时空数据集由某物流公司实际业务场景下的真实数据构成,涵盖了该物流公司众多运单的全部信息,以及运单完成过程中车辆运输轨迹的全部信息。这些信息尚未在物流运单异常检测领域有所呈现,本发明首次将这些信息应用于物流运单异常检测的研究当中。该数据集不仅为本发明的结论提供了充分的数据支撑,同时也为后续在异常检测算法领域的研究提供了研究基础。相比人为生成的,或者仅代表特定场景公开数据集,实际业务数据反映了真实的业务场景和运作环境,同时完全覆盖了真实业务场景的多样性和复杂性,这有助于评估算法在真实环境下的准确性、适应性和鲁棒性,使相关研究结论更贴近实际情况。

37、2、本发明是在物流运单领域的创新性应用。目前关于电子运单数据的研究很少,对关于物流运单数据流合理性及正确性问题的研究更为鲜有,亟待填补空白。本发明首次将数据流异常检测算法应用到物流运单的异常检测中,聚焦于异常运单检测,从而提高电子运单数据的质量,为其他关于电子运单数据的研究提供了更多的可能。此外,本发明提出的新型数据流异常检测算法efat(extremely fast adaptive tree),并将其应用于物流运单的异常检测场景当中,与现有的众多在线学习数据流异常检测算法相比,本发明的实时性、准确性以及抵抗概念漂移的能力更好,使物流运单数据流可以快速、实时、准确、稳定地进行异常检测。

38、3、本发明通过将数据流异常检测方法应用到物流运单异常检测中,降低了企业在运输过程中的运输中断、非法运输、商业欺诈等负面情况的可能性,减少了个人、企业和社会的经济损失,提高了供应链的效率和可靠性,对企业的运营和经济发展有一定积极影响。

39、4、本发明具有普适性。本发明的新型在线学习数据流异常检测方法具有强抵抗概念漂移能力,随着时间跨度的增长以及新型异常种类的增加,该方法仍具备同样的异常检测能力。同时,本发明作用于预处理后的物流数据特征矩阵,因此,在合理的数据预处理的情况下,本发明于其他业务场景同样具有良好效果,如金融领域的欺诈检测,电力行业的异常用电观测等场景。


技术特征:

1.一种数据流环境下的物流运单异常检测方法,其特征在于,包括:

2.如权利要求1所述数据流环境下的物流运单异常检测方法,其特征在于,将物流公司原始运单数据进行预处理,包括:

3.如权利要求1所述数据流环境下的物流运单异常检测方法,其特征在于,正负样本的选取,包括:

4.如权利要求1所述数据流环境下的物流运单异常检测方法,其特征在于,将负样本和正样本进行整合,生成概念漂移数据集与非概念漂移的数据集,包括:

5.如权利要求4所述数据流环境下的物流运单异常检测方法,其特征在于,概念漂移数据集的分布,包括:

6.如权利要求1所述数据流环境下的物流运单异常检测方法,其特征在于,从各数据集中选取能够全面反映运单与轨迹之间关系的特征,包括:

7.如权利要求1所述数据流环境下的物流运单异常检测方法,其特征在于,对选取的特征采用efat算法进行处理,得到异常检测结果,包括:

8.一种数据流环境下的物流运单异常检测系统,其特征在于,包括:

9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1至7所述方法中的任一方法。

10.一种计算设备,其特征在于,包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。


技术总结
本发明涉及一种物流运单数据处理领域,公开了一种数据流环境下的物流运单异常检测方法、系统及存储介质,其包括:将物流公司原始运单数据和原始轨迹数据分别进行预处理后,进行正负样本的选取;将负样本和正样本进行整合,生成概念漂移数据集与非概念漂移的数据集,由非概念漂移的数据集模拟运单异常的概念漂移,并从各数据集中选取能够全面反映运单与轨迹之间关系的特征;对选取的特征采用EFAT算法进行处理,得到异常检测结果。本发明检测速度快、准确率高,并具有能抵抗概念漂移的能力。

技术研发人员:王磊,鲁添元,赵晓永,王宁宁,张静乐,李莉,崔国玺
受保护的技术使用者:北京信息科技大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)