基于人工智能的成本归集精准提升方法及系统与流程

xiaoxiao7月前  58


本发明涉及数据处理。更具体地,本发明涉及基于人工智能的成本归集精准提升方法及系统。


背景技术:

1、电力行业中的企业通常成本构成复杂、资源管理特殊等特点,为了实现优化资源管理、提高运营效率、增强财务透明度等目的,电力行业的企业通常需要高精准程度的成本归集。

2、现有公开号为cn112948441a的中国专利申请文件公开了一种面向财务数据的多维数据归集方法及设备,用以解决现有的财务数据归集方法效率低下且开发成本高的技术问题。方法包括:确定针对财务数据中的各维度,预先构建的维度数据表;从维度中选取查询维度,并根据查询维度构建查询方案表;根据查询方案表中的若干查询维度,从由财务单据构成的数据源表中,分别获取相应查询维度对应的数据,并将数据存至临时表中;对临时表中的数据进行处理,将处理结果同步至与查询方案表对应的归集表中。

3、上述方法中仅解决了如何查询不同维度数据的归集结果,但是在归集过程中,需要对成本数据进行聚类,但成本归集常涉及大量的财务数据,会出现部分数据漏记或重记等情况,影响成本归集的精准性,目前常用k-means++算法来衡量被归集的每一类的成本是否错分或重复归集的情况,但是k-means++算法会随机选择一个初始聚类中心,并以该初始聚类中心为基础选择剩余的初始聚类中心,再进行聚类迭代,而位于数据空间中边缘位置的聚类中心不利于k-means++聚类算法的迭代过程,影响了聚类效果,进而影响了聚类结果与成本归集结果的比对。


技术实现思路

1、为解决k-means++聚类算法对成本数据点集合进行聚类时,初始聚类中的空间位置是否有利于聚类算法迭代的问题,本发明在如下的多个方面中提供方案。

2、在第一方面中,基于人工智能的成本归集精准提升方法,包括:获取电力成本数据,将所述电力成本数据按照所属成本类别生成成本数据点,构建成本数据点集合,对所述成本数据点集合进行聚类,选取任一成本数据点作为初始聚类中心;计算所述成本数据点集合中各个维度的成本数据点的重要程度,获取所述重要程度在各个维度数据中的占比作为各个维度数据的权重,计算所述成本数据点集合划分时每个部分的数据点的数量与所述初始聚类中心之间的距离作为初始聚类中心的偏心程度;基于所述权重和初始聚类中心的偏心程度,计算初始聚类中心的可用程度,,式中,表示初始聚类中心的可用程度,表示成本数据点集合中成本数据点的数量,表示每个成本数据点所含数据的维度的数量,表示成本数据点的第个维度的权重,表示第个成本数据点与初始聚类中心之间在第个维度上的距离,表示初始聚类中心的偏心程度,表示自然常数的指数函数;根据所述可用程度完成聚类,得到聚类结果,将现有的成本归集结果与所述聚类结果进行比对,复核对比差异部分。

3、其效果在于:通过考虑每个成本数据点在多个维度上的重要性,确定各维度数据的权重,可以更准确地评估成本数据点在聚类中的贡献和重要性。根据每个部分含有数据点的数量和成本数据点集合中成本数据点与预选的初始聚类中心之间的距离确定初始聚类中心点的偏心程度,根据初始聚类中心的在数据空间中的相对位置与绝对位置判断该预选的第一个初始聚类中心的位置是否有利于选出有利于聚类迭代的其他初始聚类中心,以使聚类结果更加准确。

4、在一个实施例中,计算所述成本数据点集合中各个维度的成本数据点的重要程度,包括:

5、计算所有成本数据点在每个维度上数据的方差,构建每个维度数据的直方图,获取每个维度数据的直方图中最大柱高和最小柱高,将所述最大柱高和最小柱高的差值与每个维度数据中所包含数据的数量的比值作为每个数据点的重要程度。

6、其效果在于:通过方差衡量了数据点在每个维度上的分散程度,高方差可表明该维度对成本影响较大,通过直方图进行可视化展示,获取每个数据点的重要程度。

7、在一个实施例中,其中,重要程度还包括:

8、选取成本数据点集合中任意一个成本数据点作为目标数据点,计算所述目标数据点与其他数据点的之间的距离;

9、根据每个目标数据点在预设局部范围内的数据个数,计算目标数据点的局部密度,对所述局部密度进行归一化处理,获取成本数据点集合平均的局部密度,将计算所述目标数据点的局部密度与平均密度的比值作为目标数据点的重要程度。

10、在一个实施例中,所述各个维度数据的权重满足下述关系式:

11、,

12、式中,表示第个维度的权重,表示第个维度数据的方差,表示第个维度数据对应直方图的最大柱高,表示第个维度数据对应直方图的最小柱高,表示每个成本数据点所含数据的维度的数量,表示成本数据点集合中成本数据点的数量。

13、其效果在于:通过计算维度数据的方差,方差越大在该维度上的分布更加广泛,则该维度对成本数据点之间的差异影响更大,有利于更好地捕捉数据的多样性和差异性,从而使得后续选择的初始聚类中心更具代表性。

14、在一个实施例中,对所述成本数据点集合进行聚类,包括:

15、根据所述成本数据点集合随机选取一个初始聚类中心,根据所述初始聚类中心将成本数据点集合划分为两个部分,统计每个部分中所包含的数据点的数量;

16、计算其他成本数据点与初始聚类中心之间的距离,根据所述距离的平方概率选择下一个聚类中心。

17、在一个实施例中,所述偏心程度满足下述关系式:

18、,

19、式中,表示初始聚类中心的偏心程度,表示初始聚类中心的第个维度将数据点集合分为两部分时小于初始聚类中心的数据集合的部分中数据点的数量,表示初始聚类中心的第个维度将数据点集合分为两部分时大于初始聚类中心的数据集合的部分中数据点的数量,表示成本数据点的第个维度的权重,表示成本数据点集合中成本数据点的数量,表示每个成本数据点所含数据的维度的数量,表示初始聚类中心的第个维度数据的值。

20、其效果在于:通过确定初始聚类中心点的偏心程度,从而确定初始聚类中心为基础确定的后续的初始聚类中心则更可能均匀地覆盖整个数据空间,从而提高聚类结果的质量。

21、在一个实施例中,根据所述可用程度完成聚类,得到聚类结果,包括:

22、响应于初始聚类中心的可用程度小于预设程度阈值,则随机再选择一个成本数据点作为初始聚类中心,反之,可用程度大于等于预设程度阈值,则作为后续的初始聚类中心进行聚类迭代,得到聚类结果。

23、第二方面,基于人工智能的成本归集精准提升系统,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现上述的基于人工智能的成本归集精准提升方法。

24、本发明具有以下效果:

25、1.本发明通过成本数据点集合中所有成本数据点在各个维度上的数据获得成本数据点各个维度的重要度,进而获得各个维度的权重,可以根据成本数据各个维度的数据特征确定在衡量预选的第一个初始聚类中心时各个维度的重要性。

26、2.本发明通过对初始聚类中心进行评估可以使用更有利于后续聚类迭代过程的第一个初始聚类中心,进而使得对成本数据的聚类结果更加准确,在与成本归集结果进行比对时,更可能将成本归集结果中误归集的数据识别出来,进而提高了成本归集的精准程度。


技术特征:

1.基于人工智能的成本归集精准提升方法,其特征在于,包括:

2.根据权利要求1所述的基于人工智能的成本归集精准提升方法,其特征在于,计算所述成本数据点集合中各个维度的成本数据点的重要程度,包括:

3.根据权利要求1所述的基于人工智能的成本归集精准提升方法,其特征在于,其中,重要程度还包括:

4.根据权利要求1所述的基于人工智能的成本归集精准提升方法,其特征在于,所述各个维度数据的权重满足下述关系式:

5.根据权利要求1所述的基于人工智能的成本归集精准提升方法,其特征在于,对所述成本数据点集合进行聚类,包括:

6.根据权利要求1所述的基于人工智能的成本归集精准提升方法,其特征在于,所述偏心程度满足下述关系式:

7.根据权利要求1所述的基于人工智能的成本归集精准提升方法,其特征在于,根据所述可用程度完成聚类,得到聚类结果,包括:

8.基于人工智能的成本归集精准提升系统,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时实现根据权利要求1-7任一项所述的基于人工智能的成本归集精准提升方法。


技术总结
本发明涉及数据处理技术领域,更具体地,本发明涉及基于人工智能的成本归集精准提升方法及系统,方法包括:获取电力成本数据,将电力成本数据按照所属成本类别生成成本数据点,构建成本数据点集合,对成本数据点集合进行聚类,计算成本数据点集合中各个维度的成本数据点的重要程度,获取重要程度在各个维度数据中的占比作为各个维度数据的权重,计算初始聚类中心的偏心程度;基于权重和初始聚类中心的偏心程度,获取初始聚类中心的可用程度,根据可用程度完成聚类,得到聚类结果,将现有的成本归集结果与聚类结果进行比对,复核对比差异部分。本发明通过对初始聚类中心进行评估,聚类结果更加准确,提高了成本归集的精准程度。

技术研发人员:胡率,钟童庆,王涛,高茜,李博龙
受保护的技术使用者:湖北华中电力科技开发有限责任公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)