一种基于狮群优化的三支聚类方法

xiaoxiao1天前  5


本发明涉及大数据处理和数据挖掘,尤其是涉及一种基于狮群优化的三支聚类方法。


背景技术:

1、在数据分析和机器学习领域,聚类算法作为无监督学习的重要组成部分,对于发现数据中的隐藏模式、细分客户群体、生物信息学分析等应用具有不可或缺的作用。然而,传统聚类算法如k-means虽应用广泛,却面临着诸多挑战,尤其是对初始聚类中心敏感、处理复杂数据分布和不确定数据对象能力有限等问题。这些问题导致聚类结果往往存在边界模糊、分类精度不高等缺陷,限制了其在实际问题中的应用效果。

2、近年来,随着智能优化算法的兴起,研究人员开始探索将生物群体智慧融入聚类算法中,以期提升算法的鲁棒性和效率。其中,狮群优化算法(lion swarm optimization,lso)作为一种新兴的启发式算法,模拟了自然界中狮群的社会行为特征,展现出了在复杂优化问题中寻优的独特优势。通过模拟公狮子、母狮子和小狮子的不同角色及其互动,lso能够实现资源的有效分配和搜索空间的高效探索,为解决聚类问题提供了新的思路。

3、针对不确定数据的处理,三支决策理论为聚类分析带来了新的视角。该理论通过定义对象的正域、边界域和负域,为处理模糊或不完全确定的数据提供了框架,有助于提高聚类结果的准确性和解释性。然而,现有结合狮群优化的k-means算法(lso-km)虽然尝试利用lso的特性来克服k-means的局限,但在处理边界对象时仍存在不足,未能充分利用三支决策的潜力。同时,基于k-means的自动三支决策聚类方法(twck)虽然引入了三支决策概念,但其在识别和处理边缘域对象时的方法受限,导致边缘域对象识别不充分,影响聚类性能。

4、鉴于此,亟需一种创新的聚类算法,既能融合狮群优化算法的高效搜索机制,又能充分考虑数据的不确定性,通过更精细的三支决策模型有效划分和处理边界域对象,从而提升聚类的质量和稳定性。


技术实现思路

1、本发明的主要目的在于提供一种基于狮群优化的三支聚类方法,解决传统聚类算法在处理不确定数据对象时边界划分不清晰的问题,以及数据集分布特征和初始聚类中心选择对聚类质量影响的问题。

2、为解决上述技术问题,本发明所采用的技术方案是:一种基于狮群优化的三支聚类方法,包括以下步骤:

3、s1、初始化狮群,获取数据集u、近邻数q、聚类数目k以及成年狮群比例λ,在数据集中随机选取k个数据对象作为初始聚类中心,初始聚类中心值赋给初始狮群成员,选取m次,构成m个狮群成员,初始化狮群成员的位置;

4、s2、利用欧式距离计算每个狮群成员中的所有数据对象到聚类中心的距离,确定每个对象所属距离最近的类;

5、s3、计算种群中成年狮子数量,根据狮子个体适应度函数值的评价指标从高到低将种群分为公狮子、母狮子和小狮子三部分,将个体的历史最优位置pbest设为各个狮子的当前位置,群体中最优的个体位置设为当前的gbest,作为公狮子的位置;

6、s4、重新计算聚类中心后,分别更新公狮子、母狮子和小狮子的位置;

7、s5、根据狮子个体适应度函数值的评价指标计算每个狮群成员的适应度值,更新自身历史最优位置和狮群历史最优位置;

8、s6、判断是否满足约束条件,若满足条件,则转步骤s7,否则转步骤s4;

9、s7、根据步骤s6中得到的最优聚类中心,即公狮子的位置;

10、s8、考察类与类对象之间的关系,判断边缘域对象;

11、s9、将同类中的剩余非边缘域的对象进一步划分为核心域和边缘域

12、s10、输出步骤s7、s8、s9的结果

13、优选方案中,步骤s2中,欧式距离计算公式为:

14、

15、其中,xj为第j个对象,1≤j≤n;ci为第i个聚类中心,1≤i≤k;xjr为对象xj的第r个属性;cir为中心ci的第r个属性。

16、优选方案中,步骤3中,种群中成年狮子数量gleader计算公式为:

17、gleader=[gλ];(2)

18、其中,公狮子和母狮子作为狮群中的成年狮子,占全部种群成员的比例为λ,g表示为狮群数目。

19、狮子个体适应度函数值公式为:

20、

21、其中,d(xj,ci)是对象xj到聚类中心ci的距离。

22、优选方案中,步骤s4中,第i个聚类中心ci的计算公式为:

23、

24、其中,xj表示类ci中的对象,1≤j≤n;|ci|属于该簇的样本总数。

25、优选方案中,步骤s4中,分别更新公狮子、母狮子和小狮子的位置,更新公式为:

26、s41、更新公狮子的位置,具体包括以下更新公式;

27、

28、其中,表示为第i头狮子的第k+1代的位置,γ由正态分布的(0,1)随机产生,为公狮子在第k代的最高适应度值所处位置,gk表示为第k代群体的公狮子、母狮子以及小狮子中选取得出的最高适应度值对应的最优位置,即表示为第k代群体最优位置;

29、s42、计算母狮移动范围step与扰动因子αf,并更新母狮子的位置;

30、使用符合正态分布的(0,1)间的随机数γ以及区间(0,1]上的一个随机数,根据step和αf的计算公式,计算母狮移动范围与扰动因子αf,具体公式为:

31、

32、

33、其中,step表示母狮移动的最大步长,表示狮子在活动范围空间中各维度的最小值均值,分别表示狮子在活动范围空间中各维度的最大值均值;t表示当前迭代的次数,t表示总迭代次数;

34、更新母狮子的位置,具体公式为:

35、

36、其中,为第i个狮子第k代的历史最优位置,为母狮子在捕猎过程中从第k代母狮子中随机选中的一只捕猎伙伴的历史最佳位置;

37、s43、计算小狮子移动范围扰动因子,更新小狮子的位置,具体包括以下过程:

38、产生服从均匀分布u[0,1]产生的随机数u,符合正态分布的(0,1)间的随机数γ,根据计算小狮子移动范围扰动因子αc,然后根据以下式子更新小狮子的位置,具体公式为

39、

40、其中,表示小狮子在达到一定的条件之后会被公狮子驱赶到某个位置,和分别表示狮子活动空间的最小均值和最大均值,gk表示为第k代群体最优位置;小狮子位置由概率因子μ决定,其值为[0,1]均匀分布的随机值,为小狮子跟随母狮子在第k代的历史最佳位置,表示为第i个狮子第k代的历史最优位置。

41、优选方案中,步骤s5中,更新自身历史最优位置和狮群的历史最优位置,具体过程为:根据狮子个体适应度函数值的评价指标计算每个狮群成员的适应度值,对更新后的位置进行边界条件检验,更新自身历史最优位置和狮群历史最优位置的具体更新规则为:

42、更新自身历史最优位置:将每个狮子个体的适应度值与自身的历史最优位置对应的适应度值pid进行比较,如果个体当前的适应度函数值优于其历史最优位置pid,利用当前位置代替个体历史最优位置;

43、狮群的历史最优位置:比较所有狮群成员适应度值,如果最好个体极值pid优于全局极值pgd,则将全局极值更新为pgd=pid,否则,保持原有全局极值pgd。

44、优选方案中,步骤s6中,判断是否满足约束条件,即达到足够好的位置不再变化或最大迭代次数。

45、优选方案中,步骤s8中,考察类与类对象之间的关系,当xi∈ci,时,如果距离xj最近的q个数据对象中含有xi,即xi∈neigq(xj),表示xi属于xj的q近邻,那么xj属于类ci的边缘域对象之一,即

46、优选方案中,步骤s9中,对于同类中的剩余非边缘域的对象之间的关系,利用差值排序法,找出距离差值最大的对象对xj-1和xj,把x1,x2,…,xj-1对象放入ci的核心域xj,…,xn对象放入ci的边缘域

47、本发明提供了一种基于狮群优化的三支聚类方法,利用狮群优化的自我演变过程得到其聚类中心,有效避免了因收敛速度过快而陷入局部最优值,而通过边缘对象的近邻个数及类内类间对象之间的关系划分三支聚类的边缘域,有效降低了决策的风险,从而提高了聚类结果的准确性。

48、本发明的有益效果在于

49、1)利用狮群优化算法高性能的寻优能力可以整体上反映群体的簇群划分分布趋势;

50、2)利用三支聚类算法有效地刻画类的边界点分布细节;

51、3)吸收以上两算法的优点可以提高聚类质量和边界对象划分不清晰的问题。


技术特征:

1.一种基于狮群优化的三支聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于狮群优化的三支聚类方法,其特征在于,步骤s2中,欧式距离计算公式为:

3.根据权利要求2所述的基于狮群优化的三支聚类方法,其特征在于,步骤3中,种群中成年狮子数量gleader计算公式为:

4.根据权利要求3所述的基于狮群优化的三支聚类方法,其特征在于,步骤s4中,第i个聚类中心ci的计算公式为:

5.根据权利要求3所述的基于狮群优化的三支聚类方法,其特征在于,步骤s4中,分别更新公狮子、母狮子和小狮子的位置,更新公式为:

6.根据权利要求4所述的基于狮群优化的三支聚类方法,其特征在于,步骤s5中,更新自身历史最优位置和狮群的历史最优位置,具体过程为:根据狮子个体适应度函数值的评价指标计算每个狮群成员的适应度值,对更新后的位置进行边界条件检验,更新自身历史最优位置和狮群历史最优位置的具体更新规则为:

7.根据权利要求4所述的基于狮群优化的三支聚类方法,其特征在于,步骤s6中,判断是否满足约束条件,即个体自身历史最优位置和狮群历史最优位置都不在变化或最大迭代次数。

8.根据权利要求4所述的基于狮群优化的三支聚类方法,其特征在于,步骤s8中,考察类与类对象之间的关系,当xi∈ci,时,如果距离xj最近的q个数据对象中含有xi,即xi∈neigq(xj),表示xi属于xj的q近邻,那么xj属于类ci的边缘域对象之一,即

9.根据权利要求5所述的基于狮群优化的三支聚类方法,其特征在于,步骤s9中,对于同类中的剩余非边缘域的对象之间的关系,利用差值排序法,找出距离差值最大的对象对xj-1和xj,把x1,x2,…,xj-1对象放入ci的核心域cico,xj,…,xn对象放入ci的边缘域


技术总结
本发明提供一种基于狮群优化的三支聚类方法,包括:初始化狮群;利用欧式距离确定对象所属的类;根据狮子个体适应度函数将狮群进行分类,确定各个狮子的位置;更新公狮子、母狮子和小狮子的位置;更新自身历史最优位置和狮群历史最优位置;满足约束条件后获得聚类中心;确定边缘域对象;将非边缘域对象划分为核心域和边缘域;输出三支聚类结果。本发明通过融合狮群优化算法的高效全局寻优特性和三支聚类算法在边界定义上的精确性,解决了初始聚类中心对聚类质量的影响和数据聚类中边界对象划分模糊导致的结构不清和精度下降问题,不仅提升了聚类的整体质量和稳定性,还增强了对含不确定数据对象的复杂数据集的处理能力,具有优越的聚类性能。

技术研发人员:万仁霞,周雪雨,刘伟,高岳林,朱立军,常霞,陈瑞典,王卫华,雷连灯,林振彬
受保护的技术使用者:北方民族大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)