电视用户行为数据的聚类方法、装置及Spark大数据平台的制作方法
【技术领域】
[0001] 本发明属于数字电视技术领域,尤其涉及一种电视用户行为数据的聚类方法、装 置及Spark大数据平台。
【背景技术】
[0002] 随着现代通信技术的飞速发展以及多媒体电视的逐步普及,数字电视已经成为广 大家庭获取信息的主要途径。技术的变革使得我们每天可以获取大量的电视用户行为数 据,如何基于高维度的电视用户行为数据对用户进行分类,并基于分类进行相应的营销与 市场推广活动也成为亟待解决的问题。但传统的电视用户行为数据的聚类方法在分析高维 度的电视用户行为数据时存在着以下的缺陷:
[0003] (1)高维度数据可能集中存在大量无关的属性,使得在所有维度中存在簇(聚类 结果)的可能性几乎为〇 ;
[0004] (2)高维度数据中的数据分布比低维空间中的数据分布更加稀疏,其中数据间距 离几乎相等的情况是比较普遍的;
[0005] (3)传统的聚类算法(例如层次聚类、K-均值聚类)是常用的数据聚类方法,这些 算法使用距离矩阵,所以它的时间和空间复杂性都很高,当数据的维度较高时即(空间复 杂性提高时)会导致计算量几何式增加。
[0006] (4)由于经典的数据聚类算法都是基于单机环境下的,当要处理的数据是海量数 据时,单机的资源限制不能很好的完成数据挖掘任务。
【发明内容】
[0007] 本发明实施例提供了一种电视用户行为数据的聚类方法、装置Spark大数据平 台,旨在解决现有技术提供的电视用户行为数据的聚类方法,处理的电视用户行为数据是 高维数据,会导致计算量几何式增加的问题。
[0008] 一方面,提供一种电视用户行为数据的聚类方法,所述方法包括:
[0009] 获取电视用户行为数据并存储所述电视用户行为数据至第一矩阵A1中,所述第 一矩阵A1是一个n行*m列的矩阵,n代表用户数量,m代表用户观看的视频属性的数量;
[0010] 使用主成分分析的方法对所述第一矩阵A1进行属性约简处理,得到第二矩阵A2, 所述第二矩阵A2是一个n行*15列的矩阵;
[0011] 使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到第三矩阵A3,所 述第三矩阵A3是一个n行*4列的矩阵;
[0012] 采用K-均值聚类算法对所述第三矩阵A3进行聚类处理,得到聚类结果。
[0013] 进一步地,所述使用主成分分析的方法对所述第一矩阵A1进行属性约简处理,得 到第二矩阵A2,包括:
[0014] 调用主成分分析代码,对所述第一矩阵A1进行处理,得到各主成分的特征根入1、 各主成分的因子系数载荷矩阵C;
[0015] 基于各主成分的特征根A1的值,挑选出A1值大于等于预设第一阈值的前M个 主成分,并计算出前M个主成分的累计方差贡献度D2 ;
[0016] 基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成分上系数大于预设 第二阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合并约简,得到属性 约简规则表;
[0017] 根据所述属性约简规则表对所述第一矩阵A1中的视频属性进行合并,得到第二 矩阵A2。
[0018] 进一步地,所述使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到 第三矩阵A3,包括:
[0019] 调用因子分析的代码,使用因子分析的方法对所述第二矩阵A2进行处理,得到各 因子的特征根12、因子碎石图、因子系数载荷矩阵E;
[0020] 基于各因子的特征值根a2,并结合所述因子碎石图,得出特征值大于预设第三阈 值的前N个因子以及所述前N个因子对应的因子系数载荷矩阵E;
[0021] 根据所述第二矩阵A2以及所述前N个因子对应的因子系数载荷矩阵E得到第三 矩阵A3。
[0022] 进一步地,在所述使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得 到第三矩阵A3之后,还包括:
[0023] 基于K-均值算法的并行运算对所述第三矩阵A3进行聚类处理,得到聚类结果。
[0024] 另一方面,提供一种电视用户行为数据的聚类装置,所述装置包括:
[0025] 数据获取单元,用于获取电视用户行为数据并存储所述电视用户行为数据至第一 矩阵A1中,所述第一矩阵A1是一个n行*m列的矩阵,n代表用户数量,m代表用户观看的 视频属性的数量;
[0026] 第一降维单元,用于使用主成分分析的方法对所述第一矩阵A1进行属性约简处 理,得到第二矩阵A2,所述第二矩阵A2是一个n行*15列的矩阵;
[0027] 第二降维单元,用于使用因子分析的方法对所述第二矩阵A2进行属性转换处理, 得到第三矩阵A3,所述第三矩阵A3是一个n行*4列的矩阵;
[0028] 第一聚类单元,用于采用K-均值聚类算法对所述第三矩阵A3进行聚类处理,得到 聚类结果。
[0029] 进一步地,所述第一降维单元,包括:
[0030] 第一处理模块,用于调用主成分分析代码,对所述第一矩阵A1进行处理,得到各 主成分的特征根M、各主成分的因子系数载荷矩阵C;
[0031] 第二处理模块,用于基于各主成分的特征根A1的值,挑选出A1值大于等于预设 第一阈值的前M个主成分,并计算出前M个主成分的累计方差贡献度D2 ;
[0032] 第三处理模块,用于基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成 分上系数大于预设第二阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合 并约简,得到属性约简规则表;
[0033] 合并模块,用于根据所述属性约简规则表对所述第一矩阵A1中的视频属性进行 合并,得到第二矩阵A2。
[0034] 进一步地,所述第二降维单元,包括:
[0035] 第三处理模块,用于调用因子分析的代码,使用因子分析的方法对所述第二矩阵 A2进行处理,得到各因子的特征根A2、因子碎石图、因子系数载荷矩阵E;
[0036] 第四处理模块,用于基于各因子的特征值根X 2,并结合所述因子碎石图,得出特 征值大于预设第三阈值的前N个因子以及所述前N个因子对应的因子系数载荷矩阵E;
[0037] 第五处理模块,用于根据所述第二矩阵A2以及所述前N个因子对应的因子系数载 荷矩阵E得到第三矩阵A3。
[0038] 进一步地,所述装置,还包括:
[0039] 第二聚类单元,用于基于K-均值算法的并行运算对所述第三矩阵A3进行聚类处 理,得到聚类结果。
[0040] 再一方面,提供一种Spark大数据平台,所述Spark大数据平台包括如上所述的电 视用户行为数据的聚类装置。
[0041] 在本发明实施例,对高维第一矩阵A1通过主成分分析进行属性约简后,得到第二 矩阵A2,再通过因子分析的方法对第二矩阵A2进行属性转换,得到第三矩阵A3,得到的第 三矩阵A3是一个n行*4列的低维度矩阵,最后对该低维度矩阵采用K-均值聚类算法进行 聚类,得到聚类结果。由于K-均值聚类算法处理的是低维度的电视用户行为数据,所以在 聚类的过程中,不会出现计算量几何式增加的现象。解决了现有技术的提供的电视用户行 为数据的聚类方法,处理的电视用户行为数据是高维数据,会导致计算量几何式增加的问 题。
【附图说明】
[0042] 图1是本发明实施例一提供的电视用户行为数据的聚类方法的实现流程图;
[0043] 图2是本发明实施例一提供的电视用户行为数据的聚类方法中,K-均值算法的并 行运算结构的示意图;
[0044] 图3是本发明实施例二提供的电视用户行为数据的聚类装置的结构框图。
【具体实施方式】
[0045] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0046] 在本发明实施例中,对高维第一矩阵A1通过主成分分析进行属性约简后,得到第 二矩阵A2,再通过因子分析的方法对第二矩阵A2进行属性转换,得到第三矩阵A3,得到的 第三矩阵A3是一个n行*4列的低维度矩阵,最后对该低维度矩阵采用K-均值聚类算法进 行聚类,得到聚类结果。由于K-均值聚类算法处理的是低维度的电视用户行为数据,所以 在聚类的过程中,不会出现计算量几何式增加的现象。
[0047] 以下结合具体实施例对本发明的实现进行详细描述:
[0
048] 实施例一
[0049] 图1示出了本发明实施例一提供的电视用户行为数据的聚类方法的实现流程,详 述如下:
[0050] 在步骤S101中,获取电视用户行为数据并存储所述电视用户行为数据至第一矩 阵A1中,所述第一矩阵A1是一个n行*m列的矩阵,n代表用户数量,m代表用户观看的视 频属性的数量。
[0051] 在本发明实施例中,电视用户行为数据主要包含两方面的属性内容,一方面为用 户观看的视频属性信息;另一方面为用户观看视频的过程中产生的行为数据,尤其是视频 属性信息包含的维度可达上百维甚至更高。通过高效的Spark大数据平台将电视用户行 为数据进行清洗与转换,获取到每个用户在一段时间内观看的直播节目各属性的时长矩阵 A1。时长矩阵A1结构如下所示:
[0053] 其中,行数为n代表用户数量,列数为m代表用户观看的视频属性的数量。
[0054] 在步骤S102中,使用主成分分析的方法对所述第一矩阵A1进行属性约简处理,得 到第二矩阵A2,所述第二矩阵A2是一个n行*15列的矩阵。
[0055] 在本发明实施例中,将58333个用户的86个属性维度的直播节目观看矩阵A作为 第一矩阵A1为例来进行说明。
[0056] 第一步:将第一矩阵A1导入至R统计分析软件中,调用主成分分析代码,对所述第 一矩阵A1进行处理,得到各主成分的特征根X1、各主成分的因子系数载荷矩阵C。
[0057] 输入为:第一矩阵A1 ;输出为:各主成分的特征根A1、各个主成分的方差贡献度 D及累计的方差贡献度D1、各主成分的因子系数载荷矩阵C。
[0058] 第二步:基于各主成分的特征根X1的值,挑选出X1值大于等于预设第一阈值的 前M个主成分,并计算出前M个主成分的累计方差贡献度D2。
[0059] 第一阈值为1,主成分分析代码继续对第一步得到的各主成分的特征根X1的值 进行处理,挑选出A1值> =1的前M个主成分,并计算出前M个主成分的累计方差贡献度 D2,如果前M个主成分的D1的值> =80%,说明筛选的主成分数量较为合适。
[0060] 对表1所示的第一矩阵A1进行第一步和第二步处理后得到的前15个主成分以及 前15个主成分的特征根X1的值、方差贡献度、累计方差贡献度如下表2所示。
[0063]表 1
[0065]表2
[0066] 第三步:基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成分上系数大 于预设第二阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合并约简,得 到属性约简规则表。
[0067] 其中,预设的第二阈值为0.5。截取到的第一步中计算得到的各主成分的因子系数 载荷矩阵C中的一部分如表3所不,在表3中,只对主成分3 (科教人文)的系数进行排序, 根据各主成分的系数构成大小,筛选后得到的属性约简规则表如表4所示。
[0069]表 3
[0071] 表 4
[0072] 第四步:根据第三步得到的属性约简规则表对所述第一矩阵A1中的视频属性进 行合并,得到第二矩阵A2。
[0073] 第二矩阵A2中是对第一矩阵A1中的视频属性进行处理后得到的新的包含用户视 频属性信息的电视用户行为矩阵,是一个n行*15列的矩阵,n代表用户数量。对表1所示 的第一矩阵A1进行处理后,得到的第二矩阵A2如表5所示。
[0074]
[0076] 表 5
[0077] 在步骤S103中,使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到 第三矩阵A3,所述第三矩阵A3是一个n行*4列的矩阵。
[0078] 在本发明实施例中,第一步:将第二矩阵A2导入到R统计分析软件中,调用因子分 析的代码,使用因子分析的方法对第二矩阵A2进行处理,得到各因子的特征根X2、因子碎 石图、因子系数载荷矩阵E。
[0079] 输入为:第二矩阵A2 ;输出为:各因子的特征根X2、因子碎石图、因子系数载荷矩 阵E。
[0080] 第二步:基于各因子的特征值根12,并结合第一步输出的所述因子碎石图,得出 特征值大于预设第三阈值的前N个因子以及所述前N个因子对应的因子系数载荷矩阵E。
[0081] 其中,预设的第二阈值为1。基于各因子的特征值根12,并结合输出的因子碎石 图,从第二矩阵A2中挑选了 4个因子,即特征值(ssloadings)大于1的因子,如表6所示, 这4个因子的因子系数载荷矩阵E如表7所示:
[0083]表6
[0085]表7
[0086] 表4所示的矩阵E中系数较大的选项为:电视剧、青春偶像、健康生活、电影这4个 属性。
[0087] 可以将因子1命名为偶像剧与家庭剧类(影视因子);因子2命名为新闻与社会 养生类(资讯因子)因子3命名为娱乐与时尚类(潮流因子);因子4命名为:生活与科教 类(休闲科普因子)。
[0088] 第三步:根据所述第二矩阵A2以及所述前N个因子对应的因子系数载荷矩阵E得 到第三矩阵A3。
[0089] 第二矩阵A2是一个n行*15列的矩阵,乘上第二步计算得到的前N个因子对应的 因子系数载荷矩阵E即可得到第三矩阵A3,E是一个15行*4列的矩阵,第三矩阵A3为一 个n行*4列的矩阵,n代表用户数量。
[0090] 在步骤S104中,采用K-均值算法对所述第三矩阵A3进行聚类处理,得到聚类结 果。
[0091] 在本发明实施例中,将第三矩阵A3进行归一化与标准化处理,消除量纲的影响, 得到处理后的第四矩阵A4,先随机选取K个对象作为初始的聚类中心,再计算每个对象与 各个种子聚类中心之间的距离(一般选用欧式距离),把每个对象分配给距离它最近的聚 类中心,直至所有的对象全部分配,每个聚类的聚类中心会根据类中现有的对象被重新计 算,迭代重复之后,直到满足聚类设置的终止条件(聚类中心的前后不再发生变化,或者两 个中心的值小于阈值),聚类结束,就可以得到设定的K个聚类结果,这个结果包含了聚类 的中心点坐标,每类的个案数量等。
[0092] 优选地,由于经典的数据聚类算法都是单机环境下的,当要处理的数据是海量数 据时,不能很好的完成数据挖掘任务,所以需要将数据挖掘和其他技术结合实现挖掘算法 的并行化,利用多机的资源,提高挖掘任务的效率,基于K-均值算法的并行运算的结构图 如图2所示,详细步骤如下:
[0093] 步骤11、根据第四矩阵A4中的数据,生成弹性分布式数据集(Resilient DistributedDatasets,RDD)。
[0094] 步骤12、对RDD使用Map操作计算第四矩阵A4中的数据对象与K个初始聚类中心 的距离,对生成的MapRDD再进行Reduce操作,生成K个新的聚类中心,判断聚类中心的变 化与阈值的关系(前后两次的聚类中心位置不再发生变化或迭代次数达到设定的指定次 数),如果大于阈值则用新的聚类中心替代初始聚类中心重复Map与Reduce操作,直至迭代 形成稳定的K个聚类中心。
[0095] 本实施例,对高维第一矩阵A1通过主成分分析进行属性约简后,得到第二矩阵 A2,再通过因子分析的方法对第二矩阵A2进行属性转换,得到第三矩阵A3,得到的第三矩 阵A3是一个n行*4列的低维度矩阵,最后对该低维度矩阵采用K-均值聚类算法进行聚类, 得到聚类结果。由于K-均值聚类算法处理的是低维度的电视用户行为数据,所以在聚类的 过程中,不会出现计算量几何式增加的现象。解决了现有技术的提供的电视用户行为数据 的聚类方法,处理的电视用户行为数据是高维数据,会导致计算量几何式增加的问题。
[0096] 此外,还可以基于K-均值算法的并行运算对第四矩阵A4中的数据进行分类处理, 可以充分地利用多机资源,提高挖掘任务的效率。
[0097] 本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质 中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
[0098] 实施例二
[0099] 图3示出了本发明实施例二提供的电视用户行为数据的聚类装置的具体结构框 图,为了便于说明,仅示出了与本发明实施例相关的部分。该电视用户行为数据的聚类装 置可以是内置于Spark大数据平台中的软件单元、硬件单元或者软硬件结合的单元,该电 视用户行为数据的聚类装置11包括:数据获取单元111、第一降维单元112、第二降维单
元 113和第一聚类单元114。
[0100] 其中,数据获取单元111,用于获取电视用户行为数据并存储所述电视用户行为数 据至第一矩阵A1中,所述第一矩阵A1是一个n行*m列的矩阵,n代表用户数量,m代表用 户观看的视频属性的数量;
[0101] 第一降维单元112,用于使用主成分分析的方法对所述第一矩阵A1进行属性约简 处理,得到第二矩阵A2,所述第二矩阵A2是一个n行*15列的矩阵;
[0102] 第二降维单元113,用于使用因子分析的方法对所述第二矩阵A2进行属性转换处 理,得到第三矩阵A3,所述第三矩阵A3是一个n行*4列的矩阵;
[0103] 第一聚类单元114,用于采用K-均值聚类算法对所述第三矩阵A3进行聚类处理, 得到聚类结果。
[0104] 进一步地,所述第一降维单元112,包括:
[0105] 第一处理模块,用于调用主成分分析代码,对所述第一矩阵A1进行处理,得到各 主成分的特征根M、各主成分的因子系数载荷矩阵C;
[0106] 第二处理模块,用于基于各主成分的特征根A1的值,挑选出A1值大于等于预设 第一阈值的前M个主成分,并计算出前M个主成分的累计方差贡献度D2 ;
[0107] 第三处理模块,用于基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成 分上系数大于预设第二阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合 并约简,得到属性约简规则表;
[0108] 合并模块,用于根据所述属性约简规则表对所述第一矩阵A1中的视频属性进行 合并,得到第二矩阵A2。
[0109] 进一步地,所述第二降维单元113,包括:
[0110] 第三处理模块,用于调用因子分析的代码,使用因子分析的方法对所述第二矩阵 A2进行处理,得到各因子的特征根A2、因子碎石图、因子系数载荷矩阵E;
[0111] 第四处理模块,用于基于各因子的特征值根A2,并结合所述因子碎石图,得出特 征值大于预设第三阈值的前N个因子以及所述前N个因子对应的因子系数载荷矩阵E;
[0112] 第五处理模块,用于根据所述第二矩阵A2以及所述前N个因子对应的因子系数载 荷矩阵E得到第三矩阵A3。
[0113] 进一步地,所述装置11,还包括:
[0114] 第二聚类单元,用于基于K-均值算法的并行运算对所述第三矩阵A3进行聚类处 理,得到聚类结果。本发明实施例提供的装置可以应用在前述对应的方法实施例一中,详情 参见上述实施例一的描述,在此不再赘述。
[0115] 值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划 分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体 名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0116] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种电视用户行为数据的聚类方法,其特征在于,所述方法包括: 获取电视用户行为数据并存储所述电视用户行为数据至第一矩阵Al中,所述第一矩 阵Al是一个n行*m列的矩阵,n代表用户数量,m代表用户观看的视频属性的数量; 使用主成分分析的方法对所述第一矩阵Al进行属性约简处理,得到第二矩阵A2,所述 第二矩阵A2是一个n行*15列的矩阵; 使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到第三矩阵A3,所述第 三矩阵A3是一个n行*4列的矩阵; 采用K-均值聚类算法对所述第三矩阵A3进行聚类处理,得到聚类结果。2. 如权利要求1所述的方法,其特征在于,所述使用主成分分析的方法对所述第一矩 阵Al进行属性约简处理,得到第二矩阵A2,包括: 调用主成分分析代码,对所述第一矩阵Al进行处理,得到各主成分的特征根X1、各主 成分的因子系数载荷矩阵C; 基于各主成分的特征根A1的值,挑选出A1值大于等于预设第一阈值的前M个主成 分,并计算出前M个主成分的累计方差贡献度D2 ; 基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成分上系数大于预设第二 阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合并约简,得到属性约简 规则表; 根据所述属性约简规则表对所述第一矩阵Al中的视频属性进行合并,得到第二矩阵A2〇3. 如权利要求1或2所述的方法,其特征在于,所述使用因子分析的方法对所述第二矩 阵A2进行属性转换处理,得到第三矩阵A3,包括: 调用因子分析的代码,使用因子分析的方法对所述第二矩阵A2进行处理,得到各因子 的特征根A2、因子碎石图、因子系数载荷矩阵E; 基于各因子的特征值根A2,并结合所述因子碎石图,得出特征值大于预设第三阈值的 前N个因子以及所述前N个因子对应的因子系数载荷矩阵E; 根据所述第二矩阵A2以及所述前N个因子对应的因子系数载荷矩阵E得到第三矩阵A3 〇4. 如权利要求1所述的方法,其特征在于,在所述使用因子分析的方法对所述第二矩 阵A2进行属性转换处理,得到第三矩阵A3之后,还包括: 基于K-均值算法的并行运算对所述第三矩阵A3进行聚类处理,得到聚类结果。5. -种电视用户行为数据的聚类装置,其特征在于,所述装置包括: 数据获取单元,用于获取电视用户行为数据并存储所述电视用户行为数据至第一矩阵Al中,所述第一矩阵Al是一个n行*m列的矩阵,n代表用户数量,m代表用户观看的视频 属性的数量; 第一降维单元,用于使用主成分分析的方法对所述第一矩阵Al进行属性约简处理,得 到第二矩阵A2,所述第二矩阵A2是一个n行*15列的矩阵; 第二降维单元,用于使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到 第三矩阵A3,所述第三矩阵A3是一个n行*4列的矩阵; 第一聚类单元,用于采用K-均值聚类算法对所述第三矩阵A3进行聚类处理,得到聚类 结果。6. 如权利要求5所述的装置,其特征在于,所述第一降维单元,包括: 第一处理模块,用于调用主成分分析代码,对所述第一矩阵Al进行处理,得到各主成 分的特征根M、各主成分的因子系数载荷矩阵C; 第二处理模块,用于基于各主成分的特征根Al的值,挑选出Al值大于等于预设第一 阈值的前M个主成分,并计算出前M个主成分的累计方差贡献度D2 ; 第三处理模块,用于基于前M个主成分的因子系数载荷矩阵C,挑选出在每个主成分上 系数大于预设第二阈值的属性,将每个主成分上系数大于预设第二阈值的属性进行合并约 简,得到属性约简规则表; 合并模块,用于根据所述属性约简规则表对所述第一矩阵Al中的视频属性进行合并, 得到第二矩阵A2。7. 如权利要求5或6所述的装置,其特征在于,所述第二降维单元,包括: 第三处理模块,用于调用因子分析的代码,使用因子分析的方法对所述第二矩阵A2进 行处理,得到各因子的特征根12、因子碎石图、因子系数载荷矩阵E; 第四处理模块,用于基于各因子的特征值根X2,并结合所述因子碎石图,得出特征值 大于预设第三阈值的前N个因子以及所述前N个因子对应的因子系数载荷矩阵E; 第五处理模块,用于根据所述第二矩阵A2以及所述前N个因子对应的因子系数载荷矩 阵E得到第三矩阵A3。8. 如权利要求5所述的装置,其特征在于,所述装置,还包括: 第二聚类单元,用于基于K-均值算法的并行运算对所述第三矩阵A3进行聚类处理,得 到聚类结果。9. 一种Spark大数据平台,其特征在于,所述Spark大数据平台包括如权利要求5至8 任意一项所述的电视用户行为数据的聚类装置。
【专利摘要】本发明适用于数字电视技术领域,提供了一种电视用户行为数据的聚类方法、装置及Spark大数据平台,所述方法包括:获取电视用户行为数据并存储所述电视用户行为数据至第一矩阵A1中,第一矩阵A1是一个n行*m列的矩阵;使用主成分分析的方法对所述第一矩阵A1进行属性约简处理,得到第二矩阵A2,第二矩阵A2是一个n行*15列的矩阵;使用因子分析的方法对所述第二矩阵A2进行属性转换处理,得到第三矩阵A3,第三矩阵A3是一个n行*4列的矩阵;采用K-均值聚类算法对所述第三矩阵A3进行聚类处理,得到聚类结果。本发明,第三矩阵A3是一个低维度矩阵,所以在聚类的过程中,不会出现计算量几何式增加的现象。
【IPC分类】G06F17/30
【公开号】CN104899331
【申请号】CN201510355359
【发明人】冯研
【申请人】Tcl集团股份有限公司
【公开日】2015年9月9日
【申请日】2015年6月24日