应用于电商客服数智化管理系统的数据聚合方法与流程

xiaoxiao9天前  11


本发明涉及大数据资源服务的,特别是涉及一种应用于电商客服数智化管理系统的数据聚合方法。


背景技术:

1、当前,全球正处于大数据时代,通过数据挖掘、机器学习等技术发掘数据中的潜在商业价值和科研价值已经引起各行各业的广泛关注。在大数据的时代中,大数据的资源服务广泛依附于互联网之中。

2、而随着互联网的迅猛发展,也使得电子商务迅速崛起,而在几乎全民网上购物的时代,使得各大电商之间、同样平台的不同商家之间的竞争日益激烈。用户的在线评论内容除了作为对商品信息的反馈和与店家的沟通信息载体以外,更重要的是为新的购买用户提供重要的参考、和商家后续改进服务及商品的重要参考。商品的评论中包含了许多有价值的信息,一方面消费者可以通过商品评论来了解商品的口碑,进而作出相应的购买决策;另一方面生产厂家可以通过评论来发现商品存在的问题,进而改善产品质量。

3、而在大数据的时代中,不同网上购物平台的评论数据形成海量的态势,依靠人力进行收集、甄别成为不可能的工作。而在电商客服数智化管理系统中,急需一套科学的方案以辅助用户进行数据分析,进而挖掘评论数据中所隐藏的价值。

4、基于此,中国专利cn103778245b公开了一种识别用户评论的方法及装置,该方法包括:获取n条目标用户评论,提取发表目标用户评论的用户id,目标用户评论包含的字符个数,以及目标用户评论的前m个字符,用户id为固定位数的、数值格式的用户标识码,n>1,m>1;根据key=a/10k+b+c,计算对应n条目标用户评论的n个key值,并记录n个key值中各key值出现的次数,a为发表目标用户评论的用户id,b为目标用户评论包含的字符个数,c为目标用户评论的前m个字符的、数值格式的编码值,k为预设数值,0≤k<用户id的位数;判断各key值出现的次数是否达到预设值,将出现次数达到预设值的key值对应的目标用户评论确定为变种重复评论,操作步骤简单、计算量小,对用户评论的识别效率较高。

5、然而,上述所公开的一种识别用户评论的方法还存在无法挖掘用户评论的潜在价值的技术问题。具体的,现有技术主要是通过提取发表所述目标用户评论的用户的id、所述目标用户评论包含的字符个数,以及所述目标用户评论的前m个字符,根据key值计算公式得到对应所述n条目标评论的n个key值,根据所述n个key值中各个key值出现的次数,确定所述目标用户评论的类别。应用现有的技术方案虽然可以确定用户评论的类别,但该用户评论之中涉及对电商服务内容、产品技术改进等有价值的内容却无法识别。

6、具体的,支持向量机算法,即svm算法,是一种按照监督学习方式,对数据进行分类处理的算法,该算法除了能够应用于线性分类问题中,还可以应用于非线性分类问题中。svm算法原理是从样本数据中得到特征向量,并将这些特征向量映射到高维空间中的点,再通过对样本数据求解,找出两种不同类别数据距离最大的超平分界面或者一条分界线,根据得到的分界面或分界线,将数据区分为不同种类数据。数据分类完成之后,依然可以以超平分界面或分界线为参考,对新增的数据点完成相关分类。

7、word2vec模型可对自然语言进行处理,将自然语言变换为能够让计算机识别的向量,因此,该模型的核心是将字词或者句子变换为向量的过程。该算法模型中,将所有的词以向量的方式进行表示,这样对词与词之间的关联性分析转化为对其向量之间关系的度量,从而分析、挖掘词与词之间的联系。该模型本质上是一种基于单词聚类的方法,可应用于对单词的语义分析、语句的情感分析等多种不同场景。

8、adaboost算法是boosting系列算法中常用的一种,在boosting系列算法中,每个学习器所采用的算法可以不同,也可以是同一算法,如果是同一算法,可通过设置不同的参数设置,使得学习器与其他不同。


技术实现思路

1、基于此,有必要针对如何对电商平台进行数据聚合以识别数据的潜在价值的技术问题,提供一种应用于电商客服数智化管理系统的数据聚合方法。

2、一种应用于电商客服数智化管理系统的数据聚合方法,其包括如下步骤:

3、s1:首先,采用以svm算法作为基础分类器算法的adaboost算法,通过迭代训练,得到第一分类器及第二分类器;

4、s2:利用第一分类器对评论文本数据进行处理,即将评论样本数据中的所有字母统一变为小写字母,再采用结巴分词处理对评论文本进行分词处理,得到每个评论文本的所有词集合wn;

5、s3:利用第一分类器对评论文本数据进行特征提取,即利用word2vec模型得到所有词集合wn中每个词语所对应的词向量vn,再将评论文本中所有的词的词向量vn加和后取平均得到文本向量vt,计算公式如式为:

6、

7、s4:利用第一分类器中的第一svm分类算法对所得到的文本向量vt进行价值性分类处理,分别得到有价值评论文本及无价值评论文本;

8、s5:利用第二分类器对步骤s4所得的有价值评论文本与无价值评论文本按预设的权重值进行处理,再将样本数据按语种区分为中文文本与英文文本;

9、s6:对于中文文本,首先,对该文本数据进行分词,并同时获取每个词语对应的词性分析;再把词性分为六类,对每一类词性分别进行次数统计;统计完成后,根据文本的六类词性所含词的总数计算出各类词的占比,形成的向量后作为文本的向量,再使用第二svm分类算法进行分类;最后,判断得到有价值评论文本与无价值评论文本;

10、s7:对于英文文本,根据预先整理好的覆盖预设量的英文单词的词表,利用空格切词对该英文文本进行分词处理,经过分词处理后的文本可表示为wn,然后,逐个比较wi是否在预先整理好的单词词表中,并得到该英文文本的词语在所述的单词词表中的占比rw;英文单词占比计算完成后,再计算该英文文本中字母的占比rc,即文本中字母的个数与文本的长度的比值;两个占比计算完成后,利用rw与rc组成的向量用于表征该英文文本,使用第三svm分类算法对该英文文本进行分类;最后,判断得到有价值评论文本与无价值评论文本。

11、进一步的,在步骤s1的迭代训练过程中,其具体包括如下步骤:

12、s11:首先,初始化训练数据中的每个样本为相同权重值;然后,使用第一分类器训练出一个弱分类器,得到有价值的评论样本及无价值的评论样本;

13、s12:接着,根据步骤s11的分类结果,调整样本的权重值,即降低第一分类器中的有价值的评论样本的样本权重;同时,提高第一分类器中无价值的评论样本的样本权重;

14、s13:将步骤s12所得训练数据集输入到第二分类器中进行训练;通过增加前述得到的无价值的评论样本的权值,以使其成为下一个分类器中重点关注的样本;经过反复学习,不断对应重复调整样本权重,最终得到一个强分类器。

15、进一步的,对第二svm分类算法的优化方法为:首先,在svm模型中采用高斯核函数作为核函数,利用实数编码的方式对svm参数进行编码,根据适应度函数计算有价值评论文本中每一类词性的适应度值,再对样本数据进行遗传算法操作来产生下一代子样本数据;在进行多次迭代后,可以得到样本中的最优词性类;最后,将样本数据中的最优词性类进行解码,获得最优的svm参数。

16、进一步的,对第二svm分类算法的优化方法为:在迭代初期,粒子群算法随机产生一群粒子即模型的可行解,种群中的粒子通过跟踪个体极值和全局极值来更新自身的位置,最终找到全局最优解。

17、进一步的,对第二svm分类算法的优化方法的具体步骤包括:

18、s21:初始化有价值评论文本样本数据中的每个词性类,设备对应的参数;

19、s22:计算每个词性类的适应度值;

20、s23:更新每个词性类的个体极值与全局极值;

21、s24:更新每个词性类的速度与位置;

22、s25:判断是否达到最大的迭代次数,若否,则返回步骤s22;若是,则进入下一步骤;

23、s26:适应度最优的词性类即为最优的第二svm分类算法的参数。

24、综上所述,本发明应用于电商客服数智化管理系统的数据聚合方法以adaboost算法为核心,以svm算法作为基础分类器算法,完成对评论文本是否具有价值性的识别分类。其中,adaboost算法的第一分类器目的是区分出数学公式或特定格式的数据,该分类器中,首先,利用结巴分词对评论的文本内容进行分词处理,基于文本分词处理结果;然后,使用word2vec模型得到反映该评论文本特征的文本向量;接着,采用svm分类算法,得到文本是否为数学公式或特定格式的数据的判断;然后,对第一分类器中非数学公式、非特定格式的评论文本数据使用第二分类器进行分类。所述的第二分类器充分利用语言文本特点,首先,对评论的文本进行语种判断,如果是中文,则使用中文的特征提取方式,如果为英文,则使用英文的特征提取方式;最后,使用svm模型将特征提取后的数据进行分类处理,从而得到该评论文本是否具有价值性的最终判断结果。在现有的技术中,机器学习虽然能够对文本可读性进行识别,但机器学习中单一分类器的能力有限,往往达不到充分利用计算机的计算能力的效果。因此,本发明利用多个弱分类器组合对评论文本的价值性进行识别分类,从而提升总体文本数据的分类效果。其中,svm算法可用于二分类和多分类问题中,该算法具有良好的健壮性,对未知数据具有较强的泛化能力,尤其在数据量不太大的时候,相较于其他分类学习算法具有更优越的表现。所以,本发明应用于电商客服数智化管理系统的数据聚合方法解决了如何对电商平台进行数据聚合以识别数据的潜在价值的技术问题。


技术特征:

1.一种应用于电商客服数智化管理系统的数据聚合方法,其特征在于,其包括如下步骤:

2.根据权利要求1所述的应用于电商客服数智化管理系统的数据聚合方法,其特征在于:在步骤s1的迭代训练过程中,其具体包括如下步骤:

3.根据权利要求1所述的应用于电商客服数智化管理系统的数据聚合方法,其特征在于:对第二svm分类算法的优化方法为:首先,在svm模型中采用高斯核函数作为核函数,利用实数编码的方式对svm参数进行编码,根据适应度函数计算有价值评论文本中每一类词性的适应度值,再对样本数据进行遗传算法操作来产生下一代子样本数据;在进行多次迭代后,可以得到样本中的最优词性类;最后,将样本数据中的最优词性类进行解码,获得最优的svm参数。

4.根据权利要求1所述的应用于电商客服数智化管理系统的数据聚合方法,其特征在于:对第二svm分类算法的优化方法为:在迭代初期,粒子群算法随机产生一群粒子即模型的可行解,种群中的粒子通过跟踪个体极值和全局极值来更新自身的位置,最终找到全局最优解。

5.根据权利要求4所述的应用于电商客服数智化管理系统的数据聚合方法,其特征在于:对第二svm分类算法的优化方法的具体步骤包括:


技术总结
本发明公开了一种应用于电商客服数智化管理系统的数据聚合方法,其属于大数据资源服务的技术领域,其利用结巴分词对评论的文本内容进行分词处理,并使用word2vec模型得到反映该评论文本特征的文本向量;再采用SVM分类算法,得到文本是否为数学公式或特定格式的数据的判断;然后,对第一分类器中非数学公式、非特定格式的评论文本数据使用第二分类器进行分类。先对评论的文本进行语种判断,如果是中文,则使用中文的特征提取方式,如果为英文,则使用英文的特征提取方式;最后,使用SVM模型将特征提取后的数据进行分类处理,从而得到该评论文本是否具有价值性的最终判断结果。本发明解决了如何对电商平台进行数据聚合以识别数据的潜在价值的技术问题。

技术研发人员:谢臣,黄意
受保护的技术使用者:广州臣信科技有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)