本发明涉及大数据,具体为一种电商运营大数据分析决策平台。
背景技术:
1、大数据分析描述了在大量原始数据中发现趋势、模式和相关性的过程,以帮助做出基于数据的决策;这些过程使用熟悉的统计分析技术,并在更新的工具的帮助下将它们应用于更广泛的数据集;自2000年代初以来,大数据一直是一个流行词,当时软件和硬件功能使组织能够处理大量非结构化数据;随着数据的爆炸式增长,hadoop、spark和nosql数据库等早期创新项目被创建用于存储和处理大数据。
2、例如公开号cn112258020a的专利公开了一种电商运营大数据分析决策平台,该电商运营大数据分析决策平台包括:运行环境层,所述运行环境层为平台运行的基础,所述运行环境层包括电商运营大数据分析决策平台的操作系统和提供操作系统的运行环境;安全网关层,所述安全网关层位于运行环境层之下,所述安全网关层用于对操作系统的运行环境安全性控制,所述安全网关层包括硬件安全层和软件安全层,所述硬件安全层和软件安全层协同对操作系统的运行环境进行非安全信息查找、清除;能够对电商相关的数据进行大量采集,并做分析,从而能够对大量数据快速分析,快速对电商环境了解;通过安全网关层的设置,对危险数据信息过滤,提高网络安全。
3、在电商运营大数据分析决策平台中,用户与商品之间的交互数据通常非常稀疏,大多数用户只与少数商品进行过交互,导致数据矩阵中存在大量的缺失值和零值,这种数据稀疏性使得协同过滤算法难以找到足够的相似用户或商品进行有效推荐,进而影响推荐系统的精准度,此外在新用户刚加入平台时没有历史交互数据,推荐系统无法准确捕捉其兴趣偏好,从而难以提供有效的个性化推荐,同样新商品刚上线时缺乏用户交互数据,系统无法评估其受欢迎程度和适用用户群体,导致推荐系统在处理新用户和新商品时表现不佳,因此亟需一种电商运营大数据分析决策平台来解决数据稀疏性和冷启动问题。
技术实现思路
1、针对现有技术的不足,本发明提供了一种电商运营大数据分析决策平台,解决现有技术中存在的数据稀疏性使得协同过滤算法难以找到足够的相似用户或商品进行有效推荐,进而影响推荐系统的精准度,在新用户刚加入平台时没有历史交互数据,推荐系统无法准确捕捉其兴趣偏好,从而难以提供有效的个性化推荐,新商品同样存在此类问题。
2、为实现以上目的,本发明通过以下技术方案予以实现:
3、本发明提供了一种电商运营大数据分析决策平台,包括:
4、数据采集模块,包括:
5、数据采集单元,用于从不同的数据源实时采集原始数据,数据源包括交易数据、用户行为数据、产品信息、社交媒体数据;数据采集采用分布式架构,进行数据源实时同步和分布式处理,减少数据传输延迟和中心节点的处理压力;同时采用apachekafka进行实时数据流处理,在数据源边缘进行初步处理,减轻中央处理系统负担;
6、数据清洗单元,用于处理缺失值、重复值和异常值,保证数据质量;引入深度学习的异常检测算法autoencoder,使用apachespark进行分布式数据处理;提高数据清洗的智能化和自动化水平;
7、数据标准化单元,使用自定义数据转换规则和映射表,引入基于机器学习的自动特征工程工具featuretools,用于将数据转换为统一格式和标准,便于后续分析,提高数据标准化的效率和灵活性;
8、数据存储管理模块,包括:
9、数据仓库单元,用于存储结构化和半结构化数据;使用apachehive和hbase结合的混合存储架构;采用混合存储架构,结合列式存储和行式存储的优势,提高数据查询和处理的效率;
10、数据湖单元,使用apachehadoophdfs存储非结构化数据;引入对象存储技术s3兼容存储,提升数据湖的扩展性和成本效益;
11、数据分析模块,包括:
12、用户行为分析单元,使用apachesparkmllib进行数据分析,分析用户的行为数据,挖掘用户兴趣和需求;引入基于图神经网络gnn的用户行为分析模型,捕捉用户行为中关系和模式;
13、个性推荐单元,使用深度学习ncf和强化学习dqn相结合的推荐模型,采用深度神经网络的协同过滤模型处理数据稀疏性和冷启动问题,并结合强化学习dqn动态调整推荐策略;提高模型的自适应能力和推荐精准度;
14、实时分析单元,使用apacheflink进行流式数据处理,进行实时数据分析和决策支持;引入实时反馈机制,利用强化学习实时优化推荐策略和营销策略;
15、展示反馈模块,包括:
16、用户反馈单元,使用在线调查和行为分析相结合方法收集用户对推荐结果和平台功能的反馈,持续改进系统,提高反馈处理的智能化水平。
17、本发明进一步地设置为:数据采集单元中,实时数据流处理方式为:
18、在每个数据源节点部署kafkaproducer,将数据实时传输到kafka集群;
19、采用apachekafka实时数据流处理,数据流模型为stream(t)={d1,d2,...,di},其中t表示时间戳,di为在时间t收集到的数据;
20、kafkaproducer发送数据:p(di)=kafka producer.send(di,topic),其中,p(di)表示kafkaproducer发送的数据di到指定的主题topic;
21、kafkaconsumer接收数据:c(di)=kafkaconsumer.poll(topic),其中,c(di)表示kafkaconsumer从指定主题topic中轮询到的数据di;
22、在每个数据源节点部署边缘计算设备,进行初步数据处理;
23、初步数据处理公式:e(di)=f(di),其中,e(di)表示边缘节点对数据di的初步处理结果,f(di)表示处理函数,包括去噪、格式转换,然后进行数据传输优化;
24、本发明进一步地设置为:数据采集单元中,数据传输优化方式包括:
25、数据传输延迟优化:其中,d表示数据大小,b表示带宽,tp表示边缘处理时间,tc表示网络传输时间;
26、在传输前对数据进行压缩减少带宽消耗;
27、本发明进一步地设置为:数据湖单元使用apachehadoophdfs存储非结构化数据:
28、配置hadoop集群,包括namenode和一个以上datanode,在每个节点上安装hadoop,配置核心参数;
29、进行数据导入,确定非结构化数据源,包括日志文件、图片、视频;
30、使用hadoop命令行工具将非结构化数据上传到hdfs;
31、hdfs目录分类存储不同类型的非结构化数据;
32、使用hadoop的namenode管理hdfs的元数据,包括文件路径、块位置和副本信息;
33、设置hdfs文件和目录的权限;
34、本发明进一步地设置为:数据湖单元中引入对象存储技术s3兼容存储:
35、选用s3兼容的对象存储minio、ceph系统,配置hadoop与s3兼容存储的集成,通过hadoop的内置支持进行数据读写操作;
36、使用distcp在hdfs与s3兼容存储之间同步数据;
37、使用s3兼容存储系统客户端工具访问存储在s3中的数据;
38、通过hadoop配置文件指定s3存储路径,直接在hadoop中读取和处理s3中的数据;
39、使用s3兼容存储系统管理工具监控存储使用情况,配置存储策略,包括生命周期管理、版本控制;
40、本发明进一步地设置为:用户行为分析单元中进行数据分析方式为:
41、进行数据预处理与特征提取,从原始数据中提取特征向量;
42、使用apachesparkmllib构建用户行为模型,基于用户行为数据进行用户聚类,采用kmeans算法识别不同的用户群体,其中,k为聚类数,x为数据点,μi为第i个聚类中心,ci为第i个聚类的集合;
43、采用als矩阵分解算法基于用户商品交互数据进行推荐,r≈pqt,其中,r为用户商品评分矩阵,p和q分别为用户和商品的隐含特征矩阵;
44、构建图神经网络gnn模型图构建为用户商品交互图,表示为g=(v,e),其中,g为图,v为节点集合,即用户和商品,e为边集合,即用户与商品之间的交互;
45、本发明进一步地设置为:用户行为分析单元中进行数据分析方式包括:
46、将图中的节点嵌入到低维向量空间中,其中表示节点v在第l层的嵌入向量,n(v)为节点v的邻居节点集合,w(l)为第l层的权重矩阵,b(l)为第l层的偏置向量,σ为激活函数,cvu为归一化系数,表示节点v和邻居节点u之间的连接强度;
47、进行图神经网络模型训练,基于用户商品交互图进行节点嵌入和预测,采用交叉熵损失函数作为损失函数:其中l即损失函数,e表示边集合,yvu表示实际标签,指用户v与商品u之间的交互,为预测标签;
48、本发明进一步地设置为:用户行为分析单元中进行数据分析方式还包括:
49、使用apacheflink进行实时分析,并提供决策支持,利用强化学习优化推荐策略和营销策略,采用deepqlearning(dqn)算法,其中q(st,at)表示在状态st下采取动作at的价值,rt为即时奖励,γ为折扣因子,表示在下一状态st+1下采取最佳动作的价值;用户行为分析单元能够利用apachesparkmllib和图神经网络进行数据分析,挖掘用户兴趣和需求,捕捉用户行为中关系和模式,显著提升个性化推荐的精准度和效果;
50、本发明进一步地设置为:个性推荐单元中推荐模型构建方式为:
51、输入数据为用户商品交互数据矩阵r,包含用户对商品的评分、交互记录,设用户集合为u,商品集合为i,
52、r采用稀疏矩阵,大部分元素为零,表示大部分用户没有与大部分商品有交互;
53、基于深度神经网络的协同过滤模型架构包括:
54、嵌入层:用户嵌入矩阵p,pu=wpeu,其中,pu∈rd为用户u的嵌入向量,wp∈r|u|×d为用户嵌入矩阵,eu为用户u的onehot编码向量,d为嵌入向量的维度;
55、商品嵌入矩阵:qi=wqei,其中,qi∈rd为商品i的嵌入向量,wq∈r|i|×d为商品嵌入矩阵,ei∈r|i|为商品i的onehot编码向量;
56、隐层表示:通过深度神经网络将用户和商品的嵌入向量进行组合和转换,hu=σ(w1pu+b1),hi=σ(w2qi+b2),其中,w1,w2∈rd×d为权重矩阵,b1,b2∈rd为偏置向量,σ为激活函数;
57、预测层:将用户和商品的隐层表示进行点积,得到预测评分,其中,为用户u对商品i的预测评分;
58、损失函数:最小化实际评分与预测评分之间的均方误差,其中,rui为实际评分,为预测评分,|r|为评分的总数;
59、本发明进一步地设置为:个性推荐单元中结合强化学习dqn动态调整推荐策略,具体的:
60、设状态表示为st,表示在时间t用户的当前状态,包括用户的历史交互记录和当前浏览商品信息,其中,cu为用户当前会话中的商品集合;
61、动作表示为at,表示在时间t系统推荐的商品集合,at={i1,i2,...,ik},其中,i1,i2,...,ik表示推荐商品;
62、奖励函数为rt,表示用户对推荐商品的即时反馈,包括点击、浏览、购买行为,其中,fb(u,i)为用户u对商品i的反馈值;
63、最大化累积奖励,使用dqn进行q值更新,其中,q(st,at)为状态st下采取动作at的价值,γ为折扣因子,为在下一状态st+1下采取最佳动作的价值;
64、然后最小化实际q值与预测q值之间的误差;随后对模型进行训练评估;利用深度神经网络的协同过滤模型处理数据稀疏性和冷启动问题,并结合强化学习dqn动态调整推荐策略,显著提高推荐的精准度。
65、与现有技术相比,本发明具有以下有益效果:
66、本发明,采用深度神经网络的协同过滤模型,通过用户和商品的嵌入向量进行组合和转换,捕捉用户与商品之间的非线性关系,利用隐含特征进行更全面的推荐,即使在数据稀疏的情况下也能找到潜在的相似性,用户嵌入矩阵和商品嵌入矩阵将高维的稀疏数据转化为低维的稠密向量,减少数据稀疏对模型训练的影响,从而提高了推荐的准确性;
67、本发明,在新用户和新商品缺乏历史数据的情况下,利用已有用户和商品的特征进行迁移学习,将相似用户或商品的特征应用于冷启动问题,此外通过结合内容推荐与协同过滤,系统能够在新用户和新商品上线时,立即提供初步的有效推荐,在数据源边缘进行初步处理,及时捕捉和处理新用户和新商品的数据,减少冷启动的影响;
68、本发明,采用强化学习算法根据用户的实时反馈动态调整推荐策略,强化学习模型通过不断学习和更新,及时反映用户兴趣的变化和市场动态;
69、解决了现有技术中存在的数据稀疏性使得协同过滤算法难以找到足够的相似用户或商品进行有效推荐,进而影响推荐系统的精准度,在新用户刚加入平台时没有历史交互数据,推荐系统无法准确捕捉其兴趣偏好,从而难以提供有效的个性化推荐,新商品同样存在此类问题。
1.一种电商运营大数据分析决策平台,其特征在于,包括:
2.根据权利要求1所述的一种电商运营大数据分析决策平台,其特征在于,数据采集单元中,实时数据流处理方式为:
3.根据权利要求2所述的一种电商运营大数据分析决策平台,其特征在于,数据采集单元中,数据传输优化方式包括:
4.根据权利要求3所述的一种电商运营大数据分析决策平台,其特征在于,数据湖单元使用apachehadoophdfs存储非结构化数据:
5.根据权利要求4所述的一种电商运营大数据分析决策平台,其特征在于,数据湖单元中引入对象存储技术s3兼容存储:
6.根据权利要求5所述的一种电商运营大数据分析决策平台,其特征在于,用户行为分析单元中进行数据分析方式为:
7.根据权利要求6所述的一种电商运营大数据分析决策平台,其特征在于,用户行为分析单元中进行数据分析方式包括:
8.根据权利要求7所述的一种电商运营大数据分析决策平台,其特征在于,用户行为分析单元中进行数据分析方式还包括:
9.根据权利要求8所述的一种电商运营大数据分析决策平台,其特征在于,个性推荐单元中推荐模型构建方式为:
10.根据权利要求9所述的一种电商运营大数据分析决策平台,其特征在于,个性推荐单元中结合强化学习dqn动态调整推荐策略,具体的: