基于奇异值分解的商铺受欢迎度预测方法
【技术领域】
[0001] 本发明涉及一种商铺受欢迎度预测方法,特别是涉及一种基于奇异值分解的商铺 受欢迎度预测方法。
【背景技术】
[0002] 文献"门店选址系统及方法"公开了一种门店选址系统及方法。该方法通过新开 店的业态确定商圈范围,进而确定已有门店和居住小区,并找出这些门店的吸引力影响因 素信息,利用回归分析,分析销售额和各影响因素的关系,确定各影响因素对吸引力的影响 程度,进一步通过获得的影响因素和其相应的调节指数利用多因素吸引力模型计算出新开 店的吸引力。文献所述方法虽然从商业智能的角度出发,解决之前需要通过调查问卷和专 家系统的传统性问题,但是影响门店吸引力的因素错综复杂,从吸引力的角度出发,涉及到 的很多因素都难以获取。如,销售额、营业面积、销售品类、停车场台数等。文献所述方法中 很多因素需要实地取值,适应性不强;当周围环境变化时,不能动态获取和调整相关因素的 值,而是需要人工获取,重新进行评估,工程量巨大且效率不高。
【发明内容】
[0003] 为了克服现有门店选址系统及方法效率低的不足,本发明提供一种基于奇异值分 解的商铺受欢迎度预测方法。该方法以用户偏好为中介,在奇异值分解的基础上,加入商铺 特征融合和商铺偏好学习,利用社交媒体和基于位置的服务,获取有效的信息,包括商铺周 围商圈的信息,商铺周围的交通信息,商铺周围人流量的信息等。采用这种方式,当商铺周 围的环境信息等发生变化时,不需要通过人工实地调研更新信息,采用发明方法能够较快 地预测商铺受欢迎度。由于采用奇异值分解的方法进行欢迎度预测,不仅考虑了隐性特征, 同时包含了提取出的显性特征。在矩阵分解的过程中,迭代计算左奇异向量、右奇异向量和 商铺特征向量。同时利用商铺计算新开商铺的邻居商铺,拟合得到新开商铺的向量参数值, 解决了由于矩阵稀疏带来的新开商铺参数不准确的问题,提高了商铺受欢迎度预测方法的 效率。
[0004] 本发明解决其技术问题所采用的技术方案是:一种基于奇异值分解的商铺受欢迎 度预测方法,其特点是采用以下步骤:
[0005] S1、利用网络爬虫抓取商铺数据,结合基于位置的服务上提供的地点经炜度和交 通信息,补全商铺信息。将商铺数据整理成<s,t,P>的三元组格式,并将全部数据按8:2的 比例划分为训练数据和测试数据。
[0006] 其中,S代表商铺,t代表类型,P代表欢迎度。
[0007] S2、从商铺信息中提取的特征如下:
[0008] 距所在商业区中心的距离,定义Fs=logDs,其中Ds为商铺S到所在商业区中心的 距离,Fs表示商铺距商业区的远近程度。
[0009] 交通便利性,定义T。表示商铺交通便利程度。考虑公交车和地铁两种常用的交通 工具,并从两个角度分别对商铺S所在地的交通便利性进行刻画:距离和多样性。
[0011] 其中,Nbus(s,r)和Nsub(s,r)分别表示商铺s所在区域中公交车、地铁的种类,Dbus 和Dsub分别表示商铺s到公交站和地铁站的最近距离。
[0012] 竞争性,表示同类型商铺之间的关系。
其中,cs为商铺竞争力大小,t表 示商铺S所属类型,Nts (s,r)为商铺S所在区域内同类型商铺个数。N(s,r)为商铺S所在 区域内所有商铺个数。
[0013] 多样性,描述了新开商铺所在区域的商业格局。
其 中,NdivOT表示多样性值,T表示所有商铺类型,Nt (s,r)表示商铺s周围类型为t的商铺数,N(s,r)表示商铺s周围的所有商铺数。
[0014] 互补性,表示不同类型商铺之间的关系。引入商铺吸引因子Pt_>t,来刻画商铺类 型t和t'间的耦合度。
其中Nsrt(t,t')为集合(t,t')出现的次数;NT表示 商铺类型数,NTX(NT-1)/2*NT种商铺的所有组合数,因此Pt_t,反映了集合出现 的概率。
[0015] 对特征进行量化后,量化后的特征取值构成向量F。
[0016] S3、以<s,t,p>和F为输入,构建奇异值分解矩阵p=STT+AF,通过迭代学习过程, 得到参数S、T、A。
[0017] 其中,原始矩阵中行代表商铺,列代表类型,矩阵内的值代表商铺和类型对应的受 欢迎度。获得的分解向量S,T,A,分别代表奇异值分解的左奇异向量、右奇异向量和商铺 特征向量。
[0018] S4、根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间 的相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor。
[0019] 采用欧式距离计算商铺之间的相似度。
[0021] 其中,diSij表示新开商铺i与商铺j之间的距离,dis值越大,代表商铺i与商 铺j之间的相似度越低。<fsl-fsk>和〈fy-fjk>分别为商铺i和商铺j的显性特征向量F 中的对应值。
[0022] S5、根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之 间的相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor,拟合邻居商铺 的训练参数得到新开商铺的参数八。
[0023] S6、按照公式p=StT+AF,计算新开商铺的受欢迎度,完成受欢迎度预测。
[0024] 本发明的有益效果是:该方法以用户偏好为中介,在奇异值分解的基础上,加入商 铺特征融合和商铺偏好学习,利用社交媒体和基于位置的服务,获取有效的信息,包括商铺 周围商圈的信息,商铺周围的交通信息,商铺周围人流量的信息等。采用这种方式,当商铺 周围的环境信息等发生变化时,不需要通过人工实地调研更新信息,采用发明方法能够较 快地预测商铺受欢迎度。由于采用奇异值分解的方法进行欢迎度预测,不仅考虑了隐性特 征,同时包含了提取出的显性特征。在矩阵分解的过程中,迭代计算左奇异向量、右奇异向 量和商铺特征向量。同时利用商铺计算新开商铺的邻居商铺,拟合得到新开商铺的向量参 数值,解决了由于矩阵稀疏带来的新开商铺参数不准确的问题,提高了商铺受欢迎度预测 方法的效率。
[0025] 下面结合附图和【具体实施方式】对本发明作详细说明。
【附图说明】
[0026] 图1是本发明基于奇异值分解的商铺受欢迎度预测方法的流程图。
【具体实施方式】
[0027] 参照图1。本发明基于奇异值分解的商铺受欢迎度预测方法具体步骤如下:
[0028] 1、商铺数据抓取。
[0029] 利用网络爬虫抓取上海市的所有商铺数据,结合基于位置的服务上提供的信息 (地点的经炜度、交通信息),补全商铺信息。将商铺数据整理成〈商铺,类型,欢迎度〉的 三元组格式,并将全部数据按8:2的比例划分为训练数据和测试数据。
[0030] 2、商铺特征提取及量化。
[
0031] 从商铺信息中提取的特征如下:
[0032] 距所在商业区中心的距离,定义Fs=logDs,其中Ds为商铺s到所在商业区中心的 距离,Fs表示商铺距商业区的远近程度。
[0033] 交通便利性,定义T。表示商铺交通便利程度。考虑公交车和地铁两种常用的交通 工具,并从2个角度分别对商铺s所在地的交通便利性进行刻画:距离和多样性。
[0035] 其中,Nbus(s,r)和Nsub(s,r)分别表示商铺s所在区域中公交车、地铁的种类,Dbus 和Dsub分别表示商铺s到公交站和地铁站的最近距离。
[0036] 竞争性,表示同类型商铺之间的关系。
其中,Cs为商铺竞争力大小,t表 示商铺s所属类型,Nts (s,r)为商铺s所在区域内同类型商铺个数。N(s,r)为商铺s所在 区域内所有商铺个数。
[0037] 多样性,描述了新开商铺所在区域的商业格局。
其 中,NdivOT表示多样性值,T表示所有商铺类型,Nt (s,r)表示商铺s周围类型为t的商铺数,N(s,r)表示商铺s周围的所有商铺数。
[0038] 互补性,表示不同类型商铺之间的关系。引入商铺吸引因子Pt_>t,来刻画商铺类 型t和t'间的耦合度,
其中Nsrt(t,t')为集合出现的次数;NT表示 商铺类型数,NTX(NT-1)/2*NT种商铺的所有组合数,因此Pt_t,反映了集合出现 的概率。
[0039] 对特征进行量化后,量化后的特征取值构成向量F。
[0040] 3、奇异值分解。
[0041] 以<s,t,p>和F为输入,构建奇异值分解矩阵p=StT+AF,通过迭代学习过程,得 到参数s、T、A。
[0042] 4、邻居商铺集合。
[0043] 根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的 相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor。
[0044] 本发明中采用欧式距离计算商铺之间的相似度。
[0046] 其中,diSij表示新开商铺i与商铺j之间的距离,dis^值越大,代表商铺i与商 铺j之间的相似度越低。<fsl-fsk>和<fV-fjk>分别为商铺i和商铺j的显性特征向量F 中的对应值。
[0047] 5、参数学习。
[0048] 根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间 的相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor。拟合邻居商铺的 训练参数得到新开商铺的参数八。
[0049] 6、受欢迎度预测。
[0050] 按照公式p=StT+AF,计算新开商铺的受欢迎度,完成受欢迎度预测。
【主权项】
1. 一种基于奇异值分解的商铺受欢迎度预测方法,其特征在于包括以下步骤: 51、 利用网络爬虫抓取商铺数据,结合基于位置的服务上提供的地点经炜度和交通信 息,补全商铺信息;将商铺数据整理成<S,t,p>的三元组格式,并将全部数据按8:2的比例 划分为训练数据和测试数据; 其中,s代表商铺,t代表类型,p代表欢迎度; 52、 从商铺信息中提取的特征如下: 距所在商业区中心的距离,定义Fs= IogDs,其中Ds为商铺s到所在商业区中心的距 离,Fs表示商铺距商业区的远近程度; 交通便利性,定义T。表示商铺交通便利程度;考虑公交车和地铁两种常用的交通工具, 并从两个角度分别对商铺s所在地的交通便利性进行刻画:距离和多样性;其中,Nbus(s,r)和Nsub(s,r)分别表示商铺s所在区域中公交车、地铁的种类,D blJPDsub分别表示商铺s到公交站和地铁站的最近距离; 竞争性,表示同类型商铺之间的关系;其中,Cs为商铺竞争力大小,t表示商铺s所属类型,Nts(s,r)为商铺s所在区域内同类型商铺个数;N(s,r)为商铺s所在区域 内所有商铺个数; 多样性,描述了新开商铺所在区域的商业格局; ·其中,Ndivw 表示多样性值,T表示所有商铺类型,Nt (s,r)表示商铺s周围类型为t的商铺数,N (s,r)表 示商铺s周围的所有商铺数; 互补性,表示不同类型商铺之间的关系;引入商铺吸引因子P t_>t,来刻画商铺类型t和 t'间的耦合度;其中Nsrt (t,t')为集合(t,t')出现的次数;Nt表示商铺类 型数,ΝΤΧ(ΝΤ-1)/2*ΝΤ种商铺的所有组合数,因此P t、t,反映了集合出现的概 率; 对特征进行量化后,量化后的特征取值构成向量F ; 53、 以<s,t,p>和F为输入,构建奇异值分解矩阵p = StT+Λ F,通过迭代学习过程,得 到参数S、Τ、Λ ; 其中,原始矩阵中行代表商铺,列代表类型,矩阵内的值代表商铺和类型对应的受欢迎 度;获得的分解向量s,Τ,Λ,分别代表奇异值分解的左奇异向量、右奇异向量和商铺特征 向量; 54、 根据商铺特征计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的相 似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor ; 采用欧式距离计算商铺之间的相似度;其中,(Iisij表示新开商铺i与商铺j之间的距离,dis ij值越大,代表商铺i与商铺j 之间的相似度越低;<fsl··· fsk>和<fy f jk>分别为商铺i和商铺j的显性特征向量F中的 对应值; 55、 根据商铺特征F计算新开商铺和训练数据中的同类型商铺集合中所有商铺之间的 相似度,从训练数据中找出与目标商铺相似的邻居商铺集合neighbor,拟合邻居商铺的训 练参数得到新开商铺的参数Λ ; 56、 按照公式ρ = STT+AF,计算新开商铺的受欢迎度,完成受欢迎度预测。
【专利摘要】本发明公开了一种基于奇异值分解的商铺受欢迎度预测方法,用于解决现有门店选址系统及方法效率低的技术问题。技术方案是以用户偏好为中介,在奇异值分解的基础上,加入商铺特征融合和商铺偏好学习,利用社交媒体和基于位置的服务,获取有效信息,包括商铺周围商圈的信息,商铺周围的交通信息,商铺周围人流量的信息等。由于采用奇异值分解的方法进行欢迎度预测,不仅考虑了隐性特征,同时包含了提取出的显性特征。在矩阵分解的过程中,迭代计算左奇异向量、右奇异向量和商铺特征向量。同时利用商铺计算新开商铺的邻居商铺,拟合得到新开商铺的向量参数值,解决了由于矩阵稀疏带来的新开商铺参数不准确的问题,提高了商铺受欢迎度预测方法的效率。
【IPC分类】G06Q10/04, G06Q30/02
【公开号】CN104899660
【申请号】CN201510329542
【发明人】於志文, 田苗, 郭斌, 王柱, 周兴社
【申请人】西北工业大学
【公开日】2015年9月9日
【申请日】2015年6月15日