选购热点标签的挖掘方法

xiaoxiao2021-2-28  215

选购热点标签的挖掘方法
【技术领域】
[0001 ]本发明提供一种基于海量商品数据的选购热点标签挖掘方法。
【背景技术】
[0002]随着电子商务迅速的发展,网上购物由于其节省时间和提供丰富的可对比选择商 品受到人们的青睐。目前京东(公司名称)商品库中有海量的商品提供给用户选择,随着商 品数量的剧增、商品名称书写的不规范等因素的出现,当用户搜索一类产品时,搜索结果页 会召回成千上万的商品,用户可能在短时间内无法获取当前比较流行的各个元素的商品。 例如,用户搜索连衣裙,召回的商品包含成千上万,可能排名靠前的并不是用户喜欢的类 型,用户无法短时间内找到自己心仪的商品,这样可能会造成部分用户流失。有些比较有耐 心的用户,会在搜索框中补充信息,如:"修身显瘦连衣裙"、"蕾丝拼接连衣裙","小香风连 衣裙"等,搜索自己喜欢类型的连衣裙。通过用户增加关键词召回商品增加了用户购物的复 杂性。
[0003 ]结合用户喜欢选购当前比较流行元素的商品这一习惯,我们从海量的商品中结合 商品类目、该类目下商家最近上架的商品描述的文本信息和用户的搜索习惯,挖掘出各个 类别商品的热点选购词。给每一个商品打上标签,这些标签可以反映当前该类商品流行的 趋势,选购热点标签将商品的卖点及特色以一种比较简洁的方式展示给用户,可以对用户 进行导购,将其从海量的商品选购中解放出来。
[0004] 热点选购标签与其他导航属性相比,更能吸引用户的眼球,符合大众挑选用户的 习惯,节省用户购买商品的成本。
[0005] 与本发明相关的技术有新词识别,新词识别主要有两类方法:一是基于统计的方 法,对待处理的文本统计其重复字符串的频率,然后利用信息熵计算词边界;二是基于监督 的方法,首先选取能区分词边界的特征,然后利用大量训练语料训练,利用学习的模型进行 分词。
[0006] 现有技术存在以下缺点。现有技术虽然可以提取到新词,但是选购热点标签又不 同于一般的新词,选购热点标签大部分是修饰新词,目前还没有修饰词提取较为成熟的技 术。目前电子商务网站中的选购热点标签都是由运营人员编辑设定的,所以存在不能及时 发现并更新的问题。而且维护这些标签会浪费大量的人力物力。

【发明内容】

[0007] 本发明提供一种基于海量商品数据的选购热点标签挖掘方法,其目的有两个:一 是将商品的卖点及特色以一种比较简单的方式展示给用户,可以对用户进行导购,将其从 海量的商品选购中解放出来;二是减少运营人员的工作量,并完成及时更新,最快地将最近 的选购热点标签反映给用户。
[0008] 与本发明相关的主要技术有以下三个方面:
[0009] ?按照商品类目挖掘标签,该技术是新词识别,将描述商品的材质、
[0010] 类型、风格的词识别出来,这类词主要是修饰词。
[0011] ?优质搜索词提取,该技术提取用户点击率高于基准值(例如1000次)
[0012] 的搜索词(即,优质搜索词),过滤掉用户反馈不好以及包含错别字
[0013] 的搜索词。
[0014] ?产品词类别判断,该技术是高相关分类,通过用户在一段时间内的
[0015] 搜索点击行为给搜索词一个最相关的类目信息。
[0016] 本发明的选购热点标签的挖掘方法包括以下步骤:搜索步骤,根据用户输入的关 键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索到的商品 标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标签;和交 集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到的修饰词 与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在有效时间 内,点击搜索率高于某阈值的查询式。
[0017]发明效果
[0018] 根据本发明,能将商品的卖点及特色以一种比较简单的方式展示给用户,可以对 用户进行导购,将其从海量的商品选购中解放出来,另外能减少运营人员的工作量,并完成 及时更新,最快地将最近的选购热点标签反映给用户。
【附图说明】
[0019] 图1是表示本发明的概要的流程图。
[0020] 图2是利用优质搜索词挖掘选购热点标签的流程图。
[0021 ]图3是利用高相关分类挖掘选购热点标签的流程图。
【具体实施方式】
[0022]下面结合图1对本发明的概要进行说明,图1是表示本发明的概要的流程图。
[0023] 本发明的一方式的选购热点标签的挖掘方法,包括以下步骤:搜索步骤,根据用户 输入的关键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索 到的商品标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标 签;和交集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到 的修饰词与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在 有效时间内,点击搜索率高于某阈值的查询式。
[0024] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述组合步骤中,保留组 合之后词长大于等于第1词长且小于等于第2词长的标签,并且对只包含字母和汉字的标签 进行N-Gram计算,其中,上述第1词长小于上述第2词长。
[0025] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述组合步骤中,在采用 语言模型N-Gram获取候选标签时删除了商品标题的前部和后部的商品信息。
[0026] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述组合步骤中,在采用 语言模型N-Gram获取候选标签时删除了商品标题的前部1/5和后部1/5的商品信息。
[0027] 根据上述方式所述的选购热点标签的挖掘方法,其中,上述优质搜索词满足的条 件如下:条件(1),搜索词在最近N天的点击搜索日志中出现,其中N = 7;条件(2),累计搜索 量大于等于某阈值TIME,其中TIME = 100;条件(3),点击搜索率大于等于某阈值P,其中P = 15%〇
[0028]根据上述方式所述的选购热点标签的挖掘方法,其中,挖掘上述优质 [0029]搜索词的步骤包括:当EK 7时,一旦满足上述条件(1 )、(2)、(3),则输出查询式,作 为优质搜索词,当满足上述条件(1)、(2)且不满足条件(3)时,则输出查询式,作为低反馈 词,该低反馈词是指点击搜索率低于某阈值的搜索词,当只满足上述条件(1)时,继续计算 第D+1天的点击搜索量;当D>7时,将不符合上述条件(1)的查询式输出,其余的处理逻辑与 D < 7的情况相同,当D = 180时,结束统计,其中,上述D是指统计的日期距当日的天数。
[0030] 根据上述方式所述的选购热点标签的挖掘方法,其中,在上述交集步骤之后,还包 括通过商品标题的关键词匹配来绑定上述选购热点标签的步骤。
[0031] 下面对具体的实施方式进行说明。
[0032] 本发明基于京东海量的商品标题并结合用户的搜索习惯自动挖掘出选购热点标 签,整个技术方案分为以下三个部分:
[0033 ] -、挖掘17个一级类目下商品的候选热点标签
[0034] 17个一级类目涉及的三级类目有800多个(此处列举的数字只是京东海量的商品 数量的一个例子),统计的数据是最近4个月上架且仍然在柜上的商品,商家为了使自己的 商品更容易被用户搜索到,会在商品名称中填写一系列热点选购标签组合。下面是一个商 品名称的例子:
[0035]花田雅织2015宽松大码九分裤女小脚裤韩国BF风破洞牛仔图片色29。
[0036]其中,"宽松大码"、"九分裤"、"小脚裤"、"BF风"、"破洞牛仔"都是描述牛仔裤的标 签。因此,本发明通过商品标题提取到大量的候选热点标签。
[0037]将提取到的商品名称按照类别分别放在各个文件夹中。京东商品有自己的三级类 目体系,将不同类别的商品区分开。选购热点标签与商品类目有密切的关系,每个类别下的 标签差别很大,因此需要分别处理。如连衣裙类目下的标签:"波西米亚"、"欧根纱"、"收腰 显瘦"等;牛仔裤类目下的标签:"高腰排扣"、"韩版破洞"、"BF风"等。首先,我们使用分词工 具对上面的商品标题进行分词,分词后的结果例如如下:
[0038]花田/雅/织//2015/宽松/大/码/九分裤//女/小脚裤/韩国/BF/风/破洞/牛仔// 图片/色//29。
[0039] 我们将只包含一个词的选购热点标签称为简单标签,将包含两个或者两个以上词 的选购热点标签称为复合标签。只依赖现有的分词系统无法提取到包含新词的热点标签和 复合标签,无法更好的描述该商品。为了得到更多的选购热点标签("热点标签"是指本发明 的挖掘目标),本发明使用以下两种方法A和B获取候选标签("候选标签"只是一个候选集 合,里面有很多杂质,热点标签是从这个候选标签中获取的)。
[0040] ?方法 A
[0041 ]使用N-Gram将分词的上下文term( "term"是指"词")组合起来,保留组合之后词长 大于等于3且小于等于5的候选选购热点标签。对只包含字母和汉字的term进行N-Gram计 算,当符合以下两个条件时停止计算:(1)词长大于等于5; (2)遇到非字母或者汉字的字。该 term计算完毕之后,从下一个term继续计算,直到最后一个term。
[0042]这里所说的N-Gram是指:大词汇连续语音识别中常用的一种语言模型,对中文而 言,我们称之为"汉语语言模型",常用的是二元的Bi-Gram和三元的Tri-Gram。本发明中因 为限制词长为5,所以最多利用了五元Gram。
[0043]另外,为了过滤噪音,我们采用N-Gram获取候选热点标签时删除了商品标题的前 部(例如,前1/5)和后部(例如,后1/5)的商品信息。因为商品标题前部的信息多为品牌,后 部多为颜色、尺码等。假设,上面标题,过滤掉前面和后面之后的信息为:
[0044] 2015/宽松/大/码/九分裤//女/小脚裤/韩国/BF/风/破洞/牛仔。
[0045] 米用N-Gram之后得到的候选标签为:
[0046] 宽松大;宽松大码;大码九分裤;码九分裤;九分裤;女小脚裤;小脚裤;小脚裤韩 国;韩国BF;韩国BF风;BF风;BF风破洞;风破洞;风破洞牛仔;破洞牛仔。
[0047] ?方法 B
[0048] 基于分词的标注结果,选取修饰词、人名、字母的词。如果词长度大于等于3,则该 词直接作为一个标签;如果词长小于等于2,且该 词相邻的词也是修饰词、人名、字母,则把 该词和相邻词合并作为复合标签。基于该方法得到的热点标签比较有限,但是其正确率比 较高,可以直接作为选购热点标签。
[0049] 二、利用优质搜索词和高相关分类挖掘选购热点标签
[0050] 下面结合图2对本发明的选购热点标签的流程进行说明。图2是利用优质搜索词挖 掘选购热点标签的流程图。
[0051 ]利用N-Gram获取的候选热点标签中除了包含新词之外,还有一些垃圾标签,如:宽 松大、码九分裤等。本发明利用该类目下产品词的常用搭配搜索,获取热点标签。例如,用户 在搜索牛仔裤时,召回的商品成千上万,用户短时间内无法找到自己喜欢类型的商品,为了 更精准的搜索到商品,用户会在搜索框中输入类似"BF风牛仔裤"、"时尚修身牛仔裤"这类 的搭配搜索词。我们基于用户这一习惯,从优质搜索词中找到包含该三级类目产品词的固 定搭配词。
[0052]优质搜索词是指在有效时间内,点击搜索率比较高的query ( "query"是指用户查 询词/查询式),这类query比较好的表达了用户的搜索意图。优质搜索词是基于点击搜索日 志统计query的点击搜索比以及是否被搜索引擎(例如百度百科)纠错获取的。优质搜索词 满足的条件如下:
[0053] (1)搜索词必须在最近N天的点击搜索日志中出现(N=7)
[0054] (2)累计搜索量大于等于某阈值??ΜΕ(??ΜΕ = 100)
[0055] (3)点击搜索率大于等于某阈值Ρ(Ρ = 15%)。
[0056] 优质搜索词挖掘的具体实施步骤如下:
[0057] a)当7时,一旦满足上面所有条件,则输出query,作为优质搜索词;当满足条件 1)、条件2)时且不满足条件3),则输出query,作为低反馈词,即点击搜索比较低的搜索词; 当只满足条件1)时,继续计算第D+1天的点击搜索量。
[0058] b)当D>7时,将不符合条件1)的query输出;其余的处理逻辑与DS 7的相同。
[0059] 当D = 180时,结束统计。
[0060]其中D指统计的日期距当日的天数。
[0061]下面结合图3对本发明的选购热点标签的流程进行说明。图3是利用高相关分类挖 掘选购热点标签的流程图。
[0062]高相关分类是通过统计用户在一段时间内点击商品的类目信息、左侧类目筛选等 几十维特征行为训练学习的,指搜索词的高相关三级类目ID。本发明利用京东提供的高相 关分类接口获取1.7万个产品词的高相关分类ID。
[0063]例如:牛仔裤的高相关类目
[0065] 其中,cid3代表商品的三级类目ID,name代表该三级类目的名称,weight代表权 重。
[0066]据统计发现有些热点选购标签中包含产品词,如:荷叶边、娃娃领、泡泡袖、欧根 纱,其中荷叶、娃娃、泡泡、纱都是产品词,直接取产品词的搭配关系会过滤掉一些好的热点 选购标签。因此,本发明采用最大匹配算法将优质搜索词中该类目下的产品词替换为三级 类目ID,这种替换算法可以避免过滤掉其他产品词。
[0067]假设在三级类目9735下,替换之前的优质搜索词是"BF风牛仔裤",我们通过最大 匹配算法,用#9735替换优质搜索词中的"牛仔裤",优质搜索词转化为:BF风#9735 [0068]将替换之后,结构为<TAG#cid3>的优质搜索词提取出来,将TAG与上述"一、挖掘17 个一级类目下商品的候选热点标签"中通过N-Gram算法获取的候选标签做交集,从而获取 该cid3类目下的热点选购标签,标签的权重为在该类目下商品标题中出现的次数。
[0069]下面举例进行说明。
[0070] BF风牛仔裤
[0071]在9735类目下挖掘的候选热点标签有:BF风
[0072]而优质搜索词中包含BF风牛仔裤,利用高相关分类,牛仔裤是9735类目下的,
[0073]从而就可以判定"BF风"是一个热点选购标签。
[0074]做交集的两个词的来源是:
[0075] 1、优质搜索中符合<TAG#cid3>结构的TAG,如:BF风牛仔裤,处理之后是BFM# 9735,其中BF风是从优质搜索词中获取的候选标签;
[0076] 2、利用N-Gram算法获取的候选标签,如:9735类目下,找到了 "BF风"。交集部分就 是BF风。
[0077]具体实施步骤如图3所示。
[0078]根据上述方法,可以获取一定数量的质量较好的选购热点标签,如:明星同款、小 香风、气质修身等。
[0079]三、选购热点标签归一和商品绑定策略
[0080] 选购热点标签中包含同义的标签,如:衬衫型、衬衫款;修身版、修身款;目前标签 同义词挖掘方法是字数相同且最后一个字是以"型"、"版"、"款"等的原则。将同义词进行传 递合并,如果A和B是同义词,B和C是同义词,则A和C也是同义词,并把ABC聚为同一类同义 词,我们会选取权重最大的tag作为显示标签。
[0081] 标签绑定方式有很多种,可以通过商品详细页或者商品标题的关键词匹配绑定标 签,本发明的绑定策略基于第二种方法。选购热点标签绑定策略是按照三级类目计算的,对 于只有一个词的标签,如:欧洲站、小香风,如果商品标题中包含该标签,则绑定该商品的 ID;对于包含两个或者以上词的标签,如果标题中包含所有词,则绑定该商品的ID;同时支 持基于模板的绑定策略,模板格式如下:
[0082] cid3;A+B+…+Z = TAG[其中A到Z是该类目下挖掘出来的标签,TAG是显示的标签] [0083]对于包含同义词的标签,在绑定的时候直接做了替换,如果A和B是同义词,且A为 显示标签,如果商品标题中包含B标签,则将A绑定该商品的ID。
[0084] 根据本发明,可以获得以下效果。
[0085] 本发明在商品搜索、推荐领域都有极其广阔的应用前景。
[0086] 对于搜索而言,有两个应用场景,一方面,当用户在搜索框中输入"连衣裙"时,我 们可以利用下拉列表,将该搜索词的高相关类目下的选购热点标签呈现给用户,从而可以 更精准的召回用户喜欢类型的商品,提升用户体验。另一方面,当用户搜索"连衣裙"时,召 回的商品成千上万,用户无法快速的找到自己喜欢的商品。我们可以将选购热点标签显示 在属性区,这些选购热点标签将海量商品的热点元素以一种比较简单的方式呈现给用户, 可以对用户进行导购,将用户从海量的商品中解脱出来。
[0087] 对于推荐而言,可以通过不同的热点选购标签向用户推荐不同类型的产品,或者 是针对用户的喜好,向用户推荐该类别其他的商品。
[0088] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明(尤 其说明书中提到的数字只是用于进行例示,并不应理解为限制本发明),凡在本发明的精神 和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种选购热点标签的挖掘方法,包括以下步骤: 搜索步骤,根据用户输入的关键词进行搜索,得到与搜索结果有关的商品标题; 分词步骤,使用分词工具对搜索到的商品标题进行分词; 组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标签;和 交集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到的 修饰词与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在有 效时间内,点击搜索率高于某阈值的查询式。2. 根据权利要求1所述的选购热点标签的挖掘方法,其特征在于, 在上述组合步骤中,保留组合之后词长大于等于第1词长且小于等于第2词长的标签, 并且对只包含字母和汉字的标签进行N-Gram计算,其中,上述第1词长小于上述第2词长。3. 根据权利要求1所述的选购热点标签的挖掘方法,其特征在于, 在上述组合步骤中,在采用语言模型N-Gram获取候选标签时删除了商品标题的前部和 后部的商品信息。4. 根据权利要求3所述的选购热点标签的挖掘方法,其特征在于, 在上述组合步骤中,在采用语言模型N-Gram获取候选标签时删除了商品标题的前部1/ 5和后部1/5的商品信息。5. 根据权利要求1所述的选购热点标签的挖掘方法,其特征在于, 上述优质搜索词满足的条件如下: 条件(1 ),搜索词在最近N天的点击搜索日志中出现,其中N=7; 条件(2),累计搜索量大于等于某阈值??ΜΕ,其中??ΜΕ=100; 条件(3),点击搜索率大于等于某阈值Ρ,其中Ρ=15%。6. 根据权利要求5所述的选购热点标签的挖掘方法,其特征在于, 挖掘上述优质搜索词的步骤包括: 当DS7时,一旦满足上述条件(1)、(2)、(3),则输出查询式,作为优质搜索词,当满足上 述条件(1)、(2)且不满足条件(3)时,则输出查询式,作为低反馈词,该低反馈词是指点击搜 索率低于某阈值的搜索词,当只满足上述条件(1)时,继续计算第D+1天的点击搜索量; 当D>7时,将不符合上述条件(1)的查询式输出,其余的处理逻辑与D< 7的情况相同, 当D= 180时,结束统计, 其中,上述D是指统计的日期距当日的天数。7. 根据权利要求1所述的选购热点标签的挖掘方法,其特征在于, 在上述交集步骤之后,还包括通过商品标题的关键词匹配来绑定上述选购热点标签的 步骤。
【专利摘要】本发明公开了一种选购热点标签的挖掘方法,包括以下步骤:搜索步骤,根据用户输入的关键词进行搜索,得到与搜索结果有关的商品标题;分词步骤,使用分词工具对搜索到的商品标题进行分词;组合步骤,使用语言模型N-Gram对分词结果进行组合,得到候选标签;和交集步骤,将使用最大匹配算法对优质搜索词和用户输入的关键词进行处理而得到的修饰词与在上述候选标签做交集,从而获得选购热点标签,其中,上述优质搜索词是指在有效时间内,点击搜索率高于某阈值的查询式。由此,能将商品的卖点及特色以比较简单的方式展示给用户,同时能减少运营人员的工作量,并完成及时更新,最快地将最近的选购热点标签反映给用户。
【IPC分类】G06F17/27, G06Q30/06, G06F17/30
【公开号】CN105488136
【申请号】CN201510831574
【发明人】王颖
【申请人】北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司
【公开日】2016年4月13日
【申请日】2015年11月25日

最新回复(0)