一种基于话题和相对熵的网页个性化推荐方法

xiaoxiao2020-10-23 11

一种基于话题和相对熵的网页个性化推荐方法
【技术领域】
[0001] 本发明涉及一种基于话题和相对熵的网页个性化推荐方法，该方法可用于用户兴趣识别、网页个性化推荐、新闻按需推送等网络应用，属于互联网技术领域。
【背景技术】
[0002] 随着互联网的飞速发展和网上信息资源的不断丰富，万维网（简称Web)已经成为人们获取信息资讯、了解新闻时事、追索感兴趣内容的最重要场所。然而，Web中海量的网页信息资源往往体现出动态性、非结构性和无序性等特征，公共网站又多是按大众化需求汇集大量网页，不同的用户看到相同的内容组织，致使用户体验较差。同时，由于在传统互联网中用户必须通过主动搜索、主观筛选来寻找自己感兴趣的内容，这种方式不但费时和低效，而且当用户难以表述自己的主观需求或者自己的主观需求较为模糊时，往往难以找到自己真正感兴趣的内容。在此背景之下，迫切需要借助合适的个性化推荐方法，来发现用户兴趣和进行网页的个性化推荐，使互联网从被动接受用户的搜索请求转化为主动感知用户个性化需求，实现"信息找人、按需服务"的主动兴趣匹配与个性化推荐。
[0003] 网页个性化推荐过程通常包括三个主要环节。首先，建立可使用户兴趣特征显著化的兴趣模型，并根据用户对网页的历史行为生成反映其兴趣的特征向量。然后，计算用户对待推荐网页内容的可能评分，或者用户兴趣特征向量与待推荐网页内容间的相似度。最后，根据评分或相似度的取值，判别网页内容是否符合用户兴趣特征，以决定是否向用户进行推荐。针对网页个性化推荐，当前采用较多的是基于协同过滤的个性化推荐方法和基于内容的个性化推荐方法。但是，基于协同过滤的个性化推荐方法存在稀疏性和可扩展性等问题，并且它需要较大的计算开销，所以常常难以适应设备计算能力有限和用户群频繁变化的移动场景。而基于内容的个性化推荐方法多采用TF-IDF算法直接抽取网页内容的关键词，但关键词这种浅表性特征往往难以全面反映内容蕴含的深层语义，并且由于缺乏统一的关键词映射标准，常常使相似度计算和推荐决策的难度大大增加。

【发明内容】

[0004] 发明目的：针对现有技术中存在的问题与不足，本发明提供了一种基于话题和相对摘的网页个性化推荐方法。该方法先采用LDA(LatentDirichletAllocation)模型对网页内容和用户阅读行为进行话题（topic)挖掘，并计算基于"话题"的网页语义特征向量和用户兴趣特征向量，再利用基于相对熵概念的相似性度量公式，计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度，并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销，同时由于它采用话题而不是关键词来表征网页内容，所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。
[0005] 技术方案：一种基于话题和相对熵的网页个性化推荐方法，包括：
[0006] (1)本发明中的"话题"是指从给定网页集合的内容中提取出的、经过规范化处理的、可反映网页内容的主旨和要义等深层语义特征的主题词或短语的集合。假定共有n(彡1)个网页构成网页资源集合C= {Cl，c2，…，cn}，其中m个网页已被用户浏览阅读，它们构成用户历史阅览网页集合H=IVh2，…，hj，并且满足i/CC'，而Y= {yi，y2，…，yn_J =(C-H)为待推荐网页的集合。
[0007] 本发明将借助于话题来决定是否向用户推荐集合Y中的某个（或某些）网页。基于话题的网页个性化推荐方法主要涉及3个计算过程，包括话题挖掘与网页语义特征向量计算、用户兴趣特征向量计算、基于相对摘的相似度计算等。
[0008] (2)话题挖掘与网页语义特征向量计算。采用概率语言模型LDA对网页资源集合C 进行话题挖掘，而LDA模型的求解过程则采用如图2所示的吉布斯采样（GibbsSampling) 通过多次迭代来完成。此过程结束时得到由k(多1)个话题构成的话题集合Z= {Zl，z2，… ，zk}，并且每个网页Ci (1 <i<n)通过吉布斯采样计算得到一个对应于话题集合Z的语义特征向量马=(AH、…,Pa)，其中Pi，s(l彡s彡k)为网页(^属于话题z3的概率。
[0009] 因为用户历史浏览网页集合H和待推荐网页集合Y均是C的子集，所以H和Y中的网页也都有对应的语义特征向量。为了从集合C中区分出集合H和集合Y，记H中任一网页 hj(l彡j彡m)对应的语义特征向量为
，其中hpj;s(l彡s彡k) 为网页hj属于话题z3的概率；记Y中任一网页yX(1彡x彡n-m)对应的语义特征向量为
[0010] (3)用户兴趣特征向量计算。经话题挖掘与网页语义特征向量计算之后，用户历史阅览网页集合H中任一网页卜（1 <j<m)均有对应的语义特征向量为了更精确地反映用户的兴趣特征，考虑用户针对已阅览网页的不同行为特征（如快速浏览、仔细阅读、反馈评分、评论和转发等），对H中任一网页hj的语义特征向量赋予初始权重weight(hj,tj)，其中h是网页hd皮用户阅览的时刻。同时，考虑已被阅览网页的语义特征向量在反映用户当前兴趣特征时的时间衰减因素，即用户离当前时间越久阅览的网页内容越不能反映其当前兴趣，因此引入时间衰减函数来刻画网页M勺语义特征向量在当前时刻t的权重：
[0012] 其中A为衰减常数。则用户在当前时刻t的兴趣特征向量计算公式如下：
[0014] 其中dQ是用来保证A,各分量之和为1的归一化常量。
[0015] (4)基于相对熵的相似度计算。经话题挖掘与网页语义特征向量计算之后，待推荐网页集合Y中的每个网页yx(l<x<n-m)均有对应的语义特征向量@}.);1.(为简便起见，将它记为瓦，即瓦=專n.T )。同时，经用户兴趣特征向量计算之后，得到用户当前时刻的兴趣特征向量瓦。在此基础上，采用相对摘（也即KL散度）计算特征向量A和特征向量瓦之间的距离瓦），公式如下：
[0017] 其中IIA)是从特征向量瓦到特征向量良的KL散度，而紅(瓦||及,）是从特征向量瓦到特征向量瓦的KL散度，它们通常不等，故在此取平均。
[0018] 则待推荐网页yx的语义特征向量艮与用户当前兴趣特征向量瓦之间的相似度 (简称相对熵相似度）的计算公式如下：
[0020] 其中瓦5和A,s分别表示特征向量反和瓦的第S个分量（1彡S彡k)，也即是对于它们对于第S个话题的隶属度。
[0021] 最后再根据所求得的相对熵相似度值，按网页个性化推荐服务所采取的具体策略 (如基于相似度阈值或相似度排序）向用户进行网页个性化推荐。在实际应用中，待推荐网页集合也可以是网页集合Y= (C-H)的任意非空子集。
[0022] 有益效果：基于话题和相对熵的网页个性化推荐方法可以从原理上避免协同过滤个性化推荐方法所存在的稀疏性和可扩展性等问题，并且它简化了网页个性化推荐的计算过程，提升了计算效率和对于实时、在线个性化推荐需求的适应能力，因而更加适用于用户群频繁变化的移动场景。同时，该方法利用"话题"而不是关键词来对网页内容语义特征和用户阅读兴趣进行建模，相比于传统的基于内容的个性化推荐方法，更有利于发掘多个看似不同的网页内容所蕴含的共性语义信息，并将其映射为具有统一标准的话题特征向量，再借助于基于相对熵概念的相似性度量方法，从而使个性化推荐结果能够更精准地反映网页内容与用户兴趣间的深层语义关联特征。
【附图说明】
[0023] 图1是概率语言模型LDA的概率图模型，描述了 LDA模型如何生成语料库中所有文档的对应词集。其中卢是Dirichlet分布的超参数，4为网页CidSiSn)的话题分布，A表示第s(1彡s彡k)个话题的词语分布，tny表示网页ci的第r个词所分配到的话题编号，wy表示网页(^的第r个词。
[0024] 图2是本发明对基于LDA模型的话题挖掘进行求解的吉布斯采样过程。其中W是 C中所有网页内容的不同词语所构成的集合，它的元素记为\，而Zto)是话题集合Z的初始值。n(Wj|zs)表示词语Wj(l彡j彡|w|)出现在话题zs(l彡S彡k)中的次数，nhlci)表示话题zs(l彡s彡k)出现在网页cjl彡i彡n)出现在中的次数。概率冰《,.,.kb, ,.>，〇表示在排除网页Ci的第r个词当前所分配的话题编号的前提下，利用网页集合C和词语集合W 的信息，计算网页Ci的第r个词对其余各个话题的概率分布。0表示由网页ci(1 <i<n) 的语义特征向量属作为行向量所组成的矩阵。〇表示由k个话题对W中所有词语的概率分布作为行向量所组成的矩阵。
[0025] 图3是基于话题和相对熵的网页个性化推荐方法的实现框架。提供网页个性化推荐服务的应用（如门户网站、新闻推送等），可以向一个或多个用户进行网页推荐。它先对网页资源数据库中的网页进行话题挖据和语义特征向量计算，再根据所记录的某个用户已阅览网页及其阅览行为，计算该用户的兴趣特征向量，进而计算待推荐网页的语义特征向量和该用户的兴趣特征向量之间的相对熵相似度，并根据计算结果进行网页个性化推荐。
【具体实施方式】
[0026] 下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0027] 基于话题和相对熵的网页个性化推荐方法，包括：
[0028] (1)首先，根据实际情况确定问题域中的n个网页（它们构成网页资源集合C)，对C中网页内容进行话题挖掘和网页语义特征向量计算。具体实施时，先针对C中的n个网页，通过分词（wordsegmentation)和去停用词操作，求得C中所有网页内容的不同词语，它们构成词语集合W= {Wl、w2、…、wv}。再根据实际应用所需产生的话题总数，设定 LDA模型中参数k的具体值。进而设定LDA模型中超参数5和及的值，其中k维超参数 5 = (0_5, 0.5,…，0_5)，v维超参数# = (0.1, 0.1，…，0.1)。在此基础上，按照
【发明内容】
中发明方案第⑵条所述方法，对C进行话题挖掘和网页语义特征向量计算，得到k个话题Zl、 z2、...、zk，以及与n个网页对应的n个语义特征向量马(其中1彡i彡n)。
[0029] 例如，应用本发明对由100个真实网页构成的网页集合C进行话题挖掘和网页语义特征向量计算，设定所需产生的话题总数为4,每个话题由5个词语表示。本步骤结束时，实际总共产生4个话题和100个网页语义特征向量（考虑篇幅，以下关于本实例的描述，只简化选取了其中少数网页）。所产生的4个话题为：Zl= {"中国"，"市场"，"经济"，"企业"，"公司"}，22={"革命"，"苏维埃"，"政权"，"中国"，"农民"}，2 3 = {"军事"，"美国"，"导弹"，"训练"，"作战"}，z4= {"联赛"，"欧洲"，"球队"，"比赛"，"球员"}。并且，C中有3个未被用户浏览阅读的网页（不妨记为(^、(^、(^，它们对应于这4个话题的语义特征向量为异=.!〇及〇.〇 7, 〇.〇8, 〇.〇5丨.，良=彳〇乂 0.6, 0.1, 0.1丨和瓦=_!0.3, 0.1, 0.5, 0.1丨。其中八表示网页Cl对于话题21的隶属度为0.8,对话题z2的隶属度为0. 07,对话题z3的隶属度为0. 08,对话题z4隶属度为0. 05,这表明网页ci的内容很可能与经济、企业有关。
[0030] (2)接着，根据用户访问浏览网页的历史记录，计算用户兴趣特征向量。例如，在前述实例中，用户已经浏览阅读过网页集合C中的10个网页，系统已经记录了这些网页被阅览的时刻及用户行为特征，并且经步骤（1)之后这些网页均有各自的语义特征向量。按照

【发明内容】
中发明方案第（3)条的公式，考虑10个网页的语义特征向量在反映用户兴趣特征方面的时间衰减因素，可以求得用户在当前时刻t的兴趣特征向量A= {〇丄0.1，0.5, 0.3}，它是一个4维向量（每1维对应于1个话题），即用户当前对于话题Zl的感兴趣程度为0. 1，对话题22的感兴趣程度为0. 1，对话题z3的感兴趣程度为0. 5,对话题z4的感兴趣程度为 0.3。这表明用户兴趣可能偏向于军事方面的内容。
[0031] (3)在获得网页语义特征向量和用户兴趣特征向量之后，对所有待推荐网页，分别计算它们的语义特征向量和用户兴趣特征向量间的相对熵相似度。具体实施时，对于待推荐网页集合Y中的每个网页yx (1彡x彡n-m)，它已具有对应的语义特征向量艮=元,、，再按照
【发明内容】
中发明方案第（4)条的公式，计算/5与用户兴趣特征向量瓦之间的相对熵相似度，得到n-m个相对熵相似度值SimpSim2、…、Simn_m。在前述实例中，假定仅考虑把网页集合Y= (C-H)的子集{Cl，C2，c3}作为待推荐网页集合，可以求得用户兴趣特征向量与3个网页语义特征向量间的相对熵相似度，其中户，与兵间的相对熵相似度Sinii的计算过程如下：
[0036] 同理，可以求得Sim2= 1. 09 和Sim3= 4. 55。
[0037] (4)最后，根据（3)所求得的相对熵相似度值，按照推荐策略向用户进行网页个性化推荐。推荐策略的选取与实际应用需求相关，具体的策略包括基于相似度阈值和相似度排序等，前者设定一个阈值\，凡是（3)中相似度值大于\的对应网页都向用户推荐；后者先将（3)中的n-m个相似度值按降序进行排序，再将其中排在前面的N个相似度值所对应的网页推荐给用户。在本例中，若采用基于相似度排序的推荐策略，则待推荐网页集合 {cp c2, c3}对应的3个相似度值降序排列为：Sim3>Sim2> Sinii，如果把其中2个（即N = 2)相似度值最高的网页推荐给用户，就选择推荐(：3和c2。
[0038] 在实际应用中，可以使用本发明同时为多个不同用户提供网页个性化推荐服务。例如，一个提供网页个性化推荐服务的门户网站，假定它以自身的网页数据库作为网页资源集合C，同时为u(彡1)个用户UserpUseh、…、Useru提供基于话题的网页个性化推荐服务。则它先按上述（1)对C中网页内容进行话题挖掘和网页语义特征向量计算，之后分别对每个用户Userjl<i<u)实施上述（2) (3) (4)，这样就可以根据每个用户不同的兴趣和推荐策略，有针对性地为u个用户提供网页个性化推荐服务。
【主权项】
1. 一种基于话题和相对熵的网页个性化推荐方法，其特征在于，包括话题挖掘与网页语义特征向量计算、用户兴趣特征向量计算、基于相对摘的相似度计算；话题挖掘与网页语义特征向量计算：采用概率语言模型LDA对网页资源集合C进行话题挖掘，而LDA模型的求解过程采用吉布斯采样通过多次迭代来完成；此过程结束时得到由k(k彡1)个话题构成的话题集合Z = {zp Z2、…、zk}，并且每个网页Ci (1彡i彡η)得到一个对应于话题集合Z的语义特征向量马=...,PU)，其中Pi，s(l < s < k)为网页(^属于话题z 3的概率。记用户历史浏览网页集合H中任一网页比(I < j Sm)对应的语义特征向量为辱〃Μ.= 其中hPj，s(l < s < k)为网页hj属于话题z 3的概率；记待推荐网页集合Y中任一网页5^对应的语乂特征向莖为...，用户兴趣特征向量计算：经话题挖掘与网页语义特征向量计算之后，用户历史阅览网页集合H中任一网页比(I < j < m)均有对应的语义特征向量Iiv ;对H中任一网页hj的语义特征向量赋予初始权重weight (hj, tj)，其中tj是网页h j被用户阅览的时刻；同时，弓丨入时间衰减函数来刻画网页4的语义特征向量在当前时刻t的权重： \mght(h：,O = Umght(HjJl)xe /ΛΙ 其中λ为衰减常数；则用户在当前时刻t的兴趣特征向量计算公式如下：其中Citl是用来保证A,各分量之和为1的归一化常量；基于相对熵的相似度计算：经话题挖掘与网页语义特征向量计算之后，待推荐网页集合Y中的每个网页yx(l<x<n-m)均有对应的语义特征向量(为简便起见，将它记为瓦，即瓦=);同时，经用户兴趣特征向量计算之后，得到用户当前时刻的兴趣特征向量;在此基础上，采用相对摘计算特征向量A.和特征向量瓦之间的距离(反,,氕），公式如下：其中?(瓦Il A)是从特征向量瓦到特征向量瓦的KL散度，而Α?(Λ Il A)是从特征向量A到特征向量瓦的KL散度，它们通常不等，故在此取平均；则待推荐网页^的语义特征向量A与用户当前兴趣特征向量Λ之间的相似度（简称相对熵相似度）的计算公式如下：其中氕和Aw分别表示特征向量A和Λ的第S个分量（I < S < k)，也即是对于它们对于第S个话题的隶属度；最后再根据所求得的相对熵相似度值，按网页个性化推荐服务所采取的具体策略向用户进行网页个性化推荐。2. 如权利要求1所述的基于话题和相对熵的网页个性化推荐方法，其特征在于，所述 "话题"是指从给定网页集合的内容中提取出的、经过规范化处理的、可反映网页内容的主旨和要义等深层语义特征的主题词或短语的集合；假定共有η (η多1)个网页构成网页资源集合C= {Cl，C2，…，cn}，其中m个网页已被用户浏览阅读，它们构成用户历史阅览网页集合H= Oi1, h2, ···，]!_"}，并且满足i/cC，而 Y= Iypy2, = (C-H)为待推荐网页的集合；借助于话题来决定是否向用户推荐集合Y中的某个（或某些）网页。3. 如权利要求1所述的基于话题和相对熵的网页个性化推荐方法，其特征在于，根据所求得的相对熵相似度值，按网页个性化推荐服务所采取的具体策略向用户进行网页个性化推荐，所述策略指基于相似度阈值或相似度排序；在实际应用中，待推荐网页集合也可以是网页集合Y= (C-H)的任意非空子集。
【专利摘要】本发明公开了一种基于话题和相对熵的网页个性化推荐方法。该方法先采用LDA(Latent Dirichlet Allocation)模型对网页内容和用户阅读行为进行话题(topic)挖掘，并计算基于“话题”的网页语义特征向量和用户兴趣特征向量，再利用基于相对熵概念的相似性度量公式，计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度，并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销，同时由于它采用话题而不是关键词来表征网页内容，所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN104899273
【申请号】CN201510279762
【发明人】杨鹏, 卢云骋
【申请人】东南大学
【公开日】2015年9月9日
【申请日】2015年5月27日

2012-2014专利技术

最新回复(0)