基于大数据的页面定制化方法
【技术领域】
[0001] 本发明涉及大数据,特别涉及一种基于大数据的页面定制化方法。
【背景技术】
[0002] 随着互联网的发展及普及,信息爆炸性增长使用户难以及时准确地发现有用的数 据源,导致人们在获取丰富的数据源过程中受到信息过载的困扰。如何帮助用户从激增的 海量信息中获取有效的数据源,主动地为用户提供更丰富、全面并符合其潜在需求的数据 源,给电子商务领域技术带来了极大的挑战。然而,当前技术中忽略了具体环境对用户兴趣 的影响。另一方面,面对众多资源,现有的方案根据用户对资源的评价信息产生的推送,这 种基于页面记分的推送只能体现用户对页面整体的兴趣情况。然而实际上用户对页面资源 的评价往往是根据它所具有的属性特征产生的,因此根据仅仅根据用户对资源的整体记分 而产生的推送结果往往具有片面性。
【发明内容】
[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于大数据的页面定制化 方法,包括:
[0004] 根据用户行为数据识别用户的相关上下文信息,收集用户的兴趣特征,基于所述 上下文集合进行协同过滤推送,为目标用户生成推送结果。
[0005] 优选地,所述根据用户行为数据识别用户的相关上下文信息,进一步包括:
[0006] 计算某一具体上下文实例ckq下,用户选择属性类型为的页面的熵值,进而获取 用户在该上下文实例下对某属性类型的页面的选择,根据具体上下文实例下用户对页面的 选择,计算用户在某上下文要素所包含的不同上下文实例下对所选择页面的熵值,其中对 上下文信息熵的计算过程包含以下步骤:
[0007]步骤1:获取并计算用户反馈信息;将用户的反馈信息二值化,对于具有用户记分 的反馈将其定量化为〇和1两种状态值,计算在上下文实例ckq的影响下,用户u在页面资源空 间中对具有属性特征为aij的页面评价值:
[0008] f ckq(aij) = count (ur = 1 | aij)/count (ur = 1)
[0009]其中,1^取1时表示用户的积极反馈即状态值为1的反馈,(:〇11111:(1^ = 1|3^)表示用 户在上下文实例ckq下对具有属性特征为aij的页面所具有的积极反馈次数,count (ur=l)表 示用户在上下文实例ckq下对所有页面所具有的积极反馈次数;
[00?0]步骤2:产生上下文实例Ckq下的评价值集合fc;kq(ai)= {fckqUij),…,fckqUij)}其 中,为页面第i个属性类型下的第j个属性特征;
[0011]步骤3:计算上下文实例的熵值
;其中,I (Ckq)表示用户在上下文实例Ckq下对不同属性类型的页面选择;fd^aj表示在上下文实例 Ckq下,用户u所选择的属性类型ai页面中属于某一特征au的页面的概率;η为页面所具有的 属性类型的个数;
[0012] 步骤4 :计算不同上下文实例分布下相应上下文要素 Ck的熵值
[0013] 其中,p(Ckq)为上下文实例Ckq下在给定上下文要素(^样本中的分布,t为该上下文 要素中所包含的上下文实例样本的个数。
[0014] 本发明相比现有技术,具有以下优点:
[0015] 本发明提出了一种基于大数据的页面定制化方法,通过分析用户兴趣获得用户的 需求,提高用户获取所需信息和信息推送的效率。
【附图说明】
[0016] 图1是根据本发明实施例的基于大数据的页面定制化方法的流程图。
【具体实施方式】
[0017] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利 要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以 便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的 一些或者所有细节也可以根据权利要求书实现本发明。
[0018] 本发明的一方面提供了一种基于大数据的页面定制化方法。图1是根据本发明实 施例的基于大数据的页面定制化方法流程图。
[0019] 本发明建立包含上下文实体、用户实体和页面实体的推送方法。针对上下文与用 户兴趣之间的关系,根据推送方法中各个实体要素之间的联系建立用户兴趣模型,表述用 户上下文及其兴趣之间的关联关系,并分析用户在某个特定上下文中的兴趣;计算上下文 信息熵和上下文关键度值的概念,并计算上下文信息熵值以及上下文要素的关键度值,根 据这些上下文的关键度值来计算用户兴趣。基于上下文的结合协同过滤和关键词过滤的进 行合并推送。首先结合用户对页面的记分和用户对页面属性的兴趣两个方面搜寻目标用户 的邻居,并将上下文相似度匹配和上下文关键度值加入基于用户的协同过滤推送的生成过 程中,利用协同过滤推送方法;根据当前上下文信息以及用户对页面属性的兴趣,采用基于 知识推送的方法生成推送结果;最后通过基于上下文的计算优化方法对两种推送方法产生 的结果进行整合而形成最终结果。
[0020] 在上述所建立的推送方法的基础上,本发明从结构要素和实现过程的角度,建立 基于上下文的页面推送逻辑框架。推送框架由输入、推送过程、输出三个阶段组成;该框架 包含了知识建模、用户兴趣挖掘、推送生成和用户反馈四个层次。
[0021] 首先,推送实现的首要任务就是建立关于用户、上下文和页面的推送方法,然后从 该模型中提取用于推送过程的有效数据,该部分对应于推送的输入阶段;其次,挖掘用户兴 趣,这一过程是推送生成的关键前提;在推送生成部分,将提取的用户兴趣与和当前上下文 相似的用户历史行为数据相结合,同时利用领域知识进行语义匹配,进而产生推送结果;最 后,将推送结果以排序推送、预测值或其它形式呈现给用户,并根据用户的反馈结果更新推 送方法中的用户模型,即为推送的输出阶段。
[0022] 本发明所建立的推送架构获取用户兴趣,然后结合与当前上下文相似的用户行为 记录,基于该领域推送知识的特点采用某种技术生成推送结果。基于推送方法,采用深度信 念网络来分析用户在不同上下文中对页面属性类型的兴趣;然后考虑不同上下文对用户兴 趣产生影响的差异,计算各种上下文对用户兴趣产生影响的差异。
[0023] 基于实体概念间丰富的语义关系和逻辑计算功能,根据该模型能够实现对用户兴 趣的深层次计算。对己建立的推送方法中的用户实体和上下文实体及其之间的关系进行概 率上的扩展,采用概率模型的思想建立基于实体的用户兴趣深度信念网络模型,实现对用 户兴趣的计算,进而获取潜在的用户兴趣来过滤不相关的资源页面,并结合基于知识推送 的方法进行推送,从而为用户提供满足其需求的结果。
[0024] 本发明针对上下文、用户和页面资源之间的关系建立用户兴趣的深度信念网络模 型。构建用户兴趣深度信念网络模型的步骤如下:
[0025] 步骤1:将用户上下文和环境上下文插入深度信念网络作为两个不同的上下文根 节点,分别将对应的用户上下文和环境上下文本体的概念按照它们在实体中的结构依次插 入深度信念网络树中;
[0026] 步骤2:根据上下文实体中的关系属性,连接步骤1中的节点,使得上述节点之间存 在依赖关系;
[0027] 步骤3:将用户兴趣数据作为深度信念网络中的叶子节点加入到深度信念网络底 层中,并将这些代表的用户对页面属性兴趣的叶子节点与页面实体中的页面属性类相关 联。
[0028] 根据上述网络建立过程的描述,将该上下文用户兴趣深度信念网络表示为:
[0029] 深度信任网络=〈Nu,Eu,Pn>
[0030] 其中,Nu为变量集合,Eu为有向边集合,PN为节点变量上的条件概率集合。
[0031] 基于实体的上下文用户兴趣深度信念网络模型由用户兴趣深度信念网络和基于 属性的页面实体两部分构成。
[0032] 在顶层用户兴趣深度信念网络结构中,由上下文要素&、具体上下文实例Ckq,以及 用户兴趣p u三部分相应的构成了网络的输入、状态和输出结构。即根节点为环境上下文和 用户上下文实体中的相应父概念,上下文实体中的各种上下文要素&及相应的各种上下文 实例分别按照实体中的层次结构相应的构成了该模型中的父节点,将实体中的用户兴趣作 为该网络结构中的叶子节点。
[0033] 在底层页面实体描述了页面的属性关系概念及其实例,且这两部分通过实体的语 义映射刻画了用户兴趣与页面之间的联系。将上下文实例作为深度信任网络中的证据节 点,即C 1为Nu中的父节点,用户对页面属性的兴趣则作为计算结果表示为叶子节点,则节点 之间的有向弧E u表示各种上下文之间,以及上下文和用户兴趣之间的概率依赖关系。
[0034] 本发明识别对用户选择行为或兴趣产生影响的重要上下文要素,并通过对这些上 下文要素对用户产生影响的重要程度的计算,进一步分析基于这些重要上下文要素影响下 的用户兴趣。计算某一具体上下文实例c kq下,用户选择属性类型为的页面的熵值,进而 获取用户在该上下文实例下对某属性类型的页面的选择。
[0035] Ialjckq = fckq(aij)l〇gn/fckq(aij)
[0036] 其中,fckq(aij)表示在上下文实例下,用户u所选择的所有页面中属于属性类型aiJ 的页面的概率。根据具体上下文实例下用户对页面的选择,采用用户在某上下文要素所包 含的不同上下文实例下对所选择页面的熵值,来表达该上下文要素所包含的各个实例对用 户选择结果的贡献程度。对上下文信息熵的计算过程包含以下几个步骤。
[0037] 步骤1获取并计算用户反馈信息。
[0038] 将用户的反馈信息二值化,对于具有用户记分的反馈将其定量化为0和1两种状态 值,在上下文实例Ckq的影响下,用户u在页面资源空间中对具有属性特征为aij的页面评价 值的定义为:
[003
9] fckq(aij) = count(ur = l |aij)/count(ur = l)
[0040] 其中,ur取1时表示用户的积极反馈即状态值为1的反馈,count(ur = l |aij)表示用 户在上下文实例ckq下对具有属性特征为aij的页面所具有的积极反馈次数,count (ur=l)表 示用户在上下文实例Ckq下对所有页面所具有的积极反馈次数。
[0041] 步骤2:产生上下文实例ckq下的评价值集合。
[0042] fckq(ai) = {fckq(aij),…,fckq(aij)}
[0043] 其中,&1伪页面第i个属性类型下的第j个属性特征。
[0044] 步骤3:计算上下文实例的熵值。
[0046]其中,I(Ckq)表示用户在上下文实例Ckq下对不同属性类型的页面选择;fckqUu)表 示在上下文实例Ckq下,用户u所选择的属性类型ai页面中属于某一特征的页面的概率;η 为页面所具有的属性类型的个数。
[0047]步骤4:计算上下文信息熵,即不同上下文实例分布下相应上下文要素&的熵值。
[0049] 其中,p(Ckq)为上下文实例Ckq下在给定上下文要素(^样本中的分布,t为该上下文 要素中所包含的上下文实例样本的个数。
[0050] 在推送生成之前,选择那些熵值较小的上下文要素作为推送生成的数据输入。此 外,在挖掘用户兴趣时,根据上下文信息熵的大小不断调整用户兴趣深度信念网络模型,去 除网络模型中对目标用户的兴趣不起任何作用的上下文要素。根据上下文要素的关键度值 以及它所包含的上下文实例来分析用户兴趣。上下文关键度值的计算方式如式
[0051] Dck=l-E(Ck)
[0052] 其中,&为对用户兴趣相关联的上下文要素,而Dck表示该上下文要素的关键度值。 [0053]用户m在一组上下文信息c d下对页面属性的兴趣度计算如下:
[0055]其中,ckq是该组上下文信息cd中对该用户的兴趣相关联的上下文实例,p( aij|Ckq) 为上下文实例ckq下用户对属性特征为的页面的初步兴趣值,η为对用户兴趣相关联的上 下文实例的个数。
[0056] 本发明进一步从用户对页面属性特征兴趣和用户记分两方面考虑,提出合并推送 方法。首先,采用基于页面属性的语义相似度的协同过滤来填充用户记分矩阵的缺失值,然 后从用户对页面属性的兴趣角度出发,结合用户记分共同搜索目标用户的邻居集合;然后 将上下文相似度的匹配和上下文关键度值进行协同过滤,产生推送结果集;最后将基于上 下文的关键词过滤推送与协同过滤的结果相融合,得到最终的推送结果。基于上下文的页 面合并推送的基本流程为:
[0057] 提取己获取的用户兴趣数据信息,以及对用户兴趣相关联的上下文;然后在推送 方法中对当前上下文数据、历史上下文数据相关的用户行为记录进行预处理;
[0058] 从用户对页面属性的兴趣和用户对页面的记分来计算用户之间的相似性,进而找 到邻居集合,然后将上下文的相似度匹配及上下文关键度值加入基于用户的推送生成过程 中;
[0059] 根据用户当前的上下文,采用基于上下文的关键词过滤方法产生对页面资源的推 送结果;
[0060] 根据协同过滤和关键词过滤所产生的推送结果,进而生成最终推送结果的访问序 列,并将该推送结果通过界面反馈给用户;通过用户获取推送序列后给出的反馈信息。
[0061] 在协同过滤推送中,根据不同用户对页面的记分信息产生推送结果。设用户信息 为1]={111,112,'",11111},代表用户集合,1={11,12,",1111}为页面资源集合,贝仏={1^|1^\1」} 为用户资源记分集合,其中meihei。因此用 m*n矩阵A(m,n)表示上述用户记分数据集 合,m行和η列分别代表该记分矩阵中有m个用户和η个页面资源,第i行第j列的元素表示用 户m对页面资源I」的记分。
[0062] 本发明采用面向服务分层及模块化的方式构建了基于上下文的推送系统体系结 构。该架构共分为3层,分别为数据层、计算层和应用层,每一个层次都包含了不同的模块来 实现相应层次下的服务。数据层是对实现推送服务中所使用的相关信息源的描述。该层次 相应的提供了数据组织模块,通过对相关数据源的整合,采用语义化的方式构建相应的模 型,为用户推送的实现提供了知识基础。计算层根据数据层所提供的信息,为推送的实现提 供核心服务。该层次包含的模块有兴趣采集模块、上下文计算模块、语义匹配模块以及推送 生成模块。兴趣采集模块:根据数据层提供的上下文知识和用户知识,采用深度信念网络概 率计算的方法获取用户兴趣信息。上下文计算模块:根据用户当前的上下文信息,在数据层 的模型中采用预定义的计算规则来获取扩展的上下文信息以及用户兴趣的相关信息。语义 匹配模块:通过基于实体的方法对各种数据源之间的进行语义相似匹配,进而获取各种资 源之间的相似度情况,为推送生成模块提供知识支持。推送生成模块:根据上下文计算模块 和语义匹配模块所提供的知识,采用一定的方法来生成与用户上下文及需求相似的最终推 送结果。应用层提供用户与推送服务的交互服务,通过用户对推送结果的反馈信息,不断更 新数据层的用户相关模型。根据本发明提出的推送体系结构,基于上下文的推送服务的实 现过程分为以下步骤。推送系统首先通过交互界面实现推送服务于用户之间的信息沟通, 根据用户简单的行为操作获取用户的相关上下文信息,收集用户的兴趣特征,依此为推送 过程的实现提供信息依据;根据用户的行为记录以及当前上下文,采用深度信念网络计算 的方法来分析用户兴趣情况;基于推送用户实体的相关知识,结合用户兴趣,检索与当前用 户兴趣相似的近邻用户;结合当前上下文,采用相似度计算的方法检索与当前上下文相似 的历史上下文集合;基于上下文建模的推送模式,采用基于上下文的改进协同过滤推送方 法,为目标用户生成推送结果;根据当前上下文信息以及用户兴趣,基于推送方法中的预定 规则进行关键词过滤推送,生成基于规则知识的推送结果;采用上下文计算优化方法,将关 键词过滤与协同过滤中相冲突的结果过滤掉,进而生成最终的推送结果集合并反馈给目标 用户。
[0063]综上所述,本发明提出了一种基于大数据的页面定制化方法,通过分析用户兴趣 获得用户的需求,提高用户获取所需信息和信息推送的效率。
[0064]显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用 的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成 的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储 在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。 [0065]应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的 原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨 在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修 改例。
【主权项】
1. 一种基于大数据的页面定制化方法,其特征在于,包括: 根据用户行为数据识别用户的相关上下文信息,收集用户的兴趣特征,基于所述上下 文集合进行协同过滤推送,为目标用户生成推送结果。2. 根据权利要求1所述的方法,其特征在于,所述根据用户行为数据识别用户的相关上 下文信息,进一步包括: 计算某一具体上下文实例Ckq下,用户选择属性类型为的页面的熵值,进而获取用户 在该上下文实例下对某属性类型的页面的选择,根据具体上下文实例下用户对页面的选 择,计算用户在某上下文要素所包含的不同上下文实例下对所选择页面的熵值,其中对上 下文信息熵的计算过程包含以下步骤: 步骤1:获取并计算用户反馈信息;将用户的反馈信息二值化,对于具有用户记分的反 馈将其定量化为〇和1两种状态值,计算在上下文实例Ckq的影响下,用户u在页面资源空间中 对具有属性特征为aij的页面评价值: fckq(aij) = count(ur= 11 aij)/count(ur= I) 其中,Ur取I时表示用户的积极反馈即状态值为I的反馈,count (Ur = 11 aij)表示用户在 上下文实例Ckq下对具有属性特征为aij的页面所具有的积极反馈次数,count (Ur=I)表示用 户在上下文实例Ckq下对所有页面所具有的积极反馈次数; 步骤2 :产生上下文实例Ckq下的评价值集合f ckq (ai) = { f ckq (ai j ),…,f ckq (ai j)}其中,ai j 为页面第i个属性类型下的第j个属性特征; 步骤3:计算上下文实例的熵值其中,I(Ckq)表 示用户在上下文实例Ckq下对不同属性类型的页面选择;fcMUu)表示在上下文实例Ckq下, 用户u所选择的属性类型ai页面中属于某一特征的页面的概率;η为页面所具有的属性类 型的个数; 步骤4 :计算不同上下文实例分布下相应上下文要素Ck的熵值E(Ck) =其中,P(Ckq)为上下文实例Ckq下在给定上下文要素Ck样本中的分布,t为该上下文要素 中所包含的上下文实例样本的个数。
【专利摘要】本发明提供了一种基于大数据的页面定制化方法,该方法包括:根据用户行为数据识别用户的相关上下文信息,收集用户的兴趣特征,基于所述上下文集合进行协同过滤推送,为目标用户生成推送结果。本发明提出了一种基于大数据的页面定制化方法,通过分析用户兴趣获得用户的需求,提高用户获取所需信息和信息推送的效率。
【IPC分类】G06F17/30
【公开号】CN105488214
【申请号】CN201510929885
【发明人】董政, 吴文杰, 陈露, 李学生
【申请人】成都陌云科技有限公司
【公开日】2016年4月13日
【申请日】2015年12月15日