网络资源的语义编码方法和装置的制造方法
【技术领域】
[0001] 本发明涉及互联网领域,尤其涉及一种网络资源的语义编码方法和装置。
【背景技术】
[0002] 在网页上采用检索词进行搜索时,从海量的网页词中检索出与检索词相关的词不 是一件容易的事情,可能出现检索到的网页词与所期望的检索词相关性不高等问题。
[0003] 目前,可以通过准确的词向量快速地找到检索词与网页词之间的相关性。 Word2vec是可以将单个的词转换成向量形式的工具。具体而言,Word2vec通过挖掘海量网 页中词与词之间的位置关系,包括位置邻接、位置相近、共同出现等,来推测词与词之间的 语义关系,并将这种语义关系用向量表达。
[0004] 由于Word2VeC等现有技术以单个的词为基本的处理单位,但句子或者短语的表达 则是通过对词的语义表达进行组合得到,这样获得的网页词的准确性难以保证。而且,现有 技术的词向量定义方法需要海量的网页文本数据作为训练语料库,得到的结果也是普通意 义上的语义表述,这种语义表述与视频等垂直领域所需要的语义描述有出入。现有方法并 不适用于处理查询点击等用户行为数据。
【发明内容】
[0005] 技术问题
[0006] 有鉴于此,本发明要解决的技术问题是,如何在搜索引擎等场景下,如何准确地对 网页、检索词等网络资源进行语义编码。
[0007] 解决方案
[0008] 为了解决上述技术问题,本发明提供一种网络资源的语义编码方法,所述网络资 源包括能够通过互联网访问的多媒体资源和用户访问所述多媒体资源所产生的用户行为 数据,所述用户行为数据包括输入数据和点击数据,所述方法包括:
[0009] 根据所述多媒体资源、所述输入数据和所述点击数据,确定待处理区域内每两个 所述网络资源的关联程度,其中,每两个所述网络资源的关联程度包括以下至少一种:所述 多媒体资源与所述输入数据的关联程度、两个所述多媒体资源之间的关联程度、两个所述 输入数据之间的关联程度;
[0010] 根据每两个所述网络资源的关联程度,对所述多媒体资源和/或所述输入数据进 行语义编码,所述语义编码的结果是用向量来表示所述网络资源。
[0011] 对于上述方法,在一种可能的实现方式中,根据每两个所述网络资源的关联程度, 对所述多媒体资源和/或所述输入数据进行语义编码,包括:
[0012] 建立计算每个网络资源语义编码的数学模型,在所述数学模型中,任意两个具有 关联关系的网络资源之间建立一个关联关系方程,每个关联关系方程用于根据网络资源的 关联程度的目标值计算网络资源的语义向量,所有的关联关系方程构成一组大型方程组;
[0013] 根据所述大型方程组来建立目标函数,对所述目标函数采用梯度下降法,来求解 所述大型方程组的最优解,得到各所述网络资源对应的语义向量,所述目标函数用于衡量 所述大型方程组的解的最优性。
[0014] 对于上述方法,在一种可能的实现方式中,建立计算每个网络资源语义编码的数 学模型,在所述数学模型中,任意两个具有关联关系的网络资源之间建立一个关联关系方 程,每个关联关系方程用于根据网络资源的关联程度的目标值计算网络资源的语义向量, 所有的关联关系方程构成一组大型方程组,包括:
[0015] 对于所述待处理区域内每两个所述网络资源,采用下式3建立两个具有关联关系 的网络资源的关联关系方程;
[0017] 其中,ΡΛ为网络资源i和网络资源j的关联程度的目标值,v;为所述网络资源i的 向量,5为所述网络资源j的向量;
[0018] 将根据所述待处理区域内所有网络资源所建立的关联关系方程,组成所述大型方 程组。
[0019] 对于上述方法,在一种可能的实现方式中,根据所述大型方程组来建立目标函数, 采用梯度下降法求解所述大型方程组,得到各所述网络资源对应的语义向量,包括:
[0020] 将所述网络资源i的向量?和所述网络资源j的向量5的当前值代入下式4,计算所 述网络资源i和所述网络资源j的关联程度的实际值 yiJ,
[0022] 将所述网络资源i和所述网络资源j的关联程度的目标值与实际值y^,代入下 式5,计算在所述网络资源i和所述网络资源j的向量为当前值的情况下的惩罚度;
[0023] ?υ = -Ρ7 ijl〇g(yij)-(l-P/ ij)log(l-yij) 式5,
[0024] 将式5计算得到的惩罚度代入下式6的目标函数,并对所述目标函数采用梯度下降 法,来确定所述网络资源i和所述网络资源j的语义向量,
[0026] 对于上述方法,在一种可能的实现方式中,对所述目标函数采用梯度下降法,来确 定所述网络资源i和所述网络资源j的语义向量包括:
[0027] 判断所述目标函数的值是否处于预定范围;
[0028] 在所述目标函数的值处于预定范围的情况下,将所述网络资源i和所述网络资源j 的向量的当前值确定为所述语义向量;
[0029] 在所述目标函数的值不处于预定范围的情况下,采用下式7至式10计算所述网络 资源i和所述网络资源j的向量的更新值€和$、
[0034] 其中,η为根据迭代次数确定的增量步长;
[0035] 将所述更新值代入上式4、式5和式6,以计算在所述网络资源i和所述网络资源j的 向量为更新值的情况下,所述网络资源i和所述网络资源j的关联程度的实际值和目标函数 的值,并返回执行上述判断步骤。
[0036] 对于上述方法,在一种可能的实现方式中,其特征在于,根据所述多媒体资源、所 述输入数据和所述点击数据,确定待处理区域内每两个所述网络资源的关联程度,包括:
[0037] 根据所述多媒体资源、所述输入数据和所述点击数据,建立所述待处理区域内各 所述网络资源的初始关联关系图;
[0038]根据所述初始关联关系图、所述多媒体资源、所述输入数据和所述点击数据进行 迭代运算,并根据迭代运算结果对所述初始关联关系图进行调整;
[0039] 根据调整后的关联关系图,确定所述多媒体资源与所述输入数据的关联程度。
[0040] 对于上述方法,在一种可能的实现方式中,根据所述多媒体资源、所述输入数据和 所述点击数据,建立所述待处理区域内各所述网络资源的初始关联关系图,包括:
[0041] 根据所述多媒体资源,生成所述初始关联关系图的多媒体节点;
[0042] 根据所述输入数据,生成所述初始关联关系图的输入节点;
[0043] 根据所述点击数据,构建所述多媒体节点与所述输入节点之间的初始边,其中,所 述初始边的值表示所述多媒体节点与所述输入节点之间的关联概率。
[0044] 对于上述方法,在一种可能的实现方式中,根据所述初始关联关系图、所述多媒体 资源、所述输入数据和所述点击数据进行迭代运算,并根据迭代运算结果对所述初始关联 关系图进行调整,包括:
[0045]对于所述初始关联关系图中的各节点,执行加边处理步骤,所述加边处理步骤包 括:在第一节点和第二节点之间具有中间节点的情况下,增加所述第一节点与第二节点之 间的边,所述中间节点为与所述第一节点与所述第二节点分别具有相连的边的节点;
[0046]对将进行了所述加边处理步骤后的关联关系图执行剪枝处理步骤,所述剪枝处理 步骤包括将不具有中间节点的各节点删除;
[0047]迭代步骤,对进行了所述剪枝处理步骤后的关联关系图,迭代执行所述加边处理 步骤。
[0048]对于上述方法,在一种可能的实现方式中根据调整后的关联关系图,确定所述网 络资源的关联程度,包括:
[0049]采用下式1迭代计算第一节点与第二节点之间的当前关联概率:
[0051] 其中,Pij为网络资源i对应的第一节点Ni和网络资源j对应的第二节点Nj的前次迭 代所得到的关联概率,Pu e [0,1);
[0052] Plk为所述第一节点化和所述中间节点Nk的关联概率,Pkj为所述中间节点N k和所述 第二节点%的关联概率;
[0053] P、为每次迭代运算后,所述第一节点化和所述第二节点化之间的当前关联概率, 用于表示所述网络资源i与所述网络资源j的关联程度的目标值;
[0054] Ak为与所述中间节点Nk所连接的节点数对应的惩罚函数;
[0055] α是收敛参数。
[0056] 对于上述方法,在一种可能的实现方式中,采用下式2计算所述惩罚函数:
[0058] 其中,Degree(k)为所述中间节点Nk所连接的节点数,〇是根据所述中间节点Nk所连 接的节点数预设的惩罚参数。
[0059] 为了解决上述技术问题,本发明提供一种网络资源的语义编码装置,所述网络资 源包括能够通过互联网访问的多媒体资源和用户访问所述多媒体资源所产生的用户行为 数据,所述用户行为数据包括输入数据和点击数据,所述装置包括:
[0060] 关联程度确定模块,用于根据所述多媒体资源、所述输入数据和所述点击数据,确 定待处理区域内每两个所述网络资源的关联程度,其中,每两个所述网络资源的关联程度 包括以下至少一种:所述多媒体资源与所述输入数据的关联程度、两个所述多媒体资源之 间的关联程度、两个所述输入数据之间的关联程度;
[0061] 语义编码模块,与所述关联程度确定模块连接,用于根据每两个所述网络资源的 关联程度,对所述多媒体资源和/或所述输入数据进行语义编码,所述语义编码的结果是用 向量来表示所述网络资源。
[0062] 对于上述装置,在一种可能的实现方式中,所述语义编码模块包括:
[0063] 模型建立单元,用于建立计算每个网络资源语义编码的数学模型,在所述数学模 型中,任意两个具有关联关系的网络资源之间建立一个关联关系方程,每个关联关系方程 用于根据网络资源的关联程度的目标值计算网络资源的语义向量,所有的关联关系方程构 成一组大型方程组;
[0064] 求解单元,用于根据所述大型方程组来建立目标函数,对所述目标函数采用梯度 下降法,来求解所述大型方程组的最优解,得到各所述网络资源对应的语义向量,所述目标 函数用于衡量所述大型方程组的解的最优性。
[0065] 对于上述装置,在一种可能的实现方式中,所述模型建立单元具体用于:
[0066] 对于所述待处理区域内每两个所述网络资源,采用下式3建立两个具有关联关系 的网络资源的关联关系方程;
[0068] 其中,P' ^为网络资源i和网络资源j的关联程度的目标值,?为所述网络资源i的 向量,?为所述网络资源j的向量;
[0069] 将根据所述待处理区域内所有网络资源所建立的关联关系方程,组成所述大型方 程组。
[0070] 对于上述装置,在一种可能的实现方式中,所述求解单元具体用于
:
[0071]将所述网络资源i的向量?;和所述网络资源j的向量5的当前值代入下式4,计算所 述网络资源i和所述网络资源j的关联程度的实际值yiJ,
[0073] 将所述网络资源i和所述网络资源j的关联程度的目标值?\」与实际值yij,代入下 式5,计算在所述网络资源i和所述网络资源j的向量为当前值的情况下的惩罚度;
[0074] ?υ = -Ρ7 ijl〇g(yij)-(l-P/ ij)log(l-yij) 式5,
[0075] 将式5计算得到的惩罚度代入下式6的目标函数,并对所述目标函数采用梯度下降 法,来确定所述网络资源i和所述网络资源j的语义向量,
[0077] 对于上述装置,在一种可能的实现方式中,所述求解单元还用于:
[0078] 判断所述目标函数的值是否处于预定范围;
[0079] 在所述目标函数的值处于预定范围的情况下,将所述网络资源i和所述网络资源j 的向量的当前值确定为所述语义向量;
[0080] 在所述目标函数的值不处于预定范围的情况下,采用下式7至式10计算所述网络 资源i和所述网络资源j的向量的更新值^和<
[0085] 其中,II为根据迭代次数确定的增量步长;
[0086] 将所述更新值代入上式4、式5和式6,以计算在所述网络资源i和所述网络资源j的 向量为更新值的情况下,所述网络资源i和所述网络资源j的关联程度的实际值和目标函数 的值,并返回执行上述判断步骤。
[0087] 对于上述装置,在一种可能的实现方式中,所述关联程度确定模块包括:
[0088] 初始化单元,用于根据所述多媒体资源、所述输入数据和所述点击数据,建立所述 待处理区域内各所述网络资源的初始关联关系图;
[0089] 迭代运算单元,与所述初始化单元连接,用于根据所述初始关联关系图、所述多媒 体资源、所述输入数据和所述点击数据进行迭代运算,并根据迭代运算结果对所述初始关 联关系图进彳丁调整;
[0090] 关联程度确定单元,与所述迭代运算单元连接,用于根据调整后的关联关系图,确 定所述多媒体资源与所述输入数据的关联程度。
[0091] 对于上述装置,在一种可能的实现方式中,所述初始化单元具体用于根据所述多 媒体资源,生成所述初始关联关系图的多媒体节点;根据所述输入数据,生成所述初始关联 关系图的输入节点;根据所述点击数据,构建所述多媒体节点与所述输入节点之间的初始 边,其中,所述初始边的值表示所述多媒体节点与所述输入节点之间的关联概率。
[0092] 对于上述装置,在一种可能的实现方式中,所述迭代运算单元具体用于对于所述 初始关联关系图中的各节点,执行加边处理步骤,所述加边处理步骤包括:在第一节点和第 二节点之间具有中间节点的情况下,增加所述第一节点与第二节点之间的边,所述中间节 点为与所述第一节点与所述第二节点分别具有相连的边的节点;对将进行了所述加边处理 步骤后的关联关系图执行剪枝处理步骤,所述剪枝处理步骤包括将不具有中间节点的各节 点删除;执行迭代步骤,对进行了所述剪枝处理步骤后的关联关系图,迭代执行所述加边处 理步骤。
[0093] 对于上述装置,在一种可能的实现方式中,所述关联程度确定单元具体用于:
[0094]采用下式1迭代计算第一节点与第二节点之间的当前关联概率:
[0096] 其中,Pij为网络资源i对应的第一节点Ni和网络资源j对应的第二节点Nj的前次迭 代所得到的关联概率,Pu e [0,1);
[0097] Plk为所述第一节点化和所述中间节点Nk的关联概率,Pkj为所述中间节点N k和所述 第二节点%的关联概率;
[0098] PA为每次迭代运算后,所述第一节点化和所述第二节点化之间的当前关联概率, 用于表示所述网络资源i与所述网络资源j的关联程度的目标值;
[0099] 为与所述中间节点Nk所连接的节点数对应的惩罚函数;
[0100] α是收敛参数。
[0101]对于上述装置,在一种可能的实现方式中,所述关联程度确定单元还用于采用下 式2计算所述惩罚函数:
[0103]其中,Degree(k)为所述中间节点Nk所连接的节点数,0是根据所述中间节点Nk所连 接的节点数预设的惩罚参数。
[0104] 有益效果
[0105] 本实施例能够根据包括多媒体资源、输入数据和点击数据的网络资源,来确定待 处理区域内每两个网络资源的关联程度,所获得的关联程度能够准确地反应用户行为,从 而有利于根据每两个网络资源的关联程度,对网络资源进行准确地语义编码,得到网络资 源的语义向量。
[0106] 根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得 清楚。
【附图说明】
[0107] 包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的 示例性实施例、特征和方面,并且用于解释本发明的原理。
[0108] 图1为本发明一实施例的网络资源的语义编码方法的流程图;
[0109] 图2为本发明一实施例的网络资源的语义编码方法中建立数学模型的流程图;
[0110] 图3为本发明另一实施例的网络资源的语义编码方法的流程图;
[0111] 图4为本发明另一实施例的网络资源的语义编码方法中确定网络资源关联性的流 程图;
[0112] 图5为本发明另一实施例的网络资源的语义编码方法中建立数学模型的流程图;
[0113] 图6为本发明另一实施例的网络资源的语义编码方法中迭代运算的流程图;
[0114] 图7为本发明另一实施例的网络资源的语义编码方法中初始关联关系图的示意 图;
[0115] 图8为本发明另一实施例的网络资源的语义编码方法中经过第一次迭代运算后的 关联关系图的不意图;
[0116] 图9为本发明另一实施例的网络资源的语义编码方法中经过第二次迭代运算后的 关联关系图的不意图;
[0117] 图10为本发明另一实施例的网络资源的语义编码方法中对网络资源迭代调整后 得到的稳定的关联关系的示意图;
[0118] 图11为本发明一实施例的网络资源的语义编码装置的结构框图;
[0119] 图12为本发明一实施例的网络资源的语义编码装置的另一结构框图;
[0120] 图13为本发明另一实施例的网络资源的语义编码装置的结构框图。
【具体实施方式】
[0121] 以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同 的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除 非特别指出,不必按比例绘制附图。
[0122] 在这里专用的词"示例性"意为"用作例子、实施例或说明性"。这里作为"示例性" 所说明的任何实施例不必解释为优于或好于其它实施例。
[0123] 另外,为了更好的说明本发明,在下文的【具体实施方式】中给出了众多的具体细节。 本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于 本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
[0124] 实施例1
[0125] 图1为本发明一实施例的网络资源的语义编码方法的流程图。如图1所示,所述网 络资源可以包括能够通过互联网访问的多媒体资源和用户访问所述多媒体资源所产生的 用户行为数据,例如用户能够通过互联网访问的视频、音频、图片等网页。所述用户行为数 据可以包括输入数据和点击数据,输入数据可以为例如用户向搜索引擎中输入的检索词 等。点击数据可以为例如统计用户点击某些音频、视频、图片等得到的点击量等。
[0126] 该网络资源的语义编码方法主要可以包括:
[0127] 步骤101、根据多媒体资源、输入数据和点击数据,确定待处理区域内每两个网络 资源的关联程度。
[0128] 其中,每两个网络资源的关联程度包括以下至少一种:所述多媒体资源与所述输 入数据的关联程度、两个所述多媒体资源之间的关联程度、两个所述输入数据之间的关联 程度。
[0129] 步骤102、根据每两个网络资源的关联程度,对多媒体资源和/或输入数据进行语 义编码,所述语义编码的结果是用向量来表示所述网络资源。
[0130] 其中,该向量表示带有语义特征(也可以称为语义向量),例如如果两个资源节点 的表达向量相近,那么这个资源节点通常描述相近或者类似的事情。
[0131] 在一种可能的实现方式中,如图2所示,步骤102具体可以包括:
[0132] 步骤1021、建立计算每个网络资源语义编码的数学模型,在所述数学模型中,任意 两个具有关联关系的网络资源之间建立一个关联关系方程,每个关联关系方程用于根据网 络资源的关联程度的目标值计算网络资源的语义向量,所有的关联关系方程构成一组大型 方程组。其中,每两个网络资源的关联程度的目标值的计算方法可以参见下述实施例中的 相关描述。
[0133] 步骤1022、根据所述大型方程组来建立目标函数,对所述目标函数采用梯度下降 法,来求解所述大型方程组的最优解,得到各所述网络资源对应的语义向量,所述目标函数 用于衡量所述大型方程组的解的最优性。
[0134] 具体而言,目标函数可以由网络资源的候选向量(该网络资源的向量的当前值)和 资源节点之间的关联度构成。采用梯度下降法,该目标函数求导得到网络资源的向量的变 化趋势(梯度)。然后根据该变化趋势来更新大型方程组的解,并不断优化目标函数的值。最 终,使得目标函数为最小值的网络资源的向量,可以作为大型方程组的最优解。
[0135] 本实施例的网络资源的语义编码方法,能够根据包括多媒体资源、输入数据和点 击数据的网络资源,来确定待处理区域内每两个网络资源的关联程度,所获得的关联程度 能够准确地反应用户行为,从而有利于根据每两个网络资源的关联程度,对网络资源进行 准确地语义编码,得到网络资源的语义向量。
[0136] 实施例2
[0137] 图3为本发明另一实施例的网络资源的语义编码方法的流程图。图3中标号与图1、 图2相同的步骤具有相同的功能,为简明起见,省略对这些步骤的详细说明。
[0138] 如图3所示,本实施例与上一实施例的不同之处在于,步骤101可以包括:
[0139] 步骤201、根据所述多媒体资源、所述输入数据和所述点击数据,建立所述待处理 区域内各所述网络资源的初始关联关系图。
[0140]步骤202、根据所述初始关联关系图、所述多媒体资源、所述输入数据和所述点击 数据进行迭代运算,并根据迭代运算结果对所述初始关联关系图进行调整。
[0141] 步骤203、根据调整后的关联关系图,确定所述多媒体资源与所述输入数据的关联 程度。
[
0142] 在一种可能的实现方式中,步骤201可以包括:
[0143]步骤2011、根据所述多媒体资源,生成所述初始关联关系图的多媒体节点。
[0144] 举例而言,可以将某一种多媒体资源例如:一个视频网页作为初始关联关系图中 的一个多媒体节点。多媒体节点在初始关联关系图中的名称也可以根据不同的多媒体资源 类型分别称为视频节点、音频节点、图片节点等,具体根据所需要应用的场景可以灵活的选 择。
[0145] 步骤2012、根据所述输入数据,生成所述初始关联关系图的输入节点。
[0146] 举例而言,可以将可以根据用户输入的每个检索词等输入数据在初始关联关系图 中生成对应的输入节点。
[0147] 步骤2013、根据所述点击数据,构建所述多媒体节点与所述输入节点之间的初始 边,其中,所述初始边的值表示所述多媒体节点与所述输入节点之间的关联概率。
[0148] 举例而言,参见图7,他至他为用户输入的查询词节点(输入节点的示例),他至咏为 多媒体节点。举例而言,假设用户输入检索词A对应的是输入节点Λ,在显示搜索结果后,该 用户选择点击的视频Β对应的是多媒体节点Ν 6,那么表明检索词Α和视频Β之间具有关联性, 可以在输入节点见与多媒体节点N6之间生成一条初始边al。根据统计得到的各节点之间的 点击数据,可以生成图7中多媒体节点与输入节点之间的边,分别是边al至边a6,参见图7中 采用实线所表示的连接线。
[0149] 在一种可能的实现方式中,如图4所示,步骤202可以包括:
[0150]步骤2021、对于所述初始关联关系图中的各节点,执行加边处理步骤,所述加边处 理步骤包括:在第一节点和第二节点之间具有中间节点的情况下,增加所述第一节点与第 二节点之间的边,所述中间节点为与所述第一节点与所述第二节点分别具有相连的边的节 点。
[0151]参见图7,输入节点见分别与多媒体节点N6、N7具有相连的边al、a2,因此,输入节点 Λ是多媒体节点N6、N7的中间节点,多媒体节点N6、N7则分别是第一节点和第二节点。
[0152]参见图8,在第一次迭代运算之后,计算出第一节点N6与第二节点N?之间存在关联 关系,则在第一节点N6与第二节点N?之间的增加一条边bl。对图8中全部节点均进行加边的 运算后,分别增加了边bl至边b4,参见图8中采用虚线所表示的连接线。
[0153]步骤2022、对进行了所述加边处理步骤后的关联关系图执行剪枝处理步骤,所述 剪枝处理步骤包括将不具有中间节点的各节点删除。
[0154] 参见图9,在所调整的图8的基础上,可以将不存在中间节点的%与他剪枝,即将N2 与地从图8中删除,使得他与地不参加后续计算。
[0155] 步骤2023、迭代步骤,对进行了所述剪枝处理步骤后的关联关系图,迭代执行所述 加边处理步骤。
[0156] 经过剪枝运算后,继续对图9中剩余的节点进行加边处理,为存在多个中间节点的 输入节点、多媒体节点之间增加边cl至c3,参见图9中采用点划线所表示的连接线。该加边 处理可以为迭代过程,具体的迭代次数可以根据具体使用场景下对关联关系的强度要求预 先设置,一般情况下算法迭代十次以内即可终止,优选为迭代3至10次。在经过设定次数的 迭代运算之后,在调整后的关联关系图中,各节点之间的关联关系趋于稳定。
[0157] 图7至图9中用于表示节点之间的边所采用的连接线类型,仅是一种示例,具体实 现中可以采用其他方式,例如不同粗细、颜色或其他特征的线条进行区分。此外,即使不对 线条类型进行区分,也能够通过调整后的关联关系图确定节点之间的关联关系。本实施例 中主要是为了区分出根据每次迭代运算结果,对关联关系图进行的不同调整。
[0158] 在一种可能的实现方式中,步骤203具体可以包括:
[0159]采用下式1迭代计算第一节点与第二节点之间的当前关联概率:
[0161]在式1中,Pij为网络资源i对应的第一节点Ni和网络资源j对应的第二节点Nj的前 次迭代所得到的关联概率,P^e[0,i);通常,值越大表示两者的关联关系越强,如果两 个节点之间无关联关系,则Ρυ = 0;关联概率也可以称为节点之间的概率关系或节点之间边 的权重,可以初始化为归一化之后的点击量。其中,归一化操作可以采用当前点击量的除以 数据集内的最大点击量,例如,检索词Α对应视频Β在一个月内的点击量为1万次为当前点击 量,检索词A1对应视频B1在一个月内的点击量为100万次为最大点击量,则检索词A对应视 频B的归一化之后的点击量为1%。假设多媒体节点为根据视频资源生成的节点,输入节点 为根据检索词生成的节点,则Pu可以表示视频与检索词、视频与视频、检索词与检索词之间 的三种关系。
[0162] Plk为所述第一节点化和所述中间节点Nk的关联概率,Pkj为所述中间节点N k和所述 第二节点Nj的关联概率;通常,Pik、Pkj越大,Nk的连接数越少,Pij也就越大。
[0163] ΡΛ为每次迭代运算后,所述第一节点化和所述第二节点%之间的当前关联概率 (关联程度的示例),用于表示所述网络资源i与所述网络资源j的关联程度的目标值;
[0164] α是收敛参数,用于保证算法的收敛性,在实际应用中可以为0.6至0.95,优选为 0.85〇
[0165] 为与所述中间节点Nk所连接的节点数对应的惩罚函数,通常在中间节点Nk为热 词的情况下,惩罚函数的值比较大,热词是指连接数非常巨大的网络资源,例如:经常容易 被用户使用的检索词,或在某一时段被用户点击非常频繁的视频等。通常,节点的连接数越 大,惩罚函数的值越大。采用惩罚函数可以减弱"大词引力效应","大词引力效应"是指在检 索词经过几次迭代之后通常会与比较热的检索词或视频产生关联。
[0166] 在一种可能的实现方式中,可以采用下式2计算所述惩罚函数:
[0168] 在式2中,Degree(k)为所述中间节点Nk所连接的节点数,,也就是中间节点所连接 的节点数,中间节点Nk的连接数能够表示节点N k对某一个语义的描述准确度,如果与一个节 点有关联的检索词越多,那么它所表达的含义也就越宽泛,表达的含义越不准确;反之,它 所表达的含义越准确,σ是根据所述中间节点N k所连接的节点数预设的惩罚参数,通常是经 验值,例如5至100,优选为7。
[0169] 在上述加边处理过程中,可以根据每次迭代计算所得的两个节点之间的当前关联 概率,确定是否在这两个节点之间增加边。例如,第一节点K和第二节点化之间的当前关联 概率Ρ、>〇,可以为节点之间增加边。再如,还可以设定关联概率的阈值P t,在P、>Pt 的情况下为节点Κ、%之间增加边。再如,还可以为某个节点设定连接数阈值,在与该节点的 关联概率满足有关联关系的情况下,如果该节点的连接数已经超出连接数阈值,则不新增 加与该节点相关的边。
[0170] 在一种可能的实现方式中,如图5所示,步骤1021可以包括构建用向量来表示网络 资源的数学模型,该数学模型具体可以包括下式3至式6:
[0171] 步骤301、对于所述待处理区域内每两个所述网络资源,采用下式3建立两个具有 关联关系的网络资源i、j的关联关系方程;
[0173]在式3中,P' ^为网络资源i和网络资源j的关联程度的目标值,?为所述网络资源i 的向量为所述网络资源j的向量。网络资源i在上述关联关系图中对应节点^,网络节点 j在上述关联关系图中对应节点%。每个节点均能用一组向量N = i 4m.....η,,〉来表示,其中, m为向量维度,可以为根据数据复杂度自定义的值。
[0174]步骤302、将根据所述待处理区域内所有网络资源所建立的关联关系方程,组成所 述大型方程组。
[0175]举例而言,如图10所示为对网络资源迭代调整后得到的稳定的关联关系图,将图 10中每两个节点之间的关联程度的目标值代入式3,可以建立大型方程组,大型方程组中各 关联关系方程的含义如下。
[0184] 在一种可能的实现方式中,步骤1022可以包括:
[0185] 步骤303、将所述网络资源i的向量;;和所述网络资源j的向量?的当前值代入下式 4,计算所述网络资源i和所述网络资源j的关联程度的实际值y^,
[0187] 举例而言,可以根据上述的大型方程组,将网络资源i的向量?和所述网络资源j的 向量5初始化为长度为k的随机向量,然后代入式4计算得到y"。
[0188] 步骤304、将所述网络资源i和所述网络资源j的关联程度的目标值P'u与实际值 ,代入下式5,计算在所述网络资源i和所述网络资源j的向量为当前值的情况下的惩罚 度;
[0189] ?υ = -Ρ7 ijl〇g(yij)-(l-P/ ij)log(l-yij) 式5。
[0190] 步骤305、将式5计算得到的惩罚度代入下式6的目标函数,并对所述目标函数采用 梯度下降法,来确定所述网络资源i和所述网络资源j的语义向量。
[0192] 举例而言,将Lu代入式6后,可以计算得到目标函数L的值,L的值越小,表示当前的 网络资源i和所述网络资源j的向量越合适,可以选择使得L的值最小的网络资源i和网络资 源j的向量,作为网络资源i和网络资源j的语义向量。在式5中,采用交叉熵(cross entropy)函数作为惩罚函数,调整m的值,以使得偏导Lij落入预定范围内,此时的向量 N; = v; =〈%…U为比较准确的节点向量,即网络资源i的语义向量。
[0193] 具体而言,如图6所示,步骤305可以包括:
[0194] 步骤401、判断所述目标函数的值是否处于预定范围,在所述目标函数的值处于预 定范围的情况下,执行步骤402,否则执行步骤403。
[0195] 步骤402、将所述网络资源i和所述网络资源j的向量的当前值确定为所述语义向 量。
[0196] 步骤403、采用下式7至式10计算所述网络资源i和所述网络资源j的向量的更新值 'v,和 ',;:
[0201] 其中,η为根据迭代次数确定的增量步长,通常是随着迭代次数的增加而不断减少 的量,η的取值范围优选为〇. 001-0.00001。
[0202] 步骤404、将所述更新值代入上式4、式5和式6,计算在所述网络资源i和所述网络 资源j的向量为更新值的情况下,所述网络资源i和所述网络资源j的关联程度的实际值 和目标函数的值,并返回执行上述判断步骤401。
[0203] 其中,式7和式9的推导过程如下。
[0204] 根据式5得到下式5-1,
[0206] 根据式4得到下式4-1,
[0208] 结合式5-1和式4-1,得到下式7-1,
[0210] 根据式7-1即可得到
[0211] 同理,根据式4得到下式4-2,
[0213] 结合式5-1和式4-2,得到下式9-1,
[0215] 根据式9-1即可得到
[0216] 本实施例的网络资源的语义编码方法,能够根据包括多媒体资源、输入数据和点 击数据的网络资源,来确定待处理区域内每两个网络资源的关联程度,所获得的关联程度 能够准确地反应用户行为,从而有利于根据每两个网络资源的关联程度,对网络资源进行 准确地语义编码。
[0217] 实施例3
[0218] 图11为本发明一实施例的网络资源的语义编码装置的结构框图。其中,所述网络 资源包括能够通过互联网访问的多媒体资源和用户访问所述多媒体资源所产生的用户行 为数据,例如用户能够通过互联网访问的视频、音频、图片等网页。所述用户行为数据包括 输入数据和点击数据,输入数据可以为例如用户向搜索引擎中输入的检索词等。点击数据 可以为例如统计用户点击某些音频、视频、图片等得到的点击量等。
[0219]如图11所示,该网络资源的语义编码装置主要可以包括:
[0220]关联程度确定模块11,用于根据所述多媒体资源、所述输入数据和所述点击数据, 确定待处理区域内每两个所述网络资源的关联程度,其中,每两个所述网络资源的关联程 度包括以下至少一种:所述多媒体资源与所述输入数据的关联程度、两个所述多媒体资源 之间的关联程度、两个所述输入数据之间的关联程度。语义编码模块13,与所述关联程度确 定模块11连接,用于根据每两个所述网络资源的关联程度,对所述多媒体资源和/或所述输 入数据进行语义编码,所述语义编码的结果是用向量来表示所述网络资源。其中,该语义向 量带有语义特征,例如如果两个资源节点的表达向量相近,那么这个资源节点通常描述相 近或者类似的事情。
[0221] 在一种可能的实现方式中,如图12所示,所述语义编码模块13包括:
[0222] 模型建立单元131,用于建立计算每个网络资源语义编码的数学模型,在所述数学 模型中,任意两个具有关联关系的网络资源之间建立一个关联关系方程,每个关联关系方 程用于根据网络资源的关联程度的目标值计算网络资源的语义向量,所有的关联关系方程 构成一组大型方程组;
[0223] 求解单元133,用于根据所述大型方程组来建立目标函数,对所述目标函数采用梯 度下降法,来求解所述大型方程组的最优解,得到各所述网络资源对应的语义向量,所述目 标函数用于衡量所述大型方程组的解的最优性语义向量。
[0224] 本实施例的网络资源的语义编码装置,能够根据包括多媒体资源、输入数据和点 击数据的网络资源,来确定待处理区域内每两个网络资源的关联程度,所获得的关联程度 能够准确地反应用户行为,从而有利于根据每两个网络资源的关联程度,对网络资源进行 准确地语义编码,得到网络资源的语义向量。
[0225] 实施例4
[0226] 图13为本发明另一实施例的网络资源的语义编码装置的结构框图。图13中标号与 图11、图12相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。
[0227] 如图13所示,本实施例与上一实施例的不同之处在于,所述模型建立单元131具体 用于:
[0228] 对于所述待处理区域内每两个所述网络资源,采用下式3建立两个具有关联关系 的网络资源的关联关系方程;
[0230] 其中,为网络资源i和网络资源j的关联程度的目标值,V;为所述网络资源i的 向量,为所述网络资源j的向量;
[0231] 将根据所述待处理区域内所有网络资源所建立的关联关系方程,组成所述大型方 程组。
[0232] 在一种可能的实现方式中,所述求解单元133具体用于:
[0233] 将所述网络资源i的向量^和所述网络资源j的向量5的当前值代入下式4,计算所 述网络资源i和所述网络资源j的关联程度的实际值 yiJ,
[0235] 将所述网络资源i和所述网络资源j的关联程度的目标值P'u与实际值y^,代入下 式5,计算在所述网络资源i和所述网络资源j的向量为当前值的情况下的惩罚度;
[0236] ?υ = -Ρ7 ijl〇g(yij)-(l-P/ ij)log(l-yij) 式5,
[0237] 将式5计算得到的惩罚度代入下式6的目标函数,并对所述目标函数采用梯度下降 法,来确定所述网络资源i和所述网络资源j的语义向量,
[0239]在一种可能的实现方式中,所述求解单元133还用于:
[0240]判断所述目标函数的值是否处于预定范围;
[0241] 在所述目标函数的值处于预定范围的情况下,将所述网络资源i和所述网络资源j 的向量的当前值确定为所述语义向量;
[0242] 在所述目标函数的值不处于预定范围的情况下,采用下式7至式10计算所述网络 资源i和所述网络资源j的向量的更新值 < 和
[0247] 其中,η为根据迭代次数确定的增量步长;
[0248] 将所述更新值代入上式4、式5和式6,以计算在所述网络资源i和所述网络资源j的 向量为更新值的情况下,所述网络资源i和所述网络资源j的关联程度的实际值和目标函数 的值,并返回执行上述判断步骤。
[0249] 在一种可能的实现方式中,其特征在于,所述关联程度确定模块11包括:
[0250] 初始化单元111,用于根据所述多媒体资源、所述输入数据和所述点击数据,建立 所述待处理区域内各所述网络资源的初始关联关系图;
[0251] 迭代运算单元113,与所述初始化单元111连接,用于根据所述初始关联关系图、所 述多媒体资源、所述输入数据和所述点击数据进行迭代运算,并根据迭代运算结果对所述 初始关联关系图进彳丁调整;
[0252] 关联程度确定单元115,与所述迭代运算单元113连接,用于根据调整后的关联关 系图,确定所述多媒体资源与所述输入数据的关联程度。
[0253] 在一种可能的实现方式中,所述初始化单元111具体用于根据所述多媒体资源,生 成所述初始关联关系图的多媒体节点;根据所述输入数据,生成所述初始关联关系图的输 入节点;根据所述点击数据,构建所述多媒体节点与所述输入节点之间的初始边,其中,所 述初始边的值表示所述多媒体节点与所述输入节点之间的关联概率。
[0254] 在一种可能的实现方式中,所述迭代运算单元113具体用于对于所述初始关联关 系图中的各节点,执行加边处理步骤,所述加边处理步骤包括:在第一节点和第二节点之间 具有中间节点的情况下,增加所述第一节点与第二节点之间的边,所述中间节点为与所述 第一节点与所述第二节点分别具有相连的边的节点;对将进行了所述加边处理步骤后的关 联关系图执行剪枝处理步骤,所述剪枝处理步骤包括将不具有中间节点的各节点删除;执 行迭代步骤,对进行了所述剪枝处理步骤后的关联关系图,迭代执行所述加边处理步骤。
[0255] 在一种可能的实现方式中,所述关联程度确定单元115具体用于:
[0256] 采用下式1迭代计算第一节点与第二节点之间的当前关联概率:
[0258] 其中,Pij为网络资源i对应的第一节点Ni和网络资源j对应的第二节点Nj的前次迭 代所得到的关联概率,Pu e [0,1);
[0259] Plk为所述第一节点化和所述中间节点Nk的关联概率,Pkj为所述中间节点N k和所述 第二节点%的关联概率;
[0260] P、为每次迭代运算后,所述第一节点化和所述第二节点化之间的当前关联概率, 用于表示所述网络资源i与所述网络资源j的关联程度的目标值;
[0261] 为与所述中间节点Nk所连接的节点数对应的惩罚函数;
[0262] α是收敛参数。
[0263] 在一种可能的实现方式中,所述关联程度确定单元115还用于采用下式2计算所述 惩罚函数:
[0265 ]其中,Degree(k)为所述中间节点Nk所连接的节点数,σ是根据所述中间节点Nk所连 接的节点数预设的惩罚参数。
[0266] 本实施例的网络资源的语义编码装置,能够执行上述实施例中任意一种网络资源 的语义编码方法。从式1至式9的具体参数含义与示例可以参见实施例2中的相关描述。
[0267] 本实施例的网络资源的语义编码装置,能够根据包括多媒体资源、输入数据和点 击数据的网络资源,来确定待处理区域内每两个网络资源的关联程度,所获得的关联程度 能够准确地反应用户行为,从而有利于根据每两个网络资源的关联程度,对网络资源进行 准确地语义编码。
[0268] 以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1. 一种网络资源的语义编码方法,其特征在于,所述网络资源包括能够通过互联网访 问的多媒体资源和用户访问所述多媒体资源所产生的用户行为数据,所述用户行为数据包 括输入数据和点击数据,所述方法包括: 根据所述多媒体资源、所述输入数据和所述点击数据,确定待处理区域内每两个所述 网络资源的关联程度,其中,每两个所述网络资源的关联程度包括以下至少一种:所述多媒 体资源与所述输入数据的关联程度、两个所述多媒体资源之间的关联程度、两个所述输入 数据之间的关联程度; 根据每两个所述网络资源的关联程度,对所述多媒体资源和/或所述输入数据进行语 义编码,所述语义编码的结果是用向量来表示所述网络资源。2. 根据权利要求1所述的方法,其特征在于,根据每两个所述网络资源的关联程度,对 所述多媒体资源和/或所述输入数据进行语义编码,包括: 建立计算每个网络资源语义编码的数学模型,在所述数学模型中,任意两个具有关联 关系的网络资源之间建立一个关联关系方程,每个关联关系方程用于根据网络资源的关联 程度的目标值计算网络资源的语义向量,所有的关联关系方程构成一组大型方程组; 根据所述大型方程组来建立目标函数,对所述目标函数采用梯度下降法,来求解所述 大型方程组的最优解,得到各所述网络资源对应的语义向量,所述目标函数用于衡量所述 大型方程组的解的最优性。3. 根据权利要求2所述的方法,其特征在于,建立计算每个网络资源语义编码的数学模 型,在所述数学模型中,任意两个具有关联关系的网络资源之间建立一个关联关系方程,每 个关联关系方程用于根据网络资源的关联程度的目标值计算网络资源的语义向量,所有的 关联关系方程构成一组大型方程组,包括: 对于所述待处理区域内每两个所述网络资源,采用下式3建立两个具有关联关系的网 络资源的关联关系方程;其中,P7 ^为网络资源i和网络资源j的关联程度的目标值,5为所述网络资源i的向量, 5为所述网络资源j的向量; 将根据所述待处理区域内所有网络资源所建立的关联关系方程,组成所述大型方程 组。4. 根据权利要求3所述的方法,其特征
在于,根据所述大型方程组来建立目标函数,对 所述目标函数采用梯度下降法,来求解所述大型方程组的最优解,得到各所述网络资源对 应的语义向量,包括: 将所述网络资源i的向量?和所述网络资源j的向量的当前值代入下式4,计算所述网 络资源i和所述网络资源j的关联程度的实际值y^,将所述网络资源i和所述网络资源j的关联程度的目标值P7 ^与实际值y^,代入下式5, 计算在所述网络资源i和所述网络资源j的向量为当前值的情况下的惩罚度; Lij = -P7 ijl〇g(yij)-(l-P/ ij)log(l-yij) 式5, 将式5计算得到的惩罚度代入下式6的目标函数,并对所述目标函数采用梯度下降法, 来确定所述网络资源i和所述网络资源j的语义向量,5. 根据权利要求4所述的方法,其特征在于,对所述目标函数采用梯度下降法,来确定 所述网络资源i和所述网络资源j的语义向量包括: 判断所述目标函数的值是否处于预定范围; 在所述目标函数的值处于预定范围的情况下,将所述网络资源i和所述网络资源j的向 量的当前值确定为所述语义向量; 在所述目标函数的值不处于预定范围的情况下,采用下式7至式10计算所述网络资源i 和所述网络资源j的向量的更新值(和其中,η为根据迭代次数确定的增量步长; 将所述更新值代入上式4、式5和式6,以计算在所述网络资源i和所述网络资源j的向量 为更新值的情况下,所述网络资源i和所述网络资源j的关联程度的实际值和目标函数的 值,并返回执行上述判断步骤。6. 根据权利要求1至5中任一项所述的方法,其特征在于,根据所述多媒体资源、所述输 入数据和所述点击数据,确定待处理区域内每两个所述网络资源的关联程度,包括: 根据所述多媒体资源、所述输入数据和所述点击数据,建立所述待处理区域内各所述 网络资源的初始关联关系图; 根据所述初始关联关系图、所述多媒体资源、所述输入数据和所述点击数据进行迭代 运算,并根据迭代运算结果对所述初始关联关系图进行调整; 根据调整后的关联关系图,确定所述多媒体资源与所述输入数据的关联程度。7. 根据权利要求6所述的方法,其特征在于,根据所述多媒体资源、所述输入数据和所 述点击数据,建立所述待处理区域内各所述网络资源的初始关联关系图,包括: 根据所述多媒体资源,生成所述初始关联关系图的多媒体节点; 根据所述输入数据,生成所述初始关联关系图的输入节点; 根据所述点击数据,构建所述多媒体节点与所述输入节点之间的初始边,其中,所述初 始边的值表示所述多媒体节点与所述输入节点之间的关联概率。8. 根据权利要求7所述的方法,其特征在于,根据所述初始关联关系图、所述多媒体资 源、所述输入数据和所述点击数据进行迭代运算,并根据迭代运算结果对所述初始关联关 系图进行调整,包括: 对于所述初始关联关系图中的各节点,执行加边处理步骤,所述加边处理步骤包括:在 第一节点和第二节点之间具有中间节点的情况下,增加所述第一节点与第二节点之间的 边,所述中间节点为与所述第一节点与所述第二节点分别具有相连的边的节点; 对将进行了所述加边处理步骤后的关联关系图执行剪枝处理步骤,所述剪枝处理步骤 包括将不具有中间节点的各节点删除; 迭代步骤,对进行了所述剪枝处理步骤后的关联关系图,迭代执行所述加边处理步骤。9. 根据权利要求8所述的方法,其特征在于,根据调整后的关联关系图,确定所述网络 资源的关联程度,包括: 采用下式1迭代计算第一节点与第二节点之间的当前关联概率:其中,Pij为网络资源i对应的第一节点Ni和网络资源j对应的第二节点Nj的前次迭代所 得到的关联概率,Pij e [ O,1); Plk为所述第一节点化和所述中间节点Nk的关联概率,Pkj为所述中间节点N k和所述第二 节点Nj的关联概率; P7 ^为每次迭代运算后,所述第一节点化和所述第二节点Nj之间的当前关联概率,用于 表示所述网络资源i与所述网络资源j的关联程度的目标值; Xk为与所述中间节点Nk所连接的节点数对应的惩罚函数; α是收敛参数。10. 根据权利要求9所述的方法,其特征在于,采用下式2计算所述惩罚函数:其中,Degree (k)为所述中间节点Nk所连接的节点数,〇是根据所述中间节点Nk所连接的 节点数预设的惩罚参数。11. 一种网络资源的语义编码装置,其特征在于,所述网络资源包括能够通过互联网访 问的多媒体资源和用户访问所述多媒体资源所产生的用户行为数据,所述用户行为数据包 括输入数据和点击数据,所述装置包括: 关联程度确定模块,用于根据所述多媒体资源、所述输入数据和所述点击数据,确定待 处理区域内每两个所述网络资源的关联程度,其中,每两个所述网络资源的关联程度包括 以下至少一种:所述多媒体资源与所述输入数据的关联程度、两个所述多媒体资源之间的 关联程度、两个所述输入数据之间的关联程度; 语义编码模块,与所述关联程度确定模块连接,用于根据每两个所述网络资源的关联 程度,对所述多媒体资源和/或所述输入数据进行语义编码,所述语义编码的结果是用向量 来表示所述网络资源。12. 根据权利要求11所述的装置,其特征在于,所述语义编码模块包括: 模型建立单元,用于建立计算每个网络资源语义编码的数学模型,在所述数学模型中, 任意两个具有关联关系的网络资源之间建立一个关联关系方程,每个关联关系方程用于根 据网络资源的关联程度的目标值计算网络资源的语义向量,所有的关联关系方程构成一组 大型方程组; 求解单元,用于根据所述大型方程组来建立目标函数,对所述目标函数采用梯度下降 法,来求解所述大型方程组的最优解,得到各所述网络资源对应的语义向量,所述目标函数 用于衡量所述大型方程组的解的最优性。13. 根据权利要求12所述的装置,其特征在于,所述模型建立单元具体用于: 对于所述待处理区域内每两个所述网络资源,采用下式3建立两个具有关联关系的网 络资源的关联关系方程;其中,P7 ^为网络资源i和网络资源j的关联程度的目标值,?为所述网络资源i的向量, ?为所述网络资源j的向量; 将根据所述待处理区域内所有网络资源所建立的关联关系方程,组成所述大型方程 组。14. 根据权利要求13所述的装置,其特征在于,所述求解单元具体用于:将所述网络资 源i的向量?和所述网络资源j的向量S的当前值代入下式4,计算所述网络资源i和所述网 络资源j的关联程度的实际值y^,将所述网络资源i和所述网络资源j的关联程度的目标值P'U与实际值y^,代入下式5, 计算在所述网络资源i和所述网络资源j的向量为当前值的情况下的惩罚度; Lij = -P7 ijl〇g(yij)-(l-P/ ij)log(l-yij) 式5, 将式5计算得到的惩罚度代入下式6的目标函数,并对所述目标函数采用梯度下降法, 来确定所述网络资源i和所述网络资源j的语义向量,15. 根据权利要求14所述的装置,其特征在于,所述求解单元还用于: 判断所述目标函数的值是否处于预定范围; 在所述目标函数的值处于预定范围的情况下,将所述网络资源i和所述网络资源j的向 量的当前值确定为所述语义向量; 在所述目标函数的值不处于预定范围的情况下,采用下式7至式10计算所述网络资源i 和所述网络资源j的向量的更新值?和v;、其中,η为根据迭代次数确定的增量步长; 将所述更新值代入上式4、式5和式6,以计算在所述网络资源i和所述网络资源j的向量 为更新值的情况下,所述网络资源i和所述网络资源j的关联程度的实际值和目标函数的 值,并返回执行上述判断步骤。16. 根据权利要求11至15中任一项所述的装置,其特征在于,所述关联程度确定模块包 括: 初始化单元,用于根据所述多媒体资源、所述输入数据和所述点击数据,建立所述待处 理区域内各所述网络资源的初始关联关系图; 迭代运算单元,与所述初始化单元连接,用于根据所述初始关联关系图、所述多媒体资 源、所述输入数据和所述点击数据进行迭代运算,并根据迭代运算结果对所述初始关联关 系图进行调整; 关联程度确定单元,与所述迭代运算单元连接,用于根据调整后的关联关系图,确定所 述多媒体资源与所述输入数据的关联程度。17. 根据权利要求16所述的装置,其特征在于,所述初始化单元具体用于根据所述多媒 体资源,生成所述初始关联关系图的多媒体节点;根据所述输入数据,生成所述初始关联关 系图的输入节点;根据所述点击数据,构建所述多媒体节点与所述输入节点之间的初始边, 其中,所述初始边的值表示所述多媒体节点与所述输入节点之间的关联概率。18. 根据权利要求17所述的装置,其特征在于,所述迭代运算单元具体用于对于所述初 始关联关系图中的各节点,执行加边处理步骤,所述加边处理步骤包括:在第一节点和第二 节点之间具有中间节点的情况下,增加所述第一节点与第二节点之间的边,所述中间节点 为与所述第一节点与所述第二节点分别具有相连的边的节点;对将进行了所述加边处理步 骤后的关联关系图执行剪枝处理步骤,所述剪枝处理步骤包括将不具有中间节点的各节点 删除;执行迭代步骤,对进行了所述剪枝处理步骤后的关联关系图,迭代执行所述加边处理 步骤。19. 根据权利要求18所述的装置,其特征在于,所述关联程度确定单元具体用于: 采用下式1迭代计算第一节点与第二节点之间的当前关联概率:其中,Pij为网络资源i对应的第一节点Ni和网络资源j对应的第二节点Nj的前次迭代所 得到的关联概率,Pij e [ O,1); Plk为所述第一节点化和所述中间节点Nk的关联概率,Pkj为所述中间节点N k和所述第二 节点Nj的关联概率; P7 ^为每次迭代运算后,所述第一节点化和所述第二节点Nj之间的当前关联概率,用于 表示所述网络资源i与所述网络资源j的关联程度的目标值; Xk为与所述中间节点Nk所连接的节点数对应的惩罚函数; α是收敛参数。20. 根据权利要求19所述的装置,其特征在于,所述关联程度确定单元还用于采用下式 2计算所述惩罚函数:其中,Degree (k)为所述中间节点Nk所连接的节点数,σ是根据所述中间节点Nk所连接的 节点数预设的惩罚参数。
【专利摘要】本发明涉及一种网络资源的语义编码方法和装置,其中所述网络资源包括能够通过互联网访问的多媒体资源和用户访问所述多媒体资源所产生的用户行为数据,所述用户行为数据包括输入数据和点击数据,所述方法包括:根据所述多媒体资源、所述输入数据和所述点击数据,确定待处理区域内每两个所述网络资源的关联程度;根据每两个所述网络资源的关联程度,对所述多媒体资源和/或所述输入数据进行语义编码,所述语义编码的结果是用向量来表示所述网络资源。本发明实施例所获得的关联程度能够准确地反应用户行为,从而有利于根据每两个网络资源的关联程度,对网络资源进行准确地语义编码,得到网络资源的语义向量。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105488207
【申请号】CN201510917119
【发明人】邹敏, 齐志兵, 尹玉宗, 姚键, 潘柏宇, 王冀
【申请人】合一网络技术(北京)有限公司
【公开日】2016年4月13日
【申请日】2015年12月10日