文章热度的预测方法和装置的制造方法

xiaoxiao2021-2-28  233

文章热度的预测方法和装置的制造方法
【技术领域】
[0001] 本发明涉及文本分析技术领域,尤其涉及一种文章热度的预测方法和装置。
【背景技术】
[0002] 互联网时代,每个人都可以在互联网上各抒己见。随之而来的问题是一些不法分 子利用网络舆论导向来达到其个人目的。所以,需要对网络舆论进行一些监测及预测,防止 网络舆论被不法分子利用。文章热度是衡量一篇网络文章、博客等各种网络文字在一段时 间内的阅读、评论以及转发等情况,描述了网络文字的影响力,是舆情分析的重要一环。
[0003] -般来说,常规的文章热度预测是通过搜集一段时间内的历史文章数据,根据历 史数据进行大数据分析,使用回归算法对文章的热度进行模型拟合,将得到的模型用于新 文章的热度预测分析。
[0004]但是,由于文章内容的多样性,简单使用回归模型进行预测,获得的文章热度的准 确度较低,不利于网络舆论的预测。

【发明内容】

[0005] 本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006] 为此,本发明的第一个目的在于提出一种文章热度的预测方法。该方法在对用户 发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度进行预测, 提高了文章热度预测的准确度。
[0007] 本发明的第二个目的在于提出一种文章热度的预测装置。
[0008] 为了实现上述目的,本发明第一方面实施例的文章热度的预测方法,包括:根据用 户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文 章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的 值分别对应每个关键词在所述用户最新发表的文章中的出现情况;通过聚类模型对所述第 一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;通过所述用户最新发表 的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。
[0009] 本发明实施例的文章热度的预测方法,根据用户在当前时刻之前的预定时间长度 内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后通过聚类模 型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别,最后通过上 述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预 测,从而可以实现在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对 上述文章的热度值进行预测,提高了文章热度预测的准确度。
[0010] 为了实现上述目的,本发明第二方面实施例的文章热度的预测装置,包括:生成模 块,用于根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用 户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一 矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;聚类模 块,用于通过聚类模型对所述生成模块生成的第一矢量进行聚类判断,获得所述用户最新 发表的文章所属的类别;预测模块,用于通过所述用户最新发表的文章所属类别的回归模 型对所述用户最新发表的文章的热度值进行预测。
[0011] 本发明实施例的文章热度的预测装置,生成模块根据用户在当前时刻之前的预定 时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后聚 类模块通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的 类别,最后预测模块通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发 表的文章的热度值进行预测,从而可以实现在对用户发表的文章进行聚类判断之后,再根 据上述文章所属的类别对上述文章的热度值进行预测,提高了文章热度预测的准确度。
[0012] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0013] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得 明显和容易理解,其中:
[0014] 图1为本发明文章热度的预测方法一个实施例的流程图;
[0015] 图2为本发明文章热度的预测方法另一个实施例的流程图;
[0016] 图3为本发明文章热度的预测方法再一个实施例的流程图;
[0017] 图4为本发明文章热度的预测方法再一个实施例的流程图;
[0018] 图5为本发明文章热度的预测方法再一个实施例的流程图;
[0019] 图6为本发明文章热度的预测方法再一个实施例的流程图;
[0020] 图7为本发明文章热度的预测方法再一个实施例的流程图;
[0021] 图8为本发明文章热度的预测装置一个实施例的结构示意图;
[0022] 图9为本发明文章热度的预测装置另一个实施例的结构示意图。
【具体实施方式】
[0023] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本 发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同 物。
[0024] 图1为本发明文章热度的预测方法一个实施例的流程图,如图1所示,上述文章热 度的预测方法可以包括:
[0025] 步骤101,根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词, 为上述用户最新发表的文章生成第一矢量。
[0026] 其中,上述第一矢量的维度等于上述关键词的个数,上述第一矢量中各维度的值 分别对应每个关键词在上述用户最新发表的文章中的出现情况。
[0027] 举例来说,假设上述关键词的个数为10,则第一矢量为10维矢量,上述第一矢量中 第一个维度的值表示第一个关键词是否在上述用户最新发表的文章中出现,如果出现,则 上述第一矢量中第一个维度的值可以为"1",如果未出现,则上述第一矢量中第一个维度的 值可以为"〇",以此类推。当然,本实施例并不限定用"Γ表示关键词在上述用户最新发表的 文章中出现,用"〇"表示关键词在上述用户最新发表的文章中未出现。
[0028] 其中,上述预定时间长度可以在具体实现时根据系统性能和/或实现需求等自行 设定,本实施例对上述预定时间长度的大小不作限定,举例来说,上述预定时间长度可以为 6个月。
[0029] 步骤102,通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的 文章所属的类别。
[0030] 步骤103,通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发 表的文章的热度值进行预测。
[0031] 图2为本发明文章热度的预测方法另一个实施例的流程图,如图2所示,步骤102之 前,还可以包括:
[0032] 步骤201,对上述第一矢量进行降维处理。
[0033]具体地,可以使用主成分分析等特征提炼方法,对第一矢量进行降维处理。
[0034] 图3为 本发明文章热度的预测方法再一个实施例的流程图,如图3所示,步骤101之 前,还可以包括:
[0035] 步骤301,获取上述用户在当前时刻之前的预定时间长度内发表的历史文章的关 键词。
[0036] 具体地,获取上述用户在当前时刻之前的预定时间长度内发表的历史文章的关键 词可以为:获得上述用户在当前时刻之前的预定时间长度内发表的历史文章;使用分词工 具从上述历史文章中获取热度排名在预定名次之前的关键词。
[0037] 其中,上述预定名次可以在具体实现时根据系统性能和/或实现需求等自行设定, 本实施例对上述预定名次不作限定,举例来说,上述预定名次可以为10。
[0038] 图4为本发明文章热度的预测方法再一个实施例的流程图,如图4所示,步骤102之 前,还可以包括:
[0039] 步骤401,生成聚类模型。
[0040]其中,步骤401与步骤101可以并行执行,也可以先后执行,本实施例对步骤401与 步骤101的执行顺序不作限定,但本实施例以步骤401在步骤101之前,且在步骤301之后执 行为例示出。
[0041]图5为本发明文章热度的预测方法再一个实施例的流程图,如图5所示,步骤401可 以包括:
[0042]步骤501,根据上述关键词,为上述用户在当前时刻之前的预定时间长度内发表的 每篇历史文章生成对应的第二矢量。
[0043]其中,上述每篇历史文章对应的第二矢量的维度等于上述关键词的个数,上述每 篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中的出现 情况。
[0044]举例来说,假设上述关键词的个数为10,则上述每篇历史文章对应的第二矢量为 10维矢量,以第一篇历史文章对应的第二矢量为例,上述第一篇历史文章对应的第二矢量 中第一个维度的值表示第一个关键词是否在上述第一篇历史文章中出现,如果出现,则上 述第一篇历史文章对应的第二矢量中第一个维度的值可以为"1",如果未出现,则上述第一 篇历史文章对应的第二矢量中第一个维度的值可以为"〇",以此类推。当然,本实施例并不 限定用"Γ表示关键词在第一篇历史文章中出现,用"0"表示关键词在第一篇历史文章中未 出现。
[0045] 步骤502,对上述每篇历史文章对应的第二矢量进行聚类判断,生成聚类模型,以 将上述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的类别。
[0046] 其中,上述预定个数可以在具体实现时根据上述用户在当前时刻之前的预定时间 长度内发表的历史文章的篇数设定,本实施例对上述预定个数的大小不作限定,举例来说, 上述预定个数可以为3。
[0047] 具体地,可以使用kmeans聚类算法对上述每篇历史文章对应的第二矢量进行聚类 判断,生成上述聚类模型。
[0048] 可选地,步骤502之前,还可以对上述每篇历史文章对应的第二矢量进行降维处 理。具体地,可以使用主成分分析等特征提炼方法,对上述每篇历史文章对应的第二矢量进 行降维处理。
[0049] 图6为本发明文章热度的预测方法再一个实施例的流程图,如图6所示,步骤103之 前,还可以包括:
[0050] 步骤601,针对上述用户在当前时刻之前的预定时间长度内发表的历史文章所属 的类别,分别根据每个类别中的历史文章的热度值建立每个类别的回归模型。
[0051] 这样,在步骤103,通过上述用户最新发表的文章所属类别的回归模型对上述用户 最新发表的文章的热度值进行预测时,可以根据上述用户最新发表的文章所属类别中的历 史文章的热度值获得上述用户最新发表的文章所属类别中的历史文章的热度值的最佳期 望值,以上述最佳期望值作为上述用户最新发表的文章的热度值。
[0052]本实施例中,步骤601可以与步骤101~步骤102并行执行,也可以先后执行,本实 施例对步骤601与步骤101~步骤102的执行顺序不作限定,但图6以步骤601在步骤101之 前,且在步骤502之后执行为例示出。
[0053] 上述文章热度的预测方法中,根据用户在当前时刻之前的预定时间长度内发表的 历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后通过聚类模型对上述 第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别,最后通过上述用户最 新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测,从而可 以实现在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的 热度值进行预测,提高了文章热度预测的准确度,并且整个过程自动化完成,不需要人工干 预。
[0054] 图7为本发明文章热度的预测方法再一个实施例的流程图,本实施例对本发明提 供的文章热度的预测方法进行举例说明,如图7所示,可以包括:
[0055]步骤701,提取出用户在当前时刻之前的6个月时间内发表的微博总计1312篇。 [0056]步骤702,使用分词工具从上述1312篇微博中获取热度排名前10的关键词。
[0057]其中,获取的前10个关键词可以如表1所示。
[0058] 表1
[0059]
[0060] 步骤703,根据上述关键词,为上述用户的1312篇微博生成1312个10维矢量。
[0061] 其中,各矢量的10个维度的值分别对应10个关键词在该微博中的出现情况,如果 出现,则对应维度的值可以为"Γ ;如果未出现,则对应维度的值可以为"〇"。
[0062]本实施例中,由于生成的矢量的维度为10,维度较小,不做降维处理。
[0063]步骤704,使用Kmeans聚类算法,对1312个矢量进行聚类,生成聚类模型。
[0064]本实施例中,在对1312个矢量进行聚类之后,可以将上述1312篇微博聚为两类。 [0065]步骤705,根据每个类别中微博的热度值分别建立每个类别的回归模型。
[0066]步骤706,对于上述用户最新发表的微博,根据上述10个关键词为上述用户最新发 表的微博生成10维矢量,使用上述聚类模型对生成的10维矢量进行聚类判断,获得上述用 户最新发表的微博所属的类别,并通过上述用户最新发表的微博所属类别的回归模型对上 述用户最新发表的微博的热度值进行预测。
[0067] 具体地,在通过上述用户最新发表的微博所属类别的回归模型对上述用户最新发 表的微博的热度值进行预测时,可以根据上述用户最新发表的微博所属类别中的历史微博 的热度值获得上述用户最新发表的微博所属类别中的历史微博的热度值的最佳期望值,以 上述最佳期望值作为上述用户最新发表的微博的热度值。
[0068] 本发明提供的文章热度的预测方法,可以提高文章热度预测的准确度,不使用本 发明提供的文章热度的预测方法时,用户的微博热度的预测准确度为1% (即100篇中有1篇 可以准确预测),使用本发明提供的文章热度的预测方法之后,用户的微博热度的预测准确 度可以提升到33%。
[0069] 图8为本发明文章热度的预测装置一个实施例的结构示意图,本实施例中的文章 热度的预测装置可以实现本发明图1~图7所示实施例的流程,如图8所示,上述文章热 度的 预测装置可以包括:生成模块81、聚类模块82和预测模块83;
[0070] 其中,生成模块81,用于根据用户在当前时刻之前的预定时间长度内发表的历史 文章的关键词,为上述用户最新发表的文章生成第一矢量,上述第一矢量的维度等于上述 关键词的个数,上述第一矢量中各维度的值分别对应每个关键词在上述用户最新发表的文 章中的出现情况。
[0071] 举例来说,假设上述关键词的个数为10,则第一矢量为10维矢量,上述第一矢量中 第一个维度的值表示第一个关键词是否在上述用户最新发表的文章中出现,如果出现,则 上述第一矢量中第一个维度的值可以为"1",如果未出现,则上述第一矢量中第一个维度的 值可以为"Ο",以此类推。当然,本实施例并不限定用"Γ表示关键词在上述用户最新发表的 文章中出现,用"〇"表示关键词在上述用户最新发表的文章中未出现。
[0072]其中,上述预定时间长度可以在具体实现时根据系统性能和/或实现需求等自行 设定,本实施例对上述预定时间长度的大小不作限定,举例来说,上述预定时间长度可以为 6个月。
[0073]聚类模块82,用于通过聚类模型对生成模块81生成的第一矢量进行聚类判断,获 得上述用户最新发表的文章所属的类别;
[0074]预测模块83,用于通过上述用户最新发表的文章所属类别的回归模型对上述用户 最新发表的文章的热度值进行预测。
[0075] 上述文章热度的预测装置中,生成模块81根据用户在当前时刻之前的预定时间长 度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后聚类模块 82通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类 另IJ,最后预测模块83通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发 表的文章的热度值进行预测,从而可以实现在对用户发表的文章进行聚类判断之后,再根 据上述文章所属的类别对上述文章的热度值进行预测,提高了文章热度预测的准确度。
[0076] 图9为本发明文章热度的预测装置另一个实施例的结构示意图,与图8所示的文章 热度的预测装置相比,不同之处在于,图9所示的文章热度的预测装置还可以包括:
[0077]降维模块84,用于在聚类模块82通过聚类模型对上述第一矢量进行聚类判断之 前,对上述第一矢量进行降维处理。具体地,降维模块84可以使用主成分分析等特征提炼方 法,对第一矢量进行降维处理。
[0078]进一步地,上述文章热度的预测装置还可以包括:
[0079]获取模块85,用于在生成模块81为上述用户最新发表的文章生成第一矢量之前, 获取上述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词。
[0080] 本实施例中,获取模块85,具体用于获得上述用户在当前时刻之前的预定时间长 度内发表的历史文章,使用分词工具从上述历史文章中获取热度排名在预定名次之前的关 键词。
[0081] 其中,上述预定名次可以在具体实现时根据系统性能和/或实现需求等自行设定, 本实施例对上述预定名次不作限定,举例来说,上述预定名次可以为10。
[0082] 进一步地,聚类模块82,还用于在对上述第一矢量进行聚类判断之前,生成上述聚 类模型。
[0083]本实施例中,生成模块81,还用于根据上述关键词,为上述用户在当前时刻之前的 预定时间长度内发表的每篇历史文章生成对应的第二矢量;
[0084] 其中,上述每篇历史文章对应的第二矢量的维度等于上述关键词的个数,上述每 篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中的出现 情况。
[0085] 举例来说,假设上述关键词的个数为10,则上述每篇历史文章对应的第二矢量为 10维矢量,以第一篇历史文章对应的第二矢量为例,上述第一篇历史文章对应的第二矢量 中第一个维度的值表示第一个关键词是否在上述第一篇历史文章中出现,如果出现,则上 述第一篇历史文章对应的第二矢量中第一个维度的值可以为"1",如果未出现,则上述第一 篇历史文章对应的第二矢量中第一个维度的值可以为"ο",以此类推。当然,本实施例并不 限定用"Γ表示关键词在第一篇历史文章中出现,用"0"表示关键词在第一篇历史文章中未 出现。
[0086] 这时,聚类模块82,具体用于对上述每篇历史文章对应的第二矢量进行聚类,生成 上述聚类模型,以将所述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定 个数的类别。
[0087] 其中,上述预定个数可以在具体实现时根据上述用户在当前时刻之前的预定时间 长度内发表的历史文章的篇数设定,本实施例对上述预定个数的大小不作限定,举例来说, 上述预定个数可以为3。
[0088] 具体地,聚类模块82可以使用kmeans聚类算法对上述每篇历史文章对应的第二矢 量进行聚类,生成上述聚类模型。
[0089]进一步地,上述文章热度的预测装置还可以包括:降维模块84;
[0090] 降维模块84,用于在聚类模块82对上述每篇历史文章对应的第二矢量进行聚类之 前,对上述每篇历史文章对应的第二矢量进行降维处理。
[0091] 具体地,降维模块84可以使用主成分分析等特征提炼方法,对上述每篇历史文章 对应的第二矢量进行降维处理。
[0092] 进一步地,上述文章热度的预测装置还可以包括:
[0093]建立模块86,用于在预测模块83对上述用户最新发表的文章的热度值进行预测之 前,针对上述用户在当前时刻之前的预定时间长度内发表的历史文章所属的类别,分别根 据每个类别中的历史文章的热度值建立每个类别的回归模型。
[0094]这样,在预测模块83通过上述用户最新发表的文章所属类别的回归模型对上述用 户最新发表的文章的热度值进行预测时,可以根据上述用户最新发表的文章所属类别中的 历史文章的热度值获得上述用户最新发表的文章所属类别中的历史文章的热度值的最佳 期望值,以上述最佳期望值作为上述用户最新发表的文章的热度值。
[0095]本实施例提供的文章热度的预测装置,可以提高文章热度预测的准确度,不使用 本实施例提供的文章热度的预测装置时,用户的微博热度的预测准确度为1 % (即1〇〇篇中 有1篇可以准确预测),使用本实施例提供的文章热度的预测装置之后,用户的微博热度的 预测准确度可以提升到33%。
[0096]需要说明的是,在本发明的描述中,术语"第一"、"第二"等仅用于描述目的,而不 能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,"多个"的含义 是两个或两个以上。
[0097] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部 分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺 序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明 的实施例所属技术领域的技术人员所理解。
[0098] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述 实施方式中,多个 步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件 或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下 列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路 的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列 (Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。
[0099]本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步 骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介 质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0100]此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是 各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块 既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果 以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可 读取存储介质中。
[0101] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0102] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。
[0103] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例 性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述 实施例进行变化、修改、替换和变型。
【主权项】
1. 一种文章热度的预测方法,其特征在于,包括: 根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最 新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量 中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况; 通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类 别; 通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热 度值进行预测。2. 根据权利要求1所述的方法,其特征在于,所述根据用户在当前时刻之前的预定时间 长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量之前,还包括: 获取所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词; 其中,所述获取所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词 包括: 获得所述用户在当前时刻之前的预定时间长度内发表的历史文章; 使用分词工具从所述历史文章中获取热度排名在预定名次之前的关键词。3. 根据权利要求1所述的方法,其特征在于,所述通过聚类模型对所述第一矢量进行聚 类判断之前,还包括: 生成所述聚类模型。4. 根据权利要求3所述的方法,其特征在于,所述生成所述聚类模型包括: 根据所述关键词,为所述用户在当前时刻之前的预定时间长度内发表的每篇历史文章 生成对应的第二矢量,所述每篇历史文章对应的第二矢量的维度等于所述关键词的个数, 所述每篇历史文章对应的第二矢量中各维度的值分别对应每个关键词在每篇历史文章中 的出现情况; 对所述每篇历史文章对应的第二矢量进行聚类,生成所述聚类模型,以将所述用户在 当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的类别。5. 根据权利要求4所述的方法,其特征在于,所述通过所述用户最新发表的文章所属类 别的回归模型对所述用户最新发表的文章的热度值进行预测之前,还包括: 针对所述用户在当前时刻之前的预定时间长度内发表的历史文章所属的类别,分别根 据每个类别中的历史文章的热度值建立每个类别的回归模型。6. -种文章热度的预测装置,其特征在于,包括: 生成模块,用于根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键 词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个 数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现 情况; 聚类模块,用于通过聚类模型对所述生成模块生成的第一矢量进行聚类判断,获得所 述用户最新发表的文章所属的类别; 预测模块,用于通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发 表的文章的热度值进行预测。7. 根据权利要求6所述的装置,其特征在于,还包括: 获取模块,用于在所述生成模块为所述用户最新发表的文章生成第一矢量之前,获取 所述用户在当前时刻之前的预定时间长度内发表的历史文章的关键词; 其中,所述获取模块,具体用于获得所述用户在当前时刻之前的预定时间长度内发表 的历史文章,使用分词工具从所述历史文章中获取热度排名在预定名次之前的关键词。8. 根据权利要求6所述的装置,其特征在于, 所述聚类模块,还用于在对所述第一矢量进行聚类判断之前,生成所述聚类模型。9. 根据权利要求8所述的装置,其特征在于, 所述生成模块,还用于根据所述关键词,为所述用户在当前时刻之前的预定时间长度 内发表的每篇历史文章生成对应的第二矢量,所述每篇历史文章对应的第二矢量的维度等 于所述关键词的个数,所述每篇历史文章对应的第二矢量中各维度的值分别对应每个关键 词在每篇历史文章中的出现情况; 所述聚类模块,具体用于对所述每篇历史文章对应的第二矢量进行聚类,生成所述聚 类模型,以将所述用户在当前时刻之前的预定时间长度内发表的历史文章聚为预定个数的 类别。10. 根据权利要求9所述的装置,其特征在于,还包括: 建立模块,用于在所述预测模块对所述用户最新发表的文章的热度值进行预测之前, 针对所述用户在当前时刻之前的预定时间长度内发表的历史文章所属的类别,分别根据每 个类别中的历史文章的热度值建立每个类别的回归模型。
【专利摘要】本发明提出一种文章热度的预测方法和装置,上述文章热度的预测方法包括:根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。本发明在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度进行预测,提高了文章热度预测的准确度。
【IPC分类】G06F17/30
【公开号】CN105488193
【申请号】CN201510887683
【发明人】许祥
【申请人】杭州数梦工场科技有限公司
【公开日】2016年4月13日
【申请日】2015年12月4日

最新回复(0)