关键词的推送方法和装置的制造方法

xiaoxiao2021-2-28  171

关键词的推送方法和装置的制造方法
【技术领域】
[0001] 本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及关键词的推送 方法和装置。
【背景技术】
[0002] 推送,又称为"网络广播",是通过一定的技术标准或协议,在互联网上通过推送用 户需要的信息来减少信息过载的一项技术。目前,业内往往是通过收集用户历史搜索或点 击的关键词等信息,向用户推送可能感兴趣的文本搜索关键词。然而,大量的用户历史数据 和海量的文本信息往往会导致用户收到的关键词过量且缺乏准确性,浪费了大量的网络资 源。因此,如何向用户推送精简且准确的搜索关键词是目前亟需解决的问题。

【发明内容】

[0003] 本申请的目的在于提出一种改进的关键词的推送方法和装置,来解决以上背景技 术部分提到的技术问题。
[0004] 第一方面,本申请提供了一种关键词的推送方法,所述方法包括:获取关键词集合 和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文 本;确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所 述关键词集合中的任一关键词;确定所述文本集合中,与所述第一关键词的关联度超过预 定关联度阈值的文本的比例;以及基于所述比例超过预定比例,向终端发送所述第一关键 1·^] 〇
[0005] 在一些实施例中,各所述文本包括标题和至少一个段落;所述确定第一关键词与 所述文本集合中的各所述文本的关联度,包括:获取所述第一关键词在所述文本中的位置 信息;基于所述第一关键词的位置信息与所述文本的标题的匹配,确定所述标题的权重;基 于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重, 其中,所述第一段落为所述文本中的任一段落;基于所述标题的权重和各所述第一段落的 权重,确定所述第一关键词与所述文本的关联度。
[0006] 在一些实施例中,所述基于所述第一关键词的位置信息与所述文本的第一段落的 匹配,确定所述第一段落的权重,包括:根据所述第一关键词的位置信息与所述文本的首段 和所述文本的不同于所述首段的末段的匹配,确定所述首段的权重和所述末段的权重;基 于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一 段落的首句的权重。
[0007] 在一些实施例中,所述基于所述第一关键词的位置信息与所述文本的各所述第一 段落的首句匹配,确定各所述第一段落的首句的权重,包括:根据如下公式确定各所述第一 段落在所述文本中的分布:
[0008]
,其中,SP〇S(i)表示所述第一段落在所述文本中 的分布,i表示所述第一段落在所述文本中的位置,i为整数且1 < i < η,n表示所述文本的段 落总数,λ为预设参数值;根据各所述第一段落的字符总数和该所述第一段落的首句的字符 数,确定各所述第一段落的首句在该所述第一段落中的占比;基于所述分布和所述占比,确 定各所述第一段落的首句在所述文本中的比重;基于所述第一关键词的位置信息和各所述 第一段落的首句在所述文本中的比重,确定各所述第一段落的首句的权重。
[0009]在一些实施例中,所述基于所述分布和所述占比,确定各所述第一段落的首句在 所述文本中的比重,包括:根据如下表达式确定各所述第一段落的首句在所述文本中的比 重:weight(firstSeni) = sLen(firstLeni,paraLeni)*sPos(i)*P,其中,weight (f irstSem)表示所述第一段落的首句在所述文本中的比重,sLen(firstLem,paraLem)表 示所述第一段落的首句在该所述第一段落中的占比,sPos (i)表示所述第一段落在所述文 本中的分布,β为归一化参数,i表示所述第一段落在所述文本中的位置,i为整数且1 < i < η,η表示所述文本的段落总数;根据如下表达式确定所述占比:sLen (f irst 1 eru,paraLem) =1-f irstlem/paraLem+α,其中,f irstlem表示所述第一段落的首句的字符数,paraLem 表示所述第一段落的总字符数,α为预设参数值;根据以下表达式确定所述归一化参数β:
[0011] 在一些实施例中,所述基于所述标题的权重和各所述第一段落的权重,确定所述 第一关键词与所述文本的关联度,包括:基于所述标题的权重、所述首段的权重、所述末段 的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度。
[0012] 在一些实施例中,所述基于所述标题的权重、所述首段的权重、所述末段的权重以 及各所述第一段落的首句的权重,确定所述第一关键词与所述文本的关联度,包括:根据如 下表达式确定所述第一关键词与所述文本的关联度:
[0013]

s.其中,ω表示所述关联度,match(title)、 match(first paragraph)、match(end paragraph)和match(first Sem)分别表不所述第 一关键词的位置信息与所述标题、所述首段、所述末段和各所述第一段落的首句匹配的结 果,所述结果为匹配则取值为1,所述结果为不匹配则取值为〇,al*match(title)表示所述 标题的权重,a2*match( first paragraph)表示所述首段的权重,a3*match( end paragraph)表示所述末段的权重,
表示各所述 第一段落的首句的权重,&1、&2、&3、&4为大于0且小于1的权重值,1表示所述第一段落在所 述文本中的位置,i为整数且1 < i <n,n表示所述文本的段落总数,其中,al+a2+a3+a4 = l。
[0014] 第二方面,本申请提供了一种关键词的推送装置,所述装置包括:获取单元,配置 用于获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集 合包括至少一个文本;第一确定单元,配置用于确定第一关键词与所述文本集合中的各所 述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;第二确定单 元,配置用于确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文 本的比例;以及发送单元,配置用于基于所述比例超过预定比例,向终端发送所述第一关键 1·^] ο
[0015] 在一些实施例中,各所述文本包括标题和至少一个段落;所述第一确定单元包括: 位置信息获取模块,配置用于获取所述第一关键词在所述文本中的位置信息;标题权重确 定模块,配置用于基于所述第一关键词的位置信息与所述文本的标题的匹配,确定所述标 题的权重;第一段落权重确定模块,配置用于基于所述第一关键词的位置信息与所述文本 的第一段落的匹配,确定所述第一段落的权重,其中,所述第一段落为所述文本中的任一段 落;关联度确定模块,配置用于基于所述标题的权重和各所述第一段落的权重,确定所述第 一关键词与所述文本的关联度。
[0016] 在一些实施例中,所述第一段落权重确定模块具体用于:根据所述第一关键词的 位置信息与所述文本的首段和所述文本的不同于所述首段的末段的匹配,确定所述首段的 权重和所述末段的权重;基于所述第一关键词的位置信息与所述文本的各所述第一段落的 首句匹配,确定各所述第一段落的首句的权重。
[0017] 在一些实施例中,所述第一段落权重确定模块进一步配置用于:根据如下公式确 定各所述第一段落在所述文本中的分布:
其中,sPos(i)表 示所述第一段落在所述文本中的分布,i表示所述第一段落在所述文本中的位置,i为整数 且1 < i <n,n表示所述文本的段落总数,λ为预设参数值;根据各所述第一段落的字符总数 和该所述第一段落的首句的字符数,确定各所述第一段落的首句在该所述第一段落中的占 比;基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重;基于所述 第一关键词的位置信息和各所述第一段落的首句在所述文本中的比重,确定各所述第一段 落的首句的权重。
[0018] 在一些实施例中,所述第一段落权重确定模块进一步配置用于:根据如下表达式 确定各所述第一段落的首句在所述文本中的比重:weight (firstSem) = sLen(firstLem, paraLem)*sPos(i)*P,其中,weight (firstSem)表示所述第一段落的首句在所述文本中的 比重,sLen(firstLem,paraLem)表示所述第一段落的首句在该所述第一段落中的占比, sPos(i)表不所述第一段落在所述文本中的分布,β为归一化参数,i表不所述第一段落在所 述文本中的位置,i为整数且1 < i <n,n表示所述文本的段落总数;根据如下表达式确定所 述占比:sLen(firstlem,paraLem) = l-firstlem/paraLem+α,其中,firstlem表不所述 第一段落的首句的字符数,paraLem表示所述第一段落的总字符数,α为预设参数值;根据
以下表达式确定所述归一化
[0019] 在一些实施例中,所 述关联度确定模块具体用于:基于所述标题的权重、所述首段 的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键词与所述 文本的关联度。
[0020] 在一些实施例中,所述关联度确定模块进一步配置用于:根据如下表达式确定所 述第一关键词与所述文本的关联度:
[0021]

s其中,ω表示所述关联度,match(title)、 match(first paragraph)、match(end paragraph)和match(first Sem)分别表不所述第 一关键词的位置信息与所述标题、所述首段、所述末段和各所述第一段落的首句匹配的结 果,所述结果为匹配则取值为1,所述结果为不匹配则取值为〇,al*match(title)表示所述 标题的权重,a2*match( first paragraph)表示所述首段的权重,a3*match( end paragraph)表示所述末段的权重,
1表示各所述第 一段落的首句的权重,&1、&2、&3、&4为大于0且小于1的权重值,1表示所述第一段落在所述 文本中的位置,i为整数且1 < i <n,n表示所述文本的段落总数,其中,al+a2+a3+a4 = l。
[0022] 本申请提供的关键词的推送方法和装置,通过确定关键词集合中任一关键词与文 本集合中各文本的关联度,获取文本集合中与上述关键词的关联度大于预定关联度阈值的 文本数量,而后确定该数量在文本集合中文本总数中的比例,最后基于所述比例大于预定 比例,向终端推送该关键词,通过该方法可以确定向终端推送的关键词集合中的所有关键 词,实现了关键词的精简且准确的推送。
【附图说明】
[0023] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显:
[0024] 图1是本申请可以应用于其中的示例性系统架构图;
[0025] 图2是根据本申请的关键词的推送方法的一个实施例的流程图;
[0026] 图3是根据本申请的关键词的推送方法的又一个实施例的流程图;
[0027] 图4是根据本申请的关键词的推送方法中,确定各第一段落的权重的一种实现方 式的示意性流程图;
[0028] 图5是根据本申请的关键词的推送装置的一个实施例的结构示意图;
[0029] 图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意 图。
【具体实施方式】
[0030] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关发明相关的部分。
[0031] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。
[0032] 图1示出了可以应用本申请的关键词的推送方法或关键词的推送装置的实施例的 示例性系统架构100。
[0033] 如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。 网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以 包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0034] 用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发 送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应 用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等,借助于输入法 应用,用户可以对终端设备上的各种应用进行信息输入。
[0035] 终端设备101、102、103可以是具有显示屏并且支持信息浏览的各种电子设备,包 括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携 计算机和台式计算机等等。
[0036] 服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的输入 法应用、文件管理类应用等提供支持的数据库服务器或云服务器。服务器可以对接收到的 数据进行存储、分析等处理,并将处理结果反馈给终端设备。
[0037] 需要说明的是,本申请实施例所提供的关键词的推送方法一般由服务器105执行, 相应地,关键词的推送装置一般设置于服务器105中。
[0038] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需 要,可以具有任意数目的终端设备、网络和服务器。
[0039]继续参考图2,示出了根据本申请的关键词的推送方法的一个实施例的流程200。 所述的关键词的推送方法,包括以下步骤:
[0040] 步骤201,获取关键词集合和文本集合。
[0041] 在本实施例中,关键词的推送方法运行于其上的电子设备(例如图1所示的服务 器)可以在本地或者其它电子设备获取关键词集合和文本集合,其中,上述关键词集合包括 至少一个关键词,上述文本集合包括至少一个文本。这里,上述电子设备可以通过对用户历 史行为数据的分析等方法来预先存储多个关键词。
[0042] 步骤202,确定第一关键词与文本集合中的各文本的关联度。
[0043]在本实施例中,第一关键词为上述关键词集合中的任一关键词。基于步骤201中得 到的关键词集合和文本集合,上述电子设备(例如图1所示的服务器)可以首先从关键词集 合中获取第一关键词;之后再利用各种分析手段确定上述第一关键词与上述文本集合中各 文本的关联度。
[0044] 在本实施例的一些可选的实现方式中,可以通过计算关键词在文本中出现的次数 来确定第一关键词与各文本的关联度。例如,可以对上述第一关键词在文本中出现频率进 行统计,之后,再根据文本的字符数或段落数和上述统计的频率计算第一关键词与文本的 关联度。
[0045] 步骤203,确定文本集合中,与第一关键词的关联度超过预定关联度阈值的文本的 比例。
[0046]在本实施例中,上述电子设备(例如图1所示的服务器)可以首先设置第一关键词 和文本集合中的各文本的关联度阈值。之后,基于步骤202得到的第一关键词和文本集合中 的各文本的关联度,确定上述关联度大于关联度阈值的文本数目。最后,确定与第一关键词 的关联度超过预定关联度阈值的文本在文本集合中的比例。
[0047] 步骤204,基于比例超过预定比例,向终端推送第一关键词。
[0048] 在本实施例中,上述电子设备(例如图1所示的服务器)可以首先设置预定比例。之 后,将上述获取的比例与预定比例相对比,若上述获取的比例大于预定比例,则将上述第一 关键词推送给终端;若上述获取的比例小于或等于预定比例,则不推送上述第一关键词。用 户可以通过第一关键词查看与其相关联的信息,例如,该相关联的信息可以是与所述关键 词相关的新闻文本、热门话题、股票等。
[0049] 本申请的上述实施例提供的方法通过确定关键词与文本集合的各文本的关联度 和与关键词的关联度超过预定关联度阈值的文本在文本集合中的比例,基于比例超过预定 比例,确定推送该关键词,该方法使得推送的关键词数量减少,且经过确定关联度大于预定 关联度阈值,提高了关键词推送的准确性。
[0050] 继续参考图3,其示出了关键词的推送方法的又一个实施例的流程300。该关键词 的推送方法的流程300,包括以下步骤:
[0051] 步骤301,获取关键词集合和文本集合。
[0052] 在本实施例中,关键词的推送方法运行于其上的电子设备(例如图1所示的服务 器)可以在本地或者其它电子设备获取关键词集合和文本集合,其中,上述关键词集合包括 至少一个关键词,上述文本集合包括至少一个文本。这里,上述电子设备可以通过对用户历 史行为数据的分析等方法来预先存储多个关键词。
[0053] 步骤302,获取第一关键词在文本中的位置信息。
[0054] 在本实施例中,上述电子设备将第一关键词在文本中匹配,并获取第一关键词在 文本中的位置信息。这里,可以将文本作为输入,通过字符串匹配算法,对关键词的字符串 进行匹配。在某些情况下,为了节省内存空间,还可以将文本分为若干块,再对各个块进行 字符串匹配的方法进行处理。
[0055] 步骤303,基于第一关键词的位置信息与文本的标题的匹配,确定标题的权重。
[0056] 在本实施例中,上述电子设备根据上述获取的第一关键词在文本中的位置信息, 判断第一关键词是否在文本的标题中匹配,之后基于匹配结果确定在第一关键词与该文本 的关联度中文本的标题的权重。
[00 57] 步骤304,基于第一关键词的位置信息与文本的第一段落的匹配,确定第一段落的 权重。
[0058] 在本实施例中,上述电子设备根据上述获取的第一关键词在文本中的位置信息, 判断第一关键词是否在文本的第一段落中匹配,之后根据匹配结果确定在第一关键词与该 文本的关联度中文本的第一段落的权重。其中,上述第一段落为上述文本中的任一段落。
[0059] 在本实施例的一些可选的实现方式中,上述电子设备可以根据上述文本的字符数 和上述第一段落的字符数确定该第一段落在上述文本的比重,之后根据上述比重和第一关 键词在文本中的位置信息确定该文本的第一段落的权重。
[0060] 在本实施例的一些可选的实现方式中,上述电子设备可以根据上述文本的总段落 数和上述第一段落在该文本中的位置(例如该第一段落的该文本中的位置可以为该文本的 第2段)确定该第一段落在上述文本的比重,之后根据上述比重和第一关键词在文本中的位 置信息确定该文本的第一段落的权重。
[0061] 步骤305,基于标题的权重和各第一段落的权重,确定第一关键词与文本的关联 度。
[0062] 在本实施例中,上述电子设备根据步骤303确定的标题的权重和步骤304确定的各 第一段落的权重,计算上述第一关键词与上述文本的关联度。
[0063] 在本实施例的一些可选的实现方式中,根据文本中的标题、各第一段落以及各第 一段落中的每句话在文本中重要程度的不同,在计算第一关键词与文本的关联度时可以对 文本进行结构的划分,提取文本的标题、文本的首段、不同于首段的末段以及各第一段落的 首句等,并根据其重要程度设置不同的系数。这种将文本进行结构划分的方法可以提高第 一关键词与文本的关联度的计算精确度。
[0064] 步骤306,确定文本集合中,与第一关键词的关联度超过预定关联度阈值的文本的 比例。
[0065] 在本实施例中,上述电子设备可以首先设置第一关键词和文本集合中的各文本的 关联度阈值。之后,基于步骤305得到的第一关键词和文本集合中的各文本的关联度,确定 上述关联度大于关联度阈值的文本数目。最后,计算出与第一关键词的关联度超过预定关 联度阈值的文本在文本集合中所占的比例。
[0066] 步骤307,基于比例超过预定比例,向终端推送第一关键词
[0067] 在本实施例中,上述电子设备可以首先设置预定比例。之后,将上述获取的比例与 预定比例相对比。若上述获取的比例大于预定比例,则将上述第一关键词推送给终端;若上 述获取的比例小于或等于预定比例,则不推送上述第一关键词。用户可以通过第一关键词 查看与其相关联的文本、股票等信息。
[0068] 从图3中可以看出,与图2对应的实施例相比,本实施例中的关键词的推送方法的 流程300给出了确定第一关键词与文本集合中的各文本的关联度的具体步骤。由此,本实施 例描述方案通过第一关键词在文本中的位置信息,确定标题的权重和各第一段落的权重, 从而可以更加精确的计算出第一关键词与文本的关联度,实现了关键词精简且准确的推 送。
[0069]在一些可选的方案中,如图4所示,步骤304的确定各第一段落的权重可以通过如 下步骤来实现:
[0070] 步骤401,根据第一关键词的位置信息与文本的首段和文本的不同于首段的末段 的匹配,确定首段的权重和末段的权重。
[0071] 在本实现方式中,上述电子设备根据上述获取的第一关键词在文本中的位置信 息,判断第一关键词是否在文本的首段和文本的末段中匹配,之后根据匹配结果确定在第 一关键词与该文本的关联度中文本的首段和文本的末段的权重。其中,文本的末段是不同 于文本首段的第一段落。
[0072] 步骤402,确定各第一段落在文本中的分布。
[0073] 在本实现方式中,上述电子设备首先获取上述文本的总段落数和各第一段落在该 文本的中的段落位置,之后根据上述总段落数和段落位置确定各第一段落在文本中的分 布。这里,段落位置表示该第一段落在该文本中是第i段,其中i为整数且1 < i <n,n表示上 述文本的段落总数。
[0074] 需要说明的是,可以根据如下表达式确定各第一段落在文本中的分布。当第一段 落为文本中的第i段时:
[0076] 其中,sPos(i)表示第i段在文本中的分布,i为整数且1 <i<n,n表示上述文本的 段落总数,λ为预设参数值且通常为大于0的实数。在一些可选的实现方式中,可以通过机器 学习的方式获取预设参数值λ。例如,上述文本的总段落数η = 4,上述第一段落为文本中的 第2段,且机器学习获得预设参数值λ = 〇.5,则第2段在文本中的分布为sPos(2),其中:
[0078] 即当上述文本包括5个段落,并且上述第一段落为该文本的第2段时,该第一段落 的分布 sPos(2)=2/9。
[0079] 步骤403,根据各第一段落的字符总数和该第一段落的首句的字符数,确定各第一 段落的首句在该第一段落中的占比。
[0080] 在本实现方式中,上述电子设备首先获取第一段落的总字符数和该第一段落的首 句的字符数,之后根据所获取的第一段落的总字符数和该第一段落的首句的字符数确定该 第一段落的首句在该第一段落中的占比。
[0081 ]在一些可选的实现方式中,可以根据如下表达式确定各第一段落的首句在该段落 中的占比。当第一段落为文本中的第i段时:
[0082] sLen(firstlem,paraLem) = l-firstlem/parLem+α
[0083] 其中,sLen(firstlem,paraLem)表示第i段的首句在该段落中的占比,firstlem 表示第i段的首句的字符数,paraLem表示第i段的总字符数,α为预设参数值且通常为大于 〇的实数。例如,上述第一段落为文本中的第2段,第2段的首句的字符数firstlen 2 = 15,第2 段的总字符数paraLem = 30,且机器学习获得预设参数值α = 0.005,则第2段的首句在该段 落中的占比为sLen(firstlen2,paraLen2),其中:
[0084] sLen(firstlen2, paraLen〗) = l-firstlen2/paraLen2+a = 1-15/30+0.005 = 0.505,即当上述第一段落的首句包括15个字符,该第一段落包括30个字符时,该第一段落 的首句在该段落中的占比81^11(;1^;^81:16112,口&瓜1^112)=0.505。
[0085] 步骤404,基于分布和占比,确定各第一段落的首句在文本中的比重。
[0086]在本实现方式中,利用步骤402确定的各第一段落在文本中的分布和步骤403确定 的各第一段落的首句在该第一段落中的占比,可以确定各第一段落的首句在文本中的比 重。
[0087] 在一些可选的实现方式中,可以根据如下表达式确定各第一段落的首句在文本中 的比重。当第一段落为文本中的第i段时:
[0088] weight (f irs tSeru) = sLen (f irs tLeru, paraLeru) *sPos (i)
[0089] 其中,weight (first Seru)表示第i段的首句在文本中的比重,sLen(f irs tLeru, paraLeru)表示第i段的首句在该第一段落中的占比,sPos( i)表示第i段在文本中的分布情 况,β为归一化参数,其中i为整数且1 < i <n,n表示文本的段落总数。需要说明的是,归一化 参数β可以根据如下表达式确定:
[0091] 步骤405,基于第一关键词的位置信息和各第一段落的首句在文本中的比重,确定 各第一段落的首句的权重。
[0092] 在本实现方式中,上述电子设备首先将第一关键词的位置信息与各第一段落的首 句相匹配,之后再基于上述获取的各第一段落的首句在文本中的比重确定各第一段落的首 句的权重。
[0093] 在本实施例的一些可选的实现方式中,上述电子设备可以基于标题的权重、首段 的权重、末段的权重以及各第一段落的首句的权重,确定第一关键词与文本的关联度。这 里,可以根据如下表达式确定第一关键词与文本的关联度:
[0094]
[0095] 其中,ω 表不上述关联度,match(title)、match(first paragraph)、match(end 口&瓜8瓜口11)和1]^1:〇11(;^^〖36出)分别表示第一关键词的位置信息与标题、首段、末段和各 第一段落的首句匹配的结果,上述结果为匹配则取值为1,上述结果为不匹配则取值为〇, al*match(title)表示标题中的权重,a2*match(first paragraph)表示首段的权重,a3* match(end paragraph)表示末段的权重
第一段落的首句的权重,al、a2、a3、a4为大于0且小于1的权重值,i为整数且1<1<11,11表示 文本的段落总数,其中,al+a2+a3+a4 = l。
[009 6] 在本申请的上述实施例的实现方式提供的方法通过分别计算文本的首段、文本的 末段和各第一段落的首句在上述关联度中的权重,进一步的提高了计算第一关键词与文本 关联度的精确度。
[0097] 进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种关键词的推 送装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用 于各种电子设备中。
[0098]如图5所示,本实施例所述的关键词的推送装置500包括:获取单元501、第一确定 单元502、第二确定单元503和发送单元504。其中,获取单元501配置用于获取关键词集合和 文本集合,其中,关键词集合包括至少一个关键词,文本集合包括至少一个文本;第一确定 单元502配置用于确定第一关键词与文本集合中的各文本的关联度,其中,上述第一关键词 为关键词集合中的任一关键词;第二确定单元503配置用于确定文本集合中,与上述第一关 键词的关联度超过预定关联度阈值的文本的比例;而发送单元504配置用于基于上述比例 超过预定比例,向终端发送上述第一关键词。
[0099]在本实施例中,关键词的推送装置500的获取单元501可以在本地或者其它电子设 备获取关键词集合和文本集合,其中,上述关键词集合包括至少一个关键词,上述文本集合 包括至少一个文本。
[0100]在本实施例中,基于获取单元501得到的关键词集合和文本集合,上述第一确定单 元502可以首先从关键词集合中获取第一关键词;之后再利用各种手段确定上述第一关键 词与文本集合中的各文本的关联度。
[0101]在本实施例中,关键词的推送装置500上可以预先设置关联度阈值和预定比例。由 此,关键词的推送装置500的第二确定单元503可以确定上述文本集合中,与上述第一关键 词的关联度超过预定关联度阈值的文本的比例。发送单元504可以基于上述比例超过预定 比例,向终端发送上述第一关键词。
[0102] 在本实施例的一些可选地实现方式中,第一确定单元502包括:位置信息获取模块 (未示出),配置用于获取上述第一关键词在文本中的位置信息;标题权重确定模块(未示 出),配置用于基于上述第一关键词的位置信息与文本的标题的匹配,确定该标题的权重; 第一段落权重确定模块(未示出),配置用于基于上述第一关键词的位置信息与文本的第一 段落的匹配,确定该第一段落的权重,其中,上述第一段落为该文本中的任一段落;关联度 确定模块(未示出),配置用于基于上述标题的权重和各第一段落的权重,确定上述第一关 键词与文本的关联度。其中,第一段落权重确定模块具体用于,根据上述第一关键词的位置 信息与文本的首段和文本的不同于首段的末段的匹配,确定首段的权重和末段的权重;确 定各第一段落在文本中的分布;根据各第一段落的字符总数和该段落的首句的字符数,确 定各第一段落的首句在该段落中的占比;基于上述分布和上述占比,确定各第一段落的首 句在文本中的比重;基于第一关键词的位置信息和各第一段落的首句在文本中的比重,获 取各第一段落的首句的权重。
[0103] 在本实施例的一些可选地实现方式中,上述关键词的推送装置500可以基于上述 标题的权重、首段的权重、末段的权重以及各第一段落的首句的权重,确定上述第一关键词 与文本的关联度。
[0104] 本领域技术人员可以理解,上述关键词的推送装置500还包括一些其他公知结构, 例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示 出。
[0105] 下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算 机系统600的结构示意图。
[0106] 如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读 存储器(R0M)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而 执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。 CPU 601、R0M 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总 线 604。
[0107] 以下部件连接至I/O接口 605:包括键盘、鼠标等的输入部分606;包括诸如阴极射 线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608; 以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因 特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口 605。可拆卸介质611,诸如 磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出 的计算机程序根据需要被安装入存储部分608。
[0108] 特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机 软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读 介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这 样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆 卸介质611被安装。
[0109] 附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程 序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代 表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个 用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所 标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际 上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要 注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用 执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指 令的组合来实现。
[0110] 描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬 件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包 括获取单元、第一确定单元、第二确定单元和推送单元。其中,这些单元的名称在某种情况 下并不构成对该单元本身的限定,例如,获取单元还可以被描述为"获取关键词集合和文本 集合的单元"。
[0111] 作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算 机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是 单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存 储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取 关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至 少一个文本;确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关 键词为所述关键词集合中的任一关键词;确定所述文本集合中,与所述第一关键词的关联 度超过预定关联度阈值的文本的比例;以及基于所述比例超过预定比例,向终端发送所述 第一关键词。
[0112] 以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人 员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术 方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行 任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功 能的技术特征进行互相替换而形成的技术方案。
【主权项】
1. 一种关键词的推送方法,其特征在于,所述方法包括: 获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集 合包括至少一个文本; 确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为 所述关键词集合中的任一关键词; 确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比 例;以及 基于所述比例超过预定比例,向终端发送所述第一关键词。2. 根据权利要求1所述的关键词的推送方法,其特征在于,各所述文本包括标题和至少 一个段落; 所述确定第一关键词与所述文本集合中的各所述文本的关联度,包括: 获取所述第一关键词在所述文本中的位置信息; 基于所述第一关键词的位置信息与所述文本的标题的匹配,确定所述标题的权重; 基于所述第一关键词的位置信息与所述文本的第一段落的匹配,确定所述第一段落的 权重,其中,所述第一段落为所述文本中的任一段落; 基于所述标题的权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关 联度。3. 根据权利要求2所述的关键词的推送方法,其特征在于,所述基于所述第一关键词的 位置信息与所述文本的第一段落的匹配,确定所述第一段落的权重,包括: 根据所述第一关键词的位置信息与所述文本的首段和所述文本的不同于所述首段的 末段的匹配,确定所述首段的权重和所述末段的权重; 基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所 述第一段落的首句的权重。4. 根 据权利要求3所述的关键词的推送方法,其特征在于,所述基于所述第一关键词的 位置信息与所述文本的各所述第一段落的首句匹配,确定各所述第一段落的首句的权重, 包括: 根据如下公式确定各所述第一段落在所述文本中的分布:其中,sPos (i)表示所述第一段落在所述文本中的分布,i表示所述第一段落在所述文 本中的位置,i为整数且I < i <n,n表示所述文本的段落总数,λ为预设参数值; 根据各所述第一段落的字符总数和该所述第一段落的首句的字符数,确定各所述第一 段落的首句在该所述第一段落中的占比; 基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重; 基于所述第一关键词的位置信息和各所述第一段落的首句在所述文本中的比重,确定 各所述第一段落的首句的权重。5. 根据权利要求4所述的关键词的推送方法,其特征在于,所述基于所述分布和所述占 比,确定各所述第一段落的首句在所述文本中的比重,包括: 根据如下表达式确定各所述第一段落的首句在所述文本中的比重: weight (f ir st Sem) = sLen(f irstLem, paraLeni)*sPos (i )*β, 其中,weight(firstSeru)表示所述第一段落的首句在所述文本中的比重,sLen (fir stLem,paraLem)表示所述第一段落的首句在该所述第一段落中的占比,sPos (i)表示 所述第一段落在所述文本中的分布,β为归一化参数,i表示所述第一段落在所述文本中的 位置,i为整数且I < i <n,n表示所述文本的段落总数; 根据如下表达式确定所述占比: sLen(firstlem,paraLem) = l-firstlem/paraLem+α, 其中,;^^1:16]^表示所述第一段落的首句的字符数43抑1^]^表示所述第一段落的总 字符数,α为预设参数值; 根据以下表达式确定所述归一化参数β:6. 根据权利要求2-5之一所述的关键词的推送方法,其特征在于,所述基于所述标题的 权重和各所述第一段落的权重,确定所述第一关键词与所述文本的关联度,包括: 基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句 的权重,确定所述第一关键词与所述文本的关联度。7. 根据权利要求6所述的关键词的推送方法,其特征在于,所述基于所述标题的权重、 所述首段的权重、所述末段的权重以及各所述第一段落的首句的权重,确定所述第一关键 词与所述文本的关联度,包括: 根据如下表达式确定所述第一关键词与所述文本的关联度:其中,ω 表不所述关耳关度,match (ti tie)、match( first paragraph)、match (end paragraph)和match (first Sem)分别表示所述第一关键词的位置信息与所述标题、所述 首段、所述末段和各所述第一段落的首句匹配的结果,所述结果为匹配则取值为1,所述结 果为不匹配则取值为〇,al*match( 1:;11:16)表示所述标题的权重,32*1]^1:(311(;1^;^8七 paragraph)表示所述首段的权重,a3*match(end paragraph)表示所述末段的权重,表示各所述第一段落的首句的权重,al、a2、a3、 a4为大于0且小于1的权重值,i表示所述第一段落在所述文本中的位置,i为整数且I < i < n,n表示所述文本的段落总数,其中,al+a2+a3+a4 = l。8. -种关键词的推送装置,其特征在于,所述装置包括: 获取单元,配置用于获取关键词集合和文本集合,其中,所述关键词集合包括至少一个 关键词,所述文本集合包括至少一个文本; 第一确定单元,配置用于确定第一关键词与所述文本集合中的各所述文本的关联度, 其中,所述第一关键词为所述关键词集合中的任一关键词; 第二确定单元,配置用于确定所述文本集合中,与所述第一关键词的关联度超过预定 关联度阈值的文本的比例;以及 发送单元,配置用于基于所述比例超过预定比例,向终端发送所述第一关键词。9. 根据权利要求8所述的关键词的推送装置,其特征在于,各所述文本包括标题和至少 一个段落; 所述第一确定单元包括: 位置信息获取模块,配置用于获取所述第一关键词在所述文本中的位置信息; 标题权重确定模块,配置用于基于所述第一关键词的位置信息与所述文本的标题的匹 配,确定所述标题的权重; 第一段落权重确定模块,配置用于基于所述第一关键词的位置信息与所述文本的第一 段落的匹配,确定所述第一段落的权重,其中,所述第一段落为所述文本中的任一段落; 关联度确定模块,配置用于基于所述标题的权重和各所述第一段落的权重,确定所述 第一关键词与所述文本的关联度。10. 根据权利要求9所述的关键词的推送装置,其特征在于,所述第一段落权重确定模 块具体用于: 根据所述第一关键词的位置信息与所述文本的首段和所述文本的不同于所述首段的 末段的匹配,确定所述首段的权重和所述末段的权重; 基于所述第一关键词的位置信息与所述文本的各所述第一段落的首句匹配,确定各所 述第一段落的首句的权重。11. 根据权利要求10所述的关键词的推送装置,其特征在于,所述第一段落权重确定模 块进一步配置用于: 根据如下公式确定各所述第一段落在所述文本中的分布:其中,sPos (i)表示所述第一段落在所述文本中的分布,i表示所述第一段落在所述文 本中的位置,i为整数且I < i <n,n表示所述文本的段落总数,λ为预设参数值; 根据各所述第一段落的字符总数和该所述第一段落的首句的字符数,确定各所述第一 段落的首句在该所述第一段落中的占比; 基于所述分布和所述占比,确定各所述第一段落的首句在所述文本中的比重; 基于所述第一关键词的位置信息和各所述第一段落的首句在所述文本中的比重,确定 各所述第一段落的首句的权重。12. 根据权利要求11所述的关键词的推送装置,其特征在于,所述第一段落权重确定模 块进一步配置用于: 根据如下表达式确定各所述第一段落的首句在所述文本中的比重: weight (f ir st Sem) = sLen(f irstLem, paraLeni)*sPos (i )*β, 其中,weight(firstSeru)表示所述第一段落的首句在所述文本中的比重,sLen (fir stLem,paraLem)表示所述第一段落的首句在该所述第一段落中的占比,sPos (i)表示 所述第一段落在所述文本中的分布,β为归一化参数,i表示所述第一段落在所述文本中的 位置,i为整数且I < i <n,n表示所述文本的段落总数; 根据如下表达式确定所述占比: sLen(f irstlem ,paraLem) = 1-f irstleru/pardLeru+a, 其中,;^^1:16]^表示所述第一段落的首句的字符数43抑1^]^表示所述第一段落的总 字符数,a为预设参数值; 根据以下表达式确定所述归一化参数β:13. 根据权利要求9-12之一所述的关键词的推送装置,其特征在于,所述关联度确定模 块具体用于: 基于所述标题的权重、所述首段的权重、所述末段的权重以及各所述第一段落的首句 的权重,确定所述第一关键词与所述文本的关联度。14. 根据权利要求13所述的关键词的推送装置,其特征在于,所述关联度确定模块进一 步配置用于: 根据如下表达式确定所述第一关键词与所述文本的关联度:其中,ω 表不所述关耳关度,match (ti tie)、match( first paragraph)、match (end paragraph)和match (first Sem)分别表示所述第一关键词的位置信息与所述标题、所述 首段、所述末段和各所述第一段落的首句匹配的结果,所述结果为匹配则取值为1,所述结 果为不匹配则取值为〇,al*match( 1:;11:16)表示所述标题的权重,32*1]^1:(311(;1^;^8七 paragraph)表示所述首段的权重,a3*match(end paragraph)表示所述末段的权重,表示各所述第一段落的首句的权重,al、a2、a3、 a4为大于O且小于1的权重值,i表示所述第一段落在所述文本中的位置,i为整数且I < i < n,n表示所述文本的段落总数,其中,al+a2+a3+a4 = l。
【专利摘要】本申请公开了关键词的推送方法和装置。所述方法的一【具体实施方式】包括:获取关键词集合和文本集合,其中,所述关键词集合包括至少一个关键词,所述文本集合包括至少一个文本;确定第一关键词与所述文本集合中的各所述文本的关联度,其中,所述第一关键词为所述关键词集合中的任一关键词;确定所述文本集合中,与所述第一关键词的关联度超过预定关联度阈值的文本的比例;以及基于所述比例超过预定比例,向终端发送所述第一关键词。该实施方式实现了关键词精简且准确的推送。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105488027
【申请号】CN201510857360
【发明人】费浩峻
【申请人】百度在线网络技术(北京)有限公司
【公开日】2016年4月13日
【申请日】2015年11月30日

最新回复(0)