信息排序方法、用于生成信息排序模型的方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,尤其涉及一种信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置。
【背景技术】
[0002]随着互联网的飞速发展,各种搜索引擎、网站等媒介中充斥着数量巨大的各种文章资源。因此,如何实现对这些文章资源进行合理排序,将用户最关心的文章资源推荐到用户界面的最前面,或者如何从这些文章资源中搜索到用户想要的文章信息,成为一个亟待解决的问题。
[0003]现有技术中,在进行文章排序时,由于文档排序模型过于简单,且对待排序的文章进行主题词提取时,提取的主题词也过于简单,所以最终得到的文章排序质量不好。而在用户搜索文章时,由于搜索处理所使用的关键词的质量较差,所以经常出现搜索结果条目覆盖不全面或者搜索结果条目过多的情况,搜索结果不理想。
【发明内容】
[0004]本发明的目的在于提供一种信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,以通过提取相对优质关键词对文章的排序和搜索进行优化,提高搜索结果的质量。
[0005]根据本发明的一方面,本发明提供一种信息排序方法,所述方法包括:获取关联的多篇文章;根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;根据所述多篇文章的相关度对所述多篇文章进行排序。
[0006]可选地,所述根据预设的主题词集,分别从所述多篇文章提取主题词的处理包括:对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
[0007]可选地,所述方法还包括:从客户端接收包括至少一个关键词的搜索词;所述获取关联的多篇文章的处理包括:根据所述包括至少一个关键词的搜索词获取多篇文章。
[0008]可选地,所述方法还包括:将经过排序的所述多篇文章发送给所述客户端。
[0009]根据本发明的另一方面,本发明还提供一种用于生成信息排序模型的方法,所述方法包括:获取已标注相关度属性的多篇训练样本文章;根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
[0010]可选地,所述根据预设的主题词集,分别从所述多篇训练样本文章提取主题词的处理包括:对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
[0011]可选地,所述方法还包括:构建所述主题词集。
[0012]可选地,所述构建所述主题词集的处理包括:获取多篇主题词样本文章;分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;分别计算所述不同粒度的分词的评分;根据所述评分超过预定阈值的分词生成所述预设的主题词集。
[0013]根据本发明的另一方面,本发明还提供一种搜索处理方法,所述方法包括:接收包括至少一个关键词的搜索词;对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。
[0014]可选地,所述对切分出的分词进行筛选,以获取至少一个主题词的处理包括:分别计算切分出的分词的信息增益评分;选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
[0015]根据本发明的另一方面,本发明还提供一种用于文章排序的装置,所述装置包括:文章获取单元,用于获取关联的多篇文章;主题词提取单元,用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;相关度获取单元,用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;文章排序单元,用于根据所述多篇文章的相关度对所述多篇文章进行排序。
[0016]可选地,所述主题词提取单元包括:切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
[0017]可选地,所述装置还包括:搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词;所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文早。
[0018]可选地,所述装置还包括:文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。
[0019]根据本发明的另一方面,本发明还提供一种用于生成信息排序模型的装置,所述装置包括:训练样本文章获取单元,用于获取已标注相关度属性的多篇训练样本文章;提取单元,用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词;信息排序模型训练单元,用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
[0020]可选地,所述提取单元包括:第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
[0021]可选地,所述装置还包括:主题词集构建单元,用于构建所述主题词集。
[0022]可选地,所述主题词集构建单元包括:主题词样本文章获取子单元,用于获取多篇主题词样本文章;第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;评分计算子单元,用于分别计算所述不同粒度的分词的评分;主题词集生成子单元,用于根据所述评分超过预定阈值的分词生成所述预设的主题词集。
[0023]根据本发明的另一方面,本发明还提供一种搜索处理装置,所述装置包括:接收单元,用于接收包括至少一个关键词的搜索词;切分单元,用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;主题词获取单元,用于对切分出的分词进行筛选,以获取至少一个主题词;文章信息获取单元,用于根据所述至少一个主题词获取多篇文章的信息。
[0024]可选地,所述主题词获取单元包括:计算子单元,用于分别计算切分出的分词的信息增益评分;选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
[0025]本发明实施例提供的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,根据预设的包括不同粒度的主题词的主题词集,分别从待排序的多篇文章提取在粒度上优化的主题词,并且在信息排序模型的训练以及对多篇文章的排序处理中,使用所述粒度优化的主题词,改善了文章排序的效果并且提高了搜索质量。
【附图说明】
[0026]图1是示出本发明示例性实施例信息排序方法的流程示意图;
[0027]图2是示出基于搜索词获取的多篇文章的页面示意图;
[0028]图3是示出本发明示例性实施例用于生成信息排序模型的方法的流程示意图;
[0029]图4是示出本发明示例性实施例搜索处理方法的流程示意图;<
br>[0030]图5是示出本发明示例性实施例用于文章排序的装置的结构示意图;
[0031]图6是示出本发明示例性实施例用于生成信息排序模型的装置的结构示意图;
[0032]图7是示出本发明示例性实施例搜索处理装置的结构示意图。
【具体实施方式】
[0033]本发明提出一种在信息的排序处理和用于所述排序的信息排序模型训练处理中,选取不同粒度的主题词,根据选取的不同粒度的主题词来对进行信息排序模型的训练以及之后对召回文章的优化排序,以得到主题相关性强的排序效果。
[0034]下面结合附图对本发明示例性实施例的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置进行详细描述。
[0035]实施例一
[0036]图1是示出本发明示例性实施例信息排序方法的流程示意图。
[0037]参照图1,在步骤S110,获取关联的多篇文章。
[0038]具体地,本步骤中的多篇文章即待排序的多篇文章。
[0039]在步骤S120,根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词。
[0040]可在线下通过以下处理生成所述主题词集:对多篇主题词样本文章中的语句进行自然语言分析(NLP),将所述语句切分为不同粒度的分词,分别为所述不同粒度的分词计算评分,如归一化折扣累积增益(Normalized Discounted Cumulative Gain,简称NDCG)或平均准确率(Mean Average Precis1n,简称MAP)评分,并基于所述评分超过预定阈值的分词生成所述预设的主题词集。通过对不同粒度的分词进行评价来选取主题词,可生成优质的主题词集。所述主题词集的生成不是本发明的主要发明点,因此在此不予赘述。
[0041]具体地,步骤S120的处理可包括:对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。其中,根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词的处理可包括:从所述切分出的分词中检索出与所述主题词集包括的不同粒度的分词相同或相似的分词作为所述多篇文章中任一篇文章的主题词。
[0042]为方面理解,下面以语句“人民代表大会制度是我国的根本政治制度”为例,对上述获取主题词的过程做进一步的说明。首先,将语句“人民代表大会制度是我国的根本政治制度”切分为不同粒度的分词,如“人民、代表、人民代表、大会、人民代表大会、制度、是、我国、的、根本、政治、制度、政治制度、根本政治制度”。假设主题词集中包括的分词有“人民、代表大会、人民代表大会、政治制度”,则筛选出的上述语句的主题词为“人民、人民代表大会、政治制度”。
[0043]由于在主题词的选取中,从文章提取多个粒度的分词,并且通过预设的主题词集对所述分词进行筛选,因此可获得质量相对高的主题词。
[0044]在步骤S130,分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度。
[0045]稍后将参照图3详细描述所述信息排序模型的训练。
[0046]在步骤S140,根据所述多篇文章的相关度对所述多篇文章进行排序。
[0047]本发明实施例提供的信息排序方法,根据预设的包括不同粒度的主题词的主题词集,分别从待排序的多篇文章提取在粒度上优化的主题词,并且在信息排序模型的训练以及对多篇文章的排序处理中,使用所述粒度优化的主题词,改善了文章排序的效果。
[0048]本发明的一个应用场景是对信息搜索结果的排序进行优化。因此,相应地,本发明实施例的信息排序方法还可包括:从客户端接收包括至少一个关键词的搜索词。相应地,步骤SllO的处理可包括:根据所述包括至少一个关键词的搜索词获取多篇文章。此后,所述排序方法还可包括:将经过排序的所述多篇文章发送给所述客户端。
[0049]具体地,上述搜索词在本发明具体实施中可以是包括文章的时间、地域、属性和/或媒体类型等信息的关键词。进一步地,基于上述搜索词获取多篇文章。当然上述搜索词在本发明具体实施中并不限于是包括文章的时间、地域、属性和/或媒体类型等信息的关键词,上述搜索词还可以是包括其他信息的关键词,例如可以是包括的用户输入的关键词。
[0050]下面以图2为例,对根据所述包括至少一个关键词的搜索词获取多篇文章加以说明。图2是示出基于搜索词获取的多篇文章的页面示意图。具体地,图2所示为搜索词时间关键词为“近24小时”,舆情属性关键词为“全部”,地域关键词为“全国”,媒体类型关键词为“全部”时获取的多篇文章的页面示意图。
[0051]具体地,本发明实施例的信息排序方法可应用于任何具有文章推荐的应用程序(Applicat1n,简称APP)、搜索引擎和网站等,也可应用于一个独立的模块或开放平台的应用程序编程接口(Applicat1n Programming Interface,简称 API)。
[0052]实施例二
[0053]图3是示出本发明示例性实施例用于生成信息排序模型的方法的流程示意图。
[0054]参照图3,在步骤S310,获取已标注相关度属性的多篇训练样本文章。
[0055]具体地,本步骤中的多篇训练样本文章的相关度属性可用数值来标注,也可用预先设置的其他符号来标注所述相关度属性。
[0056]在步骤S320,根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词。
[0057]具体地,本步骤中的预设的主题词集与实施例一种的预设的主题词集相同。本步骤中从所述多篇训练样本文章提取主题词的处理过程与实施例一中从所述多篇文章提取主题词的处理过程相同。
[0058]与步骤S120对文章内容的处理相似,步骤S320的处理可包括:对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
[0059]通过步骤S320的处理,可从训练样本文章提取多粒度、质量较高的主题词,从而后续可以以这些主题词和标注的所述多篇训练样本文章作为训练特征对信息排序模型进行训练。
[0060]在步骤S330,根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
[0061]具体地,将标注的所述多篇训练样本文章作为训练样本并且以为其分别提取的主题词作为训练特征的值,采用学习排序(Learning To Rank,简称LTR)方法训练所述信息排序模型。
[0062]本发明实施例的用于生成信息排序模型的方法,根据预设的包括不同粒度的主题词的主题词集,分别从已标注相关度属性的多篇训练样本文章提取在粒度上优化的主题词,并且在信息排序模型的训练处理中,使用所述粒度优化的主题词,提升了所述信息排序模型的质量。
[0063]可选地,本发明实施例的用于生成信息排序模型的方法还可包括:构建所述主题词集。
[0064]可选地,本发明实施例的构建所述主题词集的处理可包括:可在线下通过以下处理生成所述主题词集:对多篇主题词样本文章中的语句进行自然语言分析(NLP),将所述语句切分为不同粒度的分词,分别为所述不同粒度的分词计算评分(如NDCG或MAP评分),并基于所述评分超过预定阈值的分词生成所述预设的主题词集。通过对
不同粒度的分词进行评价来选取主题词,可生成优质的主题词集。
[0065]实施例三
[0066]图4是示出本发明示例性实施例搜索处理方法的流程示意图。
[0067]参照图4,在步骤S410,接收包括至少一个关键词的搜索词。
[0068]在步骤S420,对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词。
[0069]在步骤S430,对切分出的分词进行筛选,以获取至少一个主题词。
[0070]具体地,对步骤S420中切分出的分词进行筛选,将筛选后剩余的分词作为所述搜索词的主题词。
[0071]可选地,步骤S430的处理可包括:分别计算切分出的分词的信息增益评分;选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
[0072]在步骤S440,根据所述至少一个主题词获取多篇文章的信息。
[0073]本发明实施例的搜索处理方法,对包括至少一个关键词的搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。由于在上述搜索处理过程中,对所述包括至少一个关键词的搜索词进行了自然语言分析和筛选处理,所以获得的主题词的质量得到了有效的提高,根据所述获得的主题词获取的多篇文章的信息的质量更好,提高了搜索质量。
[0074]实施例四
[0075]图5是示出本发明示例性实施例用于文章排序的装置的结构示意图。
[0076]参照图5,本发明实施例的用于文章排序的装置可执行实施例一的信息排序方法。本发明实施例的用于文章排序的装置可包括:文章获取单元510、主题词提取单元520、相关度获取单元530和文章排序单元540。
[0077]文章获取单元510用于获取关联的多篇文章。
[0078]主题词提取单元520用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词。
[0079]相关度获取单元530用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度。
[0080]文章排序单元540用于根据所述多篇文章的相关度对所述多篇文章进行排序。
[0081]本发明实施例提供的文章的排序装置,根据预设的包括不同粒度的主题词的主题词集,分别从待排序的多篇文章提取在粒度上优化的主题词,并且在信息排序模型的训练以及对多篇文章的排序处理中,使用所述粒度优化的主题词,改善了文章排序的效果。
[0082]可选地,所述主题词提取单元520可包括:切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。
[0083]可选地,本发明实施例的用于文章排序的装置还可包括:搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词;所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。
[0084]可选地,本发明实施例的用于文章排序的装置还可包括:文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。
[0085]实施例五
[0086]图6是示出本发明示例性实施例用于生成信息排序模型的装置的结构示意图。
[0087]参照图6,本发明实施例的用于生成信息排序模型的装置可执行实施例二的用于生成信息排序模型的方法,本发明实施例的用于生成信息排序模型的装置可包括:训练样本文章获取单元610、提取单元620和信息排序模型训练单元630。
[0088]训练样本文章获取单元610用于获取已标注相关度属性的多篇训练样本文章。
[0089]提取单元620用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词。
[0090]信息排序模型训练单元630用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。
[0091]本发明实施例的用于生成信息排序模型的装置,根据预设的包括不同粒度的主题词的主题词集,分别从已标注相关度属性的多篇训练样本文章提取在粒度上优化的主题词,并且在信息排序模型的训练处理中,使用所述粒度优化的主题词,提升了所述信息排序模型的质量。
[0092]可选地,所述提取单元620可包括:第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。
[0093]可选地,本发明实施例的用于生成信息排序模型的装置还可包括:主题词集构建单元,用于构建所述主题词集。
[0094]可选地,所述主题词集构建单元可包括:主题词样本文章获取子单元,用于获取多篇主题词样本文章;第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词;评分计算子单元,用于分别计算所述不同粒度的分词评分(如NDCG或MAP评分);主题词集生成子单元,用于根据所述(NDCG或MAP)评分超过预定阈值的分词生成所述预设的主题词集。
[0095]实施例六
[0096]图7是示出本发明示例性实施例搜索处理装置的结构示意图。
[0097]参照图7,本发明实施例的搜索处理装置可执行实施例三的搜索处理方法,本发明实施例的搜索处理装置可包括:接收单元710、切分单元720、主题词获取单元730和文章信息获取单元740。
[0098]接收单元710用于接收包括至少一个关键词的搜索词。
[0099]切分单元720用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词。
[0100]主题词获取单元730用于对切分出的分词进行筛选,以获取至少一个主题词。
[0101]文章信息获取单元740用于根据所述至少一个主题词获取多篇文章的信息。
[0102]本发明实施例的搜索处理装置,对包括至少一个关键词的搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词;对切分出的分词进行筛选,以获取至少一个主题词;根据所述至少一个主题词获取多篇文章的信息。由于在上述搜索处理过程中,对所述包括至少一个关键词的搜索词进行了自然语言分析和筛选处理,所以获得的主题词的质量得到了有效的提高,根据所述获得的主题词获取的多篇文章的信息的质量更好,提高了搜索质量。
[0103]可选地,所述主题词获取单元730可包括:计算子单元,用于分别计算切分出的分词的信息增益评分;选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。
[0104]需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
[0105]上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控
制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、R0M、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
[0106]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1.一种信息排序方法,其特征在于,所述方法包括: 获取关联的多篇文章; 根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词; 分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度; 根据所述多篇文章的相关度对所述多篇文章进行排序。2.根据权利要求1所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇文章提取主题词的处理包括: 对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且 根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。3.根据权利要求1所述的方法,其特征在于,所述方法还包括: 从客户端接收包括至少一个关键词的搜索词; 所述获取关联的多篇文章的处理包括:根据所述包括至少一个关键词的搜索词获取多篇文章。4.根据权利要求3所述的方法,其特征在于,所述方法还包括: 将经过排序的所述多篇文章发送给所述客户端。5.一种用于生成信息排序模型的方法,其特征在于,所述方法包括: 获取已标注相关度属性的多篇训练样本文章; 根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词; 根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。6.根据权利要求5所述的方法,其特征在于,所述根据预设的主题词集,分别从所述多篇训练样本文章提取主题词的处理包括: 对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词,并且 根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。7.根据权利要求5的所述的方法,其特征在于,所述方法还包括:构建所述主题词集。8.根据权利要求7的所述的方法,其特征在于,所述构建所述主题词集的处理包括: 获取多篇主题词样本文章; 分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 分别计算所述不同粒度的分词的评分; 根据所述评分超过预定阈值的分词生成所述预设的主题词集。9.一种搜索处理方法,其特征在于,所述方法包括: 接收包括至少一个关键词的搜索词; 对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词; 对切分出的分词进行筛选,以获取至少一个主题词; 根据所述至少一个主题词获取多篇文章的信息。10.根据权利要求9的所述的方法,其特征在于,所述对切分出的分词进行筛选,以获取至少一个主题词的处理包括: 分别计算切分出的分词的信息增益评分; 选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题词。11.一种用于文章排序的装置,其特征在于,所述装置包括: 文章获取单元,用于获取关联的多篇文章; 主题词提取单元,用于根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词; 相关度获取单元,用于分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度; 文章排序单元,用于根据所述多篇文章的相关度对所述多篇文章进行排序。12.根据权利要求11所述的装置,其特征在于,所述主题词提取单元包括: 切分子单元,用于对所述多篇文章中的任一篇文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 主题词提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇文章中任一篇文章的主题词。13.根据权利要求11所述的装置,其特征在于,所述装置还包括: 搜索词接收单元,用于从客户端接收包括至少一个关键词的搜索词; 所述文章获取单元用于根据所述包括至少一个关键词的搜索词获取多篇文章。14.根据权利要求13所述的装置,其特征在于,所述装置还包括: 文章发送单元,用于将经过排序的所述多篇文章发送给所述客户端。15.一种用于生成信息排序模型的装置,其特征在于,所述装置包括: 训练样本文章获取单元,用于获取已标注相关度属性的多篇训练样本文章; 提取单元,用于根据预设的主题词集,分别从所述多篇训练样本文章提取主题词,所述主题词集包括不同粒度的主题词; 信息排序模型训练单元,用于根据标注的所述多篇训练样本文章以及为其提取的主题词训练信息排序模型。16.根据权利要求15所述的装置,其特征在于,所述提取单元包括: 第一切分子单元,用于对所述多篇训练样本文章中的任一篇训练样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 提取子单元,用于根据所述主题词集对切分出的分词进行筛选,以提取所述多篇训练样本文章中任一篇训练样本文章的主题词。17.根据权利要求15的所述的装置,其特征在于,所述装置还包括: 主题词集构建单元,用于构建所述主题词集。18.根据权利要求17的所述的装置,其特征在于,所述主题词集构建单元包括: 主题词样本文章获取子单元,用于获取多篇主题词样本文章; 第二切分子单元,用于分别对所述多篇主题词样本文章中的语句进行自然语言分析,将所述语句切分为不同粒度的分词; 评分计算子单元,用于分别计算所述不同粒度的分词的评分; 主题词集生成子单元,用于根据所述评分超过预定阈值的分词生成所述预设的主题词集。19.一种搜索处理装置,其特征在于,所述装置包括: 接收单元,用于接收包括至少一个关键词的搜索词; 切分单元,用于对所述搜索词进行自然语言分析,将所述搜索词切分为不同粒度的分词; 主题词获取单元,用于对切分出的分词进行筛选,以获取至少一个主题词; 文章信息获取单元,用于根据所述至少一个主题词获取多篇文章的信息。20.根据权利要求19的所述的装置,其特征在于,所述主题词获取单元包括: 计算子单元,用于分别计算切分出的分词的信息增益评分; 选择子单元,用于选择所述信息增益评分超过预定阈值的分词作为所述至少一个主题 O
【专利摘要】本发明提供一种信息排序方法、用于生成信息排序模型的方法及装置。所述信息排序方法包括:获取关联的多篇文章;根据预设的主题词集,分别从所述多篇文章提取主题词,所述主题词集包括不同粒度的主题词;分别将从所述多篇文章提取的主题词输入预先训练的信息排序模型,以分别获取所述多篇文章的相关度;根据所述多篇文章的相关度对所述多篇文章进行排序。本发明提供的信息排序方法、用于生成信息排序模型的方法、搜索处理方法及装置,由于所述主题词集包括不同粒度的主题词,即主题集的质量得到了提高,进而改善了从所述多篇文章中提取的关键词的质量,提升排序质量。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN104899310
【申请号】CN201510325823
【发明人】宋元峰, 沈剑平, 李炫 , 莫洋, 郑楚煜, 车丽美, 齐沁芳
【申请人】百度在线网络技术(北京)有限公司
【公开日】2015年9月9日
【申请日】2015年6月12日