参考文档的推荐方法及装置的制造方法
【技术领域】
[0001]本公开涉及信息检索技术,尤其涉及一种参考文档的推荐方法及装置。
【背景技术】
[0002]随着社会的快速发展,科学技术的不断进步,人们所能触及到的信息呈现几何式的增长,人们越来越需要借助信息搜索技术在海量的信息中挖掘出有效信息。
[0003]目前,用户在用office等办公软件,如word写论文、报告等文章前,通常需要进行参考文献的检索,检索过程一般是根据文章的主体思想,设定几个关键词语,并利用百度搜索、谷歌搜索等搜索引擎进行关键词语的检索,然后在搜索到的信息中查找是否有自己需要的有用信息。检索的效果好坏很大程度上取决于用户对检索技巧掌握,如关键词选择是否合适,从搜索到的海量信息中快速定位有价值信息的个人能力等种种因素。
[0004]公开内容
[0005]为克服相关技术中存在的问题,本公开提供一种参考文档的推荐方法及装置,所述技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种参考文档的推荐方法,包括:
[0007]获取用户正在操作的目标文档的内容信息;
[0008]根据预设解析规则,对所述内容信息进行解析;
[0009]对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词;
[0010]基于所述检索词进行检索,得到包含所述检索词的参考文档;
[0011]将所述参考文档进行显示。
[0012]可选的,所述预设解析规则包括:标志内容提取规则、分词规则;所述根据预设解析规则,对所述内容信息进行解析,包括:
[0013]根据所述标志内容提取规则,提取所述内容信息中的标志内容;所述标志内容包括以下至少一项:所述目标文档中指明的关键词、所述目标文档标题;
[0014]根据所述分词规则对提取所述标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。
[0015]可选的,所述关键信息包括:所述标志内容、所述词语片断;相应的,所述对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词包括:
[0016]将各个所述词语片断中的不相关词语删除;所述不相关词语包括以下一种或多种:连接词语、单字词语、称谓词语;
[0017]对删除处理后剩余的各个词语片断进行重复出现频度排序;
[0018]根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断,并在所述选出的词语片断中去除与所述标志内容一致的词语片断,得到筛选后的词语片断;所述筛选后的词语片断与所述标志内容构成所述检索词。
[0019]可选的,所述基于所述检索词进行检索,得到包含所述检索词的参考文档,包括:
[0020]将所述检索词导入搜索库中进行检索,得到包含所述检索词的参考文档;所述搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。[0021 ]可选的,还包括:所述基于所述检索词进行检索之后,
[0022]根据预设评价规则,对检索得到的文档进行评价处理;所述评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度。
[0023]相应的,所述得到包含检索词的参考文档包括:
[0024]根据所述评价处理结果对检索得到的所述参考文档进行优先级排序,以使所述参考文档具有优先级顺序。
[0025]可选的,还包括:所述对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词之后,
[0026]根据所述检索词在所述目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据所述检索词在所述目标文档中的权重值,对所述检索词进行优先级排序;
[0027]相应的,所述基于所述检索词进行检索,包括:
[0028]基于排序得到的所述检索词的优先级顺序进行检索。
[0029]可选的,所述方法还包括:
[0030]对所述目标文档进行语义理解分析,获取所述目标文档的主题属性;
[0031 ]相应的,所述得到与所述目标文档相似的参考文档之后,还包括:
[0032]根据所述主题属性对所述参考文档进行排序,将与所述主题属性匹配度高的参考文档进行优先显示。
[0033]可选的,所述将所述参考文档进行显示包括:
[0034]所述参考文档与所述目标文档位于同一显示窗口内,或者所述参考文档与所述目标文档位于不同显示窗口内。
[0035]可选的,所述参考文档与所述目标文档位于同一显示窗口内包括:
[0036]所述参考文档与所述目标文档分栏显示,所述参考文档位于所述显示窗口的任意一侧;或者,所述参考文档以浮窗形式覆盖显示于所述目标文档表面。
[0037]根据本公开实施例的第二方面,提供一种参考文档的推荐装置,包括:
[0038]获取模块,用于获取用户正在操作的目标文档的内容信息;
[0039]解析模块,用于根据预设解析规则,对所述内容信息进行解析;
[0040]筛选模块,用于对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词;
[0041]检索模块,用于基于所述检索词进行检索,得到包含所述检索词的参考文档;
[0042]显示模块,用于将所述参考文档进行显示。
[0043]可选的,所述预设解析规则包括:标志内容提取规则、分词规则;相应的,所述解析丰吴块,包括:
[0044]提取子模块,用于根据所述标志内容提取规则,提取所述内容信息中的标志内容;所述标志内容包括以下至少一项:所述目标文档中指明的关键词、所述目标文档标题;
[0045]处理子模块,用于根据所述分词规则对所述提取子模块提取所述标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。
[0046]可选的,所述关键信息包括:所述标志内容、所述词语片断;相应的,所述筛选模块,包括:
[0047]删除子模块,用于将各个所述词语片断中的不相关词语删除;所述不相关词语包括以下一种或多种:连接词语、单字词语、称谓词语;
[0048]排序子模块,用于对所述删除子模块删除处理后剩余的各个词语片断进行重复出现频度排序;
[0049]选择子模块,用于根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断;
[0050]去重子模块,用于在所述选择子模块选出的词语片断中去除与所述标志内容一致的词语片断,得到筛选后的词语片断;所述筛选后的词语片断与所述标志内容构成所述检索词。
[0051 ]可选的,所述检索模块,包括:
[0052]导入子模块,用于将所述检索词导入搜索库;
[0053]第一检索子模块,用于对所述导入子模块导入后的所述检索词进行检索,得到包含所述检索词的参考文档;
[0054]所述搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。
[0055]可选的,所述装置还包括:
[0056]评价模块,用于根据预设评价规则,对检索得到的文档进行评价处理;所述评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度;
[0057]相应的,所述参考文档为根据所述评价处理结果对检索得到的文档进行优先级排序后的文档。
[0058]可选的,所述装置还包括:
[0059]第一排序模块,用于根据所述检索词在所述目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据所述检索词在所述目标文档中的权重值,对所述检索词进行优先级排序;
[0060]相应的,所述检索模块,包括:
[0061]第二检索子模块,用于基于所述第一排序模块排序得到的所述检索词的优先级顺序进彳丁检索。
[0062]可选的,所述装置还包括:
[0063]主题获取模块,用于对所述目标文档进行语义理解分析,获取所述目标文档的主题属性;
[0064]第二排序模块,用于根据所述主题获取模块获取到的所述主题属性对所述参考文档进行排序;
[0065]所述显示模块包括:
[0066]第一显示子模块,用于将与所述主题属性匹配度高的参考文档进行优先显示。
[0067]可选的,所述显示模块包括:
[0068]第二显示子模块,用于将所述参考文档与所述目标文档位于同一显示窗口内显示;
[0069]第三显示子模块,用于将所述参考文档与所述目标文档位于不同显示窗口内显不O
[0070]可选的,所述第二显示子模块包括:
[0071 ]分栏显示子模块,用于将所述参考文档与所述目标文档分栏显示;所述参考文档位于所述显示窗口的任意一侧;
[0072]浮窗显示子模块,用于将所述参考文档以浮窗形式覆盖显示于所述目标文档表面。
[0073]根据本公开实施例的第三方面,提供一种参考文档的推荐装置,包括:
[0074]处理器;
[0075]用于存储所述处理器的可执行指令的存储器;
[0076]其中,所述处理器用
于获取用户正在操作的目标文档的内容信息;根据预设解析规则,对所述内容信息进行解析;对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词;基于所述检索词进行检索,得到包含所述检索词的参考文档;将所述参考文档进行显示。
[0077]本公开的实施例提供的方法及装置可以包括以下有益效果:
[0078]在一个实施例中,通过获取用户正在操作的目标文档的内容信息;并根据预设解析规则,对该内容信息进行解析;对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词;并基于检索词进行检索,得到包含检索词的参考文档;再将参考文档进行显示。实现了随时跟随用户撰写的文档,为其实时进行关键词检索服务,以提供匹配度高、精度高的参考文档,满足用户需求,提升用户体验。
[0079]在另一个实施例中,通过根据标志内容提取规则,提取内容信息中的标志内容;标志内容包括以下至少一项:目标文档中指明的关键词、目标文档标题;根据分词规则对提取标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。该过程有助于后续对检索关键词的精准确定,使得检索得到的参考文档相关性高,满足用户需求。
[0080]在另一个实施例中,通过将各个词语片断中的不相关度词语删除;其中,不相关度词语包括以下一种或多种:连接词语、单字词语、称谓词语;对删除处理后剩余的各个词语片断进行重复出现频度排序;根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断,并在选出的词语片断中去除与标志内容一致的词语片断,得到筛选后的词语片断;筛选后的词语片断与标志内容构成检索词。通过上述过程筛选得到的检索词,简练且准确、精准度高,有助于检索到与目标文档相关性高的参考文档。
[0081]在另一个实施例中,通过将检索词导入搜索库中进行检索,得到包含检索词的参考文档;该搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。该实施例提供了多样化的搜索库,使得搜索范围灵活且全面,有助于快速检索到与目标文档相关性高的参考文档。
[0082]在另一个实施例中,通过根据预设评价规则,对检索得到的文档进行评价处理;该评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度。根据评价处理结果对检索得到的参考文档进行优先级排序,以使参考文档具有优先级顺序。从而提高参考文档的质量,为用户提供最为有效的参考文档,方便用户参考,提升用户体验。
[0083]在另一个实施例中,通过根据检索词在目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据检索词在目标文档中的权重值,对检索词进行优先级排序;并基于排序得到的检索词的优先级顺序进行检索。从而优先定位到最符合用户当前需求的检索词,提升用户体验感。
[0084]在另一个实施例中,通过对目标文档进行语义理解分析,获取目标文档的主题属性;并根据主题属性对参考文档进行排序,将与主题属性匹配度高的参考文档进行优先显示。从而为用户提供匹配性更好、质量更高,且更加贴近用户需求的参考文档。
[0085]在另一个实施例中,通过将参考文档与目标文档位于同一显示窗口内显示,或者将参考文档与目标文档位于不同显示窗口内显示。提供多样化、灵活的显示方式,方便用户查看参考文档,方便用户将参考文档与目标文档进行比对。
[0086]在另一个实施例中,通过将参考文档与目标文档分栏显示,其中,参考文档可以位于显示窗口的任意一侧;或者,将参考文档以浮窗形式覆盖显示于目标文档表面。提供多样化、灵活的显示方式,方便用户查看参考文档,方便用户将参考文档与目标文档进行比对。
[0087]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0088]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0089]图1是根据一示例性实施例示出的一种参考文档的推荐方法的流程图;
[0090]图2是根据另一示例性实施例示出的一种参考文档的推荐方法的流程图;
[0091 ]图3是根据另一示例性实施例示出的一种参考文档的推荐方法的流程图;
[0092]图4是根据一示例性实施例示出的一种参考文档的推荐装置的框图;
[0093]图5是根据另一示例性实施例示出的一种参考文档的推荐装置的框图;
[0094]图6是根据一示例性实施例示出的一种参考文档的推荐装置600的框图。
【具体实施方式】
[0095]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0096]图1是根据一示例性实施例示出的一种参考文档的推荐方法的流程图,如图1所示,本实施例以该参考文档的推荐方法应用于终端(客户端设备)中来举例说明,本实施例的方法包括以下步骤:
[0097]在步骤101中,获取用户正在操作的目标文档的内容信息。
[0098]该参考文档的推荐方法可以应用于终端(客户端设备)中,例如,电脑、移动终端设备(IPAD、手机等)。终端中安装有用于输入文本的办公处理软件,该参考文档的推荐方法可以通过应用APP安装于终端内,或者作为其他办公软件的插件,应用于终端中。目标文档指用户正在操作,如正在输入字符或进行修改操作的文档;获取的方式可以通过设置预设时间间隔或预设空间距离对当前正在操作的目标文档进行内容信息的获取,例如,用户正在使用Word软件撰写文稿,则每间隔预设的时间间隔,如每5分钟,获取用户已经完成的部分目标文档的内容,也可以每间隔一定的空间距离,如用户刚刚完成一段文字的书写,开始另起下一段,则获取新起一段之前的目标文档的内容。获取内容信息的时间间隔及空间间隔的预设值,可以由执行该参考文档的推荐方法的应用软件或插件自动设定,或由用户根据自身需求自行设定。
[0099]在步骤102中,根据预设解析规则,对内容信息进行解析。
[0100]若要实现针对用户正在操作的文档进行相似文档的推荐,则需要掌握已经获取到的目标文档的内容信息中所包含的关键内容或主题,而关键内容或主题的获取则需要根据一定的算法、规则,对内容信息进行分析后得到,具体的解析规则可由本领域技术人员根据语义分析、语言学处理技术、关键词提取等算法予以实现,在本实施例中不作具体的限定。
[0101]在步骤103中,对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词。
[0102]对解析得到的关键信息进行进一步地处理,例如通过比对,删除重复信息;挑选出与目标文档主题最为接近或相关度高的信息等,筛选后得到与目标文档关联度高的关键信息作为检索词;同时,通过筛选处理,可以减少检索词的数量,加快检索的效率;检索词少了,一定程度上还可以控制参考文献检出的篇数,方便用户进行参考、查阅。
[0103]在步骤104中,基于检索词进行检索,得到包含检索词的参考文档。
[0104]将分析处理后得到的检索词导入公共搜索引擎,如谷歌学术搜索、百度搜索等进行关联文档的搜索,也可以导入签约的云服务器进行文档搜索,该签约的云服务器可以是与提供该参考文档的推荐方法应用APP软件的服务商进行签约的检索数据库,如图书馆电子数据库、大学的电子资料资源库等,从而使用户可以获取到更加权威的、有价值的参考资料。
[0105]在步骤105中,将参考文档进行显示。
[0106]参考文档的显示可以以同屏幕插入的方式,显示在用户正在操作的目标文档的一侦U,并采用滚动式显示或浮窗式显示的方式,方便用户查看被检索出的参考文档。也可以以新窗口的方式进行显示。该显示方式可以由系统自行设定,也可以由用户根据使用习惯进行设置。
[0107]综上所述,本实施例提供的参考文档的推荐方法,通过获取用户正在操作的目标文档的内容信息;并根据预设解析规则,对该内容信息进行解析;对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词;并基于检索词进行检索,得到包含检索词的参考文档;再将参考文档进行显示。实现了随时跟随用户撰写的文档,为其实时进行关键词检索服务,以提供匹配度高、精度高的参考文档,满足用户需求,提升用户体验。
[0108]图2是根据另一示例性实施例示出的一种参考文档的推荐方法的流程图,如图2所示,本实施例以该参考文档的推荐方法应用于终端(客户端设备)中来举例说明,图1所示实施例可以存在多种组合的实现方式,以下仅以其中的一种组合实现方式为例进行说明:在上一实施例的基础上,本实施例的方法包括以下步骤:
[0109]在步骤201中,获取用户正在操作的目标文档的内容信息。
[0110]获取方式可以采用间隔预设时间或空间距离,获取用户正在操作的目标文档的内容信息。其中,空间距离包括:字数、行数、段数、或页数;内容信息包括:从目标文档的首字到当前正在输入的当前字之间的内容,或者包括:从前次获取到的内容的尾字到当前正在输入的当前字之间的内
容。如前所述,对用户正在撰写或修改的文稿,采用每间隔预设的时间间隔,或者预设的空间距离的方式获取内容信息。该空间距离可以为每间隔一定的字数、行数、段数、页数等等;而此时对目标文档中的内容信息的获取可以是从当前用户正在输入的当前字符算起,之前的全部内容信息,即从目标文档的首字到当前正在输入的当前字之间的内容;或者还可以是两次时间间隔或空间距离间隔之间的文字部分,即从前次获取到的内容的尾字到当前正在输入的当前字之间的内容。
[0111]在步骤202中,根据预设解析规则,对内容信息进行解析。
[0112]其中,预设解析规则可以包括:标志内容提取规则、分词规则。标志内容提取规则中可以包括被提取的标志内容的类型,例如:目标文档的题目、各个章节的标题、文中被黑体或下划线等标出的文字、文档中写明的关键词等;分词规则可以采用基于自然语言处理(natural language processing,简称“NLP”)技术的分词算法。
[0113]相应的,该步骤202可以包括:根据标志内容提取规则,提取内容信息中的标志内容;标志内容包括以下至少一项:目标文档中指明的关键词、目标文档标题;例如,论文中由作者指定的关键词,以及各章节的标题等。根据分词规则对提取标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。
[0114]通过采用分词规则进行分词处理,使得处理后的词语片断符合自然语言,词与词之间是连贯的,字词边界的界定采用能让上下文最为通顺且在文法上无误的一种最佳组合。同时,许多字词不单只有一个意思,还需要考虑分出的词语片断能够使句意最为通顺的解释。
[0115]在步骤203中,对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词。
[0116]其中,关键信息可以包括:标志内容、词语片断。相应的,该步骤203可以包括:将各个词语片断中的不相关度词语删除;其中,不相关度词语包括以下一种或多种:连接词语、单字词语、称谓词语;对删除处理后剩余的各个词语片断进行重复出现频度排序,根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断,并在选出的词语片断中去除与标志内容一致的词语片断,得到筛选后的词语片断;该筛选后的词语片断与标志内容构成检索词。
[0117]对分词处理后的各个词语片断进行筛选,剔除不相关词语,如“和”、“同时”、“你、我、他”,以及无法辨识含义的单字分词单元等,然后再根据词语片断出现的频度进行排序,通常作者常常重复提及的词语是与该目标文档的主题紧密关联的词语,因此可以通过根据频度排序的方式,定位得到准确度高的检索词。对于选出的重复出现频度高的词语片断,其中会存在与标志内容一致的词语片断,则可以通过与标志内容进行比对,去除与标志内容一致的词语片断,得到筛选后的词语片断;该筛选后的词语片断与标志内容共同构成检索词。经过筛选可以去除重复的检索词,减少检索词的数目,加快检索过程。
[0118]在步骤204中,基于检索词进行检索,得到包含检索词的参考文档。
[0119]具体的,将检索词导入搜索库中进行检索,得到包含检索词的参考文档;其中,搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。本地存储介质指用户正在操作的目标文档所位于的介质单元,如用户电脑中本地硬盘中的文档。通常用户关注并写作的内容是有一定关联性、连贯性的话题,通过对本地存储介质的搜索,可以找到用户以往对该话题书写的历史文档。对于公共搜索引擎和用户预设的云存储设备可以参考上一实施例的说明,在此不再赘述。
[0120]可选的,该参考文档的推荐方法还可以包括:
[0121]在步骤205中,对目标文档进行语义理解分析,获取目标文档的主题属性。
[0122]在步骤206中,根据主题属性对参考文档进行排序,将与主题属性匹配度高的参考文档进行优先显示。
[0123]语义理解分析可以采用人工智能神经网络技术或语义分析等技术对目标文档进行主题的概况或提取,得到该目标文档的归属话题,如:图像处理领域、物联网通信领域等;该主题属性的确定也可以与之前的检索词相结合,例如,若检索词中大部分都属于物联网领域的频繁出现的词汇,则可以根据对检索词的分析,界定目标文档的主题归属,从而通过上述方法获取到目标文档的技术领域。
[0124]综上所述,本实施例提供的参考文档的推荐方法,进一步通过对目标文档的内容信息采取时间间隔或空间距离间隔的灵活获取方式,使得即可以针对小部分内容信息进行精细化检索,也可以对大段内容信息进行快速关键信息的检索,实现了随时跟随用户撰写的文档,实时提供检索服务,并且通过对内容信息中的标志内容进行提取,以及对内容信息进行分词处理,并对分词处理后的各个词语片断进行不相关词语删除,根据频度进行排序等操作,得到简练、准确度高的检索词;并通过多样化的搜索库,使得搜索范围灵活且全面,有助于快速检索到与目标文档相关性高的参考文档,满足用户需求,提升用户体验。
[0125]图3是根据另一示例性实施例示出的一种参考文档的推荐方法的流程图,如图3所示,本实施例以该参考文档的推荐方法应用于终端(客户端设备)中来举例说明,在上述实施例的基础上,本实施例的方法包括以下步骤:
[0126]在步骤301中,获取用户正在操作的目标文档的内容信息。
[0127]在步骤302中,根据预设解析规则,对内容信息进行解析。
[0128]在步骤303中,对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词。
[0129]在步骤304中,基于检索词进行检索。
[0130]在步骤305中,根据预设评价规则,对检索得到的文档进行评价处理。
[0131]其中,评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度。
[0132]例如,很多公共搜索引擎在检索到的文献下方会注明该文献被引用的次数,即被引用次数因子信息;评价规则还可以包括:用户查阅后的评价分数,即文档好评率信息;以及文献是否可以被打开,是否需要密码才能获取到,是否内容完整,内容中是否存在乱码等评价文档质量程度的信息。通过对检索到的文档进行上述评价处理,提高了参考文档的质量,使得用户可以获取到最为有效的参考文档,方便用户参考,节省用户时间,提升用户体验。
[0133]在步骤306中,根据评价处理结果对检索得到的参考文档进行优先级排序,以使参考文档具有优先级顺序。
[0134]根据评价处理结果,按照评价质量的高低对参考文档进行优先级排序,使价值高、质量好的参考文档可以优先被显示。
[0135]在步骤307中,将参考文档进行显示。
[0136]通过评价处理后,使得向用户显示的参考文档为根据评价处理结果对检索得到的文档进行优先级排序后的文档。
[0137]进一步地,步骤303,对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词之后,还可以包括:根据检索词在目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据检索词在目标文档中的权重值,对检索词进行优先级排序。相应的,步骤304,基于检索词进行检索,可以包括基于排序得到的检索词的优先级顺序进行检索。例如,目标文档中每个章节所关注的主题不同,则根据距离用户当前输入字符位置近的检索词优先进行检索可以得到与用户当前关注目标相符合的参考文档。
[0138]其中,权重值的确定可以基于TF-1DF技术,对检索词在目标文档中的重要程度进行解析,得到该检索词的重要程度权重值。
[0139]TF-1DF技术是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。利用该重要程度权重值对检索词进行拣选,可以提高获取到价值高的检索词的概率。
[0140]进一步地,步骤307中,将参考文档进行显示可以包括:将参考文档与目标文档位于同一显示窗口内显示,或者将参考文档与目标文档位于不同显示窗口内显示。
[0141 ] 进一步地,将参考文档与目标文档位于同一显示窗口内可以包括:将参考文档与目标文档分栏显示,参考文档可以位于该显示窗口的任意一侧;或者,将参考文档以浮窗形式覆盖显示于目标文档表面。以上多样化、灵活的显示方式,可以方便用户查看参考文档,且方便将参考文档与目标文档进行比对。
[0142]下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
[0143]图4是根据一示例性实施例示出的一种参考文档的推荐装置的框图,该参考文档的推荐装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该参考文档的推荐装置可以包括:
[0144]获取模块41,用于用于获取用户正在操作的目标文档的内容信息。
[0145]解析模块42,用于根据预设解析规则,对内容信息进行解析。
[0146]筛选模块43,用于对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词。
[0147]检索模块44,用于基于检索词进行检索,得到包含检索词的参考文档。
[0148]显示模块45,用于将参考文档进行显示。
[0149]综上所述,本实施例提供的参
考文档的推荐装置,
[0150]通过获取用户正在操作的目标文档的内容信息;并根据预设解析规则,对该内容信息进行解析;对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词;并基于检索词进行检索,得到包含检索词的参考文档;再将参考文档进行显示。实现了随时跟随用户撰写的文档,为其实时进行关键词检索服务,以提供匹配度高、精度高的参考文档,满足用户需求,提升用户体验。
[0151]图5是根据另一示例性实施例示出的一种参考文档的推荐装置的框图,该参考文档的推荐装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。基于上述装置实施例,
[0152]可选的,预设解析规则包括:标志内容提取规则、分词规则。
[0153]相应的,解析模块42,包括:
[0154]提取子模块421,用于根据标志内容提取规则,提取内容信息中的标志内容;标志内容包括以下至少一项:目标文档中指明的关键词、目标文档标题。
[0155]处理子模块422,用于根据分词规则对提取子模块提取标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。
[0156]可选的,关键信息包括:标志内容、词语片断;相应的,筛选模块43,包括:
[0157]删除子模块431,用于将各个词语片断中的不相关词语删除;不相关词语包括以下一种或多种:连接词语、单字词语、称谓词语。
[0158]排序子模块432,用于对删除子模块431删除处理后剩余的各个词语片断进行重复出现频度排序。
[0159]选择子模块433,用于根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断。
[0160]去重子模块434,用于在选择子模块433选出的词语片断中去除与标志内容一致的词语片断,得到筛选后的词语片断;筛选后的词语片断与标志内容构成检索词。
[0161]可选的,检索模块44,包括:
[0162]导入子模块441,用于将检索词导入搜索库。
[0163]第一检索子模块442,用于对导入子模块导入后的检索词进行检索,得到包含检索词的参考文档。搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。
[0164]可选的,该装置还包括:
[0165]评价模块46,用于根据预设评价规则,对检索得到的文档进行评价处理;评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度。
[0166]相应的,检索模块44包括:
[0167]排序子模块443,用于根据评价处理结果对检索得到的参考文档进行优先级排序,以使参考文档具有优先级顺序。
[0168]可选的,该装置还包括:
[0169]第一排序模块47,用于根据检索词在目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据检索词在目标文档中的权重值,对检索词进行优先级排序。
[0170]相应的,检索模块44,包括:
[0171]第二检索子模块444,用于基于第一排序模块47排序得到的检索词的优先级顺序进行检索。
[0172]可选的,该装置还包括:
[0173]主题获取模块48,用于对目标文档进行语义理解分析,获取目标文档的主题属性。
[0174]第二排序模块49,用于根据主题获取模块49获取到的主题属性对参考文档进行排序。
[0175]显示模块45包括:
[0176]第一显示子模块451,用于将与主题属性匹配度高的参考文档进行优先显示。
[0177]可选的,显示模块45包括:
[0178]第二显示子模块452,用于将参考文档与目标文档位于同一显示窗口内显示。
[0179]第三显示子模块453,用于将参考文档与目标文档位于不同显示窗口内显示。
[0180]可选的,第二显示子模块452包括:
[0181 ]分栏显示子模块4521,用于将参考文档与目标文档分栏显示;参考文档位于显示窗口的任意一侧。
[0182]浮窗显示子模块4522,用于将参考文档以浮窗形式覆盖显示于目标文档表面。
[0183]关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0184]图6是根据一示例性实施例示出的一种参考文档的推荐装置600的框图。例如,参考文档的推荐装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理,路由器,协调器等。
[0185]参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口 612,传感器组件614,以及通信组件616。
[0186]处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
[0187]存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0188]电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
[0189]多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0190]音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。[0191 ] I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0192]传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600—个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或C⑶图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0193]通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0194]在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0195]在示例性实施例中,
还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是R0M、随机存取存储器(RAM)、CD-R0M、磁带、软盘和光数据存储设备等。
[0196]—种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种参考文档的推荐方法,所述方法包括:
[0197]存储器604,用于存储处理器620的可执行指令;处理器620,用于获取用户正在操作的目标文档的内容信息;根据预设解析规则,对内容信息进行解析;对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词;基于检索词进行检索,得到包含检索词的参考文档;将参考文档进行显示。
[0198]应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
【主权项】
1.一种参考文档的推荐方法,其特征在于,包括: 获取用户正在操作的目标文档的内容信息; 根据预设解析规则,对所述内容信息进行解析; 对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词; 基于所述检索词进行检索,得到包含所述检索词的参考文档; 将所述参考文档进行显示。2.根据权利要求1所述的方法,其特征在于,所述预设解析规则包括:标志内容提取规则、分词规则;所述根据预设解析规则,对所述内容信息进行解析,包括: 根据所述标志内容提取规则,提取所述内容信息中的标志内容;所述标志内容包括以下至少一项:所述目标文档中指明的关键词、所述目标文档标题; 根据所述分词规则对提取所述标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。3.根据权利要求2所述的方法,其特征在于,所述关键信息包括:所述标志内容、所述词语片断;相应的,所述对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词包括: 将各个所述词语片断中的不相关词语删除;所述不相关词语包括以下一种或多种:连接词语、单字词语、称谓词语; 对删除处理后剩余的各个词语片断进行重复出现频度排序; 根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断,并在所述选出的词语片断中去除与所述标志内容一致的词语片断,得到筛选后的词语片断;所述筛选后的词语片断与所述标志内容构成所述检索词。4.根据权利要求1所述的方法,其特征在于,所述基于所述检索词进行检索,得到包含所述检索词的参考文档,包括: 将所述检索词导入搜索库中进行检索,得到包含所述检索词的参考文档;所述搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。5.根据权利要求1所述的方法,其特征在于,还包括:所述基于所述检索词进行检索之后, 根据预设评价规则,对检索得到的文档进行评价处理;所述评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度。 相应的,所述得到包含检索词的参考文档包括: 根据所述评价处理结果对检索得到的所述参考文档进行优先级排序,以使所述参考文档具有优先级顺序。6.根据权利要求1所述的方法,其特征在于,还包括:所述对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词之后, 根据所述检索词在所述目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据所述检索词在所述目标文档中的权重值,对所述检索词进行优先级排序; 相应的,所述基于所述检索词进行检索,包括: 基于排序得到的所述检索词的优先级顺序进行检索。7.根据权利要求1所述的方法,其特征在于,所述方法还包括: 对所述目标文档进行语义理解分析,获取所述目标文档的主题属性; 相应的,所述得到与所述目标文档相似的参考文档之后,还包括: 根据所述主题属性对所述参考文档进行排序,将与所述主题属性匹配度高的参考文档进tx优先显不。8.根据权利要求1所述的方法,其特征在于,所述将所述参考文档进行显示包括: 所述参考文档与所述目标文档位于同一显示窗口内显示,或者所述参考文档与所述目标文档位于不同显示窗口内显示。9.根据权利要求8所述的方法,其特征在于,所述参考文档与所述目标文档位于同一显示窗口内包括: 所述参考文档与所述目标文档分栏显示,所述参考文档位于所述显示窗口的任意一侧;或者,所述参考文档以浮窗形式覆盖显示于所述目标文档表面。10.一种参考文档的推荐装置,其特征在于,包括: 获取模块,用于获取用户正在操作的目标文档的内容信息; 解析模块,用于根据预设解析规则,对所述内容信息进行解析; 筛选模块,用于对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词; 检索模块,用于基于所述检索词进行检索,得到包含所述检索词的参考文档; 显示模块,用于将所述参考文档进行显示。11.根据权利要求10所述的装置,其特征在于,所述预设解析规则包括:标志内容提取规则、分词规则;相应的,所述解析模块,包括: 提取子模块,用于根据所述标志内容提取规则,提取所述内容信息中的标志内容;所述标志内容包括以下至少一项:所述目标文档中指明的关键词、所述目标文档标题; 处理子模块,用于根据所述分词规则对所述提取子模块提取所述标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。12.根据权利要求11所述的装置,其特征在于,所述关键信息包括:所述标志内容、所述词语片断;相应的,所述筛选模块,包括: 删除子模块,用于将各个所述词语片断中的不相关词语删除;所述不相关词语包括以下一种或多种:连接词语、单字词语、称谓词语; 排序子模块,用于对所述删除子模块删除处理后剩余的各个词语片断进行重复出现频度排序; 选择子模块,用于根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断; 去重子模块,用于在所述选择子模块选出的词语片断中去除与所述标志内容一致的词语片断,得到筛选后的词语片断;所述筛选后的词语片断与所述标志内容构成所述检索词。13.根据权利要求10所述的装置,其特征在于,所述检索模块,包括: 导入子模块,用于将所述检索词导入搜索库; 第一检索子模块,用于对所述导入子模块导入后的所述检索词进行检索,得到包含所述检索词的参考文档; 所述搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。14.根据权利要求10所述的装置,其特征在于,所述装置还包括: 评价模块,用于根据预设评价规则,对检索得到的文档进行评价处理;所述评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度; 相应的,所述检索模块包括: 排序子模块,用于根据所述评价处理结果对检索得到的所述参考文档进行优先级排序,以使所述参考文档具有优先级顺序。15.根据权利要求10所述的装置,其特征在于,所述装置还包括: 第一排序模块,用于根据所述检索词在所述目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据所述检索词在所述目标文档中的权重值,对所述检索词进行优先级排序; 相应的,所述检索模块,包括: 第二检索子模块,用于基于所述第一排序模块排序得到的所述检索词的优先级顺序进行检索。16.根据权利要求10所述的装置,其特征在于,所述装置还包括: 主题获取模块,用于对所述目标文档进行语义理解分析,获取所述目标文档的主题属性; 第二排序模块,用于根据所述主题获取模块获取到的所述主题属性对所述参考文档进tx排序; 所述显示模块包括: 第一显示子模块,用于将与所述主题属性匹配度高的参考文档进行优先显示。17.根据权利要求10所述的装置,其特征在于,所述显示模块包括: 第二显示子模块,用于将所述参考文档与所述目标文档位于同一显示窗口内显示; 第三显示子模块,用于将所述参考文档与所述目标文档位于不同显示窗口内显示。18.根据权利要求17所述的装置,其特征在于,所述第二显示子模块包括: 分栏显示子模块,用于将所述参考文档与所述目标文档分栏显示;所述参考文档位于所述显示窗口的任意一侧; 浮窗显示子模块,用于将所述参考文档以浮窗形式覆盖显示于所述目标文档表面。19.一种参考文档的推荐装置,其特征在于,包括: 处理器; 用于存储所述处理器的可执行指令的存储器; 其中,所述处理器用于获取用户正在操作的目标文档的内容信息;根据预设解析规则,对所述内容信息进行解析;对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词;基于所述检索词进行检索,得到包含所述检索词的参考文档;将所述参考文档进行显示。
【专利摘要】本公开是关于一种参考文档的推荐方法及装置,通过获取用户正在操作的目标文档的内容信息;并根据预设解析规则,对该内容信息进行解析;对解析后得到的关键信息进行筛选处理,以从关键信息中提取出检索词;并基于检索词进行检索,得到包含检索词的参考文档;再将参考文档进行显示。实现了随时跟随用户撰写的文档,为其实时进行关键词检索服务,以提供匹配度高、精度高的参考文档,满足用户需求,提升用户体验。
【IPC分类】G06F17/30
【公开号】CN105488151
【申请号】CN201510849040
【发明人】陈志军, 张涛, 汪平仄
【申请人】小米科技有限责任公司
【公开日】2016年4月13日
【申请日】2015年11月27日