对poi信息进行分类的方法和装置的制造方法

xiaoxiao2020-10-23  14

对poi信息进行分类的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,具体而言,本发明涉及一种对P0I信息进行分类的 方法和装置。
【背景技术】
[0002] 随着科技的发展和社会的进步,包括电子地图在内的地理信息服务以其方便快 捷、直观可视化的特点,日益受到网民的欢迎,并广泛应用于各个生活领域,同时,各行各业 对与位置相关的信息的获取需求愈来愈强烈,其中,与位置相关的信息可能包括某地址处 的宾馆、机场、餐馆、银行、商场、医院、公园、加油站等,此类与位置相关的地理实体信息称 为P0I信息。由于此类P0I信息将地理实体信息与地理位置信息相整合,因此能够给用户 带来极大的便捷。为了进一步提高用户查询P0I信息的效率,从而更好地帮助人们提高生 活效率及生活质量,需要对P0I位置信息进行分类。
[0003] 现有技术中一般通过提取P0I信息对应的网页中的文本内容,并基于文本内容与 预定关键字进行匹配来确定P0I信息的分类,即现有的P0I信息分类方式中需要对P0I信 息对应的网页的全文文本做切词,随后将切分后的大量切分片段逐一与预定关键字进行匹 配,如果匹配命中则该P0I信息属于预定关键字对应的分类。
[0004] 现有的P0I信息分类方式的缺点主要包括:一方面,由于网页文本内容通常比较 长,因此对网页文本进行切词的耗时较长,且切词后的得到的切分片段较多,使得关键字匹 配次数也相应较多,因此总体分类运行效率较低;另一方面,P0I信息对应的网页中的网页 文本并非所有内容都能够代表P0I信息的种类,即并非所有文本内容都与P0I信息相关,因 此传统分类方法中由于大量干扰信息的存在,使得分类准确率偏低。

【发明内容】

[0005] 为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
[0006] 本发明的实施例提出了一种对P0I信息进行分类的方法,包括:
[0007] 提取待分类P0I信息中的名称信息;
[0008] 从包括待分类P0I信息的源网页中提取主题相关信息;
[0009] 对名称信息及主题相关信息分别进行切词处理,获取多个切分片段;
[0010] 通过预定匹配方式将多个切分片段与分类关键词进行匹配;
[0011] 将最先匹配成功的切分片段对应的分类关键词指向的P0I分类,确定为待分类 P0I信息的所属分类。
[0012] 其中,对所述名称信息及所述主题相关信息分别进行切词处理,获取多个切分片 段的步骤,具体包括:
[0013] 以逆向切分方式对所述名称信息及所述主题相关信息分别进行切词处理,获取多 个切分片段。
[0014] 其中,通过预定匹配方式将所述多个切分片段与分类关键词进行匹配,具体包 括:
[0015] 统计所述多个切分片段在所述名称信息及所述主题相关信息中的词频,并基于词 频大小对多个切分片段进行排序;
[0016] 按照词频从高到低的顺序将所述多个切分片段分别与分类关键词进行匹配。
[0017] 其中,按照词频从高到低的顺序将所述多个切分片段分别与分类关键词进行匹配 的步骤,具体包括:
[0018] 当同一排序位置处对应多个切分片段时,将同一排序位置处的多个切分片段以其 在所述名称信息及所述主题相关信息中的逆向出现顺序依次与分类关键词进行匹配。
[0019] 其中,通过预定匹配方式将所述多个切分片段与分类关键词进行匹配,具体包 括:
[0020] 将基于所述名称信息切分得到的切分片段以其在所述名称信息中的逆向出现顺 序、将基于所述主题相关信息切分得到的切分片段以其在所述源网页中的逆向出现顺序, 依次与分类关键词进行匹配。
[0021] 其中,POI信息的所属分类包括至少一个等级;当包括多个等级时,上级分类包括 多个下级分类。
[0022] 其中,将最先匹配成功的切分片段对应的分类关键词指向的POI分类,确定为所 述待分类POI信息的所属分类的步骤,具体包括:
[0023] 当最先匹配成功的切分片段对应的分类关键词所在的POI分类为下级分类时,提 取该下级分类对应的上级分类;
[0024] 将上级分类及下级分类确定为所述待分类POI信息的所属分类。
[0025] 其中,所述主题相关信息包括以下至少任一项:
[0026] 标题信息;网页位置信息。
[0027] 本发明的实施例还提出了一种对POI信息进行分类的装置,包括:
[0028] 第一提取模块,用于提取待分类POI信息中的名称信息;
[0029] 第二提取模块,用于从包括待分类POI信息的源网页中提取主题相关信息;
[0030] 切词模块,用于对名称信息及主题相关信息分别进行切词处理,获取多个切分片 段;
[0031] 匹配模块,用于通过预定匹配方式将多个切分片段与分类关键词进行匹配;
[0032] 分类确定模块,用于将最先匹配成功的切分片段对应的分类关键词指向的POI分 类,确定为待分类POI信息的所属分类。
[0033] 其中,所述匹配模块具体包括:
[0034] 词频统计单元,用于统计所述多个切分片段在所述名称信息及所述主题相关信息 中的词频,并基于词频大小对多个切分片段进行排序;
[0035] 关键词匹配单元,按照词频从高到低的顺序将所述多个切分片段分别与分类关键 词进行匹配。
[0036] 其中,当同一排序位置处对应多个切分片段时,所述关键词匹配单元具体用于将 同一排序位置处的多个切分片段以其在所述名称信息及所述主题相关信息中的逆向出现 顺序依次与分类关键词进行匹配。
[0037] 其中,所述匹配模块具体用于将基于所述名称信息切分得到的切分片段以其在所 述名称信息中的逆向出现顺序、将基于所述主题相关信息切分得到的切分片段以其在所述 源网页中的逆向出现顺序,依次与分类关键词进行匹配。
[0038] 其中,POI信息的所属分类包括至少一个等级;当包括多个等级时,上级分类包括 多个下级分类。
[0039] 其中,所述分类确定模块具体包括:
[0040] 分类提取单元,用于当最先匹配成功的切分片段对应的分类关键词所在的POI分 类为下级分类时,提取该下级分类对应的上级分类;
[0041] 分类确定单元,用于将上级分类及下级分类确定为所述待分类POI信息的所属分 类。
[0042] 其中,所述主题相关信息包括以下至少任一项:
[0043] 标题信息;网页位置信息。
[0044] 本方案的实施例中,通过对待分类POI信息的名称信息及包括待分类POI信息的 源网页中的主题相关信息进行切词处理,可降低切词所需时间;随后将切词得到的切分片 段进行关键词匹配,由于切词后的得到的切分片段较少,因此后续进行关键字匹配的匹配 次数也相应减少,提高了POI信息分类过程的运行时间;同时,由于名称信息及源网页中的 主题相关信息与POI信息具有高相关性,使得基于名称信息及源网页中的主题相关信息来 确定的分类准确性较高,从整体上提高了POI信息分类的效率。
[0045] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0046] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变 得明显和容易理解,其中:
[0047] 图1为本发明中对POI信息进行分类的方法一个实施例的流程图;
[0048] 图2为本发明中对POI信息进行分类的装置一个实施例的结构示意图。
【具体实施方式】
[0049] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发 明的限制。
[0050] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式"一"、"一 个"、"所述"和"该"也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措 辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加 一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元 件被"连接"或"耦接"到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在 中间元件。此外,这里使用的"连接"或"耦接"可以包括无线连接或无线耦接。这里使用 的措辞"和/或"包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0051] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术 术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应 该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中 的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含 义来解释。
[0052] 图1为本发明中对POI信息进行分类的方法一个实施例的流程图。
[0053] 步骤S110:提取待分类POI信息中的名称信息;步骤S120:从包括待分类POI信 息的源网页中提取主题相关信息;步骤S130 :对名称信息及主题相关信息分别进行切词处 理,获取多个切分片段;步骤S140 :通过预定匹配方式将多个切分片段与分类关键词进行 匹配;步骤S150 :将最先匹配成功的切分片段对应的分类关键词指向的POI分类,确定为待 分类POI信息的所属分类。
[0054] 本方案的实施例中,通过对待分类POI信息的名称信息及包括待分类POI信息的 源网页中的主题相关信息进行切词处理,可降低切词所需时间;随后将切词得到的切分片 段进行关键词匹配,由于切词后的得到的切分片段较少,因此后续进行关键字匹配的匹配 次数也相应减少,提高了POI信息分类过程的运行时间;同时,由于名称信息及源网页中的 主题相关信息与POI信息具有高相关性,使得基于名称信息及源网页中的主题相关信息来 确定的分类准确性较高,从整体上提高了POI信息分类的效率。
[0055] 步骤S110 :提取待分类POI信息中的名称信息。
[0056] 其中,POI信息中包括但不限于名称信息、地址信息、经炜度、联系方式及包括该 POI信息的源网页对应的URL。
[0057] 例如,一条待分类POI信息为"陕西西安灞桥席王新寺路569号第四军医大学唐都 医院",基于预先标记的名称标识或基于字符串匹配等方式,从该条待分类P0I信息中提取 名称信息为"第四军医大学唐都医院"。
[0058] 步骤S120 :从包括待分类P0I信息的源网页中提取主题相关信息。
[0059] 其中,主题相关信息包括但不限于:标题信息;网页位置信息;标题信息即网页的 标记语言文件中的"title"内容;网页位置信息为网页的标记语言文件中说明网页位置的 块,如在HTML文件中,可通过预定的class属性所规定的元素的类名来确定。
[0060] 例如,待分类P0I信息的源网页URL为http://www.ganji.com/ gongsi/22177311/,读取该URL对应网页的HTML文件,基于"〈title〉"及"〈/title〉"标签 定位标题信息,如HTML文件中与"〈title〉"相关内容为:
[0061] 〈title〉【2015年第四军医大学唐都医院最新招聘信息_电话_地址】-赶集网 </title> ;
[0062] 提取"〈title〉"及"〈/title〉"之间的文本内容"【2015年第四军医大学唐都医院 最新招聘信息_电话_地址】-赶集网"作为标题信息;同时,基于"<div>"及"</div>"标 签及关键词"名录"定位说明网页位置的块:
[0063]<divclass="crumbsclearfix">〈ahref= "http://www.ganji.com/gongsi/,赶集企业名录 </a>&gt;〈ahref= "http:"xa.ganji.com/gongsi/"> 西安企 业名录</a>&gt;〈hl>第四军医大学唐都医院〈/hlX/div> ;
[0064] 提取其中的内容"赶集企业名录〉西安企业名录〉第四军医大学唐都医院"作为 网页位置信息,即对于待分类P0I信息的源网页如表1所示:
[0065]表1:
[0067] 步骤S130 :对名称信息及主题相关信息分别进行切词处理,获取多个切分片段。
[0068] 具体地,以逆向切分方式对名称信息及主题相关信息分别进行切词处理,获取多 个切分片段。其中,逆向切分方式包括最大逆向匹配法、最小逆向匹配法等。
[0069] 例如,接上例,对名称信息、标题信息及网页位置信息进行切词处理,切词后获取 多个切分片段如表2所示:
[0070]表2
[0072] 步骤S140 :通过预定匹配方式将多个切分片段与分类关键词进行匹配。
[0073] 具体地,参照图1,步骤S140包括步骤S141(图中未示出)和步骤S142(图中未示 出);步骤S141 :统计多个切分片段在名称信息及主题相关信息中的词频,并基于词频大小 对多个切分片段进行排序;步骤S142 :按照词频从高到低的顺序将多个切分片段分别与分 类关键词进行匹配。
[0074] 优选地,当同一排序位置处对应多个切分片段时,将同一排序位置处的多个切分 片段以其在名称信息及主题相关信息中的逆向出现顺序依次与分类关键词进行匹配。
[0075] 例如,接上例,统计切词后的多个切分片段在名称信息、标题信息及网页位置信息 中的词频,并基于词频从大到小的顺序对多个切分片段进行排序;下表3中示出了词频大 于2的切分片段的排序情况:
[0076]表3

[0078] 其中,排序最高的词频为3的切分片段包括5个:第四、军医、大学、唐都、医院;将 排序最高的5个切分片段以其在名称信息、标题信息及网页位置信息中的逆向出现顺序依 次与分类关键词进行匹配,即首先使用切分片段"医院"与分类关键词进行匹配。
[0079] 步骤S150 :将最先匹配成功的切分片段对应的分类关键词指向的POI分类,确定 为待分类POI信息的所属分类。
[0080] 例如,接上例,若使用切分片段"医院"与分类关键词"医院"匹配成功时,确定待分 类POI信息的所属分类为"医院";若使用"医院"匹配不成功,则继续以排序最高的切分片 段以其在名称信息及主题相关信息中的逆向出现顺序依次进行匹配,即使用"唐都"进行匹 配,直至将最先匹配成功的切分片段对应的分类关键词指向的POI分类,确定为待分类POI 信息的所属分类。
[0081] 在一个优选实施例中,步骤S140 :将基于名称信息切分得到的切分片段以其在名 称信息中的逆向出现顺序、将基于主题相关信息切分得到的切分片段以其在源网页中的逆 向出现顺序,依次与分类关键词进行匹配。
[0082] 具体地,将基于名称信息切分得到的切分片段以其在名称信息中的逆向出现顺 序、将基于网页位置信息切分得到的切分片段以其在网页位置信息中的逆向出现顺序、将 基于标题信息切分得到的切分片段以其在标题信息中的逆向出现顺序,依次与分类关键词 进行匹配。
[0083] 例如,对待分类POI信息的名称信息、相应源网页的网页位置信息及标题信息进 行切词处理,获取如表2中所示的多个切分片段;首先,将基于名称信息切分得到的切分片 段以其在名称信息中的逆向出现顺序与分类关键词进行匹配,即使用切分片段"医院"与分 类关键词进行关键字匹配,若与分类关键词"医院"匹配成功,则该待分类POI信息对应的 POI分类为"大学";若"医院"未匹配成功,则逆序依次与名称信息切词后 的切分片段进行 关键词匹配,若均未匹配成功,则使用网页位置信息切词后的切分片段逆序进行匹配,若匹 配成功,则确定POI分类;若未匹配成功,则继续使用标题信息切词后的切分片段逆序进行 关键字匹配,若匹配成功,则确定POI分类。
[0084] 优选地,POI信息的所属分类包括至少一个等级;当包括多个等级时,上级分类包 括多个下级分类。
[0085]更优选地(参照图1),步骤S150包括步骤S151(图中未示出)和步骤S152(图中 未示出);步骤S151 :当最先匹配成功的切分片段对应的分类关键词所在的POI分类为下 级分类时,提取该下级分类对应的上级分类;步骤S152 :将上级分类及下级分类确定为待 分类POI信息的所属分类。
[0086] 例如,POI信息所属分类包括两个等级,上级分类为"医疗",其包括的下级分类包 括"医院"、"诊所"、"药店"、"急救中心"等。接前例,最先匹配成功的切分片段对应的分类关 键词"医院"所在的POI分类为下级分类,提取该下级分类"医院"对应的上级分类"医疗"; 将上级分类及下级分类确定为待分类POI信息的所属分类,即该待分类POI信息的所属分 类为"医疗-医院"。
[0087] 图2为本发明中对POI信息进行分类的装置一个实施例的结构示意图。
[0088] 第一提取模块210提取待分类POI信息中的名称信息;第二提取模块220从包括 待分类POI信息的源网页中提取主题相关信息;切词模块230对名称信息及主题相关信息 分别进行切词处理,获取多个切分片段;匹配模块240通过预定匹配方式将多个切分片段 与分类关键词进行匹配;分类确定模块250将最先匹配成功的切分片段对应的分类关键词 指向的POI分类,确定为待分类POI信息的所属分类。
[0089] 本方案的实施例中,通过对待分类POI信息的名称信息及包括待分类POI信息的 源网页中的主题相关信息进行切词处理,可降低切词所需时间;随后将切词得到的切分片 段进行关键词匹配,由于切词后的得到的切分片段较少,因此后续进行关键字匹配的匹配 次数也相应减少,提高了POI信息分类过程的运行时间;同时,由于名称信息及源网页中的 主题相关信息与POI信息具有高相关性,使得基于名称信息及源网页中的主题相关信息来 确定的分类准确性较高,从整体上提高了POI信息分类的效率。
[0090] 第一提取模块210提取待分类POI信息中的名称信息。
[0091] 其中,POI信息中包括但不限于名称信息、地址信息、经炜度、联系方式及包括该 POI信息的源网页对应的URL。
[0092] 例如,一条待分类POI信息为"陕西西安灞桥席王新寺路569号第四军医大学唐都 医院",基于预先标记的名称标识或基于字符串匹配等方式,从该条待分类P0I信息中提取 名称信息为"第四军医大学唐都医院"。
[0093] 第二提取模块220从包括待分类P0I信息的源网页中提取主题相关信息。
[0094] 其中,主题相关信息包括但不限于:标题信息;网页位置信息;标题信息即网页的 标记语言文件中的"title"内容;网页位置信息为网页的标记语言文件中说明网页位置的 块,如在HTML文件中,可通过预定的class属性所规定的元素的类名来确定。
[0095] 例如,待分类P0I信息的源网页URL为http://www.ganji.com/ gongsi/22177311/,读取该URL对应网页的HTML文件,基于"〈title〉"及"〈/title〉"标签 定位标题信息,如HTML文件中与"〈title〉"相关内容为:
[0096] 〈title〉【2015年第四军医大学唐都医院最新招聘信息_电话_地址】-赶集网 </title> ;
[0097] 提取"〈title〉"及"〈/title〉"之间的文本内容"【2015年第四军医大学唐都医院 最新招聘信息_电话_地址】-赶集网"作为标题信息;同时,基于"<div>"及"</div>"标 签及关键词"名录"定位说明网页位置的块:
[0098] <divclass="crumbsclearfix">〈ahref= "http://www.ganji.com/gongsi/,赶集企业名录 </a>&gt;〈ahref= "http:"xa.ganji.com/gongsi/"> 西安企 业名录</a>&gt;〈hl>第四军医大学唐都医院〈/hlX/div> ;
[0099] 提取其中的内容"赶集企业名录〉西安企业名录〉第四军医大学唐都医院"作为 网页位置信息,即对于待分类P0I信息的源网页如表1所示:
[0100]表1:
[0102] 切词模块230对名称信息及主题相关信息分别进行切词处理,获取多个切分片 段。
[0103] 具体地,以逆向切分方式对名称信息及主题相关信息分别进行切词处理,获取多 个切分片段。其中,逆向切分方式包括最大逆向匹配法、最小逆向匹配法等。
[0104] 例如,接上例,对名称信息、标题信息及网页位置信息进行切词处理,切词后获取 多个切分片段如表2所示:
[0105] 表 2
[0107] 匹配模块240通过预定匹配方式将多个切分片段与分类关键词进行匹配。
[0108] 具体地,参照图2,匹配模块240包括词频统计单元(图中未示出)和关键词匹配 单元(图中未示出);词频统计单元统计多个切分片段在名称信息及主题相关信息中的词 频,并基于词频大小对多个切分片段进行排序;关键词匹配单元按照词频从高到低的顺序 将多个切分片段分别与分类关键词进行匹配。
[0109] 优选地,当同一排序位置处对应多个切分片段时,将同一排序位置处的多个切分 片段以其在名称信息及主题相关信息中的逆向出现顺序依次与分类关键词进行匹配。
[0110] 例如,接上例,统计切词后的多个切分片段在名称信息、标题信息及网页位置信息 中的词频,并基于词频从大到小的顺序对多个切分片段进行排序;下表3中示出了词频大 于2的切分片段的排序情况:
[0111] 表 3

[0113] 其中,排序最高的词频为3的切分片段包括5个:第四、军医、大学、唐都、医院;将 排序最高的5个切分片段以其在名称信息、标题信息及网页位置信息中的逆向出现顺序依 次与分类关键词进行匹配,即首先使用切分片段"医院"与分类关键词进行匹配。
[0114] 分类确定模块250将最先匹配成功的切分片段对应的分类关键词指向的POI分 类,确定为待分类POI信息的所属分类。
[0115] 例如,接上例,若使用切分片段"医院"与分类关键词"医院"匹配成功时,确定待分 类POI信息的所属分类为"医院";若使用"医院"匹配不成功,则继续以排序最高的切分片 段以其在名称信息及主题相关信息中的逆向出现顺序依次进行匹配,即使用"唐都"进行匹 配,直至将最先匹配成功的切分片段对应的分类关键词指向的POI分类,确定为待分类POI 信息的所属分类。
[0116] 在一个优选实施例中,匹配模块240将基于名称信息切分得到的切分片段以其在 名称信息中的逆向出现顺序、将基于主题相关信息切分得到的切分片段以其在源网页中的 逆向出现顺序,依次与分类关键词进行匹配。
[0117] 具体地,将基于名称信息切分得到的切分片段以其在名称信息中的逆向出现顺 序、将基于网页位置信息切分得到的切分片段以其在网页位置信息中的逆向出现顺序、将 基于标题信息切分得到的切分片段以其在标题信息中的逆向出现顺序,依次与分类关键词 进行匹配。
[0118] 例如,对待分类POI信息的名称信息、相应源网页的网页位置信息及标题信息进 行切词处理,获取如表2中所示的多个切分片段;首先,将基于名称信息切分得到的切分片 段以其在名称信息中的逆向出现顺序与分类关键词进行匹配,即使用切分片段"医院"与分 类关键词进行关键字匹配,若与分类关键词"医院"匹配成 功,则该待分类POI信息对应的 POI分类为"大学";若"医院"未匹配成功,则逆序依次与名称信息切词后的切分片段进行 关键词匹配,若均未匹配成功,则使用网页位置信息切词后的切分片段逆序进行匹配,若匹 配成功,则确定POI分类;若未匹配成功,则继续使用标题信息切词后的切分片段逆序进行 关键字匹配,若匹配成功,则确定POI分类。
[0119] 优选地,POI信息的所属分类包括至少一个等级;当包括多个等级时,上级分类包 括多个下级分类。
[0120]更优选地(参照图2),分类确定模块250包括分类提取单元(图中未示出)和分 类确定单元(图中未示出);分类提取单元当最先匹配成功的切分片段对应的分类关键词 所在的POI分类为下级分类时,提取该下级分类对应的上级分类;分类确定单元将上级分 类及下级分类确定为待分类POI信息的所属分类。
[0121] 例如,POI信息所属分类包括两个等级,上级分类为"医疗",其包括的下级分类包 括"医院"、"诊所"、"药店"、"急救中心"等。接前例,最先匹配成功的切分片段对应的分类关 键词"医院"所在的P0I分类为下级分类,提取该下级分类"医院"对应的上级分类"医疗"; 将上级分类及下级分类确定为待分类P0I信息的所属分类,即该待分类P0I信息的所属分 类为"医疗-医院"。
[0122] 本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的 一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用 计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地 激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储 在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但 不限于任何类型的盘(包括软盘、硬盘、光盘、⑶-ROM、和磁光盘)、R0M(Read-OnlyMemory, 只读存储器)、RAM(RandomAccessMemory,随即存储器)、EPROM(ErasableProgrammable Read-OnlyMemory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasable ProgrammableRead-OnlyMemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡 片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何 介质。
[0123] 本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或 框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术 领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其 他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处 理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
[0124] 本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的 步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各 种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。 进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案 也可以被交替、更改、重排、分解、组合或删除。
[0125] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
【主权项】
1. 一种对POI信息进行分类的方法,其特征在于,包括: 提取待分类POI信息中的名称信息; 从包括所述待分类POI信息的源网页中提取主题相关信息; 对所述名称信息及所述主题相关信息分别进行切词处理,获取多个切分片段; 通过预定匹配方式将所述多个切分片段与分类关键词进行匹配; 将最先匹配成功的切分片段对应的分类关键词指向的POI分类,确定为所述待分类POI信息的所属分类。2. 根据权利要求1所述的对POI信息进行分类的方法,其中,对所述名称信息及所述主 题相关信息分别进行切词处理,获取多个切分片段的步骤,具体包括: 以逆向切分方式对所述名称信息及所述主题相关信息分别进行切词处理,获取多个切 分片段。3. 根据权利要求1或2所述的对POI信息进行分类的方法,其中,通过预定匹配方式将 所述多个切分片段与分类关键词进行匹配,具体包括: 统计所述多个切分片段在所述名称信息及所述主题相关信息中的词频,并基于词频大 小对多个切分片段进行排序; 按照词频从高到低的顺序将所述多个切分片段分别与分类关键词进行匹配。4. 根据权利要求1-3任一项所述的对POI信息进行分类的方法,其中,按照词频从高到 低的顺序将所述多个切分片段分别与分类关键词进行匹配的步骤,具体包括: 当同一排序位置处对应多个切分片段时,将同一排序位置处的多个切分片段以其在所 述名称信息及所述主题相关信息中的逆向出现顺序依次与分类关键词进行匹配。5. 根据权利要求1-4任一项所述的对POI信息进行分类的方法,其中,通过预定匹配方 式将所述多个切分片段与分类关键词进行匹配,具体包括: 将基于所述名称信息切分得到的切分片段以其在所述名称信息中的逆向出现顺序、将 基于所述主题相关信息切分得到的切分片段以其在所述源网页中的逆向出现顺序,依次与 分类关键词进行匹配。6. 根据权利要求1-5任一项所述的对POI信息进行分类的方法,其中,POI信息的所属 分类包括至少一个等级;当包括多个等级时,上级分类包括多个下级分类。7. 根据权利要求1-6任一项所述的对POI信息进行分类的方法,其中,将最先匹配成功 的切分片段对应的分类关键词指向的POI分类,确定为所述待分类POI信息的所属分类的 步骤,具体包括: 当最先匹配成功的切分片段对应的分类关键词所在的POI分类为下级分类时,提取该 下级分类对应的上级分类; 将上级分类及下级分类确定为所述待分类POI信息的所属分类。8. 根据权利要求1-7任一项所述的对POI信息进行分类的方法,其中,所述主题相关信 息包括以下至少任一项: 标题信息;网页位置信息。9.一种对POI信息进行分类的装置,其特征在于,包括: 第一提取模块,用于提取待分类POI信息中的名称信息; 第二提取模块,用于从包括所述待分类POI信息的源网页中提取主题相关信息; 切词模块,用于对所述名称信息及所述主题相关信息分别进行切词处理,获取多个切 分片段; 匹配模块,用于通过预定匹配方式将所述多个切分片段与分类关键词进行匹配; 分类确定模块,用于将最先匹配成功的切分片段对应的分类关键词指向的POI分类, 确定为所述待分类POI信息的所属分类。10.根据权利要求9所述对POI信息进行分类的装置,其中,所述切词模块具体用于 以逆向切分方式对所述名称信息及所述主题相关信息分别进行切词处理,获取多个切分片 段。
【专利摘要】本发明提供了一种对POI信息进行分类的方法,包括:提取待分类POI信息中的名称信息;从包括待分类POI信息的源网页中提取主题相关信息;对名称信息及主题相关信息分别进行切词处理,获取多个切分片段;通过预定匹配方式将多个切分片段与分类关键词进行匹配;将最先匹配成功的切分片段对应的分类关键词指向的POI分类,确定为待分类POI信息的所属分类。本发明的实施例中可降低切词所需时间,且相应减少关键字匹配的匹配次数,从而提高了POI信息分类过程的运行时间;同时,由于名称信息及源网页中的主题相关信息与POI信息具有高相关性,使得基于名称信息及源网页中的主题相关信息来确定的分类准确性较高,从整体上提高了POI信息分类的效率。
【IPC分类】G06F17/30
【公开号】CN104899339
【申请号】CN201510380019
【发明人】郑燕琴
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2015年9月9日
【申请日】2015年7月1日

最新回复(0)