关联数据生成装置和关联数据生成方法

xiaoxiao2020-10-23  18

关联数据生成装置和关联数据生成方法
【技术领域】
[0001] 本发明涉及关联数据生成装置、关联数据生成方法及程序。
【背景技术】
[0002] 专利文献1中记载了一种特征词自动学习系统,其为自动地学习对应各商品类别 的特征词的系统,并具备:将类别名作为查询(query)通过搜索引擎取得最大1000条Web 文本的单元;从将上述类别名作为查询而获得的最大1000条Web文本提取特征词候选的单 元;计算所提取的特征词候选与类别的相关度的单元;对于各类别将上述相关度比规定阈 值高的特征词候补作为对应该类别的特征词进行关联并存储的特征词数据库。
[0003] 现有技术文献
[0004] 专利文献
[0005] 专利文献1 :日本特开2010-9307号公报

【发明内容】

[0006] 发明要解决的课题
[0007] 专利文献1的系统将基于当前发布的Web文本来确定的特征词存储在特征词数据 库中。因此,不能够也考虑在过去的时间发布的Web文本中所含的特征词候补来生成特征 词数据库。
[0008] 因此,本发明以提供能够生成关联数据的关联数据生成装置为目的,其中该关联 数据包含与规定的关键词具有高关联性、并且新鲜度更高的关联词。
[0009] 为了解决上述问题,本发明的关联数据生成装置包括:用于生成共现词数据的共 现词数据生成部,所述共现词数据保存了在相互不同的多个期间中已发布的发布数据中 的、作为在全部期间的发布数据中与规定的关键词一起被使用的词汇的共现词和该共现词 的出现频率;和关联数据生成部,其用于在所述共现词的出现频率在时间上的变动比第一 阈值小并且出现频率比第二阈值高的情况下,生成作为普通关联词保存了该共现词的关联 数据。
[0010] 发明效果
[0011] 通过本发明的关联数据生成装置,能够生成包含与规定的关键词具有高关联性、 新鲜度更高的关联词的关联数据。
[0012] 此外,上述之外的课题、结构和效果通过以下实施方式可得以明了。
【附图说明】
[0013] 图1是表示包含本发明的一种实施方式的关联数据生成装置的关联数据生成系 统的概要结构的一个例子的图。
[0014] 图2是表示本发明的一种实施方式的关联数据生成装置的硬件结构的一个例子 的图。
[0015] 图3是表示本发明的一种实施方式的关联数据生成装置的功能结构的一个例子 的功能模块图。
[0016] 图4是表示本发明的一种实施方式的发布数据的一个例子的图。
[0017] 图5是表示本发明的一种实施方式的POI数据的一个例子的图。
[0018] 图6是表示本发明的一种实施方式的共现词数据和期间别共现词数据的一个例 子的图。
[0019] 图7是表示本发明的一种实施方式的关联数据的一个例子的图。
[0020] 图8是表示本发明的一种实施方式的关联数据生成处理的流程的流程图。
[0021] 图9是表示本发明的一种实施方式的步骤S008的处理之一的流程的流程图。
[0022] 图10是表示本发明的一种实施方式的步骤S008的处理之二的流程的流程图。
[0023] 图11是表示本发明的一种实施方式的关联数据生成装置的显示画面的一个例子 的图。
[0024] 图12是表示本发明的其它实施方式(第二实施方式)的关联数据生成处理的流 程的流程图。
[0025] 图13是表示本发明的其它实施方式(第二实施方式)的利用关键词别共现词数 据700所生成的共现词数据710的图。
[0026] 图14是表示本发明的其它实施方式(第二实施方式)的步骤S060的处理的流程 的流程图。
[0027] 图15是表示本发明的其它实施方式(第二实施方式)的关联数据生成装置的显 示画面的一个例子的图。
[0028] 图16是表示本发明的其它实施方式(第三实施方式)的趋势度数据的一个例子 的图。
[0029] 图17是表示本发明的其它实施方式(第三实施方式)的趋势度计算处理的流程 的流程图。
[0030] 图18是表示本发明的其它实施方式(第三实施方式)的一致度计算处理(步骤 S087的处理)的流程的流程图。
[0031] 图19是表示本发明的其它实施方式(第三实施方式)的一致度计算处理(步骤 S088的处理)的流程的流程图。
[0032] 图20是表示本发明的其它实施方式(第三实施方式)的显示有表示趋势度的图 标的显不画面的一个例子的图。
【具体实施方式】
[0033] 以下针对本发明的一种实施方式的关联数据生成装置进行说明。
[0034] 〈第一实施方式〉
[0035] 图1是表示包含本实施方式的关联数据生成装置100的关联数据生成系统的 概要结构的一个例子的图。关联数据生成系统具有关联数据生成装置1〇〇、SNS(Social NetworkingService,社会网络服务)服务器1000、和用户终端2000。
[0036] 关联数据生成装置100为利用从SNS服务器1000取得的发布数据,来生成将 在发布数据中与规定的关键词一起被使用的共现词作为关联词被保存的关联数据的装 置。此外,在本实施方式中,作为基于关联数据生成装置100的处理的一个例子,针对将POI(PointofInterest,兴趣点)的名称作为关键词的关联数据的生成进行说明。
[0037] SNS服务器1000例如为具有用于向用户(发布者)提供社会网络服务(SNS)的 各种功能的装置。SNS服务器1000将从用户终端2000取得的发布数据保存在服务器1000 内的存储装置中。此外,关联数据生成系统中,这样的SNS服务器1000、关联数据生成装置 100和用户终端2000通过互联网或专用线路等规定网络N可通信地相互连接。
[0038] 图2是表示关联数据生成装置100的硬件结构的一个例子的图。关联数据生成装 置1〇〇具有运算处理装置1、存储装置2、通信装置3、输入装置4、和显示装置5。此外,关联 数据生成装置100通过通信装置3与SNS服务器1000等外部装置可通信地连接。
[0039] 运算处理装置1为进行关联数据生成装置100的各种处理的中央单元。具体地,运 算处理装置1通过通信装置3从SNS服务器1000取得规定期间内发布的发布数据。此外, 运算处理装置1利用发布数据确定在发布数据内与规定的关键词一起被使用的共现词。
[0040] 此外,运算处理装置1进行是否将所确定的共现词作为关联词和关联词的相似词 保存到关联数据中的判定处理。此外,运算处理装置1根据判定处理的结果生成和更新关 联数据。
[0041] 并且,运算处理装置1包括:执行数值运算、各装置和传感器的控制等各种处理 的CPU(CentralProcessingUnit,中央处理器)6、暂时保存程序、数据、运算结果等的 RAM(RandomAccessMemory,随机访问存储器)7、保存程序和数据等的R0M(ReadOnly Memory,只读存储器)8。并且,CPU6、RAM7、ROM8通过总线9相互连接。
[0042] 存储装置2保存关联数据生成装置100进行处理所使用的各种信息。具体地,存 储装置2保存发布数据200、P0I数据300、共现词数据410、共现词数据710、期间别共现词 数据400、关键词别共现词数据700、关联数据500、和趋势度数据900。
[0043] 通信装置3为与外部装置(例如SNS服务器1000)之间进行通信的装置。
[0044] 输入装置4为用于从关联数据生成装置100的管理者等接收指令输入的装置,为 键盘、鼠标和触摸屏等。
[0045] 显示装置5为用于显示关联数据生成装置100的输出信息的装置,为液晶显示器 等。
[0046] 以上针对关联数据生成装置100的硬件结构进行了说明。
[0047] 接着针对关联数据生成装置100的功能模块进行说明。图3是表示关联数据生成 装置100的功能结构的一个例子的功能模块图。此外,关联数据生成装置100的功能模块 通过执行由安装在运算处理装置1中的CPU6所读入的规定程序来实现。因此,ROM8和 存储装置2中存储有用于执行各功能部的处理的程序。
[0048] 此外,为了易于理解本实施方式中实现的关联数据生成装置100的功能,关联数 据生成装置100的功能模块根据主要的处理内容来分类。此外,本发明并不被各功能的分 类方式及其名称所限制。此外,关联数据生成装置100的各结构可根据处理内容分类成更 多的构成要件。此外,也能够以使一个构成要件执行更多处理的方式来分类。
[0049] 此外,关联数据生成装置100的功能部可通过硬件(ASIC等)实现。并且,各功能 部的处理可由一个硬件执行,也可由多个硬件执行。
[0050] 关联数据生成装置100包括运算部10、存储部20、通信部40。此外,运算部10包 括发布数据取得部11、共现词数据生成部12、关联数据生成部13、显示信息生成部15。此 外,对于趋势度数据生成部14在后述的第三实施方式进行说明。此外,运算部10可通过运 算处理装置1实现。
[0051] 发布数据取得部11为例如从SNS服务器1000等取得用户的发布数据200的功能 部。具体地,发布数据取得部11通过API(ApplicationProgrammingInterface,应用程序 接口)或爬虫(crawling)等方法从SNS服务器1000等定期地(例如一周一次)取得发布 数据200。此外,发布数据取得部11将所取得的发布数据200保存在存储部20中。
[0052] 共现词数据生成部12为生成共现词数据的功能部。具体地,共现词数据生成部12 确定规定的关键词和在发布数据200中与关键词一起被使用的共现词。此外,共现词数据 生成部12生成保存有已确定的共现词的共现词数据。
[0053] 关联数据生成部13为生成和更新关联数据500的功能部。具体地,关联数据生成 部13进行是否将保存在共现词数据中的共现词保存到关联数据500的普通关联词字符串 栏或关联词相似名字符串栏中的判定处理。此外,关联数据生成部13计算普通关联词和关 联词相似名的得分。此外,关联数据生成部13生成将普通关联词字符串、关联词相似名字 符串和它们的得分与关键词相关联地保存的关联数据500。
[0054] 显示信息生成部15为生成在显示装置5或用户终端2000的显示器中显示的显示 信息的功能部。具体地,显示信息生成部15生成包含是否将共现词作为普通关联词字符串 或关联词相似名字符串保存到关联数据500中的确认消息的显示信息。
[0055] 此外,存储部20用于保存由发布数据取得部11取得的发布数据200、作为预先保 存在存储部20中的主数据(masterdata)的P0I数据300、由共现词数据生成部12生成的 共现词数据410和期间别共现词数据400、由关联数 据生成部13生成的关联数据500。此 外,对于关键词别共现词数据700在后述的第二实施方式中说明。此外,对于由趋势度数据 生成部14生成的趋势度数据900在后述的第三实施方式进行说明。
[0056] 图4是表示发布数据200的一个例子的图。保存在SNS服务器1000中的发布数 据200通过关联数据生成装置100定期地(例如一周一次)取得,并保存在关联数据生成 装置100的存储装置2中。发布数据200为包含用户的发布内容的数据。具体地,发布数 据200具有关联了时间栏201、发布者ID栏202、发布正文栏203的记录。
[0057] 时间栏201中保存的信息为确定SNS服务器1000接收到发布数据200的日期和 时间的信息。发布者ID栏202中保存的信息为各种SNS中分配给每个用户的ID,是唯一地 确定用户的信息。发布正文栏203中保存的信息为表示发布内容的字符串信息。此外,发 布数据200用于关联数据生成处理。关联数据生成处理的详细内容在后面说明。
[0058] 图5是表示P0I数据300的一个例子的图。P0I数据300为预先保存在存储装置2 中的主数据。P0I数据300为包含作为感兴趣或关注的对象的规定设施的设施名或住址等 的信息。此外,由于感兴趣或关注的对象因用户层而异,P0I数据300中包含各种类别(例 如饮食店、娱乐设施、公园等)的设施信息。具体地,P0I数据300包括POIID栏301、P0I 名称栏302、类别栏303、经度栏304、炜度栏305、和住址栏306。
[0059] POIID栏301中保存的信息为用于唯一地确定P0I的信息。P0I名称栏302中保 存的信息为确定P0I名称的信息。类别栏303中保存的信息为确定P0I所属的类别(例如 饮食店或娱乐设施等)的信息。经度栏304和炜度栏305中保存的信息分别为确定表示 POI的所在位置的经度和炜度的信息。此外,本实施方式中使用经度和炜度作为确定POI的 所在位置的信息,但只要是能够在地理上确定位置的数值即可,可以不是经度和炜度。住址 栏306中保存的数据为确定P0I的住址的信息。
[0060] 图6是表示共现词数据410和期间别共现词数据400的一个例子的图。共现词数 据410和期间别共现词数据400在关联数据生成处理中由共现词数据生成部12生成。共 现词数据410和期间别共现词数据400为保存有在发布数据200中与规定的关键词一起被 使用的共现词的信息。具体地,共现词数据410和期间别共现词数据400分别具有关键词 表示栏401、期间表示栏402、共现词栏403、频率栏404。
[0061] 关键词表示栏410中保存的信息为确定从发布数据200检索共现词时作为基础的 关键词的信息,在本实施方式中对应规定的P0I名称。期间表示栏402中保存的信息为确 定作为共现词的检索对象的发布数据200的发布期间的信息。共现词栏403中保存的信息 为表示基于规定的关键词从发布数据200中检索到的共现词的信息。频率栏404中保存的 信息为表示相关的共现词的出现频率的信息。具体地,频率栏404中保存了规定期间内发 布的包含该共现词的发布数据200的数目。
[0062] 图7是表示关联数据500的一个例子的图。关联数据500通过关联数据生成处理 被生成和更新。关联数据500是保存与规定的关键词的关联度高的关联词、与规定的关键 词相似度高的相似词和它们的得分的数据。具体地,关联数据500包括关键词栏501、至少 两组以上的普通关联词字符串栏502和普通关联词得分栏503、至少一组以上的关联词相 似名字符串栏504和关联词相似名得分栏505相关联了的记录。
[0063] 关键词栏501中所保存的信息为用于确定关键词的信息,在本实施方式中,保存 有与P0I数据300 (图5)的POIID栏301中所保存的POIID共通的信息。普通关联词字 符串栏502中所保存的信息为确定普通关联词的字符串信息。普通关联词得分栏503中所 保存的信息为表示与该得分栏相关联的普通关联词的得分的信息。例如,普通关联词得分 栏503中保存0或者由关联数据生成处理计算出的得分。此外,在普通关联词得分栏503 中保存有〇的情况下,意味着普通关联词字符串栏502中未保存普通关联词。关联词相似 名字符串栏504中所保存的信息为确定关联词相似名的字符串信息。关联词相似名得分栏 505中所保存的信息为表示与该得分栏相关联的关联词相似名的得分的信息。关联词相似 名得分栏505用于保存0或者由关联数据生成处理所计算出的得分。此外,在关联词相似 名得分栏505中保存有0的情况下,表示关联词相似名栏504中未保存关联词相似名。
[0064] 此外,存储部20通过存储装置2、RAM7和ROM8实现。
[0065] 通信部40为用于进行与外部装置(例如SNS服务器1000)之间的通信的功能部。 通信部40通过通信装置3实现。
[0066] 以上针对关联数据生成装置100的功能模块进行了说明。
[0067] 【动作的说明】
[0068] 接着,针对关联数据生成处理进行说明。图8是表示关联数据生成处理的流程的 流程图。关联数据生成处理通过关联数据生成装置100执行的批处理定期地(例如一周一 次)进行。
[0069] 关联数据生成处理开始时,共现词数据生成部12确定P0I数据300中包含的P0I 的数目(P)(步骤S001)。例如,共现词数据生成部12通过P0I数据300中所含的记录数来 确定POI的数目(P)。
[0070] 接着,共现词数据生成部12取得规定序号(N)的POI名称(步骤S002)。例如,共 现词数据生成部12以P0I数据300的最上位的记录中保存的P0I名称作为第一个序号,取 得规定序号的P0I名称。
[0071] 接着,共现词数据生成部12设定要使用的发布数据200的期间(步骤S003)。具 体地,共现词数据生成部12设定至少两个以上相互不同的时期的规定期间(例如一个月期 间)。例如,本实施方式的共现词数据生成部12设定时期相差3个月(例如4月和7月) 的、各为一个月期间(各月的1日至31日的一个月期间)的两个期间(A1和A2)。此外, 令A2为比A1更接近现在的(最近的)期间。此外,要设定的时期和期间可预先保存在存 储装置2或ROM8中。
[0072] 接着,共现词数据生成部12从存储装置2取得所设定的期间内的发布数据 200 (步骤S004)。
[0073] 接着,共现词数据生成部12利用发布数据200和P0I名称生成共现词数据(步骤 S005)。具体地,共现词数据生成部12从已设定的各期间内发布的发布数据200提取包含 在步骤S002中所取得的P0I名称的发布数据200。并且,共现词数据生成部12将所提取 的发布数据200中含有的词汇(例如对应于名词的词)全部提取出来,并针对每个词汇计 算出至少包含一个所提取的词汇的发布数据200的数目作为频率。此外,共现词数据生成 部12例如可以进行加权,使从最近期间(A2)的发布数据200提取出的词汇的频率比从比 最近期间早的期间(A1)的发布数据200提取出的词汇的频率更高。
[0074] 此外,共现词数据生成部12按每个期间(A1和A2)生成将从发布数据200中提取 的词汇与其频率相关联的期间别共现词数据400。此外,共现词数据生成部12对全部的期 间别共现词数据400中含有的相同词汇,并且按照将各期间别共现词数据400的频率相加 后的频率总数从大到小的顺序确定规定数目(例如5个)的词汇。此外,共现词数据生成 部12将所确定的词汇与该词汇的频率相关联,生成分别保存在共现词栏403和频率栏404 中的共现词数据410。
[0075] 接着,关联数据生成部13确定共现词数据中包含的共现词数目(c)(步骤S006)。 例如关联数据生成部13根据共现词数据410的记录数确定共现词数据中包含的共现词数 目(c)。
[0076] 接着,关联数据生成部13取得规定序号(n)的共现词作为对象共现词(步骤 S007)。具体地,关联数据生成部13将共现词数据410的最上位中保存的共现词作为第一 个(序号/共现词)来取得规定序号的共现词。
[0077] 接着,关联数据生成部13进行是否将对象共现词作为普通关联词保存到关联数 据500中的判定处理(步骤S008)。此外,上述判定处理的详细内容在后面说明。
[0078] 接着,关联数据生成部13判定是否对全部的共现词进行了步骤S008的判定处理 (步骤S009)。即,关联数据生成部13判定n=c的关系是否成立。然后,在判定为未对 全部的共现词进行了步骤S008的判定处理的情况下,S卩,n辛c的情况下(步骤S009中为 "否"),关联数据生成部13通过对n加1 (步骤S010)使要取得的共现词的序号后推1个, 取得下一序号的共现词作为对象共现词(步骤S007)。并且,关联数据生成部13反复进行 步骤S007~步骤S010的处理,直到判定为对全部的共现词进行了步骤S008的判定处理。
[0079] 此外,在判定为对全部的共现词进行了步骤S008的判定处理的情况下(步骤S009 中为"是"),关联数据生成部13判定是否对全部的POI进行了步骤S002~步骤S010的处 理(步骤S011)。即,关联数据生成部13判定N=p的关系是否成立。然后,在未对全部的 P0I进行了处理的情况下(步骤S011中为"否"),关联数据生成部13通过对N加1(步骤 S012)使要取得的P0I名称的序号后推1个,从P0I数据300取得下一序号的P0I名称。
[0080] 另一方面,在判定为对全部的P0I名称进行了处理的情况下(步骤soil中为 "是"),关联数据生成部13结束本流程。
[0081] 接着,针对是否将对象共现词作为普通关联词保存到关联数据500中的判定处理 (以下称为步骤S008的处理之一)进行说明。图9是表示步骤S008的处理之一的流程的 流程图。
[0082] 上述处理开始时,关联数据生成部13判定对象共现词是否已经作为普通关联词 被保存在关联数据500中(步骤S021)。具体地,关联数据生成部13比较步骤S007中所取 得的对象共现词与关联数据500的普通关联词字符串栏中保存的信息,判定对象共现词是 否已经保存在普通关联词字符串栏中。然后,在判定为对象共现词已经作为普通关联词被 保存的情况下(步骤S021中为"是"),关联数据生成部13将处理转移到"步骤S008的处 理之二"。此外,关于"步骤S008的处理之二"在后面说明。
[0083] 另一方面,在判定为对象共现词并未作为普通关联词被保存的情况下(步骤S021 中为"否"),关联数据生成部13将处理转移到步骤S022。
[0084] 接着,关联数据生成部13判定对象共现词是否在时间上的变动小并且频率高(步 骤S022)。具体地,关联数据生成部13利用以下的公式1进行上述判定处理。
[0085] 【公式1】
[0087] 此外,x表示各期间的频率相加后的总频率,S卩共现词数据的频率。此外, 〇 (x(p))2表示第p个P0I 名称在各期间(A1~AN)的频率的方差。此外,在AND右侧的 x(p)的上面一横表示第p个P0I名称在各期间(A1~AN)的频率的均值。此外,a和0 表示规定的阈值(令a为第一阈值,0为第二阈值)。
[0088] 在满足公式1的条件的情况下,关联数据生成部13将对象共现词判定为时间上的 变动小且频率高(步骤S022中为"是")。这种情况下,关联数据生成部13将对象共现词 的得分计算为100 (步骤S023),将处理转移到步骤S026。
[0089] 另一方面,在未满足公式1的条件的情况下,关联数据生成部13判定为对象共现 词不满足时间上的变动小和频率高这些条件的至少其中之一(步骤S022中为"否")。此 时关联数据生成部13将处理转移到步骤S024。
[0090] 接着,关联数据生成部13判定对象共现词的在最近期间(A2)的频率是否比该最 近期间之前的期间(A1)的频率增大(步骤S024)。这是因为,在最近期间中频率增大的情 况下,即使是临时的,由于频率增大了,可以认为列举为普通关联词的保存候选是合适的。 具体地,关联数据生成部13利用以下公式2进行上述判定处理。
[0091] 【公式2】
[0092] x(p, n-1) ^ yANDx(p, n) ^ 8
[0093] 此外,x(p,n)表示第p个POI名称的最近期间(AN)的频率。x(p,n-1)表示第p 个P0I名称的最近期间之前的期间(A1)的频率。此外,y和S表示满足y < 0 <S的 关系的规定阈值(令Y为第三阈值,S为第四阈值)。
[0094] 在未满足公式2的条件的情况下,关联数据生成部13判定为最近期间(A2)的频 率没有比其之前的期间(A1)的频率增大(步骤S024中为"否")。此时关联数据生成部13 结束本流程。
[0095] 另一方面,在满足公式2的条件的情况下,关联数据生成部13判定为最近期间 (A2)的频率比其之前的期间(A1)的频率增大(步骤S024中为"是")。此时关联数据生成 部13将处理转移到步骤S025。
[0096] 接着,关联数据生成部13计算对象共现词的得分(步骤S025)。具体地,关联数据 生成部13利用以下公式3计算对象共现词的得分。并且关联数据生成部13在计算出对象 共现词的得分后将处理转移到步骤S026。
[0097] 【公式3】
[0099] 此外,max(x(n))表示最近期间AN中的保存在期间别共现词数据400中的共现词 的频率的最大值。此外,得分值使用大于〇、小于等于1的值。
[0100] 接着,关联数据生成部13判定关联数据500中是否存在普通关联词得分为0的组 (步骤S026)。然后,在判定为得分为0的组存在的情况下(步骤S026中为"是"),关联数 据生成部13将对象共现词和得分保存在普通关联词得分为0的组中(步骤S027),结束本 流程。具体地,关联数据生成部13确定保存有0的普通关联词得分栏503以及与该得分栏 503构成一组的普通关联词字符串栏502。并且,关联数据生成部13将对象共现词保存在 所确定的普通关联词字符串栏502中,将步骤S023中计算出的得分或步骤S025中计算出 的得分保存在所确定的普通关联词得分栏503中。
[0101] 另一方面,在判定为关联数据500中不存在普通关联词得分为0的组的情况下 (步骤S026中为"否"),关联数据生成部13判定在步骤S023或步骤S025所计算出的得分 是否比已经保存的普通关联词的得分大(步骤S028)。然后,在判定为所计算出的得分不比 已经保存的普通关联词的得分大的情况下(步骤S028中为"否"),关联数据生成部13结 束本流程。
[0102] 另一方面,在判定为所计算出的得分比已经保存的普通关联词的得分大的情况下 (步骤S028中为"是"),关联数据生成部13将对象共现词和得分保存在普通关联词得分为 最小值的组中(步骤S029)。具体地,关联数据生成部13比较已经保存的普通关联词得分 的值,确定保存了其最小值得分的普通关联词得分栏503以及与该得分栏503构成一组的 普通关联词字符串栏502。并且,关联数据生成部13将对象共现词保存在所确定的普通关 联词字符串栏502中,将在步骤S023中计算出的得分或步骤S025中计算出的得分保存在 所确定的普通关联词得分栏503中。
[0103] 此外,在步骤S027或步骤S029的处理中,显示信息生成部15可以生成确认是否 将普通关联词记录到关联数据500中的消息画面信息。图11是表示关联数据生成装置100 的显示画面600的一个例子的图。显示信息生成部15例如生成显示POIID601、P0I名称 602、"是否将普通关联词'XXX战队(ranger) '追加到关联数据中?"的消息603、和"是"或 "否"的指令接受按钮604的显示信息,并输出到显示装置5。关联数据生成装置100的管 理者确认上述消息后,通过选择"是"的指令接受按钮604,关联数据生成部13将普通关联 词保存到关联数据500的普通关联词字符串栏502中。
[0104] 接着,针对在是否将对象共现词作为普通关联词保存到关联数据500中的判定处 理中,对象共现词已经作为普通关联词被保存的情况(以下称为步骤S008的处理之二)进 行说明。图10是表示步骤S008的处理之二的流程的流程图。
[0105] 开始上述处理后,关联数据生成部13判定与对象共现词一致的普通关联词的得 分是否为100 (步骤S031)。具体地,关联数据生成部13判定与普通关联词字符串栏502构 成一组的普通关联词得分栏503中保存的得分的值是否为100,其中,上述普通关联词字符 串栏502与对象共现词一致。然后,在判定为上述得分值为100的情况下(步骤S031中为 "是"),关联数据生成部13将处理转移到步骤S032。
[0106] 另一方面,在判定为上述得分值不为100的情况下(步骤S031中为"否"),关联 数据生成部13将处理转移到步骤S035。
[0107] 在步骤S032中,关联数据生成部13判定普通关联词的各期间(Al、A2)的频率是 否高于规定的阈值。具体地,关联数据生成部13根据在各期间(A1、A2)已发布的发布数据 200中包含普通关联词的发布数据200的数目来计算普通关联词在各期间的频率。并且,关 联数据生成部13通过将所计算出的普通关联词的频率代入以下公式4,来判定普通关联词 的各期间(A1、A2)的频率是否高于规定的阈值。
[0108] 【公式4】
[0109] x(p,n-1) ^yANDx(p,n) ^y
[0110] 此外,与上述相同,x(P,n-1)表示最近期间之前的期间(Al)的普通关联词的频 率。并且,与上述相同,x(p,n)表示最近期间(A2)的普通关联词的频率。此外,与上述相 同,Y表不规定的阈值。
[0111] 关联数据生成部13在判定为所计算出的普通关联词在各期间的频率高于规定的 阈值y的情况下(步骤S032中为"是"),将上述普通关联词的得分设定为100 (步骤S034)。 具体地,关联数据生成部13在与普通关联词字符串栏502构成一组的普通关联词得分栏 503中保存100,并结束本流程。另一方面,在判定为所计算出的普通关联词在各期间的频 率不高于规定的阈值y的情况下(步骤S032中为"否"),关联数据生成部13在与普通关 联词字符串栏502构成一组的普通关联词得分栏503中保存0 (步骤S033),并结束本流程。
[0112] 此外,步骤S035中,关联数据生成部13判定普通关联词是否在时间上的变动小并 且频率高(步骤S035)。具体地,关联数据生成部13根据在各期间(A1、A2)已发布的发布 数据200中包含普通关联词的发布数据200的数目来计算普通关联词在各期间的频率。并 且,关联数据生成部13通过将所计算出的普通关联词在各期间的频率代入上述公式1来进 行步骤S035的判定处理。此外,由于上述判定与上述步骤S21相同,因此省略详细的说明。
[0113] 然后,在判定为普通关联词在时间上的变动小并且频率高的情况下(步骤S035中 为"是"),关联数据生成部13在与普通关联词字符串栏502构成一组的普通关联词得分栏 503中设定100,并结束本流程。另一方面,在判定为普通关联词不满足时间上的变动小和 频率高这些条件中的至少任意一个的情况下(步骤S035中为"否"),关联数据生成部13将 处理转移到步骤S037。
[0114] 接着,关联数据生成部13判定普通关联词的最近期间(A2)的频率是否比其之前 的期间(A1)的频率增大(步骤S037)。这是因为,在最近期间中频率增大的情况下,即使是 临时的,由于频率增大了,存在维持普通关联词的保存是合适的情况。具体地,关联数据生 成部13与上述步骤S032同样地计算在各期间(A1、A2)中的普通关联词的频率,通过将所 计算出的频率代入上述公式2来进行判定处理。
[0115] 然后,在不满足公式2的条件的情况下,关联数据生成部13判定为最近期间(A2) 的频率没有比其之前的期间(A1)的频率增大(步骤S037中为"否")。此时,关联数据生 成部13在与普通关联词字符串栏502构成一组的普通关联词得分栏503中设定0(步骤 S038),并结束本流程。
[0116] 另一方面,在满足公式2的条件的情况下,关联数据生成部13判定为最近期间 (A2)的频率比其之前的期间(A1)的频率增大(步骤S037中为"是")。此时,关联数据生 成部13计算普通关联词的得分(步骤S039)。具体地,关联数据生成部13确定最近期间 (A2)中的期间别共现词数据400中已保存的共现词频率的最大值。并且,关联数据生成部 13通过将所确定的共现词频率的最大值和在步骤S035中所计算出的普通关联词的频率代 入上述公式3,来计算普通关联词的得分。
[0117] 接着,关联数据生成部13设定所计算出的普通关联词的得分(步骤S040)。具体 地,关联数据生成部13将所计算出的普通关联词的得分保存到与该普通关联词字符串栏 502构成一组的普通关联词得分栏503中,并结束本流程。
[0118] 以上针对第一实施方式的关联数据生成处理进行了说明。
[0119] 通过这种关联数据生成装置100能够生成包含与规定关键词具有高关联度、新鲜 度更高的关联词的关联数据500。特别地,关联数据生成装置100判定在发布数据200中与 规定的关键词一起被使用共现词是否应该作为关联数据500被记录。具体地,关联数据生 成装置100根据共现词的出现频率是否在时间上的变动小且是否频率高的判定结果来进 行向关联数据500的记录。
[0120] 此外,关联数据生成装置100即使在共现词的出现频率在时间上的变动大的情况 下或者频率低的情况下,如果在最近的期间中出现频率增加,则也将其与规定的得分相关 联并登录到关联数据500中。由此,被登录到关联数据500中的普通关联词中能够根据得 分来分级,能够作为对已经被登录的普通关联词进行更新时的比较值。其结果是,关联数据 50 0始终能够维持包含新鲜度高的关联词的状态。
[0121] 〈第二实施方式〉
[0122] 接着,针对本发明的第二实施方式的关联数据生成装置100进行说明。上述的第 一实施方式将发布数据200中与规定的关键词(例如POI名称)一起被使用的共现词作为 普通关联词保存到关联数据500中,而本实施方式的关联数据生成装置100将与规定的关 键词相似的相似词保存到关联数据500中。此外,对于关联数据生成装置100的基本硬件 结构和功能模块,由于与上述第一实施方式相同,因此省略它们的详细说明。
[0123] 图12是表示第二实施方式的关联数据生成处理的流程的流程图。关联数据生成 处理通过由关联数据生成装置100执行的批处理定期地(例如一周一次)进行。
[0124] 关联数据生成处理开始时,共现词数据生成部12确定POI数据300中包含的POI 的数目(P)(步骤S051),并取得规定序号(N)的POI名称(步骤S052)。并且由于这些处 理与上述步骤S001~步骤S002相同,故省略说明。
[0125] 接着,共现词数据生成部12设定所使用的发布数据200的期间(步骤S053)。具 体地,共现词数据生成部12设定一个规定时期的规定期间(例如一个月期间)。此外,要设 定的时期和期间可预先保存在存储装置2或ROM8中。
[0126] 接着,共现词数据生成部12从存储装置2取得所设定的期间内的发布数据 200 (步骤S054)。
[0127] 接着,共现词数据生成部12确定与所取得的P0I名称的P0I相关联的普通关联词 (步骤S055)。具体地,根据保存了POIID的关联数据500的记录来确定普通关联词字符 串栏504中保存的普通关联词,其中该POIID用于确定在步骤S052所确定的P0I名称。
[0128] 接着,共现词数据生成部12判定所确定的普通关联词是否有2个以上(步骤 S056)。即,共现词数据生成部12判定在关联数据500的普通关联词得分栏505中保存了 大于〇的值的组是否有至少2个以上。然后,在判定为普通关联词没有2个以上的情况下 (步骤S056中为"否"),共现词数据生成部12将处理转移到步骤S063。另一方面,在判定 为普通关联词有2个以上的情况下(步骤S056中为"是"),共现词数据生成部12将处理 转移到步骤S057。
[0129] 接着,共现词数据生成部12利用设定期间的发布数据200和普通关联词生成共现 词数据(步骤S057)。具体地,共现词数据生成部12将在步骤S055中所确定的普通关联词 分别作为关键词,提取包含该关键词的在设定期间内的发布数据200。并且,共现词数据生 成部12针对每个关键词将所提取的发布数据200中含有的词汇(例如对应于名词的词) 全部提取出来,计算至少包含有一个所提取的词汇的发布数据200的数目来作为该词汇的 频率。
[0130] 此外,共现词数据生成部12将所提取的词汇与其频率相关联地保存到关键词别 共现词数据700的共现词栏703和频率栏704中。即,共现词数据生成部12生成至少2个 以上的关键词别共现词数据700。并且,共现词数据生成部12对全部的关键词别共现词数 据700中含有的相同词汇,按照将关键词别共现词数据700的频率相加后的频率总数从大 到小的顺序确定规定数目(例如5个)的词汇。此外,共现词数据生成部12将所确定的词 汇保存到共现词栏703中,将所计算出的频率保存到频率栏704中,生成共现词数据710。
[0131] 图13是表示利用关键词别共现词数据700生成的共现词数据710的图。
[0132]接着,关联数据生成部13确定共现词数据中包含的共现词数目(c)(步骤S058), 并取得规定序号(n)的共现词作为对象共现词(步骤S059)。并且由于步骤S058~步骤 S059的处理与上述步骤S006~步骤S007相同,故省略说明。
[0133] 接着,关联数据生成部13进行是否将对象共现词作为关联词相似名保存到关联 数据500中的判定处理(步骤S060)。此外,上述判定处理的详细内容在后面说明。
[0134] 接着,关联数据生成部13判定是否对全部的共现词进行了步骤S060的判定处理 (步骤S061)。即,关联数据生成部13判定n=c的关系是否成立。然后,在判定为未对全 部的共现词进行了步骤S060的判定处理的情况下(步骤S061中为"否"),即n辛c的情 况下,关联数据生成部13通过对n加1 (步骤S062)使要取得的共现词的序号后推1个,取 得下一序号的共现词作为对象共现词(步骤S059)。并且,关联数据生成部13反复进行步 骤S059~步骤S062的处理,直到判定为对全部的共现词进行了步骤S060的判定处理。
[0135] 此外,在判定为对全部的共现词进行了步骤S060的判定处理的情况下(步骤S061 中为"是"),关联数据生成部13判定是否对全部的POI名称进行了步骤S052~步骤S061 的处理(步骤S063)。即,关联数据生成部13判定N=p的关系是否成立。然后,在判定为 未对全部的POI名称进行了处理的情况下(步骤S063中为"否"),关联数据生成部13通 过对N加1 (步骤S064)使要取得的POI名称的序号后推1个,从POI数据300取得下一序 号的POI名称。
[0136] 另一方面,在判定为已对全部的POI名称进行了处理的情况下(步骤S063中为 "是"),关联数据生成部13结束本流程。
[0137] 接着,针对是否将对象共现词作为关联词相似名保存到关联数据500中的判定处 理(以下称为步骤S060的处理)进行说明。图14是表示步骤S060的处理的流程的流程 图。
[0138] 当上述处理开始时,关联数据生成部13判定对象共现词是否已经作为关联词相 似名被保存(步骤S071)。具体地,关联数据生成部13判定与在步骤S059中所取得的对象 共现词相同的关联词相似名是否已经保存在关联词相似名字符串栏504中。然后,在判定 为对象共现词已经保存在关联词相似名栏504中的情况下(步骤S071中为"是"),关联数 据生成部13结束本流程。另一方面,在判定为对象共现词未保存在关联词相似名栏504中 的情况下(步骤S071为"否"),关联数据生成部13计算对象共现词与POI名称的相似度 (步骤S072)。具体地,关联数据生成部13利用以下公式5计算对象共现词相对于POI名 称的相似度。并且,相似度为〇以上1以下的值。
[0139] 【公式5】
[0141] 例如,POI名称为"AAABBB"、对象共现词为"AAAB"的情况下,关联数据生成部13 计算相似度为4/4。此外,POI名称为"AAABBB"、对象共现词为"BAAB"的情况下,对象共现 词的开头字符"B"与POI名称的开头字符"A"不一致。因此,关联数据生成部13计算相似 度为0/4。此外,POI名称为"AAABBB"、对象共现词为"ABC"的情况下,由于除对象共现词 的开头之外的字符可以跳过,因此关联数据生成部13计算相似度为2/3。
[0142] 此外,POI名称或对象共现词为英语的情况下,相似度通过以下公式6计算。
[0143] 【公式6】
[0145] 接着,关联数据生成部13判定相似度是否比规定的阈值大(步骤S073)。具体地, 关联数据生成部13判定在步骤S072中所计算出的对象共现词的相似度是否大于规定的阈 值。然后,在判定为上述相似度不大于阈值的情况下(步骤S073中为"否"),关联数据生成 部13结束本流程。另一方面,在判定为相似度比阈值大的情况下(步骤S073中为"是"), 关联数据生成部13将所计算出的相似度作为关联词相似名的得分。
[0146] 接着,关联数据生成部13判定关联数据500中是否存在关联词相似名得分为0的 组(步骤S075)。具体地,关联数据生成部13判定关联数据500中是否存在保存了 0的关 联词相似名得分栏505。然后,在判定为这样的关联词相似名得分栏505存在的情况下(步 骤S075中为"是"),关联数据生成部13将对象共现词和得分保存在0的组中(步骤S076)。 具体地,关联数据生成部13确定保存了 0的关联词相似名得分栏505以及与该得分栏505 构成一组的关联词相似名字符串栏504。并且,关联数据生成部13在所确定的关联词相似 名字符串栏504中保存对象共现词,在所确定的普通关联词得分栏505中保存在步骤S074 中所计算出的得分。并且,关联数据生成部13在步骤S076后结束本流程。
[0147] 另一方面,在判定为关联数据500中不存在关联词相似名得分为0的组的情况下 (步骤S075中为"否"),关联数据生成部13判定在步骤S074中所求得的得分是否比已经保 存的关联词相似名得分大(步骤S077)。即,关联数据生成部13通过比较在步骤S074中所 求得的得分与关联数据500中已经保存的关联词相似名得分来进行上述判定。然后,在判 定为步骤S074中所求得的得分不比关联词相似名得分大的情况下(步骤S077中为"否"), 关联数据生成部13结束本流程。
[0148] 另一方面,在判定为步骤S074中所求得的得分比关联词相似名得分大的情况下 (步骤S077中为"是"),关联数据生成部13将对象共现词和得分保存在关联词相似名得 分为最小值的组中(步骤S078)。具体地,关联数据生成部13对已经保存的关联词相似名 得分彼此进行比较,确定保存了其最小值得分的关联词相似名得分栏505以及与该得分栏 505构成一组的关联词相似名字符串栏504。并且,关联数据生成部13将对象共现词保存 在所确定的关联词相似名字符串栏504中,将在步骤S074中所求得的得分保存在所确定的 关联词相似名得分栏505中。
[0149] 并且,在将关联词相似名和得分保存到关联数据500中后,关联数据生成部13结 束本流程。
[0150] 此外,在步骤S076或步骤S078的处理中,显示信息生成部15可以生成确认是否 将关联词相似名字符串登录到关联数据500中的消息画面信息。图15是表示关联数据生成 装置100的显示画面800的一个例子的图。显示信息生成部15例如生成显示POIID801、 POI名称802、"是否将关联词相似名'XXX战队'追加到关联数据中?"的消息803、和"是" 以及"否"的指令接受按钮804的显示信息,并输出到显示装置5。关联数据生成装置100 的管理者确认上述消息后,通过选择"是"的指令接受按钮804,关联数据生成部13将关联 词相似名保存到关联数据500的关联词相似名字符串栏504中。
[0151] 通过这种关联数据生成装置100能够生成包含与规定关键词具有高关联性、新鲜 度更高的关联词的关联数据500。特别地,关联数据生成装置100将与规定关键词相似度高 的词汇作为关联词相似名登录到关联数据500中。因此,除了发布数据200中与关键词一 起被使用的普通关联词,还能够将与关键词相似的词汇即关键词的略称等登录到关联数据 500 中。
[0152] 〈第三实施方式〉
[0153] 接着,针对本发明的第三实施方 式的关联数据生成装置100进行说明。第三实施 方式的关联数据生成装置1〇〇计算由规定的关键词所确定的对象(例如POI等)的趋势度。 具体地,本实施方式的关联数据生成装置100具有趋势度数据生成部14作为功能部,趋势 度数据生成部14利用规定的关键词和上述实施方式中所生成的关联数据500计算由关键 词确定的对象的趋势度。此外,对于关联数据生成装置100的基本硬件结构和功能模块,由 于与上述第一实施方式和第二实施方式相同,因此省略它们的详细说明。
[0154]趋势度数据生成部14为生成包含由规定关键词确定的对象的趋势度的趋势度数 据900的功能部。具体地,趋势度数据生成部14利用规定的关键词、与该关键词相关联的 普通关联词字符串和普通关联词得分、关联词相似名字符串和关联词相似名得分,来计算 由关键词确定的对象的趋势度。此外,趋势度数据生成部14生成将所计算出的趋势度与关 键词相关联的趋势度数据900。
[0155]图16是表示趋势度数据900的一个例子的图。趋势度数据900由趋势度数据生 成部14生成和更新。趋势度数据900为包含由规定关键词所确定的对象的趋势度的信息。 具体地,趋势度数据900包括趋势度对象栏901和趋势度栏902。
[0156]趋势度对象栏901中所保存的信息为确定由规定关键词确定的对象(例如规定的 POI)的信息。趋势度栏902中所保存的信息为确定表示趋势的程度的趋势度的信息。此 外,趋势度数据900是通过执行趋势度数据生成处理由趋势度数据生成部14生成的。
[0157]图17是表示趋势度计算处理的流程的流程图。趋势度计算处理通过关联数据生 成装置1〇〇执行的批处理定期地(例如一周一次)对规定关键词所确定的全部对象(本实 施方式中为由POI名称确定的全部POI)进行。
[0158]趋势度计算处理开始时,趋势度数据生成部14从POI数据300确定要计算趋势度 的对象的POI (以下称为对象POI)的POI名称和POI ID (步骤S081)。具体地,趋势度数据 生成部14从POI数据300确定由批处理所确定的一个POI的POI名称和POI ID。
[0159]接着,趋势度数据生成部14确定POI ID相关联的关联数据500的记录(步骤 S082)。并且,趋势度数据生成部14重置对象P0I的趋势度(步骤S083)。具体地,趋势度 数据生成部14确定保存了趋势度数据900的对象P0I的记录,将所确定的记录的趋势度栏 902的值设定为0。
[0160]接着,趋势度数据生成部14取得规定期间内的发布数据200 (步骤S084)。例如, 趋势度数据生成部14从存储部20取得规定时期(例如7月)中的规定期间(例如一个月 期间)中所发布的发布数据200。此外,关于规定的时期和规定的期间可预先保存在存储装 置2或R0M8中。
[0161]接着,趋势度数据生成部14确定所取得的发布数据数目(m)(步骤S085)。此外, 趋势度数据生成部14取得规定序号(n)的发布数据200 (步骤S086)。具体地,对所取得的 各发布数据200分配序号,将被分配到最小序号的发布数据200作为第一个,来取得规定序 号的发布数据200。
[0162]接着,趋势度数据生成部14计算所取得的发布数据200、和P0I名称以及与其相关 联的关联词相似名的一致度(cl)(步骤S087)。此外,针对步骤S087的一致度计算处理的 详细内容在后面说明。
[0163]接着,趋势度数据生成部14计算所取得的发布数据200和与P0I名称相关联的普 通关联词的一致度(c2)(步骤S088)。此外,针对步骤S088的一致度计算处理的细节内容 在后面说明。
[0164]接着,趋势度数据生成部14计算总一致度(c = cl+c2)(步骤S089)。具体地,趋势 度数据生成部14将在步骤S087的一致度计算处理中所求出的一致度(cl)与在步骤S088的一致度计算处理中所求出的一致度(c2)相加,计算出总一致度。
[0165]接着,趋势度数据生成部14将总趋势乘以发布日指数来计算趋势度(步骤S090)。 具体地,趋势度数据生成部14计算将基于发布数据200的发布日的规定指数乘以一致度所 得的趋势度。此外,发布日指数为离现在越远的过去的发布数据200则越小的值,上述指数 预先保存在存储装置2或ROM 8中。
[0166] 接着,趋势度数据生成部14判定是否对全部的发布数据200进行了步骤S086~ 步骤S090的处理(步骤S091)。即,趋势度数据生成部14判定n = m的关系是否成立。然 后,在判定为未对全部的发布数据200进行了处理的情况下(步骤S091中为"否"),趋势 度数据生成部14通过对n加1 (步骤S092),使要取得的发布数据200的序号后推1个,取 得下一序号的发布数据200。
[0167]另一方面,在判定为对全部的发布数据200进行了处理的情况下(步骤S091中为 "是"),趋势度数据生成部14计算针对每个发布数据所计算出的全部趋势度相加后的总趋 势度,登录到趋势度数据900 (步骤S093)。然后,在步骤S093的处理结束后,趋势度数据生 成部14结束本流程。
[0168]接着,针对一致度计算处理(步骤S087的处理)进行说明。图18是表示一致度 计算处理(步骤S087的处理)的流程的流程图。在所述处理开始之前,趋势度数据生成部 14例如在RAM 7中确保用于保存一致度(cl)的一致度存储区域,并将该一致度存储区域的 值设为0。
[0169] 接着,趋势度数据生成部14判定发布数据200中是否包含P0I名称(步骤S101)。 具体地,趋势度数据生成部14判定在步骤S086中所取得的发布数据200的发布文本中是 否包含在步骤S081中所取得的P0I名称。然后,在判定为包含P0I名称的情况下(步骤 S101中为"是"),趋势度数据生成部14将一致度设定为1 (步骤S102),并结束本流程。
[0170]另一方面,在判定为发布数据200中不包含P0I名称的情况下(步骤S101中为 "否"),趋势度数据生成部14确定在步骤S082中所确定的记录中保存的关联词相似名的数 目(s)(步骤S103)。
[0171]接着,趋势度数据生成部14取得规定序号(n)的关联词相似名(步骤S104)。具 体地,趋势度数据生成部14将在关联数据500中保存的关联词相似名中的保存在最左列的 关联词相似名作为第一个来取得规定序号的关联词相似名。
[0172]接着,趋势度数据生成部14判定在发布数据200中是否包含了所取得的关联词相 似名(步骤S105)。具体地,趋势度数据生成部14判定在步骤S086中所取得的发布数据 200的发布文本中是否包含了所取得的关联词相似名字符串。然后,在判定为不包含关联词 相似名的情况下(步骤S105中为"否"),趋势度数据生成部14将处理转移到步骤S109。
[0173]另一方面,在判定为发布数据200中包含了关联词相似名的情况下(步骤S105中 为"是"),趋势度数据生成部14确定关联词相似名的得分(步骤S106)。具体地,趋势度数 据生成部14确定与上述关联词相似名栏504构成一组的关联词相似名得分栏505中保存 的值。
[0174]此外,趋势度数据生成部14判定所确定的关联词相似名的得分是否比一致度 (cl)大(步骤S107)。例如,在将一致度(cl)设置为0后,第一次进行步骤S107的判定处 理的情况下,关联词相似名的得分比保存了0的一致度(Cl = 0)大。因此,趋势度数据生 成部14判定为关联词相似名的得分> 0。另一方面,在关联词相似名的得分通过后述的步 骤S108的处理已经设定在一致度(cl)中的情况下,趋势度数据生成部14比较已设定的一 致度(cl)与本次的步骤S106中所确定的关联词相似名的得分的大小。
[0175]接着,趋势度数据生成部14判定是否对全部的关联词相似名进行了步骤S104~ 步骤S108的处理(步骤S109)。即,趋势度数据生成部14判定n = s的关系是否成立。然 后,在判定为未对全部的关联词相似名进行了处理的情况下(步骤S109中为"否"),趋势 度数据生成部14通过对n加1 (步骤S110),使要取得的关联词相似名的序号后推1个,从 关联数据500取得下一个关联词相似名。
[0176]另一方面,在判定为对全部的关联词相似名进行了处理的情况下(步骤S109中为 "是"),趋势度数据生成部14结束本流程。
[0177]接着,针对一致度计算处理(步骤S088的处理)进行说明。图19是表示一致度 计算处理(步骤S088的处理)的流程的流程图。在上述处理开始之前,趋势度数据生成部 14例如在RAM7中确保用于保存一致度(c2)的一致度存储区域,并将该一致度存储区域的 值设为0。
[0178] 接着,趋势度数据生成部14确定在步骤S082中所确定的记录中保存的普通关联 词的数目(M)(步骤S121)。
[0179]接着,趋势度数据生成部14取得规定序号(n)的普通关联词(步骤S122)。具体 地,趋势度数据生成部14将关联数据500中保存的普通关联词字符串中的保存在最左列的 普通关联词字符串作为第一个来取得规定序号的普通关联词。
[0180]接着,趋势度数据生成部14判定发布数据200中是否包含所取得的普通关联词 (步骤S123)。具体地,趋势度数据生成部14判定在步骤S086中所取得的发布数据200的 发布文本中是否包含所取得的普通关联词字符串。然后,在判定为不包含普通关联词的情 况下(步骤S123中为"否"),趋势度数据生成部14将处理转移到步骤S128。
[0181]另一方面,在判定为发布数据200中包含普通关联词字符串的情况下(步骤S123 中为"是"),趋势度数据生成部14确定普通关联词的得分(步骤S124)。具体地,趋势度 数据生成部14确定与上述普通关联词字符串栏构成一组的普通关联词称得分栏中保存的 值。
[0182]接着,趋势度数据生成部14判定所确定的普通关联词的得分是否为100(步骤 S125)。然后,在判定为上述得分不为100的情况下(步骤S125中为"否"),趋势度数据生 成部14将普通关联词的得分加到一致度(c2)(步骤S127),并将处理转移到步骤S128。
[0183]另一方面,在判定为上述得分为100的情况下(步骤S125中为"是"),趋势度数 据生成部14对一致度(c2)加1 (步骤S126),并将处理转移到步骤S128。
[0184]接着,趋势度数据生成部14判定是否对全部的普通关联词进行了步骤S122~步 骤S127的处理(步骤S128)。即,趋势度数据生成部14判定n = s的关系是否成立。然 后,在判定为未对全部的普通关联词进行了处理的情况下(步骤S128中为"否"),趋势度 数据生成部14通过对n加1 (步骤S129),使要取得的普通关联词的序号后推1个,从关联 数据500取得下一个普通关联词。
[0185]另一方面,在判定为对全部的普通关联词进行了处理的情况下(步骤S128中为 "是"),趋势 度数据生成部14结束本流程。
[0186]图20是表示显示画面950的一个例子的图,显示画面950中显示了表示趋势度的 图标。关联数据生成装置100的显示信息生成部15在经通信部40从外部装置接收到趋势 度的取得请求信号时,生成显示信息。例如,在从作为外部装置的导航装置接收到表示POI 的趋势度的信息的取得请求信号时,显示信息生成部15从趋势度数据900中确定对应的 POI的趋势度,进行与趋势度相应的分级,并生成表示上述级别的显示信息(用星的个数表 示级别的信息)。此外,显示信息生成部15将所生成的显示信息与各POI ID相关联地发送 到导航装置。
[0187]取得了显示信息的导航装置等的外部装置显示图20所示的显示画面950。显示画 面950中显示了各POI 951和表示对应于趋势度的级别的星形的图标952。
[0188]通过这种关联数据生成装置100能够生成包含与规定的关键词具有高关联性、新 鲜度更高的关联词的关联数据500。特别地,关联数据生成装置100能够利用规定的关键 词、作为在发布数据200中与该关键词一起被使用的共现词的普通关联词、和作为该关键 词的相似名的关联词相似名,来求出关键词所表示的对象的趋势度。此外,关联数据生成装 置100生成表示趋势度的图标等的显示信息,并将其发送到外部。其结果是,在外部装置能 够将规定的关键词所表示的对象的趋势度与该对象相关联地进行显示。
[0189] 此外,上述第三实施方式生成了表示趋势度的图标等的显示信息,但本发明并不 限定于本实施方式,关联数据生成装置1〇〇可将趋势度(数值)其本身提供给外部装置。
[0190]此外,从上述第一实施方式到第三实施方式针对以POI为对象的关联数据500的 生成和趋势度数据900的生成进行了说明,但本发明并不限定于这些实施方式,例如能够 以电视广告中宣传的商品为对象,将关联数据生成装置100应用于求取其趋势度的处理 中。这种情况下,使用登录了商品名的商品数据来代替POI数据300。此外,也能够将关联 数据生成装置100应用于求取流行词等的趋势度的处理中。这种情况下,使用登录了流行 词的流行词数据来代替POI数据300或商品数据。而且除此之外,关联数据生成装置100 还能够对各种对象求取其趋势度。
[0191]此外,关联数据生成装置100也可生成将普通关联词与关键词的对象(上述实施 方式中为POI)相关联地进行显示的显示信息。具体地,显示信息生成部15生成用于将在 关联数据500中所保存的普通关联词(例如"高价汉堡"或"汉堡套餐"等)与POI相关联 地进行显示的显示信息,并将其发送到外部装置(例如导航装置)。其结果是,外部装置能 够使普通关联词与POI相关联地显示。普通关联词由于是表示在SNS等所发布的文章(新 闻、消息)中包含的话题的信息的词汇(词句),因此能够为用户提供非常有益的信息。
[0192] 此外,为了使本实施方式中实现的关联数据生成装置100的功能易于理解,关联 数据生成装置100的功能模块根据主要的处理内容进行了分类,本发明并不被各功能的分 类方式或其名称所限制。此外,关联数据生成装置100的各结构可根据处理内容分类成更 多的结构要件。此外,也能够以使一个结构要件执行更多的处理的方式进行分类。
[0193] 此外,本发明并不限定于上述实施例,而是包含了各种变形例。例如,上述实施例 是为了对本发明简单易懂地说明而进行的详细说明,并非限定必须具备所说明的全部的结 构。此外,可将某实施例的结构的一部分替换成其它实施例的结构,或者可在某实施例的结 构中添加其它实施例的结构。另外,针对各实施例的结构的一部分,能够进行其它结构的追 加、删除、替换。
[0194] 此外,在上述的说明中,对于控制线和信息线表示了说明中所需的部分,并不一定 表示出产品中全部的控制线和信息线。实际上可以认为几乎全部的结构互相连接。
[0195] 附图记号说明
[0196] 100……关联数据生成装置
[0197] 1000......SNS服务器
[0198] 2000……用户终端
[0199] N......网络
[0200] 1……运算处理装置
[0201] 2……存储装置
[0202] 3......通信装置
[0203] 4......输入装置
[0204] 5……显示装置
[0205] 6......CPU
[0206] 7......RAM
[0207] 8......ROM
[0208] 10……运算部
[0209] 11……发布数据取得部
[0210] 12……共现词数据生成部
[0211] 13......关联数据生成部
[0212] 14……趋势度数据生成部
[0213] 15……显示信息生成部
[0214] 20……存储部
[0215] 40......通信部
[0216] 200……发布数据
[0217] 300......P0I数据
[0218] 400……期间别共现词数据
[0219] 410,710......共现词数据
[0220] 500……关联数据
[0221] 700……关键词别共现词数据
[0222] 900……趋势度数据
【主权项】
1. 一种关联数据生成装置,其特征在于,包括: 用于生成共现词数据的共现词数据生成部,所述共现词数据保存了在相互不同的多个 期间中已发布的发布数据中的、作为在全部期间的发布数据中与规定的关键词一起被使用 的词汇的共现词和该共现词的出现频率;和 关联数据生成部,其用于在所述共现词的出现频率在时间上的变动比第一阈值小并且 出现频率比第二阈值高的情况下,生成作为普通关联词保存了该共现词的关联数据。2. 如权利要求1所述的关联数据生成装置,其特征在于: 在所述共现词的出现频率在时间上的变动大于所述第一阈值的情况、和在所述共现词 的出现频率小于所述第二阈值的情况中的至少任意一种情况下,并且,在所述期间中比最 近期间早的期间中的所述共现词的出现频率比第三阈值低、所述最近期间中的所述共现词 的出现频率比大于所述第三阈值的第四阈值高的情况下,所述关联数据生成部将所述共现 词作为普通关联词保存到关联数据中。3. 如权利要求1所述的关联数据生成装置,其特征在于: 所述关联数据生成部根据所述共现词的出现频率高低计算所述共现词的出现频率为 较大值的得分,并将该得分作为与该共现词对应的所述普通关联词的得分保存在所述关联 数据中。4. 如权利要求3所述的关联数据生成装置,其特征在于: 所述关联数据生成部将得分比保存在所述关联数据中的所述普通关联词的得分高的 所述共现词代替该普通关联词保存到所述关联数据中。5. 如权利要求3所述的关联数据生成装置,其特征在于: 在与所述共现词一致的所述普通关联词被登录在所述关联数据中的情况下,所述关联 数据生成部基于所述期间中的该普通关联词的出现频率重新计算该普通关联词的得分。6. 如权利要求1所述的关联数据生成装置,其特征在于: 所述共现词数据生成部生成共现词数据,该共现词数据保存了在规定期间中已发布的 所述发布数据中的,作为分别与相互不同的至少两个以上的所述普通关联词一起被使用的 词汇的共现词和该共现词的出现频率, 所述关联数据生成部在所述共现词与所述规定的关键词的相似度大于第五阈值的情 况下,将该共现词作为关联词相似名保存到所述关联数据中。7. 如权利要求6所述的关联数据生成装置,其特征在于: 所述关联数据生成部根据所述共现词和所述规定的关键词的相似度的高低计算所述 相似度成为较大值的得分,并将该得分作为与该共现词对应的所述关联词相似名的得分保 存在所述关联数据中。8. 如权利要求6所述的关联数据生成装置,其特征在于: 还包括显示信息生成部,其生成用于将所述普通关联词与所述规定的关键词表示的对 象一起显示的显示信息。9. 如权利要求6所述的关联数据生成装置,其特征在于: 还包括趋势度数据生成部, 所述趋势度数据生成部计算所述规定的关键词或与该关键词相关联的所述关联词相 似名与在规定期间已发布的所述发布数据中所含的词汇的一致程度,将该一致程度作为第 致度赘 计算与所述规定的关键词相关联的所述关联词相似名与在规定期间已发布的所述发 布数据中所含的词汇的一致程度,将该一致程度作为第二一致度, 计算将对规定期间的全部所述发布数据所计算出的第一一致度和第二一致度相加后 的值,将该值作为该关键词表示的对象的趋势度, 生成将所述趋势度与所述规定的关键词相关联地保存的趋势度数据。10. 如权利要求9所述的关联数据生成装置,其特征在于: 所述趋势度数据生成部在所述规定的关键词与所述发布数据中所含的词汇一致的情 况下,将规定值设定为所述第一一致度, 在所述规定的关键词与所述发送数据中所含的词汇不一致的情况下,判断与该关键词 相关联的所述关联词相似名是否与该发布数据中所含的词汇一致, 在所述关联词相似名与所述发布数据中所含的词汇一致的情况下,使用比所述规定值 小的值、并且使用与该词汇一致的该关联词相似名的得分来设定所述第一一致度。11. 如权利要求9所述的关联数据生成装置,其特征在于: 所述趋势度数据生成部在所述普通关联词与所述发布数据中所含的词汇一致的情况 下,根据对该普通关联词设定的得分,使用不同的值来设定所述第二一致度。12. 如权利要求9所述的关联数据生成装置,其特征在于: 所述显示信息生成部生成表示所述趋势度的显示信息。13. -种由关联数据生成装置执行的关联数据生成方法,其特征在于,包括: 生成共现词数据的共现词数据生成步骤,所述共现词数据中保存了在相互不同的多个 期间中已发布的发布数据中,作为在全部期间的发布数据中与规定的关键词一起被使用的 词汇的共现词和该共现词的出现频率; 关联数据生成步骤,在所述共现词的出现频率在时间上的变动比第一阈值小并且出现 频率比第二阈值高的情况下,生成作为普通关联词保存了该共现词的关联数据。
【专利摘要】本发明提供关联数据生成装置和关联数据生成方法,能够生成包含与规定的关键词具有高关联性、新鲜度更高的关联词的关联数据。本发明包括:用于生成共现词数据的共现词数据生成部,所述共现词数据保存了在相互不同的多个期间中已发布的发布数据中的、作为在全部期间的发布数据中与规定的关键词一起被使用的词汇的共现词和该共现词的出现频率;关联数据生成部,其用于在所述共现词的出现频率在时间上的变动比第一阈值小并且出现频率比第二阈值高的情况下,生成作为普通关联词保存了该共现词的关联数据。
【IPC分类】G06F17/30
【公开号】CN104899241
【申请号】CN201510098066
【发明人】石黑正雄, 广井和重, 林昭夫, 泽尻晴彦, 堀部泰树
【申请人】歌乐株式会社
【公开日】2015年9月9日
【申请日】2015年3月5日
【公告号】EP2919137A1, US20150254574

最新回复(0)