组形成方法、数据采集方法和数据采集设备的制造方法
【技术领域】
[0001]本文中论述的实施方式涉及数据采集技术。
【背景技术】
[0002]近年来,比如学生、家庭主妇、从业人员等的各种阶层中的许多用户使用网(万维网)来学习日常生活中想到的事情和考虑事情的方式,或者来与其他用户交换各种领域中的信息。由于大量用户使用网,所以存在下述情况:通过使用网来执行市场研宄,以将市场研宄的结果用在开发商业产品中。
[0003]为了提取作为调查目标的用户,提出一种技术来提取如下用户:用户的信息包含用于在用户属性和搜索日志中进行搜索的条件。还建议了下述技术:通过使用与用户的投稿活动相关的数字信息来计算表明分析中的优越性的程度。
[0004]下面的专利文献公开了【背景技术】。
[0005]专利文献1:日本公开特许公报第2010-108119号
[0006]专利文献2:日本公开特许公报第2012-216168号
[0007]博客(网博)是网的用户将他们的观点向公众开放的实例。会存在下述情况:网上博客的内容用于产品开发的调查。在产品开发的调查中,通过下述方式创建群:通过对属于所创建群的每个用户的博客进行分析,来采样每个预定属性的适当数量人员以取得作为消费者或者顾客的每个用户的实际状况。
[0008]群中每个用户的属性随时间的推移而改变,而使得例如从学生变成从业人员。另夕卜,可能存在下述情况:用户停止更新博客或者终止博客本身。
[0009]另一方面,在调研产品市场的情况下,除非维持属性比率恒定,否则无法作出与过去调研结果的准确比较。因此,为了对应于上述改变,从群中略去属性已经改变的用户以维持群中的属性比率恒定,并且将属性一样的新用户添加至群。
[0010]然而,如果使用在作调查时有效提取用户的上述常规技术,则难以响应于用户属性随时间推移的改变将群中的属性比率维持在固定值。
[0011]因此,期望通过考虑群比率中的属性比率来创建调查目标群。
【发明内容】
[0012]根据实施方式的一方面,提供了一种组形成方法,所述组形成方法由计算机执行程序以实施处理来实施,所述方法包括:从包括贡献者的第一组贡献者的公开信息中提取多个关键词,其中针对所包括的贡献者将关于第一属性的属性值计算为与预定属性值相对应,所述第一属性是相对于所述公共信息的每个贡献者的属性,并且所述第一属性的属性值相对于时间的推移而改变;通过形成所述公共信息的贡献者组来形成第一贡献者组集合,其中所述公共信息包含相对于在所述多个关键词中包含的每个关键词的对应关键词;相对于新公共信息通过形成所述新公共信息的贡献者组来形成第二贡献者组集合,其中所述新公共信息包含基于在所述多个关键词中包含的每个关键词的对应关键词;从所述第二贡献者组集合中包含的贡献者组之中识别贡献者组,其中所识别的贡献者组的属性的属性值的分布与所述第一分布不同,指示预定相似度关系,所述第二贡献者组集合中包含的贡献者组是通过使用与所述第一贡献者组集合中包含的每个贡献者组的关键词相同的关键词来形成的;以及通过使用来自在所识别的贡献者组中包含的贡献者之中的贡献者来形成与所述第一贡献者组相对应的新贡献者组,其中所使用的贡献者的关于估算的第一属性的属性值被计算为与所述预定属性值相对应。
[0013]根据实施方式的另一方面,提供了一种数据采集方法,所述数据采集方法执行对由属性随时间推移而变化的调查目标向公众开放的数据进行采集的处理,所述方法由计算机执行程序以进行如下处理而实施,所述处理包括:基于与第一属性不同的第二属性的分布,来创建用于搜索所述调查目标的所述数据的关键词,其中所述调查目标具有相对于所述调查目标的群而不足的所述第一属性;对使用所述关键词采集的所述数据的所述调查目标的所述第一属性进行估算;以及通过被估算为具有不足的第一属性的所述调查目标来补充要被补充在所述群中的调查目标。
[0014]根据实施方式的又一方面,提供了一种一种数据采集设备,对由调查目标开放的数据进行采集,其中所述调查目标的属性随时间的推移进行改变,所述数据采集设备包括:创建部分,所述创建部分基于与第一属性不同的第二属性的分布来创建用于搜索所述调查目标的所述数据的关键词,其中所述调查目标具有相对于所述调查目标的群不足的第一属性;估算部分,所述估算部分对使用所述关键词采集的所述数据的所述调查目标的所述第一属性进行估算;以及采样部分,所述采样部分通过被估算为具有不足的第一属性的所述调查目标来补充要被补充在所述群中的调查目标。
【附图说明】
[0015]图1是示例了根据实施方式的系统结构的框图;
[0016]图2是示例了数据采集设备的硬件结构的框图;
[0017]图3是参考分布的示例;
[0018]图4是数据采集设备的功能结构的框图;
[0019]图5是先前准备的数据库和表中数据实例的示例;
[0020]图6是先前准备的数据库和表中数据实例的示例;
[0021]图7是先前准备的数据库和表中数据实例的示例;
[0022]图8是从群中随机选择的用户集合的数据示例;
[0023]图9是新用户候选集合的数据结构的示例;
[0024]图10是每个用户表的关键词的数据结构示例;
[0025]图11是每个用户表的估算属性的数据结构示例;
[0026]图12是新用户列表的数据示例;
[0027]图13是新用户补充处理的一部分的流程图;
[0028]图14是新用户补充处理的另一部分的流程图;
[0029]图15A是指示随机用户集合的非调节分值分布的一个实例的图;
[0030]图15B是指示随机用户集合的非调节分值分布的另一实例的图;
[0031]图16A是指示群和不充分职业属性值的非调节分值分布的一个实例的图;以及
[0032]图16B是指示群和不充分职业属性值的非调节分值分布的另一实例的图。
【具体实施方式】
[0033]现在将参照附图来给出对实施方式的描述。
[0034]图1是示出根据实施方式的系统的结构的框图。在图1中,系统1000包括采集设备100、一个或更多个博客服务器3,以及一个或更多个博主终端9。
[0035]数据采集设备100经由网络与一个或更多个博客服务器3连接,以搜索并且采集博客服务器3中的博客3a。数据采集设备100在采集博客3a中提供高度可靠的数据集合。
[0036]创建由数据采集设备提供的数据集合,以用于提取用作针对产品发展的有用参考的信息,比如用户对市场上商业产品的喜好。
[0037]每个博客服务器3具有针对博客的各种管理功能,并且向博主(用户)提供针对博客的存储区域。
[0038]博主终端9是被博主使用的终端,并且通过使用博客服务器3的服务来创建、更新并且删除博客3a。
[0039]图2是示出数据采集设备100的硬件结构的框图。数据采集设备100是受计算机控制的终端。如图2所说明的,数据采集设备100包括CPU (中央处理单元)11、主存储装置12、辅助存储装置13、输入装置14、显示装置15、通信I/F(接口)17和驱动装置,它们连接至总线B。
[0040]CPU 11根据存储在主存储装置12中的程序来控制数据采集设备。主存储装置12包括RAM (随机存取存储器)、ROM(只读存储器)等,以存储或暂时保存CPU 11执行的程序、CPU 11的处理需要的数据、通过CPU 11的处理获取的数据等。
[0041]辅助存储装置13包括HDD (硬盘驱动器)等,以存储数据比如用于执行各种处理的程序。存储在辅助存储装置13中的程序的一部分被加载至主存储装置12,并且通过实现各种处理的CPU 11来执行。存储部分130包括主存储装置12和/或辅助存储装置13。
[0042]输入装置14被用户用来输入通过数据采集设备100进行处理而需要的各种信息。显示装置15显示通过CPU 11进行控制而需要的各种信息。通信I/F 17通过有线网络或者无线网络执行通信。通过通信I/F 17进行的通信不限于有线通信或者无线通信。
[0043]通过存储介质19比如⑶-ROM (致密盘只读存储器)等向数据采集设备100提供实现通过数据采集装置100执行的处理的程序。
[0044]驱动装置18连接在驱动装置18中设定的存储介质19 (例如CD-ROM等)与数据采集设备100之间。
[0045]另外,可以在存储介质19中存储用于实现根据后续提到的本实施方式的各种处理的程序。经由驱动装置18将存储在存储介质19中的程序安装在数据采集设备100中。这样安装的程序可被数据采集设备100执行。
[0046]注意,用于存储程序的存储介质19不限于CD-ROM,而可以使用任何计算机可读介质作为存储介质19。作为除了⑶-ROM之外的计算机可读存储介质,存在比如DVD盘、USB存储器等的便携式记录介质和比如闪存等的半导体存储器。
[0047]为了针对市场研宄或调查而使用博客,首先,通过对用户进行采样来创建适当群。就是说,创建群使得群中用户属性的比率基本上等于通过国内群分布等的数据来指示的属性的比率。例如,参照在作为属性的性别和职业的基础上的群分布来确定样本的数量,使得针对每个属性的比率基本上等于所创建的群的比率。在后文中,在创建群时参照的样本的数量的分布被称为“参考分布”。
[0048]图3是示出参考分布的实例的图示。在图3中,参考分布I是通过使用性别和职业作为属性的矩阵来指示样本的数量的表。性别的属性值是“男
性”和“女性”。职业的属性值是“初中和高中学生”、“大学学生”、“从业人员”、“家庭主妇”、“毕业班学生”、“其他”等。例如,在参考分布I中,男性和女性的比率以及职业的比率被设定成基本上相同。基于参考分布I来创建群。
[0049]在本实施方式中,基于参考分布I以相同的属性比率来创建群。然后,如果随时间的推移而出现从群中被排除的用户,则找到可能与要从群中被排除的用户具有相同的属性值的用户来补充群。
[0050]每个用户的属性可以改变,这样作为初中和高中学生的用户成长为大学学生。另夕卜,可能存在停止更新其博客的用户。可以通过对用户的投稿文章应用模型来估算用户的属性。可以通过应用文件分类技术来创建这样的模型。
[0051]该模型是基于文章中书写的术语和术语出现的频率来对用户进行分类的模型。通过使用该模型,如果例如在文章中书写了术语“俱乐部活动”,则提高了是初中和高中学生的可能性。根据此方法,需要针对每个用户采集多篇文章。
[0052]另外,在其中连续观察消费者的实际状况的情况下,如果由于用户改变而出现完全不同的趋势,则错误地检测到消费者的实际状况被突然改变。为了准确地调查用户的实际状况,期望选择下述用户:该用户作出具有与从群中被排除的用户相同的趋势的投稿。
[0053]作为随机采样方法的实例,考虑下面的过程。
[0054]1.在改变采样之前,术语在每个属性值的用户集合中的出现频率分布Pall。
[0055]2.关于随机选择的候选用户,收集投稿。
[0056]3.获取用户的术语的出现分布Pu和估算的属性值。
[0057]4.如果Pall和Pu之间的相似度大于或等于阈值并且如果估算的属性值与不足单元的属性值一致,则采用候选用户作为新用户。这里,单元是例如在图3所说明的表中提供的每个项目。例如,与属性值“男性*已婚*从业人员”相对应的单元在图3的表中指示50000。这意指必须存在与属性值“男性*已婚*从业人员”相对应的50000个激活用户。然而,如果与属性值“男性*已婚*从业人员”相对应的激活用户的数量随时间的推移已被减少为49000个,则与属性值“男性*已婚*从业人员”相对应的单元被称为必须向其添加激活用户的不足单元。
[0058]5.重复上述步骤2至4,并且在所采用的新用户的数量对应于不足用户的数量时结束处理。
[0059]在此实例中,由于采用随机选择的用户的可证明性低并且增加采集的数量,所以可能的是,由于采集数量的限制而不能够获取充分数量的用户。从而,随机采样方法不是高效的,这是因为随机采样方法不能够仅采集具有针对其期望进行补充的属性值(例如“初中和高中学生”)的用户。
[0060]根据本实施方式的数据采集设备100不随机选择要被采集的用户,而仅选择已至少一次投稿了文章的用户,其中该文章包含是要被补充的用户的特性的关键词。
[0061]在随机设定关键词的情况下,可能存在下述情况:其中采集仅投稿特定标题或主题的文章的用户,这导致群不反映消费者的实际状况。
[0062]从而,根据本实施方式,设定避免“偏差”的关键词,该“偏差”是作为要被采集的对象的用户的投稿内容的趋势的偏移。具体地,设定该关键词以满足下面的条件(I)和(2)。
[0063](I)在针对每个用户估算上述参考分布I的属性的估算模型中,按照从更高等级开始的顺序将容易分类成要被获取的属性值(例如,“初中和高中学生”)的重要术语添加为关键词。
[0064]根据上述条件(I),提高了用户的估算结果与要被获取的属性值符合的可能性,这减少了采集的数量。
[0065](2)通过除在参考属性(后文中,称为“非调节属性”)中指示的性别和职业之外的属性的分布,来定义投稿内容的趋势的偏差,以设定关键词,使得采样检查之前与之后的差变小。
[0066]调节属性是要作为调查目标的属性比如性别、职业等。非调节属性是不会作为调查目标的属性。作为非调节属性,存在例如爱好属性等。爱好属性包括多于50个的属性,比如美食、电影等。爱好属性的属性值的数量大于其他的人口属性,并且难于调节爱好属性的属性值的数量。
[0067]而且,在实验上,通过初步实验发现了:可以通过关注爱好属性来提取其投稿内容趋势相似的用户。
[0068]而且,爱好属性在提取消费者的实际状况的系统中是有用的,然而可以通过使用其他的属性来尝试相同的解决方案。作为其他属性的实例,如果执行灾难防止相关调查,则可以使用居住地比如东京府、大阪府等作为属性。
[0069]图4是示出数据采集设备100的功能结构的框图。在图4中,实线表示输入,而虚线表不输出。
[0070]如图4所示,数据采集设备100包括基本数据采集部分41、用户集合创建部分42、分值分布阈值计算部分43、关键词列表创建部分44、米集部分45、属性估算部分46和米样部分47。
[0071]存储部分130的初步准备区域30存储博客DB 31、职业分类表32、分值表33、职业估算模型34、关键词对用户表35等。此外,存储部分130存储第一随机用户集合51、第二随机用户集合52、可容许误差阈值53、搜索关键词列表54、新用户候选集合55、针对每个用户表的关键词56、针对每个用户表的估算属性值57和新用户列表58等。
[0072]基本数据采集部分41基于参考分布I通过响应于属性的比率从博客服务器3中搜索用户来创建群31。基本数据采集部分41从博客服务器3获取包含在群I中的每个用户的博客3a,并且将所获取的博客3a存储在博客DB 32中。
[0073]用户集合创建部分42根据通过基本数据采集部分41获取的群31来创建两个用户集合。标识包含在用户集合的每个用户集合中的每个用户的用户ID被记录在第一随机用户集合51和第二随机用户集合52中的任一个用户集合中。
[0074]分值分布阈值计算部分43关于通过用户集合创建部分42创建的两个用户集合来计算针对每个爱好属性的分值分布,并且通过比较两个分值分布来获取可容许误差阈值53。当计算分值分布时,参照分值表33。
[0075]关键词列表创建部分44设定提高属于每个属性的可能性的一个或更多个关键词,并且创建关键词列表,其中,针对该关键词列表,爱好属性值的分值分布在可容许误差阈值53内。
[0076]这里,属于属性的可能性意指例如“初中和高中学生的可能性”。可以通过设定多个关键词来提高属于属性的可能性。参照职业估算模型34来判断可能性。在爱好属性的分值分布的计算中,参照关键词对用户表35。
[0077]关键词列表创建部分44创建搜索关键词列表54,其中,该搜索关键词列表54指示用于搜索博客3a的文章内容的关键词。
[0078]采集部分54通过搜索博客3a来采集博客3a,其中,由与所排除的用户具有相同属性的用户通过使用搜索关键词列表54的关键词来创建该博客3a。采集部分45使所采集的博客3a的用户作为新用户候选,并且将新用户候选集合55存储在存储部分130中,其中,该新用户候选集合55指示新候选用户的用户ID。
[0079]采集部分45计数针对每个新用户候选的关键词列表54的关键词的出现数量。该针对每个新用户候选的关键词列表54的关键词的出现数量被记录在针对每个用户表57的估算属性值中,并且针对每个用户表57的估算属性值被存储在存储部分130中。
[0080]属性估算部分46通过将职业估算模型34应用于所采集的博客3a的文章来估算每个用户的职业。针对每个用户表57的估算属性值被存储在存储部分130中,其中,在每个用户表57中,估算值与每个用户相关。
[0081]下面给出对存储在存储部分130中的表的描述。图5至图7是存储在初步准备的DB和表中的数据的示例。图5示出了与包含在群中的用户有关的数据结构。
[0082]群31是其中职业与每个用户ID相关的表。用户ID是唯一标识群中每个用户的标识符。这同样适用于后续提到的DB和表。职业是根据博客3a的文章来估算的每个用户的职业。作为职业的属性,使用图3所说明的参考分布I的职业的属性。
[0083]博客DB 32是其中博客3a的文章数据与每个用户ID相关的表。从博客服务器3获取的博客3a被存储在博客文章中,或者该文章指示其中存储博客3a的区域的地址。
[0084]分值表33是其中爱好分值与每个用户ID相关的表。爱好属性值包括“美食”、“电影”、“棒球”等。爱好分值被指示给针对每个用户ID的每个爱好属性值。爱好分值随着其更接近I而指示更大的兴趣,并且爱好分值随着其更接近O而指示更小的兴趣。
[0085]例如,明显的是,用户ID “00003”的用户对“电影”感兴趣,这是因为“电影”的爱好分值是“1.0”,而用户ID “00002”的用户对“美食”完全不感兴趣,这是因为“美食”的爱好分值是“0.0”。
[0086]图6是示出职业估算模型的数据结构的示例。在图6中,职业估算模型34是其中职业分值与每个关键词相关的表。职业属性值对应于参考分布I的属性值,并且包括“初中和高中学生”、“其他”等。针对每个关键词的每个职业值指示职业分值。职业分值随着其更接近“I”而指示更有可能是对应职业值。另外,职业值随着其更接近O而指示与对应职业值的更小互相关性。此外,职业值随着其更接近-1而指示更不可能是对应职业值,就是说,更有可能是其他职业值。
[0087]例如,如果关键词“俱乐部活动”在博客3a中出现,则其指示将作为博客3a的创建者(博主)的用户是初中和高中学生的可能性提高“0.5”点,并且将该用户是其他职业的可能性提尚“ 0.0I ”点。
[0088]图7是示
出关键词对用户表的数据结构的示例。在图7中,关键词对用户表35是其中用户ID列表与针对每个关键词的每个用户ID相关的表。每个关键词是研宄中使用的多个关键词中的一个关键词。与关键词相关地指示其中出现关键词的博客3a的用户的ID。例如,如果关键词是“俱乐部活动”,则用户ID “00002”、“00383”等与其相关。
[0089]图8是从群中随机选择的用户集合的数据的实例。在图8中,从相应群随机选择的用户ID被记录在通过用户集合创建部分42创建的第一随机用户集合51和第二随机用户集合52中的每个用户集合中。
[0090]第一随机用户集合51和第二随机用户集合52以及针对每个用户的非调节属性的分值表33可以通过用户ID彼此相关。可以从分值表33中获取对应于用户ID (分值分布)的每个爱好属性值的爱好分值。
[0091]由分值分布阈值计算部分43使用第一随机用户集合51和第二随机用户集合52来计算可容许误差阈值53。
[0092]图9是示出新用户候选集合的数据结构的示例。在图9中,新用户候选集合55是指示用户的ID的列表,其中,由采集部分45针对该用户来采集博客3a。
[0093]图10是示出针对每个用户表的关键词的数据结构的示例。在图10中,针对每个用户表56的关键词是下述表:其中,出现在博客3a中的每个关键词与针对新用户候选集合55的每个用户ID的关键词的出现数量相关。针对每个用户表56的关键词包含比如用户ID和关键词的项目。
[0094]在关键词的项目中指示每个用户的最新近10篇文章的采集的结果。就是说,在关键词项目中指示文章中出现的关键词和每个关键词的出现数量。
[0095]例如,针对用户ID“00002”指示关键词“俱乐部活动X3、朋友X2、游戏X5、…”。指示了:关键词“俱乐部活动”出现3次,关键词“朋友”出现2次,并且关键词“游戏”出现5次。
[0096]图11是示出针对每个用户表的估算属性值的数据结构的示例。在图11中,针对每个用户表57的估算属性值是下述表:其中,针对指示在新用户候选集合54中的每个用户ID,每个职业属性值的估算值和估算属性彼此相关。
[0097]职业属性值包括“初中和高中学生”、“其他”等。针对每个职业属性值指示通过属性估算部分46估算的估算值。估算值随着其是更高值而指示是更有可能是一个人的职业,而估算值随着其是更低值而指示更低的可能性是人的职业。估算属性指示下述职业值:该职业值指示从每个职业属性值的估算值起的最高值。
[0098]图12是示出新用户列表的数据实例的示例。在图12中,用户列表58是针对不足的职业属性值创建的列表,并且是要作为新用户补充在群31中的用户ID的列表。
[0099]例如,指示了:用户ID“00002”、“00383”、“00876”等被补充为针对职业属性值“初中和高中学生”的新用户。
[0100]下面描述根据本实施方式的新用户补充处理。图13和图14是用于说明新用户补充处理的流程图。在图13和图14中,给出了对下述情况的描述:其中,不足的属性值是职业属性值“初中和高中学生”。可以针对其他的职业属性值来执行相同的处理。
[0101]在图13中,用户集合创建部分42根据针对每个用户的非调节属性的分值表33来创建两个随机用户集合七和u 2。这里,用户集合七和112是参照群31从其职业指示“初中和高中学生”的用户ID中随机提取的用户ID的集合。随机用户集合U1的用户ID对应于第一随机用户集合51的用户ID,并且随机用户集合U2的用户ID对应于第二随机用户集合52的用户ID。
[0102]然后,分值分布阈值计算部分43计算不足的属性值的非调节属性的分值分布DOTig(步骤S12)。可以通过下面的公式⑴和(2)来计算分值分布0。&。
[0103]Dorig — {d orig;hl, dorig;h2,…,ClorigihlJ …(I)
[0104]这里,hi至hm对应于爱好属性值“美食”、“电影”、…、“棒球”等。
[0105]dorig’h — Ir orig’h.sl,rorig’h.s2...,rorig’h.srJ...(2)
[0106](rOTig,h.s是爱好的分值s的人数比率(例如,增量为0.05))。
[0107]分值分布阈值计算部分43将非调节属性分值分布DuJP D u2彼此比较以获取可容许误差阈值Θ = Diff (Dul, Du2)(步骤S13)。分值分布阈值计算部分43通过将上述公式(I)和(2)应用于随机用户集合ujPu2中的每个用户集合来计算非调节分值分布DujPDf可以通过非调节属性分值分布Dl^PDu2之间的差来获取可容许误差阈值Θ。可容许误差阈值Θ对应于可容许误差阈值53。
[0108]分值分布阈值计算部分43通过下面的公式(3)来计算每个爱好h,其中,公式(3)是每个分值s的用户数量比率ru,h.s的平方和。
[0109]Θ — She hobbies Σ s e scores ( I rul’h.s I _ I ru2, h.s I )…⑶
[0110]图15A和图15B示出在相对于爱好属性值“美食”和“电影”中的每个爱好属性值的职业属性值“初中和高中学生”情况下随机用户集合+和u 2的非调节属性分值分布的实例。在图15A和图15B中,水平轴表示爱好分值,其是对爱好的关注程度,并且垂直轴表示用户数量比率。
[0111]在图15A中,相对于爱好属性值“美食” Oi1),用dul,hl来指示随机用户集合u i的非调节属性分值分布,并且用du2,hl来指示随机用户集合U2的非调节属性分值分布。
[0112]相似地,在图15B中,相对于爱好属性值“美食”(h2),用Clulih2来指示随机用户集合+的非调节属性分值分布,并且用du2,h2来指示随机用户集合U2的非调节属性分值分布。从而,通过用公式(3)计算针对每个爱好属性值的差的平方和来获得可容许误差阈值Θ。
[0113]返回图13,步骤S14至步骤S20的处理对应于通过关键词列表创建部分44执行的处理。通过步骤S14至S20的处理使用可容许误差阈值Θ来确定关键词,使得该关键词变成与职业属性值的分布相同,其中,该职业属性值是群31的非调节属性。首先,关键词列表创建部分44将参数i初始化为零(步骤S14)。
[0114]关键词列表创建部分44使参数i加I (步骤S16),并且确定该参数i是否大于或者等于词汇数量(步骤S16)。词汇数量可以小于或者等于职业估算模型34维持的比如“俱乐部活动”、“测试”等的关键词的值的总数量。如果参数i大于词汇数量,则关键词列表创建部分44进行至图14的步骤S21。
[0115]如果参数i小于词汇数量,则关键词列表创建部分44从职业估算模型34中提取集合Ti,其中,该集合Ti是更高等级的i关键词的集合,这些i关键词对于将要被获取的职业属性值进行分类是有用的(步骤S17)。“对于将要被获取的职业属性值进行分类有用的关键词”是提高例如“初中和高中学生的可能性”的关键词。按照从使职业属性值“初中和尚中学生”的值更尚的关键词开始的顺序从职业估算申旲型34中提取更尚等级的i关键词。
[0116]关键词列表创建部分44从维持在博客DB 32中的博客文章中提取用户以获取非调节属性分值分布Di,其中该用户投稿了包含集合Ti的关键词中的任一个关键词的文章(步骤S18)。就是说,在步骤S18中,关键词列表创建部分44参照关键词对用户表35提取用户,其中该用户投稿了包含集合Ti的关键词中的任一个关键词的文章,并且关键词列表创建部分44获取爱好属性的分值分布Di。
[0117]然后,关键词列表创建部分44获取群31的分布DOTig与职业属性值的分布Di之间的分布差Diff (DOTig,Di)(步骤S19)。可以通过将公式(3)应用于分布DOTig与分布Di来获得分布差 Diff(DOTig,Di)。
[0118]然后,关键词列表创建部分44确定在步骤S19中获取的分布差Diff(DOTig,Di)是否小于在步骤S13中获取的Θ (步骤S20)。如果分布差Diff(DOTig,Di)大于或者等于Θ,则关键词列表创建部分44确定出其没有接近群31的职业属性值的比率,并且返回步骤S15来进一步添加第i个关键词并重复与上述处理相同的处理。另一方面,如果分布差Diff(DoriglDi)小于Θ,则关键词列表创建部分44进行至图14的步骤S21。
[0119]图16A和16B示出群31和不足的职业属性值“初中和高中学生”相对于爱好属性值“美食”和“电影”中的每个爱好属性值的非调节分值分布的实例。在图16A和16B中,水平轴表示爱好分值,其是对爱好的关注程度,并且垂直轴表示用户数量比率。
[0120]在图16A中,相对于爱好属性值“美食”(设定为Ii1),用dOTig,hl来指示群31的非调节属性分值分布,并且用来指示不足的职业属性值“初中和高中学生”的非调节属性分值分布。
[0121]相似地,在图16Β中,相对于爱好属性值“美食”(设定为h2),用(^⑶来指示群31的非调节属性分值分布,并且用屯丨来指示不足的职业属性值“初中和高中学生”的非调节属性分值分布。从而,通过用公式(3)计算针对每个爱好属性值的差的平方和来获得分布差 Diff(DOTig,Di)。
[0122]每次按照自职业估算模型34(图6)的职业属性值“初中和高中学生”的估算值的更高值起的顺序将关键词添加至搜索关键词集合Ti时执行这样的处理。根据职业估算模型34(图6),以搜索关键词集合Ti = {俱
乐部活动}执行第一次处理。以搜索关键词集合T2= {俱乐部活动,测试}执行第二次处理。以搜索关键词集合T3= {俱乐部活动,测试,班级}执行第三次处理。以搜索关键词集合T4= {俱乐部活动,测试,班级,学校}执行第四次处理。
[0123]如果在第四次处理中分布差Diff (DOTig,Di)变成小于Θ,则关键词列表创建部分44结束步骤S15至S20的处理的重复。然后,通过关键词列表创建部分44进行的处理继续至图14的步骤S21。
[0124]在图14中,关键词列表创建部分44使显示装置15显示搜索关键词列表54,以使数据采集设备100的管理者选择关键词(步骤S21)。例如,关键词列表54被显示在显示装置15上,使得搜索关键词集合T4= {俱乐部活动,测试,班级,学校}是可选择的,并且被管理者选择的关键词被存储在搜索关键词列表54中。搜索关键词列表54包含被管理者选择的搜索关键词集合T4的一部分或全部,并且管理者允许重新添加关键词。
[0125]例如,如果由于关键词“测试”被除初中和高中学生之外的人员在投稿“投稿测试”、“程序测试”等时使用,而管理者判断出集合Ti = {俱乐部活动,测试,班级,学校}中的关键词“测试”不适于采集职业属性值“初中和高中学生”,则管理者可以设定Ti = {俱乐部活动,测试,班级,学校}。
[0126]采集部分45通过使用选择的搜索关键词列表54对来自博客服务器3的博客文章执行或搜索、来确定候选用户(步骤S22)。如果搜索到包含搜索关键词列表54中的关键词中任一个关键词在内的博客文章,则将搜索的博客文章的用户确定为候选用户。在存储部分130中创建指示所确定的用户的ID的新用户候选列表55。
[0127]采集部分45相对于博客服务器3来采集最新近10篇文章,并且计数针对每个用户的关键词(步骤S23)。就是说,采集部分45通过搜索针对每个用户ID的相关博客文章来计数关键词,并且将针对每个用户表56的关键词创建在存储部分130中。
[0128]属性估算部分46通过将职业估算模型34应用于采集的博客文章通过使用针对每个用户表56的估算属性值来将针对每个用户表57的估算属性值创建在存储部分130中(步骤S24)。属性估算部分46在针对每个用户表57的创建估算属性值中识别职业属性值,其中该职业属性值具有针对每个用户ID的最高估算值,确定所识别的职业属性值为用户的职业,并且将职业属性值设定为针对每个用户表57的估算属性值的估算属性。
[0129]在图11的实例中,与用户ID “00002”相关地将“初中和高中学生”设定成估算属性,这是因为职业属性值“初中和高中学生”的估算值“0.53”指示相对于用户ID “00002”的最高值。将“其他”设定成相对于用户ID “00014”的估算属性。将“初中和高中学生”设定成相对于用户ID “00383”的估算属性。
[0130]然后,采样部分47从被估算为具有目标职业属性值的用户随机采样不足的用户,并且将采样的用户添加至群31 (步骤S25)。
[0131]例如,如果职业属性值“初中和高中学生”是不足的,则采样部分47提取用户ID,其中,针对该用户ID,将职业属性值“初中和高中学生”设定成针对每个用户表57的估算属性值中的估算属性,并且将新用户列表58 (图12)创建在存储部分130中。采样部分47使用新用户列表58来补充群31。
[0132]如上所述,在根据本实施方式的数据采集设备100中,可以在维持调查目标的群的属性比率的同时补充具有不足的职业属性值的用户。
[0133]在本实施方式中,没有随机选择采集目标的用户,而仅选择投稿了包含是要被补充至少一次的用户的特性的关键词在内的博客文章的用户。
[0134]根据随机设定关键词的技术,可以仅选择投稿了特定主题的博客文章的用户,这可以导致创建不反映消费者的实际状况的群。然而,根据本实施方式,由于设定关键词使得要被采集的用户的投稿内容的趋势避免偏差,所以可以维持调查目标的群的属性比率恒定。因此,可以解决之前提到的问题。
[0135]本文中引用的所有实例和条件性语言意在用于教导目的,以帮助读者理解本发明的原理和由本发明人贡献从而促进现有技术的构思,并且本文中引用的所有实例和条件性语言应当被解释为不限于这样具体引用的实例和条件,说明书中这样的实例的组织也不涉及示出本发明的优势和劣势。尽管已详细描述了本发明的实施方式,然而应当理解的是,可以在不偏离本发明的精神和范围的情况下对本文作出各种改变、置换和更改。
【主权项】
1.一种组形成方法,由计算机通过执行程序以实施处理来实施所述方法,所述方法包括: 从包括贡献者的第一组贡献者的公共信息中提取多个关键词,其中针对贡献者将关于第一属性的属性值计算为与预定属性值相对应,所述第一属性是相对于所述公共信息的每个贡献者的属性,并且所述第一属性的属性值相对于时间的推移而改变; 通过形成所述公共信息的贡献者组来形成第一贡献者组集合,其中所述公共信息包含相对于在所述多个关键词中包含的每个关键词的对应关键词; 通过形成新公共信息的贡献者组来形成关于新公共信息的第二贡献者组集合,其中所述新公共信息包含基于在所述多个关键词中包含的每个关键词的对应关键词; 从所述第二贡献者组集合中包含的贡献者组之中识别贡献者组,其中所识别的贡献者组的属性的属性值的分布与所述第一属性不同并指示预定相似度关系,所述第二贡献者组集合中包含的贡献者组是通过使用与所述第一贡献者组集合中包含的每个贡献者组的关键词相同的关键词来形成的;以及 通过使用来自在所识别的贡献者组中包含的贡献者之中的贡献者来形成与所述第一贡献者组相对应的新贡献者组,其中所使用的贡献者的关于估算的第一属性的属性值被计算为与所述预定属性值相对应。2.一种数据采集方法,执行对通过属性随时间推移而变化的调查目标向公众开放的数据进行采集的处理,所述方法由计算机通过执行程序以进行如下处理而实施,所述处理包括: 基于与第一属性不同的第二属性的分布,来创建用于搜索所述调查目标的所述数据的关键词,其中所述调查目标具有相对于所述调查目标的群而不足的所述第一属性; 估算使用所述关键词采集的所述数据的所述调查目标的所述第一属性;以及通过被估算为具有不足的第一属性的所述调查目标来补充要被补充在所述群中的调查目标。3.根据权利要求2所述的数据采集方法,其中,所述计算机执行下述处理: 计算相对于所述群具有不足的第一属性的所述调查目标的所述第二属性的群分布; 根据采集的所述数据来计算所述第二属性的采集数据分布;以及增加与要补充的所述第一属性相关的关键词的数量,直到所述采集数据分布与所述群分布之间的分布差落入阈值内为止。4.根据权利要求3所述的数据采集方法,其中,所述计算机执行下述处理: 根据所述群随机创建第一调查目标集合和第二调查目标集合; 计算所述第一调查目标集合的所述第二属性的第一分布; 计算所述第二调查目标集合的所述第二属性的第二分布;以及 通过计算所述第一分布与所述第二分布之间的差来获取所述阈值。5.根据权利要求4所述的数据采集方法,其中,所述计算机执行下述处理: 将通过所述关键词进行或搜索的所述数据的所述调查目标设定为新调查目标候选; 估算所述新调查目标候选的所述第一属性;以及 基于所估算的第一属性按照从具有较高可能性是第一属性的候选开始的顺序、通过所述新调查目标候选来补充所述群。6.根据权利要求2所述的数据采集方法,其中,所述数据是博客数据。7.根据权利要求2所述的数据采集方法,其中,所述第一属性是具有下述中的至少一个的属性值的职业属性:初中和高中学生、大学学生、从业人员、家庭主妇和毕业班学生,并且所述第一属性是以固定比率维持在所述群中的职业属性。8.根据权利要求2所述的数据采集方法,其中,所述第二属性是具有与所述调查目标的偏好相关的至少一个属性值的爱好属性。9.一种数据采集设备,对由调查目标开放的数据进行采集,其中所述调查目标的属性随时间的推移而改变,所述数据采集设备包括: 创建部分,所述创建部分基于与第一属性不同的第二属性的分布来创建用于搜索所述调查目标的所述数据的关键词,其中所述调查目标具有关于所述调查目标的群不足的第一属性; 估算部分,所述估算部分对使用所述关键词采集的所述数据的所述调查目标的所述第一属性进行估算;以及 采样部分,所述采样部分通过被估算为具有不足的第一属性的所述调查目标来补充要被补充在所述群中的调查目标。10.—种非暂态计算机可读记录介质,存储用于对由调查目标开放的数据进行采集的数据采集程序,其中所述调查目标的属性相对于时间的推移而改变,所述数据采集程序使计算机执行权利要求2所要求保护的数据采集方法。
【专利摘要】提供了一种组形成方法、数据采集方法和数据采集设备。所述数据采集方法执行对由调查目标向公众开放的数据进行采集的处理,其中所述调查目标的属性相对于时间的推移进行改变。由计算机通过实行执行下述处理的程序来执行所述方法,所述处理包括:基于与第一属性不同的第二属性的分布来创建用于搜索所述调查目标的所述数据的关键词,其中所述调查目标具有关于所述调查目标的群不足的所述第一属性;对使用所述关键词采集的所述数据的所述调查目标的所述第一属性进行估算;以及通过被估算为具有不足的第一属性的调查目标来补充要被补充在所述群中的调查目标。
【IPC分类】G06F17/30
【公开号】CN104899238
【申请号】CN201510094420
【发明人】古川忠延, 冈本美纪
【申请人】富士通株式会社
【公开日】2015年9月9日
【申请日】2015年3月3日
【公告号】US20150248471