支持电子正文搜索的机制的制作方法

xiaoxiao2020-7-23  4

专利名称:支持电子正文搜索的机制的制作方法
技术领域
本发明涉及支持电子正文搜索,尤其和对因特网型网络上的和CD-ROM盘上出版的文档的搜索有关。
以电子形式发布的文档的数量以及它们所包含的信息量巨速增加。因特网和CD-ROM(以及DVD盘)正变成日益普及的出版品手段。
用户通过输入一个或多个其认为是最相关的词搜索文档以得到信息。这些词称为关键词。例如,一个对主道路交通事故(芬兰语中为“maantieliikenneonnettomuus”)的用户可使用诸如“tie”(=road(道路))、“liikenne”(=traffic(交通))、“onnettomuus”(=accident(事故))等的关键词。
实现用户所定义的正文搜索的程序、计算机和服务分别称为搜索程序、搜索引擎和搜索服务。如果搜索程序首先接收用户给出的关键字组并接着就开始浏览所有能得到的信息,该搜索会变得不可救药地长。查看一个充满正文的CD-ROM盘要数分钟。查看整个因特网需要几天或几周。另外,这种搜索会对因特网造成过分的负担。搜索通常第一次不会产生足够好的结果,从而必须重复数次搜索。
已经通过设计检索程序及服务试图解决这个问题,这些检索程序及服务事先浏览所有可得到的信息并建立信息的索引数据库,从而能在一秒钟或者仅仅几秒钟完成搜索。诸如Lycos、Yahoo(雅虎)和AltaVista的因特网搜索以该技术为基础。个人计算机上或局域网上运行的搜索程序的一个例子是dtSearch,它是一家具有相同名字的公司生产的。可在WWW(万维网)地址WWW.name.com上得到有关这些服务的所有信息,其中“name”用所搜索的服务或公司的名字置换。


图1示出对因特网型网络中的文档的搜索。术语“因特网型网络”不仅指的是实际的因特网还代表其邻近的子网络,例如内联网、外联网等。终端设备TE指的是用户的终端设备,即用户的计算机和/或显示器终端以及用于和终端一个检索web网页的浏览器。参照1-A用于搜索服务者的搜索服务器,域名服务器DNS代表名字服务的服务器即一个名字服务器,而参照1-B是保持因特网网页的WWW服务器,即文档出版商的服务器。
在步骤1-2,用户以HTTP(超文本传输协议)格式输入的因特网地址被发送到名字服务器DNS,后者接着在步骤1-4,把IP(网际协议)格式下的搜索服务器的地址发送给用户。在步骤1-6,终端设备TE利用该IP地址生成一个对搜索服务器1-A的链接。
在步骤1-8,搜索服务器向用户传送作为页面描述语言的HTML(超文本标记语言)格式下的WWW页面,接着在用户的终端设备的显示器上显示WWW页面。服务器和终端设备之间的连接仅在传送页面的时间内保持打开。
在步骤1-10,用户把一个或多个关键词输入到搜索引擎的搜索表格中,在步骤1-12,这些关键词发送到搜索服务器。在步骤1-14,搜索程序为输入的关键词搜索搜索服务器的数据库。在步骤1-16,用户接收包含这些关键词的文档列表。
在步骤1-18,用户可用他的因特网浏览器浏览检索到的文档。当用户希望研究搜索中找到的某文档时,他向浏览器提供该文档的WWW地址,例如通过从搜索服务所生成的列表中选择地址。接着浏览器在步骤1-20和名字服务器接触。名字服务器在步骤1-22向浏览器发送该文档的IP地址,并且在步骤1-24浏览器利用该IP地址请求该文档。在步骤1-26向用户发送所关心的WWW页面。若用户希望浏览搜索引擎找到的其它文档,他可在步骤1-28返回到找到的文档的列表。
用户可重复步骤1-18…1-28,直到他查看了所有由搜索引擎找到的文档和/或他希望停止浏览。
为了使上面描述的搜索是有效的,不同的搜索服务采用不同的组合关键词的技术。常常使用逻辑运算符AND、OR、NOT和括号。例如,利用词组“tie AND onnettomuus”(=“road AND accident”)可检索含有词“tie”和“onnettomuus”的所有文档。
但是,仅仅关键词的组合一般并不提供相关的信息。因此,大多数搜索服务还认可邻近运算符。在AltaVista中该运算符是NEAR;利用词组“tie NEAR onnettomuus”会检索其中词“tie”和“onnettomuus”彼此间的距离最大为10个词的文档。dtSearch也允许确定最大的词距离其邻近运算符w/n(其中n=1,2,…,)要求词彼此出现的最大距离为n。
本发明要处理的问题是,在其中具有几种变形形式的语言中先进的索引不能起好的作用。芬兰语的名词和名词性动词形式具有15种格形式,匈牙利语具有21种格形式。在考虑单数复数格式、所有格后缀以及其它词尾下,变形形式的数量可增加到数百个。
为了找到变形形式,所有上面提到的搜索服务都支持使用通配符或星号(*)。星号可用于指出该词未结束,并指示搜索服务去寻找所有具有搜索中所指示的开头部分的词。例如,利用关键词“onnettomuu*”(“acciden*”),搜索服务应寻找“onnettomuudet”(=accidents),“onnettomuuksista”(=about accidents),“onnettomuustutkintalautakunta”(=accident investigationcomission)等。
然而,星号的使用涉及一些问题和限制。例如,AltaVista要求星号前面至少有关键词的三个字母。但是以芬兰语中的词“tie”(=road)为例,该词变形时很快出现元音改变“teiden”(=of the roads),“teilla”(=on the roads)等。另一个问题是关键词“tie”产生所有以字母组“tie”开头的词,例如“tiede”(=science),“tietokone”(=computer),“tietoliikenne”(=telecommunications),“tietysti”(=of cause),“tienoo”(=region)和“tietoisuus”(=awareness),以及它们的所有变形形式。换言之,利用具有短词干的词进行的搜索产生完全无关的信息,或者根本不产生信息。
本发明的目的是提供一种电子文档结构,其中在对文档编索引后不再出现上述各问题。从另一个角度,本发明的目的是提供产生这种文档的方法和设备。通过一种其特征在独立的权利要求书中予以阐述的方法和系统实现本发明的目的。在相关权利要求书中公开本发明的优选实施例。
本发明的基本思想是通过向电子出版文档添加正文部分出现的词的基本形式以及原始顺序补充电子出版文档。以基本形式添加的各词允许搜索服务找到根据本发明的在编索引后得到补充的文档,尽管在原始文档中根本不会出现基本形式下的词。
在下文中术语“补充部分”用来表示含有依据本发明添加的词的部分。对应地,术语“基本部分”用于表示含有原始文档的那一部分。
事实上,已经知道人为地把基本形式下的关键词组添加到文档中。在科技文档中,示出一些关键词的关键词字段有时在该文档的标题后或其结束处得到使用。但是,这不能提供所希望的解决办法,因为以基本形式给出的词的数量是非常有限的而且邻近运算符不能恰当地工作。一篇长文章可能讨论几个完全独立的论题而关键词字段中给出的相应关键词可能彼此接近。
其中按它们原始顺序添加的词使搜索服务有可能正确地使用邻近运算符。例如,借助词组“tie NEAR onnettomuus”的搜索会产生含有一段诸如“teillmme tapahtuneet onnettomuudet”(=accidentsthat have occurred on the roads)的文档,即使该文档完全不含有基本形式下的词“tie”(=road)或“accident”(=onnettomuus)。
把原始顺序下的词组加到文档的正文部分中大约会使文档的长度翻一番。这对于只含有正文的文档是确实。但是,大多数文档还包括着图象,和只含有正文的文档相比它们需要好多倍的存储器空间。从而,正文部分的翻番不会明显地增加文档所需的总存储器空间。
存储器空间的小增加被本发明的方法所提供的另一个出乎意料的优点所平衡由于这样补充的文档含有双倍数量的由用户选择的关键词,文档的关联看起来至少也是翻番的。换言之,依照本发明补充的文档的出版者将使他的消息得到更好的通过。对于词干足够长的词翻番文档的关联会使利用星号,例如“onnettomuu*”得到可靠的搜索。对于词干短的词,多方面地提高文档的关联,因为在现有技术中这样的词是完全不能搜索的从而这些文档对于应用现有技术的搜索服务完全是不相关的。(或者,在用户输入数个关键词其中某些关键词可由搜索服务找到的情况下它们是部分关联的。)该语境下的术语“关联”不是指若能找到它该文档如何和用户相关,而是一个由搜索服务根据该文档中所输入的关键词组出现多少次而计数的参数,并且可能是关于它们的出现频度的参数。
一份文档的用户(即搜索文档的人们)事先不知道哪些文档利用本发明的方法得到补充以及哪些文档未得到补充。这是另一个以原始顺序添加这些词的最重要的原因,因为用户不必改变他们习惯的搜索方式,他们可以和以前一样继续使用邻近运算符。
不过,当搜索服务找到某含有这些关键词的文档时,对于用户搜索过程尚未结束。通常用户需要接着找到该文档内的有关各部分。
让我们从假设在文档的结尾处简单地通过添加基本形式下的多个词补充文档开始。用户可以通过浏览器或字处理程序的“查找”功能为关键词组的基本形式搜索补充部分。若关键词是一个词干短的词,用户不能在文档的基本部分中搜索到它,但用户可以检查补充部分以找到和该关键词密切相关的一个更长的但不那么常用的词,并接着在文档的基本部分中查找它。在这个方面上,本发明的方法可能略微改变用户工作的方式,但用户只会在搜索程序已经找到该文档并且用户正在浏览时才注意到这一点。若文档短或者用户出于某原因希望通读该文档,他不必改变工作方式。
在文档的结尾处添加基本形式下的文档词破坏了文档的外观。正文看起来仿佛是由对该语言一点都不了解只借助字典机械翻译各词的人写出的。该文档的作者甚至会认为侵犯了尊重权。(尊重权意味忽视商业销售权,不应在使人不快的形式下展示某作品。)从而最好把补充部分包含在文档中,从而在常规使用文档下不会看到补充部分。例如,可提供至少带有一个包括本发明的补充部分的注解或元代码区段的HTML(超文本标记语言)编码文档。另一种替代是把一个或多个图象装入到补充部分中。当用户希望搜索补充部分中的某词时,他用浏览器程序打开该文档并显示该文档中包含的HTML命令。例如在因特网Explorer程序中,对该目的可使用命令View/Source。而在先进的文本处理器中,有可能对补充部分赋予“隐藏文本”属性,从而可以通过显示通常看不到的控制及专用字符显示补充部分。
现有技术的搜索方法不寻找在词的开头部分之外的某部位上按复合词的一部分出现的关键词组。若关键词组以复合词的一部分出现时,邻近运算符也不起作用。例如,从词“maantieliikenteen”(=ofmain road)中,不能找到词“tie”或“liikenne”,尤其当这些词彼此接近时。从而在第二优选实施例中本发明的补充部分由基本形式的各复名词以及其各部分组成,其中各个词为其基本形式。例如,对于象“maantieliikenneonnettomuuksien”(=of main road trafficaccidents)变形复合词,补充部分可包括词“maantieliikenneonnettomuus”(=main road traffic accident)、“maa”(=main)、“tie”(=road)、“liikenne”(=traffic)和“onnettomuus”(=accident)。当用户输入关键词“tie”和“liikenne”时会找到这样补充的文档,甚至在用户要求彼此靠近出现的多个词时才会找到。
依据另一个优选实施例,本发明的补充部分除了以其基本形式和其各个部分给出的复合词外还包括该复合词的各个部分的所有组合,其中该复合词的所有部分除了最后一个部分为它们在该文档中出现的形式而该复合词的最后一个部分用其基本形式给出。另外,在它们的原始顺序下给出该复合词的各部分的组合,即上例下的词“maantie”(=main road)、“tieliikenne”(=road traffic)以及“liikenneonnettomuus”(=traffic accident)。
依据又一个优选实施例,在中央服务器处添加本发明的补充部分,从而不要求每个文档出版者具有能把词转换成其基本形式的软件。通过利用因特网FTP协议在盘上发送按电子邮件附着的要补充的原始文档。
下面连同各优选实施例并参照附图更详细地说明本发明,附图是图1是一个流和信令的组合图,表示搜索因特网型网络上出版的文档;图2是一个信令图,示意添加本发明的补充部分;图3A示出预处理文档和补充文档的结构;图3B示出其中在补充部分上装载着图象的补充文档的结构。
图2中示出一种可用于把本发明的补充部分添加到文档上的方法,其中参照号2-A代表文档出版者的服务器,DNS代表名字服务器,参照号2-B代表上面提及的中央服务器,即补充服务提供者的服务器,而参照号2-C代表搜索服务提供者的服务器。
文档提供者指的是希望出版根据本发明补充过的文档的一方。补充服务提供者进而提供本发明的向文档添加补充部分的服务。
在步骤2-10文档出版者向名字服务器DNS发送补充服务提供者的服务器的WWW地址,在步骤2-12名字服务器DNS向该文档出版者回送相应的IP地址。这对该文档出版者提供在步骤2-14访问该补充服务提供者的因特网页面。在步骤2-16,该出版者利用他的浏览器在他的终端上检索补充服务提供者的各WWW页面。
有关的WWW页面至少可用来显示一个文档出版者可向其发送根据本发明要予以补充的文档的电子邮件定址。补充服务提供者可在这些页面上例如提供有关所提供的服务的信息以及如何使用它的指示。
在接收电子邮件地址后,文档出版者可在步骤2-18按电子邮件件向服务提供者发送供修改的文档。
发送文档的另一种可能性是利用FTP(文件传输协议)传输。然而文档的传输方法和本发明无关。
在步骤2-20通过在补充服务提供者的服务器上对其添加本发明的补充部分修改HTML格式下提供的文档提供者的文档。接着在步骤2-22通过电子邮件或使用FTP向文档出版者回送补充过的文档。在搜索服务于步骤2-24对该文档编索引后,文档用户可通过输入基本形式下的多个词以及若复合词划分成多个部分下通过输入各部分的基本形式搜索该文档。在图1中从步骤1-12开始说明对因特网型网络中出版的文档的搜索。
可以以这样的方式配置搜索服务器,从而可对补充部分中包含的基本形式下的各个词赋予和现有技术中不同的额外的加权,即相关点。在显示搜索结果的列表中含有相关点较高的各词的文档放在含有相关点较低的各个词的文档的后面。若补充部分中以其基本形式给出的各个词根本不接收任何相关点或者这些词未被检索,则不能基于补充部分找到该文档。
图3A示出一个预处理文档3-2和一个补充过的文档3-20的结构。原始文档例如可包括借助字处理器编辑和写出的一个正文页面。预处理文档例如可以是修改成HTML的原始文档。文档还可包括图象、表、帧和/或其它可从因特网下载的客体。参照号3-10和参照号3-12分别代表HTML语言中使用的开始标志<HTML>和</HTML>。这些标志包围文档内容3-4。
依据本发明补充的文档3-20也包括开始标记3-10、结束标记3-20以及文档内容3-4。此外,补充的文档3-20具有一个由该文档中出现的所有词以它们的基本形式以及它们的原始顺序构成的补充部分3-24。该补充部分例如可编码成元关键词或者HTML注解。一个HTML文件可包括数个HTML注解。HTML注解文件中的注解用“<!…”和“…>”指示。文件中注解的位置是不重要的;注解可在文档(3-20)的开头、结尾或中间。替代这些方法或者对它们的补充,可在补充部分3-24中装入一个或多个图象。图3B示出补充文档3-40的结构。当补充部分3-24位于图象3-44下面时,在常规使用该文档期间不显示补充部分,只显示预处理文档3-42。
除了基本形式下给出的词外,文档的补充部分还可包含各种变型、同义词和词的相关含义。这进一步提高文档的关联性,因为可以用原始文档未出现的关键词搜索文档。
业内人士清楚,随着技术的进步,可以以不同的方式实现本发明。从而本发明及它的实施例不受上面说明的例子的限制,而是可在权利要求书的范围改变。
权利要求
1.一种向一个或多个用户发布至少包括正文部分的文档(3-20,3-40)的方法,在该方法中文档(3-20,3-40)至少受到一次编索引(2-24)以增强实时搜索文档(3-20,3-40),以及存储编索引的结果其特征在于,在该至少一次编索引之前,通过对其添加(2-20)补充部分(3-24)补充文档(3-20,3-40),该补充部分实质上至少包括以它们的基本形式和它们的原始顺序给出的文档(3-20,3-40)的正文部分中所包括的各词。
2.依据权利要求1的方法,其特征在于,以在常规使用文档期间防止该补充部分被看到的方式向文档(3-20,3-40)添加补充部分。
3.依据权利要求1的方法,其特征在于,对于每个复合词,补充部分(3-24)不仅包括该复合词的基本形式还包括以独立的词给出的该复合词的各部分的基本形式。
4.依据权利要求3的方法,其特征在于,补充部分(3-24)还包括复合词的各部分的所有组合,其中各部分处于它们的原始顺序。
5.依据权利要求1的方法,其特征在于,利用多个发布服务器发布多个文档并用所述多个发布服务器共用的一个补充服务器(2-B)添加补充部分(3-24)。
6.依据权利要求5的方法,其特征在于,补充服务器(2-B)通过采用IP协议的电信网络接收(2-18)和发送(2-22)要补充的文档(3-20,3-40)。
7.一种用于支持电子正文搜索的设备(2-B),该设备(2-B)设置成接收至少包括正文部分的文档(3-20,3-40),其特征在于,为增强实时搜索文档(3-20,3-40),该设置设置成添加一个补充部分(3-24),该补充部分实质上至少包括以它们的基本形式和它们的原始顺序给出的所述文档(3-20,3-40)的正文部分中所包括的各词。
8.依据权利要求7的设备(2-B),其特征在于,该设备(2-B)设置成通过应用IP协议的电信网络接收(2-18)和发送(2-22)文档。
9.一种用于通过应用IP协议的电信网络发布文档的布局,该布局包括至少一个用于发布文档的发布服务器(1-B,2-A),至少一个用于对文档编索引的编索引服务器(1-A,2-C)以及至少一个用于向所述至少一个编索引服务器(1-A,2-C)发送询问的终端设备(TE),其特征在于,为增强实时搜索文档,该布局还包括依据权利要求7或8的设备(2-B)。
10.一种以电子形式发布的文档(3-20,3-40),该文档至少包括正文部分,其特征在于,为了增强实时搜索文档(3-20,3-40),该文档(3-20,3-40)包括一个补充部分(3-24),该补充部分实质上至少包括以它们的基本形式和它们的原始顺序给出的文档(3-20,3-40)的正文部分中出现的各词。
全文摘要
本发明用补充部分(3—24)补充电子发布的文档(3—2),补充部分(3—24)至少包括以它们的基本形式和它们的原始顺序给出的文档(3—2)的正文部分中出现的各词,此外,对于每个复合词还按独立词给出复合词的各个部分的基本形式。添加(2—20)补充部分允许搜索服务(1-A,2-C)在文档补充完毕并编索引后找到依据本发明按补充的文档(3—20,3—40),甚至在原始文档中词不是以基本形式出现的情况下。
文档编号G06F17/30GK1294713SQ00800143
公开日2001年5月9日 申请日期2000年2月9日 优先权日1999年2月12日
发明者托马斯·埃罗拉, 萨米·J·马基宁 申请人:阿尔玛梅迪亚有限公司

最新回复(0)