一种对话式的自然语言处理方法和装置的制造方法

xiaoxiao2021-2-28  210

一种对话式的自然语言处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及自然语言处理和/或搜索领域。更具体地,涉及一种对话式的自然语言处理方法和装置。
【背景技术】
[0002]自然语言处理(Informat1nRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的自然语言处理就是自然语言处理过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Informat1n Search 或 Informat1n Seek)。
[0003]目前常用的自然语言处理方法通常包括:普通法、追溯法和分段法等。普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。普通法又可分为顺检法和倒检法。顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性强,效果较好。追溯法是利用已有文献所附的参考文献不断追踪查找的方法,在没有检索工具或检索工具不全时,此法可获得针对性很强。
[0004]步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速,网络信息急剧膨胀,国际交流日益频繁,通过网络来检索信息以协助人们快速获取信息,已经成为必然的趋势。
[0005]目前常用的计算机识别技术是将信息转化成二进制的代码机械地匹配,计算机并不了解其信息背后的真实意图。比如,传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象。特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。举例说明,假如用户输入“苹果”的关键字,那究竟用户是指水果还是某种知名电脑品牌,基于传统的关键字匹配检索技术则无法精确区分,从而无法高效、准确地反馈给用户最需要的信息。

【发明内容】

[0006]本发明提出一种对话式的自然语言处理方法和系统,以准确地向用户反馈所需要的信息。
[0007]本发明的技术方案是这样实现的:一种对话式的自然语言处理方法,该方法包括:
[0008]将篇章级的词语利用符号切分为字符串,从切出的字符串中提取出语言线性结构和语块;分别对提取出的语言线性结构以及语块进行倒排;创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引;
[0009]提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;
[0010]从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;
[0011]根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;
[0012]当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;
[0013]当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。
[0014]所述向用户反馈回复信息包括:依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从所述检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息;其中当从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,所述匹配程度越高。
[0015]预先设置语言线性结构重复权重和语块重复权重;
[0016]基于所述语言线性结构重复权重计算从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的第一重叠指数,并基于语块重复权重计算从所述检索输入字符串中提取出的语块与整体索引中的语块的第二重叠指数;当所述第一重叠指数与第二重叠指数的和越高,所述匹配程度越高。
[0017]所述向用户反馈回复信息包括:在所述整体索引中分别检索该检索输入字符串的语言线性结构和语块,以确定整体索引中与该检索输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该检索输入字符串的语块相对应的语块;向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的反馈信息。
[0018]所述检索输入字符串为用第一语言表述的检索输入字符串;所述向用户反馈回复信息包括:从所述检索输入字符串中提取出该检索输入字符串用第一语言表述的语言线性结构和语块;确定与该用第一语言表述的语言线性结构相对应的用第二语言表述的语言线性结构,以及与该用第一语言表述的语块相对应的用第二语言表述的语块;根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和用第二语言表述的语块相匹配且同样用第二语言表述的回复信息。
[0019]该方法进一步包括:为兴趣词的所有关联解释项设置投票值,其中所述第一关联解释项的投票值为所述兴趣词的所有关联解释项的投票值中的最大值;当所述触发控件不被触发时,所述第一关联解释项的投票值增加一次;当所述触发控件被触发时,所述另外关联解释项的投票值增加一次。
[0020]一种对话式的自然语言处理装置,该装置包括提取单元、倒排单元、索引单元、对话式界面展示单元和回复信息反馈单元,其中:
[0021]提取单元,用于将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块;倒排单元,用于分别对提取出的语言线性结构以及语块进行倒排;索引单元,用于创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引;对话式界面展示单元,用于提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;回复信息反馈单元,用于从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。
[0022]回复信息反馈单元,用于依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息;其中当从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,所述匹配程度越高。
[0023]所述回复信息反馈单元,用于在所述整体索引中分别检索该检索输入字符串的语言线性结构和语块,以确定整体索引中与该检索输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该检索输入字符串的语块相对应的语块;向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的反馈信息。
[0024]所述用户的检索输入字符串为用第一语言表述的检索输入字符串;回复信息反馈单元,用于从用户的检索输入字符串中提取出该输入字符串用第一语言表述的语言线性结构和语块;确定与该用第一语言表述的语言线性结构相对应的用第二语言表述的语言线性结构,以及与该用第一语言表述的语块相对应的用第二语言表述的语块;根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和用第二语言表述的语块相匹配且同样用第二语言表述的回复信息。
[0025]在本发明中,在本发明中,首先将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块,然后分别对提取出的语言线性结构以及语块进行倒排,以及创建语言线性结构子索引以及语块子索引,并形成整体索引;提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。
[0026]由此可见,应用本发明以后,运用了分析语言结构+关键词的技术手段,从语言的线性结构和关键词中精确地提炼出信息的真正意图,并用排序的方式智能选择反馈结果,可以基于计算机语意识别能力的核心技术,能够更加智能地识别信息背后的准确含义,从而可以准确地向用户反馈所需要的信息。
[0027]而且,通过基于针对触发控件的触发操作予以记忆,确定下一轮对话中兴趣词的关联解释项,从而提高了自然语言处理准确率。还有,通过将信息进行深层、多层次分析,不但了解了其代码,还识别了信息所要表达的意图,使计算机更智能、更人性化地与人类沟通。另外,相比较以传统的关键词过滤方法来屏蔽不良信息,只能识别到词(通称关键词)这一级别,无法更深地延展也不能识别全篇所要表达的内容的缺点,本发明可以将语意识别技术应用于网络监管,以可以发挥更高的效率,使监管变得更加智能。比如:在某篇新闻中经常出现“达赖喇嘛蛊惑人心”和“西藏独立对藏民无益”等语句反复出现。全篇文章实际表达的是正面的信息内容,但因为“达赖”和“藏独”等关键词出现频率太多却极易被屏蔽。这就是使用单一关键词监管的软肋。若使用语意识别技术监管,其不但识 别关键词,还会通过分析语句结构来识别所要表达的意图,从而实现更智能的网络监管。使上述文章不会被屏蔽,达到“西藏应该独立”——屏蔽、“西藏独立对西藏有害”——不屏蔽的精准效果。
[0028]而且,通过对语句进行精细化分析可以大幅提高信息监控的识别精度,可精确到小数点。
【附图说明】
[0029]图1为根据本发明的对话式的自然语言处理方法流程图;
[0030]图2为根据本发明的对话式的自然语言处理界面示意图;
[0031]图3为根据本发明的对话式的自然语言处理装置结构图;
[0032]图4为根据本发明的对话式的自然语言处理系统结构图。
【具体实施方式】
[0033]为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及【具体实施方式】对本发明再作进一步详细的说明。
[0034]在本发明中,基于计算机语意识别能力的核心技术,能够帮助计算机更加智能地识别信息背后的准确含义。通过将信息进行深层、多层次分析,不但了解了其代码,还识别了信息所要表达的意图,使计算机更智能、更人性化地与人类沟通。
[0035]本发明主要运用了分析语言线性结构+关键词(即语块)的技术手段,从语言的线性结构和关键词中精确地提炼出信息的真正意图。一个待分析的语句包括线性结构和关键词(即语块)。其中,语意识别的关键在于识别出语句的线性结构。语言的意义隐藏在语句的线性结构当中,语句的线性结构相当于语言的常量。语意乃至意义和思维都隐藏在语句的线性结构中的,通过分析语句的线性结构,可达到识别意图的目的。关键词相当于语言的变量。通过替换相应部分(即变量),其语意基本均可保留,能得到较为准确的检索或翻译结果。而且,双语、单语均可利用结构分析来精确识别语意。通过对浩如烟海的文献资料逐句进行线性结构+关键词分析,我们可以获得充分的语句线性结构和关键词(即语块)。
[0036]举例说明:
[0037]1、乡村旅游作为中国旅游业的重要组成部分和促讲旅游业发展的重要支撑。(示例1)
[0038]2、中国经济作为世界经济的重要组成部分和促讲全球金融稳定的重要支撑。(示例2)
[0039]通过分析上面两个例子,可以发现:
[0040]“乡村旅游”、“中国旅游业”和“旅游业发展”相当于示例1的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X作为X的重要组成部分和促进X的重要支撑”(其中X表示空白)相当于示例1的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0041]类似地,“中国经济”、“世界经济”、“全球金融稳定”相当于示例2的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X作为X的重要组成部分和促进X的重要支撑”(其中X表示空白)相当于示例2的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0042]可以发现,这两个示例的线性结构完全相同,区别仅仅在于变量不同。可以将“X作为X的重要组成部分和促进X的重要支撑”(其中X表示空白)定义为一种线性结构,而“乡村旅游”、“中国旅游业”、“旅游业发展”、“中国经济”、“世界经济”和“全球金融稳定”定义为关键词(即语块)。
[0043]其中,我们可以将一些常用的固有名词和/或动名词确定为常量,但是变量并不局限于固有名词和/或动名词。在某些情况下,变量也可以是一种常用的短语,甚至比较长的句子。
[0044]另外,在确定常量和线性结构时,划分方式可能并不是唯一的。对于变量最少的划分方式,其所对应的线性结构称为最小线性结构。一般地,变量越少,可以认为所对应的线性结构所表达的信息越充分,则对应搜索的信息越精确。
[0045]再举例说明:
[0046]1、阿凡达热潮席卷中国。(示例3)
[0047]2、皿热潮席卷世界。(示例4)
[0048]通过分析上面两个例子,可以发现,“阿凡达”和“中国”相当于示例3的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X热潮席卷X”(其中X表示空白)相当于示例3的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0049]类似地,“炒股”和“世界”相当于示例4的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X热潮席卷X”(其中X表示空白)相当于示例4的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0050]可以发现,这两个示例的线性结构相同,区别仅仅在于变量不同。可以将“X热潮席卷X”(其中X表示空白)定义为一种线性结构,而“阿凡达”、“中国”、“炒股”和“世界”定义为关键词(即语块)。
[0051]再次举例说明:
[0052]1、他们呼吁欧委会客观、公lH地对待中国企业的市场经济待遇申请。(示例5)
[0053]2、国际足联呼吁爱尔兰客观、公if地对待世界杯预选赛与法国队的比赛结果。(示例6)
[0054]3、国际社会呼吁六方会谈客观、公lH地对待朝鲜问题。(示例7)
[0055]4、中国呼吁日本政府客观、公ιΗ地对待二战历史问题。(示例8)
[0056]通过分析上面四个例子,可以发现:
[0057]“他们”、“欧委会”和“中国企业的市场经济待遇申请”相当于示例5的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X呼吁X客观、公正地对待X”(其中X表示空白)相当于示例5的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0058]类似地,“国际足联”、“爱尔兰”和“世界杯预选赛与法国队的比赛结果”相当于示例6的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X呼吁X客观、公正地对待X”(其中X表示空白)相当于示例6的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0059]类似地,“国际社会”、“六方会谈”和“朝鲜问题”相当于示例6的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X呼吁X客观、公正地对待X”(其中X表示空白)相当于示例6的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0060]类似地,“中国”、“日本政府”和“二战历史问题”相当于示例7的变量,因为通过替换相应部分(即变量),其语意基本均可保留。而“X呼吁X客观、公正地对待X”(其中X表示空白)相当于示例7的线性结构,也就是语言的常量,因为语言的意义隐藏在该线性结构当中。
[0061]可以发现,这四个示例的线性结构相同,区别仅仅在于变量不同。可以将“X呼吁X客观、公正地对待X”(其中X表示空白)”定义为一种线性结构,而“他们”、“欧委会”、“中国企业的市场经济待遇申请”、“国际足联”、“爱尔兰”、“世界杯预选赛与法国队的比赛结果”、“国际社会”、“六方会谈”、“朝鲜问题”、“中国”、“日本政府”和“二战历史问题”定义为关键词(即语块)。
[0062]基于上述分析,通过对大量文献(包括网络文章、博客、教科书、各种电子文档等)进行上述切分,我们就可以得到充分的线性结构库和关键词(即语块)库。
[0063]下面再详细描述本发明对话式的自然语言处理方法。
[0064]图1为根据本发明的基于语意识别的自然语言处理方法流程图。
[0065]如图1所示,该方法包括:
[0066]步骤101:将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块。
[0067]在这里,首先将篇章级的词语(比如,一篇文章或者一篇社论)利用符号切分为若干个字符串,并从切出的字符串中依次提取出语言线性结构和语块(具体的提取步骤可以参照前述示例分析)。
[0068]此处“篇章级”并不意味着对词语的数目有任何特定的限定。实质上,只要有一些词汇,并且这些词汇之间所组成的语句具有意义,就可以认为这些词汇构成了 “篇章级”。
[0069]更具体地,可以根据句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号、专名号、注释号、隐讳号、虚缺号、斜线号、标识号、代替号、连珠号和/或箭头号等标点符号,将篇章级的词语切分为字符串。比如,可以将任意的两个标点符号之间的文字提取为字符串(对于文章的起始,只需要一个标点符号)。
[0070]在确定关键字(语块)时,我们可以使用一个基于篇章的局部子串统计表(hashtable)作为临时辅助词典。也就是说,如果出现在临时辅助词典中,我们就可以将其确定为语块。不过,某些没有出现在局部子串统计表中的,也可以将其确定为语块。还可以用基于多路径规划的切分路径树作为切分模型,首先将英文(ASCII)、简体中文(GBK/GB18030)、繁体中文(台湾BIG5、香港BIG5-HKSCS)等字符编码统一转换为UTF-8编码格式之后再进行切分,并在多个正确切分结果的基础上提取语块。
[0071]提取完语块之后,剩余的部分就是线性结构。
[0072]步骤102:分别对提取出的语言线性结构以及语块进行倒排。
[0073]在这里,倒排具体包括:
[0074]对于每个合格的语块,将该语块所在的文档号、段落号、句子号、词序号、以及HTML信息等压缩为一个结构,放入该语块所在的动态文件中;其中语块可以为任意的字符串,主要包括如下类别:词典词条、专名、专名的内部词汇、各类词组/搭配关系、n-grams、连续的stopwords、词+数字、任意的ASCII串、邮编与电话号码等。
[0075]而对于每个合格的语言线性结构,可以将该语言线性结构所在的文档号、段落号、句子号、词序号、以及HTML信息等压缩为一个结构,放入该语块所在的动态文件中。
[0076]步骤103:创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引。
[0077]在这里,将内存中的全部语块索引项(index terms)写入语块词汇表(vocabulary)文件,将inverted hits合并后写入inv_lists文件,并将二者之间的关联信息写入词典(dict1nary)文件。这三个文件构成一个完整、独立的索引段(index run),即语块子索引。
[0078]而且,将内存中的全部线性结构索引项(index terms)写入线性结构词汇表(vocabulary)文件,将inverted hits合并后写入inv_lists文件,并将二者之间的关联信息写入线性结构词典(dict1nary)文件。这三个文件构成一个完整、独立的索引段(indexrun),即线性结构子索引。
[0079]最后,将语言线性结构子索引和语块子索引予以合并,以形成整体索引。
[0080]步骤104:提供对话式界面,基于所述对话式界面接收用户的检索输入字符串。
[0081]在这种,向用户提供对话式界面,基于对话式界面接收用户所输入的的检索输入字符串。
[0082]步骤105:从检索输入字符串中提取出该检索输入字符串的语言线性 结构和语块,并从该提取出的语块中确定预先设定的兴趣词。
[0083]在这里,首先从用户的检索输入字符串中提取出线性结构和语块。比如,假如用户输入“我很喜欢吃烟台产的大苹果。”则提取出语块“我”、“烟台产的大苹果”,以及线性结构X很喜欢吃X(其中X为空白),然后在整体索引中检索出匹配线性结构“X很喜欢吃X”,以及语块“我”、“烟台产的大苹果”的信息,并且按照匹配程度由高到低的顺序向用户呈现。
[0084]在这里,兴趣词可以是多义词,也可以是具有重合位置的地理名词。比如,“苹果”即具有多义,“china”也具有多义,可以作为兴趣词。另外,“城中村”、“东门广场”等为具有多个重合位置的地理名词,也可以作为兴趣词。总之,兴趣词即为具有不少于一种表达含义的名词。
[0085]步骤106:根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。
[0086]在这里,对用户针对触发控件的触发操作予以记忆,从而确定下一轮对话中兴趣词的关联解释项,由于关键词的关联解释项的选择过程中考虑了语境环境,从而提高了自然语目处理准确率。
[0087]在一个实施方式中,当从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,可以认为这种匹配程度越高。
[0088]在一个实施方式中,还可以预先设置语言线性结构重复权重和语块重复权重;
[0089]基于所述语言线性结构重复权重计算从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性结构的第一重叠指数,并基于语块重复权重计算从所述用户的检索输入中提取出的语块与整体索引中的语块的第二重叠指数;
[0090]当所述第一重叠指数与第二重叠指数的和越高,所述匹配程度越高。
[0091]其中,向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的回复信息具体可以包括:在所述整体索引中分别检索该输入字符串的语言线性结构和语块,以确定整体索引中与该输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该输入字符串的语块相对应的语块;向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的回复信息。
[0092]在一个实施方式中,为兴趣词的所有关联解释项设置投票值,其中所述第一关联解释项的投票值为所述兴趣词的所有关联解释项的投票值中的最大值;当所述触发控件不被触发时,所述第一关联解释项的投票值增加一次;当所述触发控件被触发时,所述另外关联解释项的投票值增加一次。
[0093]可以将本发明的流程应用于多种具体的实际应用中,比如信息检索以及多语言翻译。
[0094]当应用于多语言翻译时,假设用户的检索输入字符串为用第一语言表述的检索输入字符串。此时,从用户的检索输入字符串中提取出该输入字符串用第一语言表述的语言线性结构和语块;然后再确定与该用第一语言表述的语言线性结构和语块相对应的用第二语言表述的语言线性结构和语块;根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和语块相匹配且同样用第二语言表述的信息。其中,第一语言可以为中文,第二语言为英文、日文、韩文、阿拉伯文、西班牙文、葡萄牙文、法文或俄罗斯文,等等。可选的,第一语言为英文、日文、韩文、阿拉伯文、西班牙文、葡萄牙文、法文或俄罗斯文,第二语言为中文等。
[0095]在本发明实施方式中,可以采用图形方式在回复信息中展示第一关联解释项以及另外关联解释项的触发控件。而且,还可以设置第一关联解释项的触发控件。当第一关联解释项的触发控件被触发时,回复信息中的兴趣词被修改为第一关联解释项。或者,不设置第一关联解释项的触发控件,当另外关联解释项的触发控件不被触发时,回复信息中的兴趣词被保持为第一关联解释项。
[0096]比如,“china”具有多义,为兴趣词。“china”的第一关联解释项为中国,此时第一关联解释项的触发控件可以为中国国旗图标。“china”的另外关联解释项为瓷器,此时另外关联解释项的触发控件可以为瓷器的图标。
[0097]类似地,“orange”具有多义,为兴趣词。“orange”的第一关联解释项为橙子,此时第一关联解释项的触发控件可以为橙子图标。“orange”的另外关联解释项为一个知名的欧洲电信公司,此时另外关联解释项的触发控件可以为orange公司的logo。
[0098]图2为根据本发明的对话式的自然语言处理界面示意图。
[0099]举例:用户期望将中文“I want to buy china”翻译成中文,其中china具有“瓷器”和“中国”的双重含义,因此可以预先设定为兴趣词。
[0100]此时,用户首先输入的检索输入字符串为“I want to buy china”,并用英文表述。首先,从用户的检索输入字符串中提取出该输入字符串用英文表述的语言线性结构(即:xwant to buy x,其中x为空白)和英文表述的语块(I,china);然后再确定与该用英文表述的语言线性结构相对应的用中文表述的语言线性结构(即X要买X),由于china为兴趣词,而且基于历史记录投票得知其第一关联解释项(即默认词义)为“中国”,因此确定与该用英文表述的语块相对应的用中语表述的语块(即我,中国)。最后,将语块和线性结构组合成翻译的语句“我想买中国”,并通过对话式界面呈现给用户。而且,在回复信息中还包括兴趣词“china”的第一关联解释项(即中国)控件和另外关联解释项(即瓷器)控件,通过触发该另外关联解释项控件,可以将回复信息中的“中国”修改为“瓷器”。
[0101]此时,用户点击该另外关联解释项控件,将回复信息中的“中国”修改为“瓷器”,而且此时针对该另外关联解释项的投票加一。此时,回复信息为“我想买瓷器”。由于该关联解释项控件被触发,当基于对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词“china”时,在位于对话式界面中的、对应于下一轮检索输入字符串的下一轮回复信息中,兴趣词“china”的关联解释项将被确定为“瓷器”。
[0102]比如,接着,用户输入“is china a superpower ?”,并用英文表述。首先,从用户的检索输入字符串中提取出该输入字符串用英文表述的语言线性结构(即:is X a x,其中X为空白)和英文表述的语块(china, superpower);然后再确定与该用英文表述的语言线性结构相对应的用中文表述的语言线性结构(即X是X),由于china为兴趣词,而且被确定为“瓷器”,因此确定与该用英文表述的语块相对应的用中语表述的语块(即瓷器,超级大国)。最后,将语块和线性结构组合成翻译的语句“瓷器是超级大国吗? ”,并通过对话式界面呈现给用户。而且,在回复信息中还包括兴趣词“china”的第一关联解释项(即中国)的控件和另外关联解释项的控件,通过触发该第一关联解释项控件,可以将回复信息中的“瓷器”修改为“中国”。
[0103]此时,用户点击该第一关联解释项控件,将回复信息中的“瓷器”修改为“中国”,而且此时针对该第一关联解释项的投票加一。此时,回复信息为“中国是超级大国吗? ”。由于该第一关联解释项控件被触发,当基于对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词“china”时,在位于对话式界面中的、对应于下一轮检索输入字符串的下一轮回复信息中,兴趣词“china”的关联解释项将被确定为“中国”
[0104]比如,接着,用户输入“I love china”,并用英文表述。首先,从用户的检索输入字符串中提取出该输入字符串用英文表述的语言线性结构(即:x love x,其中x为空白)和英文表述的语块(i,china);然后再确定与该用英文表述的语言线性结构相对应的用中文表述的语言线性结构(即X爱X),由于china为兴趣词,而且被确定为“中国”,因此确定与该用英文表述的语块相对应的用中语表述的语块(即我,中国)。最后,将语块和线性结构组合成翻译的语句“我爱中国”,并通过对话式界面呈现给用户。而且,在回复信息中还包括兴趣词“china”的第一关联解释项的控件和另外关联解释项,通过触发另外关联解释项控件,可以将回复信息中的“中国”修改为“瓷器”。
[0105]进一步地,还可以再根据整体索引向用户反馈与线性结构(比如:x want to goto)语块(I, Shanghai)相匹配且用第二语言表述的信息,从而便于用户检索与I want togo to Shanghai相关的英文信息。
[0106]在上述过程中,示范性地应用了一种高性能的单遍内存倒排算法,而不生成任何临时磁盘文件。因此,在导出内存内容之前,除了 MAP数据,系统没有任何文件1/0开销。同时,它也不需要对index terms编号,并且不对index term(编号或者内存字符串指针)做任何排序运算。另外,该方法使用所有可用的空闲物理内存进行倒排。这些性质保证了这个倒排方法可具有非凡的时空效率,可支持一系列高效的动态索引合并和索引更新的方法。同时,具备该特性的倒排索引还完全适用于分布式处理。
[0107]在上述过程中,另一个关键特征是其查找数据结构具备caching功能,这个特性可支持几乎任意大的索引词表(即vocabulary文件)。vocabulary文件本身是放在磁盘上,能够保存的索引项的数目不受限制(在64-bit文件系统上),可多达数亿条。通过caching功能,该算法可以在4?6GB内存的x64服务器上达到与包括多台同等或更高配置的服务器的集群查询系统相近的索引词表查询性能。
[0108]而且,index terms可以为任意的字符串,主要包括如下类别(term categories):词典词条、专名、专名的内部词汇、各类词组/搭配关系、n-grams、连续的stopwords、词+数字、任意的ASCII串、邮编与电话号码等。
[0109]基于上述分析,本发明还提出了一种基于语意识别的自然语言处理装置。
[0110]图3为根据本发明的基于语意识别的自然语言处理装置结构图。
[0111]如图3所示,该装置包括该装置包括提取单元301、倒排单元302、索引单元303、对话式界面展示单元303和回复信息反馈单元304,其中:
[0112]提取单元301,用于将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块;
[0113]具体地 ,提取单元301首先将篇章级的词语(比如,一篇文章或者一篇社论)利用符号切分为若干个字符串,并从切出的字符串中依次提取出语言线性结构和语块(具体的提取步骤可以参照前述示例分析)。
[0114]更具体地,可以根据句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号、专名号、注释号、隐讳号、虚缺号、斜线号、标识号、代替号、连珠号和箭头号等标点符号,将篇章级的词语切分为字符串。比如,可以将任意的两个标点符号之间的文字提取为字符串(对于文章的起始,只需要一个标点符号)。
[0115]在确定关键字(语块)时,可以使用一个基于篇章的局部子串统计表(hashtable)作为临时辅助词典。也就是说,如果出现在临时辅助词典中,就可以将其确定为语块。不过,某些没有出现在局部子串统计表中的,也可以将其确定为语块。还可以用基于多路径规划的切分路径树作为切分模型,首先将英文(ASCII)、简体中文(GBK/GB18030)、繁体中文(台湾BIG5、香港BIG5-HKSCS)等字符编码统一转换为UTF-8编码格式之后再进行切分,并在多个正确切分结果的基础上提取语块。
[0116]提取完语块之后,剩余的部分就是线性结构。
[0117]倒排单元302,用于分别对提取出的语言线性结构以及语块进行倒排;
[0118]具体地,倒排单元302对于每个合格的语块,将该语块所在的文档号、段落号、句子号、词序号、以及HTML信息等压缩为一个结构,放入该语块所在的动态文件中;其中语块可以为任意的字符串,主要包括如下类别:词典词条、专名、专名的内部词汇、各类词组/搭配关系、n-grams、连续的stopwords、词+数字、任意的ASCII串、邮编与电话号码等。
[0119]而对于每个合格的语言线性结构,倒排单元302可以将该语言线性结构所在的文档号、段落号、句子号、词序号、以及HTML信息等压缩为一个结构,放入该语块所在的动态文件中。
[0120]索引单元303,用于创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引;
[0121]具体地,索引单元303将内存中的全部语块索引项(index terms)写入vocabulary文件,将inverted hits合并后写入inv_lists文件,并将二者之间的关联信息写入dict1nary文件。这三个文件构成一个完整、独立的索引段(index run),即语块子索引。
[0122]而且,将内存中的全部线性结构索引项(index terms)写入vocabulary文件,将inverted hits合并后写入inv_lists文件,并将二者之间的关联信息写入dict1nary文件。这三个文件构成一个完整、独立的索引段(index run),即线性结构子索引。
[0123]最后,索引单元303将语言线性结构子索引和语块子索引予以合并,以形成整体索引。
[0124]对话式界面展示单元304,用于提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;
[0125]回复信息反馈单元305,用于从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。
[0126]在一个实施方式中,匹配信息反馈单元305,用于依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的信息。而且,当从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,所述匹配程度越高。
[0127]在一个实施方式中,匹配信息反馈单元305,进一步用于预先设置语言线性结构重复权重和语块重复权重;并基于所述语言线性结构重复权重计算从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性结构的第一重叠指数,并基于语块重复权重计算从所述用户的检索输入中提取出的语块与整体索引中的语块的第二重叠指数;其中当所述第一重叠指数与第二重叠指数的和越高,所述匹配程度越高。
[0128]在一个实施方式中,匹配信息反馈单元305,用于在所述整体索引中分别检索该输入字符串的语言线性结构和语块,以确定整体索引中与该输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该输入字符串的语块相对应的语块;向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的信息。
[0129]在一个实施方式中,用户的检索输入字符串为用第一语言表述的检索输入字符串;
[0130]此时,匹配信息反馈单元305,用于从用户的检索输入字符串中提取出该输入字符串用第一语言表述的语言线性结构和语块;确定与该用第一语言表述的语言线性结构和语块相对应的用第二语言表述的语言线性结构和语块;根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和语块相匹配且同样用第二语言表述的信息。
[0131]进一步包括:为兴趣词的所有关联解释项设置投票值,其中所述第一关联解释项的投票值为所述兴趣词的所有关联解释项的投票值中的最大值;当所述触发控件不被触发时,所述第一关联解释项的投票值增加一次;当所述触发控件被触发时,所述另外关联解释项的投票值增加一次。
[0132]基于上述详细说明,本发明还提出了一种基于语意识别的自然语言处理系统。
[0133]图4为根据本发明的基于语意识别的自然语言处理系统结构图。
[0134]如图4所示,该系统包括信息收集装置401、资料存储装置402、自然语言处理装置403、索引存储装置404和检索服务装置405。其中:
[0135]信息收集装置401,用于对互联网进行扫描检测,爬取互联网上的信息;
[0136]资料存储装置402,用于存储由信息收集装置爬取到的互联网信息,并优选提供互联网信息的快速定位查找;
[0137]自然语言处理装置403,用于利用符号对存储于资料存储装置302中的篇章级的词语,切分为字符串,并从切出的字符串中提取出语言线性结构和语块;并分别对提取出的语言线性结构以及语块进行倒排;以及用于创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引;
[0138]索引存储装置404,用于存储由自然语言处理装置303生成的整体索引;
[0139]检索服务装置405,用于提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。
[0140]其中,信息收集装置401进一步可以接受报刊、广电和各个媒体会员等所提供的上传信息(比如新闻资源)服务。
[0141]而且,检索服务装置405可以针对普通用户免费查询新闻,以及针对专业用户注册并付费之后开通高端服务。
[0142]优选地,自然语言处理装置403,用于根据句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号、专名号、注释号、隐讳号、虚缺号、斜线号、标识号、代替号、连珠号和箭头号,将所述篇章级的词语切分为字符串。
[0143]优选地,自然语言处理装置403,用于使用基于篇章的局部子串统计表作为临时辅助词典,用基于多路径规划的切分路径树作为切分模型,将所述篇章级的词的等字符编码统一转换为UTF-8编码格式;并对转换为UTF-8编码格式后的篇章级的词语利用符号切分为字符串。
[0144]而且,检索服务装置405,可以用于依据匹配程度由高到低的顺序,向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的信息。
[0145]在一个实施方式中,检索服务装置405,用于依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从用户的检索输入中提取出的语言线性结构和语块相匹配的信息。其中,优选地,当从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,所述匹配程度越高。
[0146]在一个实施方式中,检索服务装置405,进一步用于预先设置语言线性结构重复权重和语块重复权重;并基于所述语言线性结构重复权重计算从所述用户的检索输入中提取出的语言线性结构与整体索引中的语言线性结构的第一重叠指数,并基于语块重复权重计算从所述用户的检索输入中提取出的语块与整体索引中的语块的第二重叠指数;其中当所述第一重叠指数与第二重叠指数的和越高,所述匹配程度越高。
[0147]在一个实施方式中,检索服务装置405,用于在所述整体索引中分别检索该输入字符串的语言线性结构和语块,以确定整体索引中与该输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该输入字符串的语块相对应的语块;向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的信息。
[0148]在一个实施方式中,检索服务装置405,用于从用户的检索输入字符串中提取出该输入字符串用第一语言表述的语言线性结构和语块;确定与该用第一语言表述的语言线性结构和语块相对应的用第二语言表述的语言线性结构和语块;根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和语块相匹配且同样用第二语言表述的信息。
[0149]可选地,第一语言为英文、日文、韩文、阿拉伯文、西班牙文、葡萄牙文、法文或俄罗斯文等,第二语言为中文。第一语言还可以为中文,第二语言为英文、日文、韩文、阿拉伯文、西班牙文、葡萄牙文、法文或俄罗斯文,等。
[0150]综上所述,在本发明中,首先将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块,然后分别对提取出的语言线性结构以及语块进行倒排,以及创建语言线性结构子索引以及语块子索引,并形成整体索引;提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。
[0151]由此可见,应用本发明以后,运用了分析语言结构+关键词的技术手段,从语言的线性结构和关键词中精确地提炼出信息的真正意图,并用排序的方式智能选择反馈结果,可以基于计算机语意识别能力的核心技术,能够更加智能地识别信息背后的准确含义,从而可以准确地向用户反馈所需要的信息。
[0152]而且,通过基于针对触发控件的触发操作予以记忆,确定下一轮对话中兴趣词的关联解释项,从而提高了自然语言处理准确率。还有,通过将信息进行深层、多层次分析,不但了解了其代码,还识别了信息所要表达的意图,使计算机更智能、更人性化地与人类沟通。另外,相比较以传统的关键词过滤方法来屏蔽不良信息,只能识别到词(通称关键词)这一级别,无法更深地延展也不能识别全篇所要表达的内容的缺点,本发明可以将语意识别技术应用于网络监管,以可以发挥更高的效率,使监管变得更加智能。比如:在某篇新闻中经常出现“达赖喇嘛蛊惑人心”和“西藏独立对藏民无益”等语句反复出现。全篇文章实际表达的是正面的信息内容,但因为“达赖”和“藏独”等关键词出现频率太多却极易被屏蔽。这就是使用单一关键词监管的软肋。若使用语意识别技术监管,其不但识别关键词,还会通过分析语句结构来识别所要表达的意图,从而实现更智能的网络监管。使上述文章不会被屏蔽,达到“西藏应该独立”一屏蔽、“西藏独立对西藏有害”一不屏蔽的精准效果。
[0153]而且,通过对语句进行精细化分析可以大幅提高信息监控的识别精度,可精确到小数点。
[0154]以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种对话式的自然语言处理方法,其特征在于,该方法包括: 将篇章级的词语利用符号切分为字符串,从切出的字符串中提取出语言线性结构和语块;分别对提取出的语言线性结构以及语块进行倒排;创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引; 提供对话式界面,基于所述对话式界面接收用户的检索输入字符串; 从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词; 根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件; 当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项; 当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。2.根据权利要求1所述的对话式的自然语言处理方法,其特征在于,所述向用户反馈回复信息包括:依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从所述检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息;其中当从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,所述匹配程度越高。3.根据权利要求2所述的对话式的自然语言处理方法,其特征在于,预先设置语言线性结构重复权重和语块重复权重; 基于所述语言线性结构重复权重计算从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的第一重叠指数,并基于语块重复权重计算从所述检索输入字符串中提取出的语块与整体索引中的语块的第二重叠指数; 当所述第一重叠指数与第二重叠指数的和越高,所述匹配程度越高。4.根据权利要求1所述的对话式的自然语言处理方法,其特征在于,所述向用户反馈回复信息包括: 在所述整体索引中分别检索该检索输入字符串的语言线性结构和语块,以确定整体索引中与该检索输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该检索输入字符串的语块相对应的语块; 向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的反馈信肩、Ο5.根据权利要求1所述的对话式的自然语言处理方法,其特征在于,所述检索输入字符串为用第一语言表述的检索输入字符串; 所述向用户反馈回复信息包括: 从所述检索输入字符串中提取出该检索输入字符串用第一语言表述的语言线性结构和语块; 确定与该用第一语言表述的语言线性结构相对应的用第二语言表述的语言线性结构,以及与该用第一语言表述的语块相对应的用第二语言表述的语块; 根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和用第二语言表述的语块相匹配且同样用第二语言表述的回复信息。6.根据权利要求1-5中任一项所述的对话式的自然语言处理方法,其特征在于,该方法进一步包括:为兴趣词的所有关联解释项设置投票值,其中所述第一关联解释项的投票值为所述兴趣词的所有关联解释项的投票值中的最大值; 当所述触发控件不被触发时,所述第一关联解释项的投票值增加一次;当所述触发控件被触发时,所述另外关联解释项的投票值增加一次。7.一种对话式的自然语言处理装置,其特征在于,该装置包括提取单元、倒排单元、索引单元、对话式界面展示单元和回复信息反馈单元,其中: 提取单元,用于将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块; 倒排单元,用于分别对提取出的语言线性结构以及语块进行倒排; 索引单元,用于创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引; 对话式界面展示单元,用于提供对话式界面,基于所述对话式界面接收用户的检索输入字符串; 回复信息反馈单元,用于从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。8.根据权利要求7所述的对话式的自然语言处理装置,其特征在于,回复信息反馈单元,用于依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息;其中当从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,所述匹配程度越1?。9.根据权利要求7所述的对话式的自然语言处理装置,其特征在于,所述回复信息反馈单元,用于在所述整体索引中分别检索该检索输入字符串的语言线性结构和语块,以确定整体索引中与该检索输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该检索输入字符串的语块相对应的语块;向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的反馈信息。10.根据权利要求7所述的对话式的自然语言处理装置,其特征在于,所述用户的检索输入字符串为用第一语言表述的检索输入字符串; 回复信息反馈单元,用于从用户的检索输入字符串中提取出该输入字符串用第一语言表述的语言线性结构和语块;确定与该用第一语言表述的语言线性结构相对应的用第二语言表述的语言线性结构,以及与该用第一语言表述的语块相对应的用第二语言表述的语块;根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和用第二语言表述的语块相匹配且同样用第二语言表述的回复信息。
【专利摘要】本发明公开了一种对话式的自然语言处理方法和装置。将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块,然后分别对提取出的语言线性结构以及语块进行倒排,以及创建语言线性结构子索引以及语块子索引,并形成整体索引;提供对话式界面,基于对话式界面接收用户的检索输入字符串;从检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息。应用本发明以后,通过对触发控件的触发操作予以记忆,确定下一轮对话中兴趣词的关联解释项,从而提高了自然语言处理准确率。
【IPC分类】G06F17/28, G06F17/30
【公开号】CN105488035
【申请号】CN201410536259
【发明人】姜蓓, 陈伯妤
【申请人】陈伯妤
【公开日】2016年4月13日
【申请日】2014年10月13日

最新回复(0)