相似度计算装置、语义表达生成装置、记录介质和相似度计算方法与流程

xiaoxiao1月前  21


本申请说明书公开的技术涉及近义词计算技术及语义表达生成技术。


背景技术:

1、开发了用于计算机从以自然语言记述的文档获得知识的技术。为此,需要高精度地计算文档中的单词间的相似度并应用于辞典制作等(例如,参照专利文献1)。

2、作为计算单词间的相似度的以往的方法,具有计算对每个单词定义的向量彼此的方向差异来作为余弦相似度的方法。

3、然而,在上述的计算余弦相似度的方法中,存在越是文档中大量包含的单词,相似度越高的问题,有时相似度计算的精度不够充分。

4、专利文献1:日本特开2019-121044号公报


技术实现思路

1、本申请说明书所公开的技术是鉴于以上记载的问题而作出的,是用于提高单词间的相似度计算的精度的技术。

2、作为在本申请说明书中公开的技术的第一方式的相似度计算装置是计算单词间的相似度的相似度计算装置,该相似度计算装置具备:距离计算部,其计算与各个所述单词对应地定义的向量彼此的距离;以及判定部,其在所述向量彼此的距离为预先决定的距离以下的情况下,将与所述向量对应的所述单词对判定为近义词,所述距离计算部计算定义各个所述向量的双曲空间内的所述向量间的曲面距离,来作为所述向量彼此的距离。

3、作为本申请说明书公开的技术的第二方式的相似度计算装置与第一方式的相似度计算装置相关联,用欧几里德坐标记述各个所述向量,所述曲面距离是对所述向量彼此的所述欧几里德坐标间的距离乘以所述向量间的曲面的曲率而得到的值。

4、作为本申请说明书公开的技术的第三方式的相似度计算装置与第二方式的相似度计算装置相关联,所述曲率由所述向量彼此的外积的范数表示。

5、作为本申请说明书公开的技术的第四方式的相似度计算装置与第一至第三中的任意一个方式的相似度计算装置相关联,所述判定部将被判定为所述近义词的所述单词对关联起来登记到近义词辞典中。

6、作为本申请说明书公开的技术的第五方式的语义表达生成装置与作为第四方式的相似度计算装置相关联,是根据自然语言信息生成语义表达数据的语义表达生成装置,所述语义表达生成装置具备:ct体系表,其针对自然语言中的词性组记录分级且多义地表示词素的语义的概念信息;文本解析部,其接收所述自然语言的文本数据,对所述文本数据进行包含语法解析的表层性的解析,生成表示所述文本数据中包含的句子的构造的语法数据;语义解析部,其基于所述语法数据,生成与所述文本数据对应的所述语义表达数据,基于在上述的所述近义词辞典中相互关联起来的所述单词对来更新所述ct体系表,所述文本解析部参照所述ct体系表,基于所述语法数据,针对所述文本数据中包含的各词素赋予概念标签,该概念标签表示分层地表示上述各词素的语义的概念信息,所述语义解析部基于所述语法数据,针对在所述文本数据中相当于谓语的句节或连句节与相对于所述谓语具有修饰关系的其他句节或连句节的对,赋予表示语义信息的语义标签,其中,该语义信息表示上述对的语义关系,基于所述文本数据中包含的各词素被赋予的所述概念标签以及所述文本数据中包含的句节或连句节与其他的句节或连句节的对被赋予的所述语义标签,生成所述语义表达数据。

7、作为本申请说明书公开的技术的第六方式是存储有相似度计算程序的记录介质,所述相似度计算程序具有由1个或多个处理器执行的计算机可执行的多个命令,通过将所述相似度计算程序安装在计算机中而由所述处理器执行的多个所述命令,使所述计算机计算与各个单词对应地定义的向量彼此的距离,在所述向量彼此的距离为预先决定的距离以下的情况下,使所述计算机将与所述向量对应的所述单词对判定为近义词,所述向量彼此的距离是定义各个所述向量的双曲空间内的所述向量间的曲面距离。

8、作为本申请说明书公开的技术的第七方式的相似度计算方法是计算单词间的相似度的相似度计算方法,具备:计算与各个所述单词对应地定义的向量彼此的距离的工序;以及在所述向量彼此的距离为预先决定的距离以下的情况下,将与所述向量对应的所述单词对判定为近义词的工序,计算所述向量彼此的距离的工序是计算定义各个所述向量的双曲空间内的所述向量间的曲面距离来作为所述向量彼此的距离的工序。

9、根据本申请说明书公开的技术的至少第一、第六、第七方式,在双曲空间中定义各个向量,考虑该双曲空间的曲面的曲率来计算该向量彼此的距离,由此能够提高相似度计算的精度。

10、另外,通过以下所示的详细说明和附图,与本申请说明书公开的技术相关的目的、特征、方式、优点变得更加清楚。



技术特征:

1.一种相似度计算装置,其计算单词间的相似度,其特征在于,

2.根据权利要求1所述的相似度计算装置,其特征在于,

3.根据权利要求2所述的相似度计算装置,其特征在于,

4.根据权利要求1至3中的任意一项所述的相似度计算装置,其特征在于,

5.一种语义表达生成装置,其根据自然语言信息生成语义表达数据,其特征在于,

6.一种存储有相似度计算程序的记录介质,所述相似度计算程序具有由1个或多个处理器执行的计算机可执行的多个命令,

7.一种相似度计算方法,其计算单词间的相似度,其特征在于,


技术总结
本发明提供一种相似度计算装置、语义表达生成装置、记录介质和相似度计算方法,提高单词间的相似度计算的精度。相似度计算装置具备:距离计算部,其计算与各个所述单词对应地定义的向量彼此的距离;以及判定部,其在所述向量彼此的距离为预先决定的距离以下的情况下,将与所述向量对应的所述单词对判定为近义词,所述距离计算部计算定义各个所述向量的双曲空间内的所述向量间的曲面距离,作为所述向量彼此的距离。

技术研发人员:粕渕清孝,吉田明子,角谷祐辉,猪俣政贵
受保护的技术使用者:株式会社斯库林集团
技术研发日:
技术公布日:2024/9/23

最新回复(0)