跨语言文本中实体语义识别处理方法、系统及存储介质与流程

xiaoxiao4月前 22

本技术涉及计算机，具体而言，涉及一种跨语言文本中实体语义识别处理方法、系统及存储介质。

背景技术：

1、跨语音文本识别（cross-lingual speech-to-text, cls2t）是一种技术，它可以将不同语言的语音转换成对应的文本。

2、这项技术的目标是实现在不同语言之间进行语音转写和翻译的功能。

3、跨语音文本识别技术通常包括以下几个步骤：语音识别：将语音信号转换为文本。

4、这一步骤使用的是语音识别技术，通过对语音信号进行分析和模型匹配，将其转换为对应的文本。

5、语言识别：确定输入语音的语种。

6、由于跨语音文本识别需要处理不同语言的音，因此在进行语音识别之前，需要先确定输入语音的语种。

7、翻译：将识别出的文本进行翻译。

8、这一步骤使用的是机器翻译技术，将识别出的文本从一种语言翻译成另一种语言。

9、但是经常需要先输入语言类别在对齐进行检测。

10、而在一串语音夹杂多种语言类别且未知每个单词对应的语言类别时，检测较为困难。

11、例如，在进行交互时，用户用中英文交杂进行交流，如 “你好！我想去hospital，怎么 to go？”对于这样夹杂多种语言的场景，同一个音素能表示中文，也能表示英文，如“togo”也能被识别为汉字“tugou”难以对语言进行翻译准确的翻译。

技术实现思路

1、本技术的目的在于提供了一种跨语言文本中实体语义识别处理方法及系统，用以解决现有技术中存在的上述问题。

2、第一方面，本技术实施例提供了一种跨语言文本中实体语义识别处理方法，包括：

3、获得待检测语音图像和数据库音素集合；所述数据库音素集合包含数据库中的多类语言类别对应的音素以及所述音素转化为的傅里叶图像；所述待检测语音图像为待检测的语音信号通过傅里叶转化提取特征后的傅里叶图像；

4、通过三角判定结构，基于所述待检测语音图像和数据库音素集合，得到相似音素集合；所述相似音素集合包含一个或多个相似音素和与相似音素对应的相似音素类别；所述相似音素表示数据库中与待检测语音图像对应的音素相似的音素；

5、基于所述相似音素集合，获得音素对应的单词，基于音素对应的单词构建语句表；所述语句表包含多个元素，每个元素指向一个单词向量；所述单词向量包含单词键值对，所述单词键值对包括单词音素个数和指针符号；所述指针符号为指向所述音素对应的单词的索引符号；所述单词音素个数为一个或者多个；所述单词音素个数表示构成一个单词的音素的数量；

6、根据语句表中对应的单词，按照不同语言类别的单词翻译为统一语言类别，得到翻译表；

7、基于所述翻译表，按照翻译表中单词的位置和不同语言类别翻译后的语义，得到预测语句；所述预测语句表示多种符合语境的预测的包含多种语言的类别。

8、可选的，所述通过三角判定结构，基于所述待检测语音图像和数据库音素集合，得到相似音素集合，包括：

9、将所述待检测语音图像以一个音素的长度为步长进行分割，得到多个待检测音素图像；

10、将所述待检测音素图像输入音素提取网络，提取特征，得到待检测音素特征；多个待检测音素图像对应获得多个待检测音素特征；

11、将所述数据库音素集合中的傅里叶图像输入音素提取网络，提取特征，得到存储音素特征；音素集合中的多个傅里叶图像对应获得多个存储音素特征；

12、根据一个待检测音素特征和两个存储音素特征，获取两两之间的特征的不同，得到第一音素相差特征、第二音素相差特征和第三音素相差特征；所述第一音素相差特征表示待检测音素特征和一个存储音素特征的差距；所述第二音素相差特征表示待检测音素特征和另一个存储音素特征的差距；所述第三音素相差特征表示一个存储音素特征和另一个存储音素特征的差距；

13、基于所述第一音素相差特征、第二音素相差特征和第三音素相差特征，通过音素判别结构，判断音素的特征是否相似，若相似，得到第一存储相似音素；

14、基于所述第一音素相差特征、第二音素相差特征、第三音素相差特征和第一存储相似音素，通过音素判别结构，判断音素的特征差距是否相似；

15、若音素的特征差距相似，将第一存储相似音素作为相似存储音素特征；

16、将音素集合中相似存储音素特征对应的音素设为相似音素，将相似音素对应的语言类别设为相似音素类别。

17、可选的，所述三角判定结构包括第一音素结构、第二音素结构、第三音素结构、音素判别结构和第一存储相似音素存储结构；

18、所述第一音素结构的输出和第二音素结构的输出为音素判别结构的第一个输出的输入；

19、所述音素判别结构的第一个输出为所述第一存储相似音素存储结构的输入；

20、所述第一音素结构的输出、第二音素结构的输出、第三音素结构的输出和所述第一存储相似音素存储结构的输出构成第二三相差特征和第一三相差特征；

21、所述音素判别结构的第二个输出的输入为第二三相差特征和第一三相差特征。

22、可选的，所述基于所述相似音素集合，获得音素对应的单词，基于音素对应的单词构建语句表，包括：

23、获得零矩阵；所述零矩阵的行表示相似音素集合中音素的排列；所述零矩阵的行表示语言类别；

24、获得当前相似音素；所述当前相似音素为所述相似音素集合中预进行匹配单词的一个音素；

25、将当前相似音素，或，当前相似音素和1个或多个前部音素组成单词相似音素集合；所述前部音素表示与当前相似音素相邻且发声的时间早于当前相似音素的相似音素；所述单词相似音素集合中的数量为当前相似音素在相似音素集合中的下标加1；所述相似音素集合中的下标从0开始，依次加1；

26、将所述单词相似音素集合中全部值进行匹配，判断音素对应的单词，得到检测单词和对应的检测单词语言类别；n个单词相似音素集合对应获得m个检测单词和m个对应的检测单词语言类别；

27、按照当前相似音素对应的行和检测单词语言类别对应的列，将检测单词和对应的单词相似音素集合的值的个数填入零矩阵，得到语句表。

28、可选的，所述基于所述翻译表，按照翻译表中单词的位置和不同语言类别翻译后的语义，得到预测语句，包括：

29、将所述翻译表中相邻的三个单词构建多个三单词集合；所述三单词集合包括第一单词、第二单词集合和第三单词；所述第一单词与第二单词集合在翻译表中相邻；所述第二单词集合与第三单词在翻译表中相邻；所述第一单词与第三单词在相邻表中相隔一个第二单词集合中的一个单词的长度；

30、所述第二单词集合中的单词长度相同；所述第二单词集合中的单词长度为能够匹配第一单词和第三单词的长度；

31、根据所述第一单词和第三单词，得到预测第二单词集合；所述预测第二单词集合包括多个预测第二单词和对应第二单词分数；所述预测第二单词表示与第一单词和第三单词构成单词的一个字；所述第二单词分数表示对应的词组的使用次数；

32、将所述第二单词集合和预测第二单词集合求取交集，得到匹配第二单词集合；

33、将所述匹配第二单词集合中的值对应的第二单词分数作为匹配第二单词分数；

34、多个三单词集合对应得到多个匹配第二单词集合；

35、将所述多个匹配第二单词集合中的单词按照从远到近的时间顺序进行匹配，得到多个匹配语句；

36、将匹配语句对应的匹配第二单词分数进行相加，得到匹配分数；多个匹配第二单词分数对应获得多个匹配分数；

37、将匹配第二单词分数中大于其他匹配第二单词分数的匹配第二单词分数作为检测分数；

38、将检测分数对应的匹配语句作为预测语句。

39、可选的，所述根据所述第一单词和第三单词，得到预测第二单词集合，包括：

40、获取词典；所述词典为包含所有用于检测的多类语言类型的词组；

41、根据所述词典，获得词组分数；所述词组分数为根据使用次数对词典中的词组计算的分数；

42、在所述词典找到包含第一单词，且仅包含两个单词的词组作为双词词组；

43、在所述词典找到第一个单词为第一单词，且，第三个单词为第三单词，且仅存在三个单词的词组作为三词词组；

44、将双词词组，或，三词词组中的第二个单词作为第二单词；

45、将第一单词所在的词组的单词分数，或，包含第一单词和第三单词的词组的单词分数，作为第二单词分数；

46、将所述第二单词和第二单词分数加入预测第二单词集合中。

47、可选的，所述基于所述第一音素相差特征、第二音素相差特征和第三音素相差特征，通过音素判别结构，判断音素的特征是否相似，若相似，得到第一存储相似音素，包括：

48、将所述第一音素相差特征和第二音素相差特征输入音素判别结构，得到第二判别值；

49、将所述第一音素相差特征和第三音素相差特征输入音素判别结构，得到第三判别值；

50、若所述第二判别值大于判别阈值，判断音素的特征相似，将所述第二音素相差特征对应的音素设为第一存储相似音素；

51、若所述第三判别值大于判别阈值，判断音素的特征相似，将所述第三音素相差特征对应的音素设为第一存储相似音素；

52、若所述第二判别值小于或等于判别阈值，且，所述第三判别值小于或等于判别阈值，判断所述音素的特征为不相似。

53、可选的，所述基于所述第一音素相差特征、第二音素相差特征、第三音素相差特征和第一存储相似音素，通过音素判别结构，判断音素的特征差距是否相似，包括：

54、获得第二音素相差特征和第三音素相差特征中除第一存储相似音素对应的存储音素特征外的另一个存储音素特征作为三角判别音素特征；

55、将第二音素相差特征和第三音素相差特征中除三角判别音素特征之外的存储音素特征作为相差判定音素特征；

56、将所述相差判定音素特征减去三角判别音素特征，得到第一三角相差特征；

57、将所述第一音素相差特征减去三角判别音素特征，得到第二三角相差特征；

58、将所述第一三角相差特征和第二三角相差特征输入音素判别结构，得到三角判别值；

59、若所述三角判别值大于判别阈值，判断音素的特征差距为相似；

60、若所述三角判别值小于或等于判别阈值，判断音素的特征差距为不相似。

61、第二方面，本技术实施例提供了一种跨语言文本中实体语义识别处理系统，包括：

62、获取模块：获得待检测语音图像和数据库音素集合；所述数据库音素集合包含数据库中的多类语言类别对应的音素以及所述音素转化为的傅里叶图像；所述待检测语音图像为待检测的语音信号通过傅里叶转化提取特征后的傅里叶图像；

63、三角判定模块：通过三角判定结构，基于所述待检测语音图像和数据库音素集合，得到相似音素集合；所述相似音素集合包含一个或多个相似音素和与相似音素对应的相似音素类别；所述相似音素表示数据库中与待检测语音图像对应的音素相似的音素；

64、单词检测模块：基于所述相似音素集合，获得音素对应的单词，基于音素对应的单词构建语句表；所述语句表包含多个元素，每个元素指向一个单词向量；所述单词向量包含单词键值对，所述单词键值对包括单词音素个数和指针符号；所述指针符号为指向所述音素对应的单词的索引符号；所述单词音素个数为一个或者多个；所述单词音素个数表示构成一个单词的音素的数量；

65、翻译模块：根据语句表中对应的单词，按照不同语言类别的单词翻译为统一语言类别，得到翻译表；

66、语义识别模块：基于所述翻译表，按照翻译表中单词的位置和不同语言类别翻译后的语义，得到预测语句；所述预测语句表示多种符合语境的预测的包含多种语言的类别。

67、第三方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的跨语言文本中实体语义识别处理方法的步骤。

68、相较于现有技术，本技术实施例达到了以下有益效果：

69、本技术实施例还提供了一种跨语言文本中实体语义识别处理方法、系统及存储介质，所述方法包括：获得待检测语音图像和数据库音素集合；所述数据库音素集合包含数据库中的多类语言类别对应的音素以及所述音素转化为的傅里叶图像；所述待检测语音图像为待检测的语音信号通过傅里叶转化提取特征后的傅里叶图像；通过三角判定结构，基于所述待检测语音图像和数据库音素集合，得到相似音素集合；所述相似音素集合包含一个或多个相似音素和与相似音素对应的相似音素类别；所述相似音素表示数据库中与待检测语音图像对应的音素相似的音素；基于所述相似音素集合，获得音素对应的单词，基于音素对应的单词构建语句表；所述语句表包含多个元素，每个元素指向一个单词向量；所述单词向量包含单词键值对，所述单词键值对包括单词音素个数和指针符号；所述指针符号为指向所述音素对应的单词的索引符号；所述单词音素个数为一个或者多个；所述单词音素个数表示构成一个单词的音素的数量；根据语句表中对应的单词，按照不同语言类别的单词翻译为统一语言类别，得到翻译表；基于所述翻译表，按照翻译表中单词的位置和不同语言类别翻译后的语义，得到预测语句；所述预测语句表示多种符合语境的预测的包含多种语言的类别。

70、本技术中，先获得对语音进行识别后得到的待检测语音图像和数据库音素集合；获取一个待检测音素图像，通过三角判定结构，找到包围所述待检测的音素的三角判定结构中与所述待检测的音素最相似的特征，再找到所述特征与包围所述待检测的音素的三角判定结构中另外两个特征之间的差距，从而找到数据库中与待检测语音图像对应的音素相似的音素；通过上述方法，能够更加准确的按照一句话中相同发声情况，检测到数据库中与待检测的音素相对应的音素，辨别不同语言类别中发声相似的部分；并且通过数据库中音素与单词的关联，得到多类语言类别对应的单词以及其单词对应的语言类别；根据单词在不同语言类别中进行发声的音素的长度不同，记录多个音素不同组成方式和对应的含义，将一串发声的音素对应的多个单词构建语句表；将语句表中的多类语言类别的单词翻译为同一语义类别，使得能够按照单词的语义来进行语义识别；根据翻译表，按照用户停顿情况进行语义的检测；相较于按照只找到前一个单词进行语义匹配而忽略两个单词之间的停顿可能为未检测到的单词的情况，能够更加准确地进行语义识别；通过语句表进行多种语言的语义识别，能够到达大大减轻了计算机的计算量，更加准确快速的对其进行跨语言文本的语义识别且翻译准确性高的技术效果。

技术特征：

1.一种跨语言文本中实体语义识别处理方法，其特征在于，包括：

2.根据权利要求1所述的跨语言文本中实体语义识别处理方法，其特征在于，所述通过三角判定结构，基于所述待检测语音图像和数据库音素集合，得到相似音素集合，包括：

3.根据权利要求2所述的跨语言文本中实体语义识别处理方法，其特征在于，所述三角判定结构包括第一音素结构、第二音素结构、第三音素结构、音素判别结构和第一存储相似音素存储结构；

4.根据权利要求1所述的跨语言文本中实体语义识别处理方法，其特征在于，所述基于所述相似音素集合，获得音素对应的单词，基于音素对应的单词构建语句表，包括：

5.根据权利要求1所述的跨语言文本中实体语义识别处理方法，其特征在于，所述基于所述翻译表，按照翻译表中单词的位置和不同语言类别翻译后的语义，得到预测语句，包括：

6.根据权利要求5所述的跨语言文本中实体语义识别处理方法，其特征在于，所述根据所述第一单词和第三单词，得到预测第二单词集合，包括：

7.根据权利要求2所述的跨语言文本中实体语义识别处理方法，其特征在于，所述基于所述第一音素相差特征、第二音素相差特征和第三音素相差特征，通过音素判别结构，判断音素的特征是否相似，若相似，得到第一存储相似音素，包括：

8.根据权利要求2所述的跨语言文本中实体语义识别处理方法，其特征在于，所述基于所述第一音素相差特征、第二音素相差特征、第三音素相差特征和第一存储相似音素，通过音素判别结构，判断音素的特征差距是否相似，包括：

9.一种跨语言文本中实体语义识别处理系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的跨语言文本中实体语义识别处理方法的步骤。

技术总结
本申请公开了一种跨语言文本中实体语义识别处理方法、系统及存储介质，根据不同单词和相同单词在不同语言类别中进行发声的音素的长度不同，记录多个音素不同组成方式和对应的含义，将一串发声的音素对应的多个单词构建语句表。将语句表中的多类语言类别的单词翻译为同一语义类别，使得能够按照单词的语义来进行语义识别。本申请根据用户停顿情况进行语义的检测相较于普通按照前一个单词进行检测，能够更加准确地进行语义识别，通过语句表进行多种语言的语义识别，大大减轻了计算机的计算量，更加准确快速的对其进行跨语言文本的语义识别。即，本申请的方案可以把包含不同语言类别的语句翻译成预设的语言类别的语句，且翻译准确性高。

技术研发人员：汤敬华,郑波,孙琪
受保护的技术使用者：山东声通信息科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)