一种基于多头专家的多语言语音识别模型及其训练方法与流程

xiaoxiao2月前 12

本发明涉及深度学习的语音识别，尤其涉及一种基于多头专家的多语言语音识别模型及其训练方法。

背景技术：

1、语音识别的目的是将音频或者视频中的语音识别出其对应的文字。在现实生活中，多语言的应用场景愈发增多。但目前大多数的单一语音识别模型往往仅支持识别一种语言，这对于许多应用场景非常受限。近年来，多语言端到端模型的研究有了许多进展，主流的多语言asr的模型结构有：如连接时序分类（ctc）模型、长短期记忆（lstm）模型以及基于注意力的模型。但是，许多支持多语言语音识别的模型需要显示给出语言信息或者设计多个编码器，增加了模型的复杂度，提高了计算成本，不利于端到端的模型训练。如何设计一个单一的，并且可以在不显示给出语言信息的情况下进行端到端训练的模型备受关注。为了解决如上问题，目前解决方法有如下几类：1.大规模训练集：使用足够大的训练集对模型进行训练，可以弥补模型结构简单或未针对某些特定问题增加特定结构而带来准确率下降的问题，例如openai发布的whisper语音识别模型的理念就是使用大规模的数据集进行训练，whisper模型相比于传统的transformer模型并未做太大的改动。但是该方法的问题是，相比于研究对模型的改善，大规模数据集代价昂贵。2.混合专家(moe)模型：该方法可以解决训练模型时显示提供语言信息的问题，该方法一般是使用混合专家模型替换原模型中的ffn层，特征向量输入到moe层会对多个专家进行打分，选出评分最高的几个专家，特征向量会经过这几个专家后再进行组合得到的结果作为后面步骤的输入，但是目前选择专家时的方法是使用普通的softmax进行选择，如何提供一个方法选择更适合的专家是该方法的问题。3.过度遗忘问题：在预训练模型基础上直接使用新的数据进行全量微调往往会导致对之前知识的过度遗忘，如何提供一个方法减缓过度遗忘的问题。

技术实现思路

1、本发明的目的在于提供一种基于多头专家的多语言语音识别模型及其训练方法，以解决上述背景技术中提到现有技术中存在的至少一个问题。

2、为达到上述目的，本发明采用如下技术方案：一种基于多头专家的多语言语音识别模型的训练方法，包括如下步骤：

3、s01、获取训练、验证和测试的音频数据集，并对音频数据集进行校验并修改音频采样率得到预处理后的音频数据集，构建音频-文本对标准化处理文件，构建语音识别模型的字典文件，构建训练的音频数据集的全局均值方差归一化文件；构建包括lmoeconformer音频特征编码器和mhr-lmoe attention解码器的语音识别模型。

4、s02、使用音频特征提取工具从训练的音频数据集中提取包含频率和时间信息的80维fbank音频特征作为初步的音频特征。

5、s03、将初步的音频特征进行两层步长为2的二维卷积得到四倍下采样的音频特征，再将四倍下采样的音频特征进行线性映射和添加位置编码后输入lmoe conformer音频特征编码器中得到高维音频特征，添加位置编码后的四倍下采样的音频特征在lmoeconformer音频特征编码器中依次经过ffn层、多头自注意力层和因果卷积层，最后进入lmoe层中对多个专家进行权重评分，从中选出两个权重评分最高的专家，经过这两个权重评分最高的专家进行处理后组合得到高维音频特征。

6、s04、使用训练的音频数据集对应的目标文本序列的开始标记作为第一个输入，然后进行进行字符嵌入处理后并添加位置编码后输入到mhr-lmoe attention解码器内进行归一化处理后输入到mhr-lmoe attention解码器的具有掩码的多头自注意力层，接着再进行残差和归一化操作后输入多头交叉注意力层，同时将步骤s03得到的高维音频特征一同输入到多头交叉注意力层中进行注意力计算，以此得到的特征向量进行组合、残差和归一化后的特征向量输入到mhr-lmoe attention解码器的mhr-lmoe层，进行分块处理，每块特征分别对多个专家进行权重评分，然后将所有分块的权重评分进行组合得到两个权重评分最高的专家，最后将分块处理前的特征向量经过两个权重评分最高的专家进行组合后进行残差计算得到mhr-lmoe attention解码器输出的特征向量。

7、s05、mhr-lmoe attention解码器输出的特征向量再经过归一化和线性映射后进行softmax操作得到每个字符的概率分布，使用束搜索方法得到最终识别预测结果。

8、s06、将最终识别预测结果与步骤s04的目标文本序列进行比较并计算损失值，根据损失值反向传播更新lmoe conformer音频特征编码器和mhr-lmoe attention解码器的参数，并重复步骤s03~s05，直至步骤s05得到的最终识别预测结果与目标文本序列的损失值收敛，以此完成对语音识别模型的初步训练。

9、s07、对步骤s06中初步训练得到的语音识别模型在新的语言上进行多次微调直至微调后的语音识别模型在经过测试的音频数据集的测试下准确率满足要求，以此完成对语音识别模型的最终训练；微调时冻结除了lmoe conformer音频特征编码器的lmoe层和mhr-lmoe attention解码器的mhr-lmoe层外的参数，并利用lmoe层的lora模块对lmoe层的多个专家的权重矩阵进行微调，利用mhr-lmoe层的lora模块对mhr-lmoe层的多个专家在多个路由头的权重矩阵进行微调。

10、具体的，步骤s01中训练和测试的音频数据集为自建或从公开的音频语料库中获取的多语言语音数据集。

11、具体的，步骤s03中添加位置编码后的四倍下采样的音频特征在lmoe conformer音频特征编码器中，先经过ffn层后做残差操作，接着经过多头自注意力层后做残差操作，接着经过因果卷积层后做残差操作，再经过lmoe层两个权重评分最高的专家进行处理后组合并进行残差操作，最后经过层归一化操作后得到最终输出的高维音频特征。

12、具体的，添加位置编码后的四倍下采样的音频特征在lmoe conformer音频特征编码器中，经过ffn层后做残差操作的计算公式为：，经过多头自注意力层后做残差操作的计算公式为：，经过因果卷积层后做残差操作的计算公式为：，经过lmoe层经过两个权重评分最高的专家进行处理后组合并进行残差操作的计算公式为：，其中，，其中、为权重评分最高的两个专家的权重，、为对应的权重评分最高的两个专家的输出；在对多个专家进行权重评分时，使用softmax对每个专家的权重进行计算，并从其中选出权重最高的两个专家，第i个专家的权重的计算公式如下：，其中即为经过因果卷积层后做残差操作得到的结果，wi为第i个专家的权重矩阵。

13、具体的，步骤s04中，mhr-lmoe attention解码器的mhr-lmoe层的计算过程如下：先将输入mhr-lmoe层的特征向量x分割为k个块，得到x1，x2，……，xk，每个块对应mhr-lmoe层的一个路由头，在计算每个专家的权重评分时，先计算第j个专家在第m个块的权重：，其中为第j个专家在第m个块对应的路由头的权重矩阵，然后将第j个专家的k个块的权重相加后再进行softmax操作得到第j个专家的权重评分：，从其中选出权重评分最高的两个专家后，得到mhr-lmoe层的输出：，其中、为权重评分最高的两个专家的权重，、为对应的权重评分最高的两个专家的输出。

14、具体的，步骤s07中利用lmoe层的lora模块对lmoe层的多个专家的权重矩阵进行微调时，微调后的第i个专家的权重矩阵为：w’i=wi+δwi，其中，wi为原权重矩阵，δwi为根据第i个专家的参数矩阵计算得到的增量权重矩阵；利用mhr-lmoe层的lora模块对mhr-lmoe层的多个专家在多个路由头的权重矩阵进行微调时，微调后的第j个专家在第m个块对应的路由头的权重矩阵为：w’j,m=wj,m+δwj,m，其中，wj,m为原权重矩阵，δwj,m为根据第j个专家在第m个块对应的路由头的参数矩阵计算得到的增量权重矩阵。

15、具体的，δwi=aibi，其中ai∈rdin×r，bi∈rr×dout，其中，r<<min(din,dout)为低秩秩数，din和dout为第i个专家的参数矩阵的秩数；δwj,m=aj,mbj,m，其中aj,m∈rdin’×r’，bj,m∈rr’×dout’，其中，r’<<min(din’,dout’)为低秩秩数，din’和dout’为第j个专家在第m个块对应的路由头的参数矩阵的参数矩阵的秩数。

16、一种基于多头专家的多语言语音识别模型，包括lmoe conformer音频特征编码器和mhr-lmoe attention解码器，所述lmoe conformer音频特征编码器包括ffn层、多头自注意力层、因果卷积层和lmoe层，所述mhr-lmoe attention解码器包括第一归一化层、具有掩码的多头自注意力层、第二归一化层、多头交叉注意力层、第三归一化层和mhr-lmoe层。

17、本发明的有益效果在于：以深度学习主流的卷积神经网络以及注意力机制为基础，搭建了通过单一的可进行端到端训练的多语言语音识别模型，可有效提高多语言语音识别模型的训练效率以及多语言语音识别的准确率，并通过对初步训练的语音识别模型在新的语言上进行微调，解决训练过程中对之前训练的内容存在过度遗忘的问题。

技术特征：

1.一种基于多头专家的多语言语音识别模型的训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于多头专家的多语言语音识别模型的训练方法，其特征在于：所述步骤s01中训练和测试的音频数据集为自建或从公开的音频语料库中获取的多语言语音数据集。

3.根据权利要求1所述的一种基于多头专家的多语言语音识别模型的训练方法，其特征在于：所述步骤s03中添加位置编码后的四倍下采样的音频特征在lmoe conformer音频特征编码器中，先经过ffn层后做残差操作，接着经过多头自注意力层后做残差操作，接着经过因果卷积层后做残差操作，再经过lmoe层两个权重评分最高的专家进行处理后组合并进行残差操作，最后经过层归一化操作后得到最终输出的高维音频特征。

4.根据权利要求3所述的一种基于多头专家的多语言语音识别模型的训练方法，其特征在于：所述添加位置编码后的四倍下采样的音频特征在lmoe conformer音频特征编码器中，经过ffn层后做残差操作的计算公式为：，经过多头自注意力层后做残差操作的计算公式为：，经过因果卷积层后做残差操作的计算公式为：，经过lmoe层经过两个权重评分最高的专家进行处理后组合并进行残差操作的计算公式为：，其中，，其中、为权重评分最高的两个专家的权重，、为对应的权重评分最高的两个专家的输出；在对多个专家进行权重评分时，使用softmax对每个专家的权重进行计算，并从其中选出权重最高的两个专家，第i个专家的权重的计算公式如下：，其中即为经过因果卷积层后做残差操作得到的结果，wi为第i个专家的权重矩阵。

5.根据权利要求1所述的一种基于多头专家的多语言语音识别模型的训练方法，其特征在于：所述步骤s04中，mhr-lmoe attention解码器的mhr-lmoe层的计算过程如下：先将输入mhr-lmoe层的特征向量x分割为k个块，得到x1，x2，……，xk，每个块对应mhr-lmoe层的一个路由头，在计算每个专家的权重评分时，先计算第j个专家在第m个块的权重：，其中为第j个专家在第m个块对应的路由头的权重矩阵，然后将第j个专家的k个块的权重相加后再进行softmax操作得到第j个专家的权重评分：，从其中选出权重评分最高的两个专家后，得到mhr-lmoe层的输出：，其中、为权重评分最高的两个专家的权重，、为对应的权重评分最高的两个专家的输出。

6.根据权利要求1所述的一种基于多头专家的多语言语音识别模型的训练方法，其特征在于：所述步骤s07中利用lmoe层的lora模块对lmoe层的多个专家的权重矩阵进行微调时，微调后的第i个专家的权重矩阵为：w’i=wi+δwi，其中，wi为原权重矩阵，δwi为根据第i个专家的参数矩阵计算得到的增量权重矩阵；利用mhr-lmoe层的lora模块对mhr-lmoe层的多个专家在多个路由头的权重矩阵进行微调时，微调后的第j个专家在第m个块对应的路由头的权重矩阵为：w’j,m=wj,m+δwj,m，其中，wj,m为原权重矩阵，δwj,m为根据第j个专家在第m个块对应的路由头的参数矩阵计算得到的增量权重矩阵。

7.根据权利要求6所述的一种基于多头专家的多语言语音识别模型的训练方法，其特征在于：所述δwi=aibi，其中ai∈rdin×r，bi∈rr×dout，其中，r<<min(din,dout)为低秩秩数，din和dout为第i个专家的参数矩阵的秩数；δwj,m=aj,mbj,m，其中aj,m∈rdin’×r’，bj,m∈rr’×dout’，其中，r’<<min(din’,dout’)为低秩秩数，din’和dout’为第j个专家在第m个块对应的路由头的参数矩阵的参数矩阵的秩数。

8.一种基于多头专家的多语言语音识别模型，其特征在于：包括lmoe conformer音频特征编码器和mhr-lmoe attention解码器，所述lmoe conformer音频特征编码器包括ffn层、多头自注意力层、因果卷积层和lmoe层，所述mhr-lmoe attention解码器包括第一归一化层、具有掩码的多头自注意力层、第二归一化层、多头交叉注意力层、第三归一化层和mhr-lmoe层。

技术总结
本发明涉及深度学习的语音识别技术领域，尤其涉及一种基于多头专家的多语言语音识别模型及其训练方法。本发明通过以深度学习主流的卷积神经网络以及注意力机制为基础，搭建了通过单一的可进行端到端训练的多语言语音识别模型并进行训练，再对初步训练的语音识别模型在新的语言上进行微调和测试。本发明的有益效果在于：可有效提高多语言语音识别模型的训练效率，同时可提高多语言语音识别的准确度，并有效解决训练过程中对之前训练的内容存在过度遗忘的问题。

技术研发人员：柯登峰,徐艳艳,林鹏,杨孟超,黄堃,郭静敏,林禧喆
受保护的技术使用者：广东省连听科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)