语音样本生成方法及装置与流程

xiaoxiao8月前 63

本申请涉及音频数据处理，尤其涉及一种语音样本生成方法及装置。

背景技术：

1、目前，随着tts(text to speech)语音合成技术的发展，同时，随着人工智能技术的不断发展，利用大量的语音样本对语音合成模型进行训练，得到训练后的语音合成模型，因此，语音合成模型的训练阶段所使用的语音样本的质量会直接影响语音合成模型的训练效果。

2、然而，实际上，由于损耗、衰减、传输线路不畅通等原因可能造成语音数据丢失(即音频丢帧的现象)，因此，直接获取到的音频数据可能存在丢帧的现象，如果将存在丢帧的音频数据作为语音样本用来训练语音合成模型，势必会影响语音合成模型的训练效果；由此可知，需要提供一种能够生成高质量的语音样本的技术方案。

技术实现思路

1、本申请实施例的目的是提供一种语音样本生成方法及装置，不仅能够自动筛选出未丢帧音频样本集合作为语音样本数据集，从而提高语音合成模型的训练效果；并且，还能够简化音频丢帧检测步骤，提高音频丢帧检测效率。

2、为了实现上述技术方案，本申请实施例是这样实现的：

3、第一方面，本申请实施例提供的一种语音样本生成方法，所述方法包括：

4、获取初始音频数据集；其中，所述初始音频数据集包括n个初始音频样本，n为大于1的整数；

5、基于n个音频丢帧检测维度，对所述初始音频数据集进行多维丢帧检测，确定所述n个初始音频样本中的m个目标正常音频样本；其中，每个所述音频丢帧检测维度对应于语音信号参数中任一个，所述语音信号参数包括声音强度、语音活性、基音周期和信号能量，所述目标正常音频样本为未丢帧的初始音频样本，n、m均为大于1的整数且m小于或等于n；

6、基于所述m个目标正常音频样本，生成语音样本数据集；其中，所述语音样本数据集用于训练语音合成模型。

7、第二方面，本申请实施例提供的一种语音样本生成装置，所述装置包括：

8、音频数据获取模块，用于获取初始音频数据集；其中，所述初始音频数据集包括n个初始音频样本，n为大于1的整数；

9、音频丢帧检测模块，用于基于n个音频丢帧检测维度，对所述初始音频数据集进行多维丢帧检测，确定所述n个初始音频样本中的m个目标正常音频样本；其中，每个所述音频丢帧检测维度对应于语音信号参数中任一个，所述语音信号参数包括声音强度、语音活性、基音周期和信号能量，所述目标正常音频样本为未丢帧的初始音频样本，n、m均为大于1的整数且m小于或等于n；

10、语音样本生成模块，用于基于所述m个目标正常音频样本，生成语音样本数据集；其中，所述语音样本数据集用于训练语音合成模型。

11、第三方面，本申请实施例提供的一种语音样本生成设备，所述设备包括：

12、处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行如第一方面中所述的方法中的步骤。

13、第四方面，本申请实施例提供的一种计算机可读存储介质，其中，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如第一方面中所述的方法中的步骤。

14、可以看出，在本申请实施例中，在获取到初始音频数据集后，先基于多个音频丢帧检测维度，对初始音频数据集进行多维丢帧检测，过滤掉存在丢帧的初始音频样本(即目标丢帧音频样本)，以筛选出多个未丢帧的初始音频样本(即目标正常音频样本)；然后基于多个目标正常音频样本，生成用于训练语音合成模型的语音样本数据集；这样并非直接将初始音频数据集作为语音样本数据集，而是先对初始音频数据集进行多维丢帧检测，过滤掉丢帧音频样本，将剩余的未丢帧音频样本集合作为语音样本数据集，从而提高语音合成模型的训练效果；并且在音频丢帧检测过程中，通过对初始音频样本的指定语音信号参数进行检测，以从多个音频丢帧检测维度对疑似丢帧音频样本进行层层筛选，最终过滤掉同时命中n个音频丢帧检测维度对应的丢帧预测约束条件的初始音频样本，这样无需单独训练一个音频丢帧检测模型，仅仅是将n个不同的指定语音信号参数作为音频丢帧检测维度，对初始音频数据集进行多维丢帧检测，即可快速、准确地识别出丢帧音频，从而在确保音频丢帧检测准确度的情况下，简化了音频丢帧检测步骤，提高了音频丢帧检测效率。

技术特征：

1.一种语音样本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于n个音频丢帧检测维度，对所述初始音频数据集进行多维丢帧检测，确定所述n个初始音频样本中的m个目标正常音频样本，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述检测优先级顺序，对所述初始音频数据集进行多维丢帧检测，得到丢帧音频数据集，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标检测维度，对所述待检测音频样本集合中多个初始音频样本进行丢帧检测，得到疑似丢帧音频样本集合，包括：

5.根据权利要求4所述的方法，其特征在于，所述针对所述待检测音频样本集合中每个初始音频样本，确定所述初始音频样本的声强突变点检测结果，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述目标检测维度，对所述待检测音频样本集合中多个初始音频样本进行丢帧检测，得到疑似丢帧音频样本集合，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于各所述初始音频样本的语音活性检测结果和各所述初始音频样本的声强突变点检测结果，确定疑似丢帧音频样本集合，包括：

8.根据权利要求3所述的方法，其特征在于，所述基于所述目标检测维度，对所述待检测音频样本集合中多个初始音频样本进行丢帧检测，得到疑似丢帧音频样本集合，包括：

9.根据权利要求8所述的方法，其特征在于，所述基于各所述初始音频样本的基音周期检测结果和各所述初始音频样本的声强突变点检测结果，确定疑似丢帧音频样本集合，包括：

10.根据权利要求3所述的方法，其特征在于，所述基于所述目标检测维度，对所述待检测音频样本集合中多个初始音频样本进行丢帧检测，得到疑似丢帧音频样本集合，包括：

11.根据权利要求10所述的方法，其特征在于，所述基于所述初始音频样本的声强突变点检测结果，对所述初始音频样本中至少一个声强突变片段进行信号能量检测，得到所述初始音频样本的信号能量检测结果，包括：

12.根据权利要求2所述的方法，其特征在于，所述n个音频丢帧检测维度包括声音强度检测维度、语音活性检测维度、基音周期检测维度、信号能量检测维度；所述声音强度检测维度的丢帧预测约束条件为包含声强突变点，所述语音活性检测维度的丢帧预测约束条件为包含声强突变片段位于非人声片段的可疑音频片段，所述基音周期检测维度的丢帧预测约束条件为包含声强突变片段位于基音周期不连续片段的可疑音频片段，所述信号能量检测维度的丢帧预测约束条件为包含声强突变片段位于信号能量低片段的可疑音频片段；

13.根据权利要求1至12任一项所述的方法，其特征在于，在基于所述m个目标正常音频样本，生成语音样本数据集之后，还包括：

14.一种语音样本生成装置，其特征在于，所述装置包括：

15.一种语音样本生成设备，其特征在于，所述设备包括：

16.一种计算机可读存储介质，其特征在于，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如权利要求1至13任一项所述的方法。

技术总结
本申请实施例提供了一种语音样本生成方法及装置，先基于多个音频丢帧检测维度，对初始音频数据集进行多维丢帧检测，过滤掉存在丢帧的初始音频样本，以筛选出多个未丢帧的初始音频样本；这样并非直接将初始音频数据集作为语音样本数据集，而是先对初始音频数据集进行多维丢帧检测，过滤掉丢帧音频样本，将剩余的未丢帧音频样本集合作为语音样本数据集，从而提高语音合成模型的训练效果；并且在音频丢帧检测过程中，通过对初始音频样本的指定语音信号参数进行检测，以从多个音频丢帧检测维度对疑似丢帧音频样本进行层层筛选，最终过滤掉同时命中n个丢帧预测约束条件的初始音频样本，这样简化了音频丢帧检测步骤，提高了音频丢帧检测效率。

技术研发人员：熊雪军,蒋宁,吴海英,夏粉,刘敏
受保护的技术使用者：马上消费金融股份有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)