一种人性化汉语语音的合成方法

xiaoxiao2020-10-23  14

一种人性化汉语语音的合成方法
【技术领域】
[0001]本发明涉及计算机语音合成和人机交互特别涉及一种人性化汉语语音的合成方法。
【背景技术】
[0002]前几代的汉语机器语音具有组合方式机械、计算量巨大、声音虚假等显著问题,这些问题严重阻碍了汉语人机对话和机器人领域的发展速度。问题的主要原因在于:目前的几种汉语语音都采用字根为本的组合模式,他们把汉语理解为汉字的组合,于是针对每个汉字的发音进行机器合成。使用机器模拟或简单的人工录制而成的声母与韵母的组合,从普通直觉上似乎接近汉语元素的声音,但是这种单字字根机器发音的简单组合无法与真实的中国人说话声音处在同一交流层面,所以严重防碍了汉语人机对话的进步。
[0003]传统语音合成方法:
[0004]基本描述:今天我们来到一个美丽的地方语音拆解:jin(l,表示I声,下同)tian (2) wo (3) men (2) Iai (2) dao (4) yi (2) ge (4)mei (3) Ii (4) de (O) di (4) fang (I)
[0005]语音合成:jin(I) tian (2) wo (3)men (2) Iai (2) dao (4) yi (2) ge (4)mei (3) Ii (4)de(0) di⑷ fang (I)
[0006]语音优化:jin(I) tian (2)_wo (3)men (2) Iai (2) dao (4)_yi (2) ge (4)_mei (3)_Ii ⑷ de (0)_di ⑷ fang (I)
[0007]从目前最常用的汉语语音机器合成模式可以看出,传统的方法具有单字字根化、机械拼读化、声调强化、汉字感突出、优化方法过分随意等显著特征。所有这些特点都不利于计算机硬软件系统对汉语进行合理的拆分和理解。所以,这样的语音和语意传输模式无法实现有效的人机对话,它和人类特别是中国人使用汉语的逻辑是根本矛盾的。

【发明内容】

[0008]为解决上述现有技术存在的问题,本发明的目的在于提供一种人性化汉语语音的合成方法,此套全新方法和系统从根本上取消了对汉语的字根化拆解和录制。该方法援引最近开始流行的拼音文组词模式,将汉语语句拆解为非常符合正常人群思考和发声习惯的基本词汇。
[0009]为达到上述目的,本发明的技术方案为:
[0010]一种人性化汉语语音的合成方法,包括如下步骤:步骤一、将真人语音结合正常发音的尾音录入系统;步骤二、将汉语基本词汇录入系统;步骤三、依据录入的汉语基本词汇对步骤一中录入的声音进行对应编辑处理。
[0011]进一步的,所述步骤一中,在真人语音的录入过程中,将连贯词语的尾音保留,之后使用音频处理程序把两个声音有机地组合起来,使第一个声音的尾音长,第二个尾音短,这样连接起来以后,形成接近真人发音的语音词汇。
[0012]进一步的,所述步骤一及步骤三中,对汉语发音进行相应处理,达到类似真人的效果,强调非正式化,交互化和性别差异化;首先使录制人员的声音细节能够得到表达,从而构成一个可以用于编辑的真实语音词汇库,达到她或他在进行真人对话的语气和音符流动性。
[0013]进一步的,所述步骤三中,采用真人的语音库进行技术加工,对语素和语素之间的结合部分进行处理,语素指词汇的声音,使声音的连贯程度和整体速度达到近真人的技术标准;其次,为了达到机器声音和人体发音的趋同,在一些处理环节采用整句录入然后分割的方法,再次,汉语的表达涉及大量的所谓非逻辑语汇,对于非逻辑语汇和语音,依据成型的拼音文转换模式,结合定量的语素进行专门的,针对性很强的程序处理,运用先进的语音编制模块,从而达到人性感充足的机器发声效果。
[0014]进一步的,所述步骤二中,语音基本词汇的词汇库结合汉语表达特点和文化特点长期实践形成,对日常汉语中的实词和虚词进行整合,从而达到类似英语的严谨语意和语音模式。
[0015]进一步的,依据所述词汇库而建立的语音元素数据库采用符合中国人生活和工作习惯的节奏及语态进行相关录制,使计算机的处理和编程具有了客观的基础,并确保了最后的自然语音效果的输出。
[0016]进一步的,本发明方法采用android、windows及有关计算器平台而建立的语音元素分类、定性、重新组合和输出。
[0017]相对于现有技术,本发明的有益效果为:
[0018]本发明通过通过简化和越过了复杂的汉字系统这个汉语处理的巨大难题,这套语音输出系统为具有普通语文水平甚至较低语文水平的工作者都提供了非常方便的人机对话平台的基础。对于其他国家和民族,以及具有一定声音听说障碍的人群,它的优势也非常显著。
【具体实施方式】
[0019]下面结合【具体实施方式】对本发明技术方案做进一步详细描述:
[0020]此套全新方法和系统从根本上取消了对汉语的字根化拆解和录制。该方法援引最近开始流行的拼音文组词模式,将汉语语句拆解为非常符合正常人群思考和发声习惯的基本词汇。这种3000词或6000词的字母词汇库为机器录入、归纳、分类组合和编制发音提供了重要基础。然后系统通过程序对这些词汇与录制声音(采用真人的特殊环境录制效果)进行一一对应的编辑处理。
[0021]新型方法采用如下方式进行汉语语音处理:
[0022]基本描述:今天我们来到一个美丽的地方
[0023]语音拆解:jin(I) tian (2) wo (3)men (2) Iai (2) dao (4) yi (2) ge (4)mei (3) Ii (4)de(O) di⑷ fang (I)
[0024]语音和语意翻译:jintianwomen laidao yige meilide difang.(注:此拼音文格式中暗含声调。但由于词汇和语音一一对应,所以声调在此省略)
[0025]语音合成:jintian women laidao yige meiIi de difang.
[0026]语音优化:jintian,women laidao yige meili de difang.
[0027]从以上处理方法可以看出,新的方法仅仅增加了语音和语意翻译这一个环节,就把汉语的音频解析模式彻底改变成词汇(声音元)为基础的模式。而此后的两个步骤几乎和翻译结果完全相同,而基本可以省略。这就大大减轻了计算器硬件的处理难度和工作负荷,从而使简捷、高效的语音输入和人机对话成为可能。
[0028]甚至,对于更加熟悉这一方法的工作者而言,连第二个步骤(语音拆解步骤)也几乎是可以省略的,因为汉语的本质特征其实是语音而不是文字。如此一来,通过简化和越过了复杂的汉字系统这个汉语处理的巨大难题,这套语音输出系统为具有普通语文水平甚至较低语文水平的工作者都提供了非常方便的人机对话平台的基础。对于其他国家和民族,以及具有一定声音听说障碍的人群,它的优势也非常显著。
[0029]为了有效地贯彻这一方法,我们在实验过程中采取了非常接近中国人正常生活中发音态度和发音方式的语素输入速度和节奏,从而使得计算机编辑和输出的声音非常流畅和“真实”。这种真实感和现有主要语音合成系统的那种通过速度和大量辨析词汇组合(毕竟是源于字根的机器式组合)而带来的仿真真实感是完全不同的。它几乎不可能发生发音错误,而且所有的语音停顿和声调改变都是自然模式的语音变化类型,与真实人的发音习惯和造句习惯几乎完全一样,所以,从一个真人的听觉系统进行接听,会觉得计算机的确已经开始如同中国人那样的“说话”和“思维”。在此基础上,实现人机对话就不再是一个难题。
[0030]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。
【主权项】
1.一种人性化汉语语音的合成方法,包括如下步骤:步骤一、将真人语音结合正常发音的尾音录入系统;步骤二、将汉语基本词汇录入系统;步骤三、依据录入的汉语基本词汇对步骤一中录入的声音进行对应编辑处理。2.根据权利要求1所述的方法,其特征在于,所述步骤一中,在真人语音的录入过程中,将连贯词语的尾音保留,之后使用音频处理程序把两个声音有机地组合起来,使第一个声音的尾音长,第二个尾音短,这样连接起来以后,形成接近真人发音的语音词汇。3.根据权利要求1所述的方法,其特征在于,所述步骤一及步骤三中,对汉语发音进行相应处理,达到类似真人的效果,强调非正式化,交互化和性别差异化;首先使录制人员的声音细节能够得到表达,从而构成一个可以用于编辑的真实语音词汇库,达到她或他在进行真人对话的语气和音符流动性。4.根据权利要求1所述的方法,其特征在于,所述步骤三中,采用真人的语音库进行技术加工,对语素和语素之间的结合部分进行处理,语素指词汇的声音,使声音的连贯程度和整体速度达到近真人的技术标准;其次,为了达到机器声音和人体发音的趋同,在一些处理环节采用整句录入然后分割的方法,再次,汉语的表达涉及大量的所谓非逻辑语汇,对于非逻辑语汇和语音,依据成型的拼音文转换模式,结合定量的语素进行专门的,针对性很强的程序处理,运用先进的语音编制模块,从而达到人性感充足的机器发声效果。5.根据权利要求1所述的方法,其特征在于,所述步骤二中,语音基本词汇的词汇库结合汉语表达特点和文化特点长期实践形成,对日常汉语中的实词和虚词进行整合,从而达到类似英语的严谨语意和语音模式。6.根据权利要求5所述的方法,其特征在于,所述步骤二中,依据所述词汇库而建立的语音元素数据库采用符合中国人生活和工作习惯的节奏及语态进行相关录制,使计算机的处理和编程具有了客观的基础,并确保了最后的自然语音效果的输出。7.根据权利要求1所述的方法,其特征在于,所述步骤三中,本发明方法采用android、windows及有关计算器平台而建立的语音元素分类、定性、重新组合和输出。
【专利摘要】一种人性化汉语语音的合成方法,包括如下步骤:步骤一、将真人语音结合正常发音的尾音录入系统;步骤二、将汉语基本词汇录入系统;步骤三、依据录入的汉语基本词汇对步骤一中录入的声音进行对应编辑处理。此套全新方法和系统从根本上取消了对汉语的字根化拆解和录制。该方法援引最近开始流行的拼音文组词模式,将汉语语句拆解为非常符合正常人群思考和发声习惯的基本词汇。
【IPC分类】G10L13/02, G10L13/04
【公开号】CN104900225
【申请号】CN201510251163
【发明人】石鹏
【申请人】石鹏
【公开日】2015年9月9日
【申请日】2015年5月19日

最新回复(0)