第三方应用的语音识别实现方法和系统的制作方法

xiaoxiao2020-10-23 13

第三方应用的语音识别实现方法和系统的制作方法
【技术领域】
[0001]本发明实施例涉及应用软件和网络通信技术，尤其涉及一种第三方应用的语音识别实现方法和系统。
【背景技术】
[0002]苹果手机(iPhone)的系统1S 8.0版本支持第三方键盘的输入法，但由于系统权限规定，第三方键盘没有权限访问苹果手机的麦克风，无法在键盘上提供录音功能，也就无法支持第三方输入法的语音识别功能。
[0003]现在1S 8第三方键盘的语音识别方案为:当用户需要通过语音识别输入文字时，首先在第三方键盘的界面内点击输入按钮，跳转到1S提供的语音识别主程序，在该语音识别主程序内进行语音识别(该主程序作为1S开发提供的程序，具有权限访问麦克风，进行语音输入)；语音识别后需要用户手动返回键盘所在应用，再长按需要粘贴的文本区域，调出系统粘贴采单，粘贴，完成输入。
[0004]现有的1S8第三方语音识别方案存在操作复杂，交互流程冗长的问题。完成流程共需要:1.点击麦克风->2.跳转到主程序->3.语音输入->4.复制识别内容->5.手动返回原应用->6.长按文本区域->7.点击粘贴共7个步骤。

【发明内容】

[0005]本发明提供一种第三方应用的语音识别实现方法和系统，以实现提供简便的第三方语音识别方案。
[0006]第一方面，本发明实施例提供了一种第三方应用的语音识别实现方法，包括:
[0007]配置于第一终端的辅助客户端，获取配置于第二终端的主客户端发起的语音输入指令；
[0008]所述辅助客户端根据所述语音输入指令产生后台录音请求，并传输给所述第一终端的操作系统，以请求所述第一终端调用所述第二终端的录音设备进行录音；
[0009]所述辅助客户端通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别，以供所述主客户端处理所述语音识别结果。
[0010]第二方面，本发明实施例还提供了一种第三方应用的语音识别实现系统，包括:
[0011]辅助客户端和主客户端，所述辅助客户端配置于第一终端中，所述主客户端配置于第二终端中；所述辅助客户端包括:
[0012]指令获取模块，用于获取主客户端发起的语音输入指令；
[0013]录音控制模块，用于根据所述语音输入指令产生后台录音请求，并传输给所述第一终端的操作系统，以请求所述第一终端调用所述第二终端的录音设备进行录音；
[0014]语音识别控制模块，用于通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别，以供所述主客户端处理语音识别结果；
[0015]所述主客户端包括:
[0016]指令发起模块，用于发起所述语音输入指令；
[0017]结果处理模块，用于处理所述语音识别结果。
[0018]本发明通过配置于第一终端的辅助客户端获取配置于第二终端的主客户端的语音输入指令后，生成后台录音请求并基于该录音请求调用第二终端进行录音，实现了通过后台录音的方式使主客户端从第二终端获取录音权限的效果。辅助客户端通过第一终端控制所述第二终端对录音得到的语音信息进行识别和输出，以供主客户端对语音识别结果进行后续处理，实现第三方的语音识别。现有技术中，需要执行:1.点击麦克风->2.跳转到主程序->3.语音输入->4.复制识别内容->5.手动返回原应用->6.长按文本区域->7.点击粘贴，操作繁琐。本发明中，用户仅需要点击麦克风(触发语音输入指令)，并输入语音信息即可实现语音识别，无需进行跳转到主程序、复制识别内容、手动返回原应用、长按文本区域以及点击粘贴的操作，达到简化第三方语音识别的用户操作的效果，提高第三方语音识别效率。
【附图说明】
[0019]图1为本发明实施例一中的一个第三方应用的语音识别实现方法的流程图；
[0020]图2是本发明实施例二中的一个第三方应用的语音识别实现方法的流程图；
[0021]图3是本发明实施例二中的另一个第三方应用的语音识别实现方法的流程图；
[0022]图4是本发明实施例三中的一个第三方应用的语音识别实现系统的结构示意图；
[0023]图5是本发明实施例三中的另一个第三方应用的语音识别实现系统的结构示意图；
[0024]图6是本发明实施例三中的再一个第三方应用的语音识别实现系统的结构示意图。
【具体实施方式】
[0025]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
[0026]实施例一
[0027]图1为本发明实施例一提供的第三方应用的语音识别实现方法的流程图，本实施例可适用于在1S中通过第三方应用进行语音识别的情况，该方法可以由配置有辅助客户端的第一终端(如Apple Watch，苹果手表)和配置有主客户端的第二终端(如iPhone，苹果手机)相互配合来执行，具体包括如下步骤:
[0028]步骤110、配置于第一终端的辅助客户端，获取配置于第二终端的主客户端发起的语音输入指令。
[0029]优选是，第一终端为便携的智能可穿戴设备，例如智能手表、智能眼镜等。第二终端为比第一终端相比具有更高处理能力的电子设备，例如智能手机、平板电脑等。
[0030]本发明实施例中，主客户端中安装有第三方具备语音识别需求的应用，例如第三方键盘。以第三方键盘为例，第三方键盘中配置有录音按钮，主客户端对录音按钮的点击情况进行监听。如果用户按下录音按钮，则监听到按下事件；如果用户抬起录音按键，则监听到抬起事件。当监听到按下事件时，触发语音识别开始指令；当监听到抬起事件时，触发语音识别停止指令。其中，语音输入开始指令，或语音输入停止指令均属于语音输入指令。或者，语音输入指令也可以通过语音激活检测\静音抑制(VAD)方式输入。还可以通过点击按钮作为语音输入开始指令，再次点击按钮作为语音输入停止指令。
[0031]第一终端通过与第二终端进行通信，获取主客户端发起的语音输入指令。可以通过1S的WatchKit实现第一终端和第二终端之间的通信。例如采用WatchKit监控线程进行通信，WatchKit监控线程为用于实现苹果手机和苹果手表进行通信。
[0032]步骤120、辅助客户端根据语音输入指令产生后台录音请求，并传输给第一终端的操作系统，以请求第一终端调用第二终端的录音设备进行录音。
[0033]如果获取到主客户端发起的语音输入指令，辅助客户端生成相应的后台录音请求。例如，收到语音输入开始指令时，生成后台录音启动请求；收到语音输入停止指令时，生成后台录音停止请求。
[0034]辅助客户端生成后台录音请求(后台录音启动请求或后台录音停止请求)后，在第一终端(本地)中将该后台录音请求传输给第一终端的操作系统，其中，第一终端的操作系统具有调度第二终端进行后台录音的权限。之后，第一终端的操作系统调用第二终端的录音设备进行录音。
[0035]步骤130、辅助客户端通过第一终端控制第二终端对录音得到的语音信息进行识另IJ，以供主客户端处理语音识别结果。
[0036]如果需要进行语音识别，辅助客户端通知第一终端的操作系统，由第一终端的操作系统控制第二终端对录音得到的语音信息进行识别。可通过语音识别技术实现对语音信息的识别。语音识别技术可使用现有技术中提供的技术方案，此处不再赘述。
[0037]本实施例的技术方案，能够利用第一终端的操作系统调用第二终端进行录音，使得第三方应用能够通过后台操作实现录音。现有技术中，需要执行:1.点击麦克风->2.跳转到主程序->3.语音输入->4.复制识别内容->5.手动返回原应用->6.长按文本区域->7.点击粘贴，操作繁琐。本实施例中，用户仅需要点击麦克风(触发语音输入指令)，并输入语音信息即可，无需进行跳转到主程序、复制识别内容、手动返回原应用、长按文本区域以及点击粘贴等操作，达到在1S中简化第三方语音识别的用户操作的效果，提高第三方语音识别效率。
[0038]实施例二
[0039]本实施例还提供了一种第三方应用的语音识别实现方法，作为对实施例一的具体说明，如图2所示，步骤110、配置于第一终端的辅助客户端，获取配置于第二终端的主客户端发起的语音输入指令，包括:
[0040]步骤110’、配置于第一终端的辅助客户端通过监控线程，监听配置于第二终端中的共享区域，以获取所述主客户端写入共享区域中的语音输入指令。
[0041]由于第二终端与第一终端相比具有更大的存储容量，因此可在第二终端中分配一个与第一终端进行数据共享的专属存储区域，称为共享区域。第一终端在与第二终端建立连接后，辅助客户端可通过监控线程(如WatchKit监控线程)对共享区域进行监听。当共享区域中有新的数据存入时，辅助客户端能够对新存入的数据进行读取。
[0042]相应的，步骤130、辅助客户端通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别，以供所述主客户端处理语音识别结果包括:
[0043]步骤130’、辅助客户端通过第一终端控制第二终端对录音得到的语音信息进行识另IJ，并将语音识别结果写入共享区域，以供主客户端处理语音识别结果。
[0044]第二终端进行语音识别后，将语音识别结果写入到共享区域中。配置于第二终端的主客户端从共享区域中读取语音识别结果，并对语音识别结果进行处理。
[0045]本实施例还提供了一种第三方应用的语音识别实现方法，作为对上述实施例进行具体说明，步骤130、辅助客户端通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别，可通过下述任意一种方式进行实施:
[0046]1、辅助客户端通过第一终端控制第二终端，将语音信息发送至服务器进行识别，并接收语音识别结果。
[0047]2、辅助客户端通过第一终端控制第二终端，对语音信息进行本地识别。
[0048]第一终端通过控制线程(如WatchKit控制线程)，控制第二终端进行语音识别。可根据第二终端的处理能力以及第二终端的网络使用情况确定使用服务器进行识别或者进行本地识别。
[0049]本实施例提供的技术方案，如果使用服务器进行语音识别，可以在第二终端中使用较少的系统资源实现语音识别功能，提高第二终端的资源利用率。如果使用客户端对语音信息进行本地识别，可以不依靠服务器进行语音识别，避免因为网络故障导致无法获取语音识别结果的问题，提高语音识别的可靠性。
[0050]本发明实施例还提供了一种第三方应用的语音识别实现方法，作为对上述实施例进行具体说明，步骤110中，主客户端发起语音输入指令，包括:
[0051]第三方输入法的主客户端接收用户在输入法界面输入的语音输入开始指令和语音输入停止指令，写入所述共享区域。
[0052]—种第三方应用的实现方式为第三方输入法。第三方输入法在第一终端上配置有辅助客户端，在第二终端上配置有主客户端。作为一种实现方式:用户在主客户端中的输入法界面中，通过按下相应的功能按键，触发语音输入开始指令；通过抬起相应的功能按键，触发语音输入停止指令。其中，相应的功能按键如图标为喇叭的录音按键，或图标为红色圆形的录音按键等。
[0053]本实施例提供的技术方案，能够在第三方输入法界面中接收用户输入的语音输入开始指令和语音输入停止指令，并通过共享区域发送到第一终端，实现在第三方输入法的界面中触发语音输入的效果。
[0054]本发明实施例还提供了一种第三方应用的语音识别实现方法，作为对上述实施例进行具体说明，步骤140中主客户端处理所述语音识别结果，包括:
[0055]所述主客户端从所述共享区域读取语音识别结果，并在输入法界面的文本框中进行显示。
[0056]共享区域能够为主客户端和辅助客户端提供数据的读写操作。第二终端对语音信息进行识别后，将语音识别结果写入到共享区域中。主客户端从共享区域读取语音识别结果，并在输入法界面的文本框中进行显示，达到将用户输入的语音信息转换为文本信息的效果。
[0057]需要说明的是，上述实施例中所述第一终端为智能手表，所述第二终端为智能手机，所述操作系统为1S操作系统。
[0058]下面通过一个使用场景对上述实施例进行具体描述:
[0059]本使用场景中第一终端为智能手表(Apple Watch)，第二终端为智能手机(iPhone)。其中，智能手表和智能手机中均装有第三方输入法的应用(Applicat1n，APP)，智能手机中的第三方输入法为主客户端，智能手表中的第三方输入法为辅助客户端。用户将智能手机和智能手表配对，并在启动智能手机和智能手表中的第三方输入法应用。
[0060]如图3所示，在本使用场景中通过下述步骤实现第三方输入法在智能手机中的语音输入:
[0061]步骤301、当用户启动智能手机和智能手表的第三方输入法时，配置于智能手表的辅助客户端在智能手表的后台启动Watchkit监控线程对共享区域进行监听。
[0062]步骤302、用户在主客户端的第三方输入法的键盘上按下语音输入功能键。
[0063]步骤303、当用户在主客户端的第三方输入法的键盘上按下语音输入功能键时，主客户端发起语音输入开始指令，并将该指令写入到共享区域中。其中，语音输入功能键具有麦克风图标。
[0064]步骤304、辅助客户端读取共享区域中语音输入开始指令，并根据语音输入开始指令产生后台的开始录音请求。
[0065]步骤305、辅助客户端将开始录音请求传输给第一终端的操作系统。
[0066]步骤306、第一终端的操作系统接收到开始录音请求后，调用第二终端的录音设备启动录音。
[0067]步骤307、录音设备提示用户输入语音信息。
[0068]步骤308、用户根据录音设备的提示进行语音信息的输入。输入完毕后，用户在主客户端的第三方输入法的键盘上抬起语音输入功能键。
[0069]步骤309、当用户在主客户端的第三方输入法的键盘上抬起语音输入功能键时，主客户端发起语音输入停止指令，并将该指令写入到共享区域中。
[0070]步骤310、辅助客户端从共享区域读取主客户端发起的语音输入停止指令。
[0071]步骤311、辅助客户端根据语音输入停止指令产生后台的停止录音请求，并传输给第一终端的操作系统。
[0072]步骤312、第一终端的操作系统接收到停止录音请求后，调用第二终端的录音设备停止录音。
[0073]步骤313、第一终端的操作系统控制第二终端的操作系统对录音得到的语音信息进行识别。
[0074]其中，可以由辅助客户端向第一终端的操作系统发送识别请求后，由第一终端的操作系统控制第二终端的操作系统进行语音识别；也可由第一终端的操作系统在收到停止录音请求后，控制第二终端的操作系统进行语音识别。
[0075]步骤314、第二终端的操作系统将语音识别结果写入共享区域。
[0076]步骤315、主客户端从共享区域中读取语音识别结果，并处理语音识别结果。
[0077]在上述使用场景中，用户可以在智能手机中的第三方键盘中，通过点击语音输入功能键进行语音输入。与现有技术中需要退出第三方键盘、通过智能手机进行录音，并将录音结果拷贝回第三方应用的方式相比，本实施例提供的技术方案能够简化用户操作，方便用户使用。
[0078]实施例三
[0079]本发明实施例还提供了一种第三方应用的语音识别实现系统，用于实现上述方法，如图4所示，上述系统包括:
[0080]辅助客户端41和主客户端51，所述辅助客户端41配置于第一终端4中，所述主客户端51配置于第二终端5中。如图5所示，所述辅助客户端41包括:
[0081]指令获取模块411，用于获取主客户端51发起的语音输入指令；
[0082]录音控制模块412，用于根据所述语音输入指令产生后台录音请求，并传输给所述第一终端4的操作系统，以请求所述第一终端4调用所述第二终端5的录音设备进行录音；
[0083]语音识别控制模块413，用于通过所述第一终端4控制所述第二终端5对录音得到的语音信息进行识别，以供所述主客户端51处理语音识别结果；
[0084]如图6所示，所述主客户端51包括:
[0085]指令发起模块511，用于发起所述语音输入指令；
[0086]结果处理模块512，用于处理所述语音识别结果。
[0087]进一步的，指令获取模块411具体用于:通过监控线程，监听配置于第二终端5中的共享区域，以获取所述主客户端51写入共享区域中的语音输入指令；
[0088]语音识别控制模块413具体用于:通过所述第一终端4控制所述第二终端5，将语音识别结果写入所述共享区域。
[0089]进一步的，语音识别控制模块413具体用于:
[0090]通过所述第一终端4控制所述第二终端5，将所述语音信息发送至服务器进行识另U，并接收语音识别结果；或
[0091]通过所述第一终端4控制所述第二终端5，对所述语音信息进行本地识别。
[0092]进一步的，所述指令发起模块511具体用于:
[0093]接收用户在输入法界面输入的语音输入开始指令和语音输入停止指令，写入所述共享区域。
[0094]进一步的，所述结果处理模块512具体用于:
[0095]所述主客户端51从所述共享区域读取语音识别结果，并在输入法界面的文本框中进行显示。
[0096]进一步的，所述第一终端4为智能手表，所述第二终端5为智能手机，所述操作系统为1S操作系统。
[0097]注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。
【主权项】
1.一种第三方应用的语音识别实现方法，其特征在于，包括: 配置于第一终端的辅助客户端，获取配置于第二终端的主客户端发起的语音输入指令；所述辅助客户端根据所述语音输入指令产生后台录音请求，并传输给所述第一终端的操作系统，以请求所述第一终端调用所述第二终端的录音设备进行录音；所述辅助客户端通过所述第一终端控制所述第二终端对录音得到的语音信息进行识另IJ，以供所述主客户端处理语音识别结果。2.根据权利要求1所述的方法，其特征在于: 配置于第一终端的辅助客户端，获取配置于第二终端的主客户端发起的语音输入指令包括:配置于第一终端的辅助客户端通过监控线程，监听配置于第二终端中的共享区域，以获取所述主客户端写入共享区域中的语音输入指令；相应的，所述辅助客户端通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别，以供所述主客户端处理语音识别结果包括:所述辅助客户端通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别，并将语音识别结果写入所述共享区域，以供所述主客户端处理语音识别结果。3.根据权利要求2所述的方法，其特征在于，所述辅助客户端通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别包括: 所述辅助客户端通过所述第一终端控制所述第二终端，将所述语音信息发送至服务器进行识别，并接收语音识别结果；或所述辅助客户端通过所述第一终端控制所述第二终端，对所述语音信息进行本地识别。4.根据权利要求2或3所述的方法，其特征在于，主客户端发起语音输入指令包括: 第三方输入法的主客户端接收用户在输入法界面输入的语音输入开始指令和语音输入停止指令，写入所述共享区域。5.根据权利要求4所述的方法，其特征在于，所述主客户端处理语音识别结果包括: 所述主客户端从所述共享区域读取语音识别结果，并在输入法界面的文本框中进行显不O6.根据权利要求2所述的方法，其特征在于:所述第一终端为智能手表，所述第二终端为智能手机，所述操作系统为1S操作系统。7.—种第三方应用的语音识别实现系统，其特征在于，包括: 辅助客户端和主客户端，所述辅助客户端配置于第一终端中，所述主客户端配置于第二终端中；所述辅助客户端包括: 指令获取模块，用于获取主客户端发起的语音输入指令；录音控制模块，用于根据所述语音输入指令产生后台录音请求，并传输给所述第一终端的操作系统，以请求所述第一终端调用所述第二终端的录音设备进行录音；语音识别控制模块，用于通过所述第一终端控制所述第二终端对录音得到的语音信息进行识别，以供所述主客户端处理语音识别结果；所述主客户端包括: 指令发起模块，用于发起所述语音输入指令；结果处理模块，用于处理所述语音识别结果。8.根据权利要求7所述的系统，其特征在于: 指令获取模块具体用于:通过监控线程，监听配置于第二终端中的共享区域，以获取所述主客户端写入共享区域中的语音输入指令；语音识别控制模块具体用于:通过所述第一终端控制所述第二终端，将语音识别结果写入所述共享区域。9.根据权利要求8所述的系统，其特征在于，所述语音识别控制模块具体用于: 通过所述第一终端控制所述第二终端，将所述语音信息发送至服务器进行识别，并接收语音识别结果；或通过所述第一终端控制所述第二终端，对所述语音信息进行本地识别。10.根据权利要求8或9所述的系统，其特征在于，所述指令发起模块具体用于: 接收用户在输入法界面输入的语音输入开始指令和语音输入停止指令，写入所述共享区域。11.根据权利要求10所述的系统，其特征在于，所述结果处理模块具体用于: 所述主客户端从所述共享区域读取语音识别结果，并在输入法界面的文本框中进行显不O12.根据权利要求8所述的系统，其特征在于:所述第一终端为智能手表，所述第二终端为智能手机，所述操作系统为1S操作系统。
【专利摘要】本发明公开了一种第三方应用的语音识别实现方法和系统。所示方法包括：配置于第一终端的辅助客户端，获取配置于第二终端的主客户端发起的语音输入指令；辅助客户端根据语音输入指令产生后台录音请求，并传输给第一终端的操作系统，以请求第一终端调用第二终端的录音设备进行录音；辅助客户端通过第一终端控制所述第二终端对录音得到的语音信息进行识别，以供主客户端处理语音识别结果。本发明能够达到简化第三方语音识别的用户操作的效果，提高第三方语音识别效率。
【IPC分类】G06F9/46
【公开号】CN104899087
【申请号】CN201510334239
【发明人】王夏鸣, 胡浩, 赵志翔, 陶涛, 童勇勇, 崔阿鹏, 储双双
【申请人】科大讯飞股份有限公司
【公开日】2015年9月9日
【申请日】2015年6月16日

2012-2014专利技术

最新回复(0)