基于玩家姿势和语音的电子游戏场景和角色控制方法

xiaoxiao2020-7-23 16

专利名称：基于玩家姿势和语音的电子游戏场景和角色控制方法
技术领域：
本发明涉及图像分析与识别技术领域，特别是一种基于玩家姿势和语音的子游戏场景和角色控制方法。
背景技术：
近年来，随着计算机技术的革新，以计算机游戏为代表的数字娱乐产业飞速发展。作为一类特殊的应用软件，计算机游戏通过向游戏用户提供一系列的菜单选项和操作指令，实现用户与游戏之间的交互操作。用于游戏的传统人机交互方式有鼠标键盘、游戏杆及专用游戏设备等，以手动和有线连接为主。伴随计算机游戏种类与内容的不断扩展丰富，其操作复杂性剧增，仍然仅采用传统交互方式，越来越难于控制。游戏用户期望能以更自然、更智能的新方式进行交互操作，如采用自身语音、姿体动作等，由此可使游戏更具交互性和沉浸感。随着计算机视觉和语音识别技术的发展，应用视觉和语音技术进行自然的人机交互已经成为可能，由于摄像头、声卡及麦克风已经成为计算机常用的配置，这种技术的应用也就具有广阔的前景。
采用姿势与语音的游戏场景控制，就是用玩家的姿势和语音取代传统的键盘鼠标，仅通过摄像头拍摄玩家姿态及其运动状态，并通过麦克风录入玩家的语音命令，在计算机中进行分析和识别，并将结果转化为游戏的控制指令，实现对游戏中场景和人物的直接控制，以代替或辅助传统的游戏交互方式。由于游戏对实时性要求高，因此视频检测和语音识别方法必需实时、鲁棒。为便于用户使用，这种控制方法还必需易于实现和操作。

发明内容
本发明的目的在于提供一种基于玩家姿势和语音的电子游戏场景和角色控制方法。
本发明的另一个目的是提供一种实时鲁棒的电子游戏场景和角色控制方法，运用计算机视觉和语音识别技术对玩家姿态和语音进行识别，对通过摄像头和声卡设备捕获到的图像和语音进行处理，并实时地、鲁棒地检测出特定姿态的位置、方向以及语音的命令，转换为游戏指令。
为实现上述目的，基于玩家姿势和语音的电子游戏场景和角色控制方法步骤包括①通过摄像头设备，实时捕获图像并进行光线校正，去噪等预处理；②利用人体姿态运动的时间和空间特征进行分割，将分割后的图像进行特征提取、分析，求得姿态特征点位置，方向及他们组成的基本形状参数；通过规则处理，将标志的位置状态，转化为游戏控制命令；③同时将从声卡获得的声音，采用现有的语音识别技术进行模型匹配识别，并转化为相应的游戏控制命令；④最后，通过游戏的控制接口驱动游戏，或者直接修改自行开发游戏的内部模型参数。

图1是本发明的基于玩家姿势和语音的电子游戏场景和角色控制方法流程图。
图2是多通道游戏场景控制示意图。
图3是采用本方法的游戏控制示意图。
图4是视频和声音的识别结果，映射到相应的游戏控制中的流程图。
具体实施例方式
基于玩家姿势和语音的电子游戏场景和角色控制方法，图1所示，具体步骤如下(1)获取帧图像通过高速图像捕获模块从摄像头获取实时图像，不仅要分析每一帧，还要对相邻帧进行跟踪处理，同时考虑到控制的精度，要求采集速度达到实时；(2)基于时空联系的分割考虑到算法的简便性与鲁棒性的要求，我们设计了基于模型的分割方法，进一步结合时空相关性信息，消除噪声等引起的偏差，另外通过对亮度的分析补偿，从而尽可能的消除光照变化的影响；(3)特征提取与识别进一步分析和识别分割出来的区域，分别对不同区域单独进行特征分析，提取出具有旋转缩放不变性的特征，并通过上一时刻的结果进行跟踪校验及预测；(4)参数提取通过不同区域特征的相关性信息，例如相对位置和角度等，可以形成场景的控制信息，也可以提取位置坐标信息；(5)语音输入通过麦克风、声卡采集实时语音数据，包括降噪等预处理；(6)语音识别采用非特定人、连续语音识别方法，识别某些离散且实时性要求不高的命令，如启动，停止等；(7)命令实现最后将识别的结果，通过预先定义好的命令集进行映射转换，得到游戏的控制信息；(8)多通道融合将姿态和语音的控制信息结合，形成高效全面的游戏场景控制指令。
多通道的命令融合如图2所示键盘和鼠标的输入数据通过传统通道、麦克风的语音通过语音通道、摄像头的图像信号通过视频通道输入到多通道整合器，再输入到游戏控制器。
将视频和声音的识别结果，映射到相应的游戏控制中，其实例可参见图3。
图4的视频和声音的识别结果，映射到相应的游戏控制中，其基本步骤如下1)首先对场景控制命令进行分类，根据视频快速、具有连续模拟输出但比较简单直观的特点，以及语音具有自然快捷的特点，对所需的命令集进行分类，用姿态自然的控制场景的方向，用语音控制相关的启动，加速，停止等命令操作，形成完整的控制方式；2)基于姿态的控制，首先需要设定各姿态及其相对位置与对应游戏场景控制的对应关系，然后通过摄像头，实时采集人体的姿态及其运动状态，进行在线分析和识别，根据当前的状态，采用一定的预测跟踪算法，输出相应的控制量；3)基于语音的控制，首先需要建立关键词库，以及关键词与相关命令的映射表，然后通过麦克风采集玩家的语音信号，根据语音的识别结果，产生相应的控制命令；4)游戏控制接口，将姿态语音的命令，实时整合到游戏的人物和场景控制中，或者直接调整模型达到控制的目的。
权利要求
1.一种基于玩家姿势和语音的电子游戏场景和角色控制方法，步骤包括①通过摄像头设备，实时捕获图像并进行光线校正，去噪等预处理；②利用人体姿态运动的时间和空间特征进行分割，将分割后的图像进行特征提取、分析，求得姿态特征点位置，方向及他们组成的基本形状参数；通过规则处理，将标志的位置状态，转化为游戏控制命令；③同时将从声卡获得的声音，采用现有的语音识别技术进行模型匹配识别，并转化为相应的游戏控制命令；④最后，通过游戏的控制接口驱动游戏，或者直接修改自行开发游戏的内部模型参数。
2.根据权利要求1的基于玩家姿势和语音的电子游戏场景和角色控制方法，具体步骤如下(1)获取帧图像通过高速图像捕获模块从摄像头获取实时图像，不仅要分析每一帧，还要对相邻帧进行跟踪处理，同时考虑到控制的精度，要求采集速度达到实时；(2)基于时空联系的分割考虑到算法的简便性与鲁棒性的要求，设计了基于模型的分割方法，进一步结合时空相关性信息，消除噪声等引起的偏差，另外通过对亮度的分析补偿，从而尽可能的消除光照变化的影响；(3)特征提取与识别进一步分析和识别分割出来的区域，分别对不同区域单独进行特征分析，提取出具有旋转缩放不变性的特征，并通过上一时刻的结果进行跟踪校验及预测；(4)参数提取通过不同区域特征的相关性信息，相对位置和角度，可以形成场景的控制信息，也可以提取位置坐标信息；(5)语音输入通过麦克风、声卡采集实时语音数据，包括降噪等预处理；(6)语音识别采用非特定人、连续语音识别方法，识别某些离散且实时性要求不高的命令，如启动，停止；(7)命令实现最后将识别的结果，通过预先定义好的命令集进行映射转换，得到游戏的控制信息；(8)多通道融合将姿态和语音的控制信息结合，形成高效全面的游戏场景控制指令。
3.根据权利要求2的基于玩家姿势和语音的电子游戏场景和角色控制方法，多通道融合步骤如下键盘和鼠标的输入数据通过传统通道、麦克风的语音通过语音通道、摄像头的图像信号通过视频通道输入到多通道整合器，再输入到游戏控制器。
4.根据权利要求1的基于玩家姿势和语音的电子游戏场景和角色控制方法，视频和声音的识别结果，映射到相应的游戏控制中，具体步骤如下1)首先对场景控制命令进行分类，根据视频快速、具有连续模拟输出但比较简单直观的特点，以及语音具有自然快捷的特点，对所需的命令集进行分类，用姿态自然的控制场景的方向，用语音控制相关的启动，加速，停止等命令操作，形成完整的控制方式；2)基于姿态的控制，首先需要设定各姿态及其相对位置与对应游戏场景控制的对应关系，然后通过摄像头，实时采集人体的姿态及其运动状态，进行在线分析和识别，根据当前的状态，采用一定的预测跟踪算法，输出相应的控制量；3)基于语音的控制，首先需要建立关键词库，以及关键词与相关命令的映射表，然后通过麦克风采集玩家的语音信号，根据语音的识别结果，产生相应的控制命令；4)通过游戏控制接口，将姿态语音的命令，实时整合到游戏的人物和场景控制中，或者直接调整模型达到控制的目的。
全文摘要
基于玩家姿势和语音的电子游戏场景和角色控制方法，包括对从摄像头获得的图像进行简单有效的预处理；利用姿态特征等时空信息进行图像分割；通过时空相关性进行区域选择和特征提取；通过对多目标之间关系的分析识别，形成对游戏的控制指令；另一方面，通过麦克风和声卡获取语音命令；采用连续语音识别技术，识别特定的词汇；并将其转化为特定的游戏指令；最后将姿态识别得到的方向控制信号和语音识别的其它复杂控制命令相结合，发挥各自的长处，实现模拟游戏场景漫游的实时控制功能。
文档编号G06K9/62GK1797284SQ20041010188
公开日2006年7月5日申请日期2004年12月30日优先权日2004年12月30日
发明者王阳生, 陈宇峰, 曾祥永, 鲁鹏, 周晓旭申请人:中国科学院自动化研究所

2012-2014专利技术

最新回复(0)