使用交互化身的通信的制作方法

xiaoxiao2020-9-10 21

使用交互化身的通信的制作方法
【专利摘要】大体上本公开描述视频通信系统，其用动画呈现的化身替换参与用户的实际实况图像。方法可包括：选择化身；发起通信；检测用户输入；识别用户输入；基于用户输入识别动画命令；生成化身参数；以及传送动画命令和化身参数中的至少一个。
【专利说明】使用交互化身的通信

【技术领域】
[0001]下列公开涉及视频通信，并且更特定地涉及使用交互化身的视频通信。

【背景技术】
[0002]在移动设备中可用的种类日益增加的功能性已经对用户造成除简单电话外还经由视频来通信的期望。例如，用户可发起“视频通话”、“视频会议”等，其中设备中的拍摄装置和麦克风捕捉用户的音频和视频，其实时被传送到一个或多个其他接收者，例如其他移动设备、台式计算机、视频会议系统等。视频的通信可牵涉传送大量数据(例如，根据拍摄装置的技术、处理捕捉的图像数据所采用的特定视频编解码器，等)。考虑到现有2G/3G无线技术的带宽限制，和新兴4G无线技术的仍然有限的带宽，实施并发视频通话的许多设备用户可超出现有无线通信基础设施中的可用带宽，这可能负面影响视频通话的质量。

【专利附图】

【附图说明】
[0003]要求保护的主旨的各种实施例的特征和优势将随着下列详细说明进行以及在参考图(其中类似的数字指示类似的部件)时变得明显，并且其中:
图1A图示根据本公开的各种实施例的示例的设备到设备系统；
图1B图示根据本公开的各种实施例的示例虚拟空间系统；
图2图示根据本公开的各种实施例的示例设备；
图3图示根据本公开的至少一个实施例的示例系统实现；以及图4是根据本公开的至少一个实施例的示例操作的流程图。
[0004]尽管下列详细说明将参考说明性实施例而进行，其许多备选、修改和变化对于本领域内技术人员将是明显的。

【具体实施方式】
[0005]一般，该公开描述用于使用交互化身的视频通信的系统和方法。使用化身(如与实况图像不同)使要传送的数据的量大大减少，并且从而，化身通信需要较少的带宽。交互化身配置成通过基于用户输入修改选择的化身的显示来增强用户体验。此外，可捕捉用户语音并且将其变换来产生化身语音。化身语音然后可与用户语音相关，但可掩饰用户的身份。音频变换可包括，例如移调(pitch shifting)和/或时间延展。
[0006]在一个实施例中，在耦合于拍摄装置、麦克风和扬声器的设备中激活应用。该应用可配置成允许用户选择化身用于在远程设备上、虚拟空间中等显示。设备然后可配置成发起与至少一个其他设备、虚拟空间等的通信。例如，通信可通过2G、3G、4G蜂窝连接而建立。备选地或另外，通信可经由WiFi连接通过因特网建立。在建立通信后，拍摄装置可配置成开始捕捉图像和/或到物体的距离并且麦克风可配置成开始捕捉声音(例如，用户语音)，并且将用户语音转换成用户语音信号。
[0007]然后可确定是否检测到用户输入。该用户输入可被用户输入设备捕捉。用户输入包括由触敏显示器捕捉的触摸事件和由拍摄装置(例如，配置成捕捉到物体的距离的深度拍摄装置和/或web拍摄装置)捕捉的手势。从而，用户输入设备包括触敏显示器和/或拍摄装置。如果检测到用户输入，可识别该用户输入。对于触摸事件，用户输入标识符可与触摸类型以及一个或多个触摸位点有关。对于手势(例如，张开的手)，用户输入标识符可与手势标识符有关。然后可基于用户输入识别动画命令。动画命令对应于与用户输入关联的期望响应，例如响应于显示的化身的面部上的单击而改变显示的化身的面部的颜色。
[0008]然后可生成化身参数。化身参数可基于面部检测、头部移动和/或动画命令而生成。化身参数从而可包括基于例如面部检测和头部移动的被动组成，和基于动画命令的交互组成。化身参数可能用于使化身在至少一个其他设备上、在虚拟空间内等动画地呈现。在一个实施例中，化身参数可基于面部检测、头部移动和动画命令而生成。在该实施例中，所得的动画包括基于面部检测的被动动画和基于动画命令由交互动画修改的头部移动。从而，化身动画可包括基于例如面部检测和头部移动的被动动画，和基于用户输入的交互动画。
[0009]然后可传送动画命令和化身参数中的至少一个。在一个实施例中，接收远程动画命令和远程化身参数中的至少一个。该远程动画命令可促使设备基于远程动画命令确定化身参数以便使显示的化身动画地呈现。远程化身参数可促使设备基于接收的远程化身参数使显示的化身动画地呈现。
[0010]音频通信可伴随着化身动画。在建立通信后，麦克风可配置成捕捉音频输入(声音)(例如用户语音)，并且将捕捉的声音转换成对应的音频信号(例如，用户语音信号)。在实施例中，用户语音信号可变换成化身语音信号，其然后可被编码和传送。接收的化身语音信号然后可由扬声器转换回声音(例如，化身语音)。化身语音从而可基于用户语音并且可保存内容但可更改与捕捉的语音关联的光谱数据。例如，变换包括但不限于，移调、时间延展和/或转换重放速率。
[0011 ] 用户输入设备(例如，触敏显示器和/或拍摄装置)可配置成捕捉用户输入，其配置成基于至少一个其他设备上的用户输入使化身动画地呈现。用户驱动的动画(基于动画命令)可以是基于面部表情和/或头部移动的动画的补充。动画命令可包括但不限于，化身的显示取向中的改变、面部特征失真、改变特征来表达情感，等。与基于面部检测/跟踪的动画相似或作为对其的补充，动画命令从而可修改化身动画。动画命令可导致有时间限制的动画并且可基于来自远程用户的输入，其中所得的动画在本地用户的显示化身上图示。
[0012]从而，有限带宽视频通信系统可使用化身来实现。音频可被变换并且视频可基于检测的用户输入和识别的动画命令而动画地呈现来增强用户对化身通信的体验。此外，匿名可使用化身而得到保持，其包括如本文描述的音频变换。
[0013]图1A图示与本公开的各种实施例一致的设备到设备系统100。系统100 —般可包括经由网络122而通信的设备102和112。设备102包括至少拍摄装置104、麦克风106、扬声器107和触敏显示器108。设备112包括至少拍摄装置114、麦克风116、扬声器117和触摸显示器118。网络122包括至少服务器124。
[0014]设备102和112可包括能够有线和/或无线通信的各种硬件平台。例如，设备102和112可包括但不限于，视频会议系统、台式计算机、便携式计算机、平板计算机、智能电话(例如，iPhones?、基于 Android? 的电话、Blackberries?、基于 Symbian? 的电话、基于 Palm?的电话，等)、蜂窝手持机等。拍摄装置104和114包括用于捕捉代表环境(其包括一个或多个人)的数字图像的任何设备，并且可具有足够的分辨率用于面部分析和/或手势识别，如本文描述的。例如，拍摄装置104和114可包括静态拍摄装置(例如，配置成捕捉静态照片的拍摄装置)或视频拍摄装置(例如，配置成捕捉移动图像(其由多个帧组成)的拍摄装置)。拍摄装置104和114可配置成使用可见光谱中的光或利用电磁波谱(不限于红外光谱、紫外光谱)的其他部分来操作。在一个实施例中，拍摄装置104和114可配置成检测从拍摄装置的深度，即到物体和/或该物体上的点的距离。拍摄装置104和114可分别并入设备102和112内，或可以是配置成经由有线或无线通信与设备102和112通信的单独设备。拍摄装置104和114的特定示例可包括如可与计算机、视频监视器等关联的有线(例如，通用串行总线(USB)、以太网、火线等)或无线(例如，WiF1、Bluetooth,等)web拍摄装置、深度拍摄装置、移动设备拍摄装置(例如在例如之前论述的示例设备中集成的手机或智能电话拍摄装置)、集成便携式计算机拍摄装置、集成平板计算机拍摄装置(例如，iPad?、Galaxy Tab?及类似物)，等。
[0015]设备102和112可进一步包括麦克风106和116以及扬声器107和117。麦克风106和116包括配置成感测(即，捕捉)声音并且将感测的声音转换成对应音频信号的任何设备。麦克风106和116可分别在设备102和112内集成，或可经由有线或无线通信(例如在上文关于拍摄装置104和114的示例中描述的)而与设备交互。扬声器107和117包括配置成将音频信号转换成对应声音的任何设备。扬声器107和117可分别在设备102和112内集成，或可经由有线或无线通信(例如在上文关于拍摄装置104和114的示例中描述的)而与设备交互。触敏显示器108和118包括配置成显示文本、静态图像、移动图像(例如，视频)、用户界面、图形等并且配置成感测例如点击、滑动等触摸事件的任何设备。触摸事件可包括触摸类型和触摸位点。触敏显示器108和118可分别在设备102和112内集成，或可经由有线或无线通信(例如在上文关于拍摄装置104和114的示例中描述的)而与设备交互。在一个实施例中，显示器108和118配置成分别显示化身110和120。如本文引用的，化身限定为采用二维(2D)或三维(3D)的用户的图形表示。化身不必与用户的相貌相像，并且从而，尽管化身可以是逼真表示，它们还可以采取图、卡通、草图等的形式。在系统100中，设备102可显示代表设备112的用户(例如，远程用户)的化身110，并且同样，设备112可显示代表设备102的用户的化身120。这样，用户可看到其他用户的表示而不必交换对于采用实时图像的设备到设备通信所牵涉的大量信息。此外，化身可基于用户输入而动画地呈现。采用该方式，用户可与本地和/或远程化身的显示交互，由此增强用户体验。所得的动画可比可能仅使用面部检测和跟踪提供更广泛的动画。此外，用户可主动选择动画。
[0016]如本文提及的，化身音频(S卩，声音)限定为变换的用户音频(声音)。例如，声音输入可包括用户的话音(即，用户语音)，并且对应的化身音频可包括变换的用户语音。化身音频可与用户音频有关。例如，化身语音可对应于用户语音的移调、时间延展和/或其他变换。化身语音可与人语音相像或可对应于卡通人物，等。在系统100中，设备102可发出代表设备112的远程用户的化身音频并且相似地，设备112可发出代表由设备102捕捉的音频(例如，设备102的本地用户的语音)的化身音频。这样，用户可听见可被变换的其他用户话音的表不。
[0017]网络122可包括各种第二代(2G)、第三代(3G)、第四代(4G)基于蜂窝的数据通信技术、W1-Fi无线数据通信技术，等。网络122包括至少一个服务器124，其配置成在使用这些技术时建立并且维持通信连接。例如，服务器124可配置成支持因特网相关通信协议，像用于创建、修改和终止双方(单播)和多方(多播)会话的会话发起协议(SIP)、用于呈现允许在字节流连接顶部建立协议的框架的交互连接性建立协议(ICE)、用于允许应用通过网络接入翻译器(NAT)操作来发现其他NAT、IP地址和端口(被分配给连接到远程主机的应用用户数据报协议(Μ)Ρ)连接)的存在的网络接入翻译器或NAT的会话穿越实用性协议(STUN)、用于允许NAT或防火墙后面的元件通过传输控制协议(TCP)或UDP连接来接收数据的在NAT周围使用中继器的穿越(TURN)，等。
[0018]图1B图示与本公开的各种实施例一致的虚拟空间系统126。系统126可采用设备102、设备112和服务器124。设备102、设备112和服务器124可继续采用与在图1A中图示的相似的方式通信，但用户交互可在虚拟空间128中而不是采用设备到设备格式发生。如本文提及的，虚拟空间可限定为物理位点的数字模拟。例如，虚拟空间128可与户外位点(像城市、道路、人行道、田地、森林、岛等)或内部位点(像办公室、住宅、学校、购物中心、商店，等)相像。由化身表示的用户可表现为如现实世界中那样在虚拟空间128中交互。虚拟空间128可在耦合于因特网的一个或多个服务器上存在，并且可由第三方维持。虚拟空间的示例包括虚拟办公室、虚拟会议室、虚拟世界(像Second Life?)、大型多人在线角色扮演游戏(MMORPG)(像World of Warcraft?)、大型多人在线真实游戏(MMORLG)(像SimsOnline?)等。在系统126中，虚拟空间128可包含对应于不同用户的多个化身。显示器108和118可显示虚拟空间(VS) 128的封装(例如，较小)版本，而不是显示化身。例如，显示器108可显示对应于设备102的用户的化身在虚拟空间128中所“看到”的事物的透视图。相似地，显示器118可显示对应于设备112的用户的化身在虚拟空间128中所“看到”的事物的透视图。化身可能在虚拟空间128中看到的事物的示例包括但不限于，虚拟结构(例如，建筑)、虚拟车辆、虚拟物体、虚拟动物、其他化身等。
[0019]图2图示根据本公开的各种实施例的示例设备102。尽管仅描述一个设备102，设备112 (例如，远程设备)可包括配置成提供相同或相似功能的资源。如之前论述的，示出设备102包括拍摄装置104、麦克风106、扬声器107和触敏显示器108。拍摄装置104、麦克风106和触敏显示器108可对拍摄装置、音频和触屏框架模块200提供输入，并且拍摄装置、音频和触屏框架模块200可对扬声器107提供输出(例如，音频信号)。拍摄装置、音频和触屏框架模块200可包括定制、专用、已知和/或之后开发的音频和视频处理代码(或指令集)，其一般被明确定义并且能操作成控制至少拍摄装置104、麦克风106、扬声器107和触敏显示器108。例如，拍摄装置、音频和触屏框架模块200可促使拍摄装置104、麦克风106、扬声器107和触敏显示器108记录图像、到物体的距离、声音和/或触摸，可处理图像、声音、音频信号和/或触摸，可促使图像和/或声音再现，可向扬声器107提供音频信号，等。拍摄装置、音频和触屏框架模块200可根据设备102并且更特定地根据在设备102中运行的操作系统(OS)而改变。不例操作系统包括 1S?、Android?、Blackberry? OS、Symbian?、Palm?OS，等。扬声器107可从拍摄装置、音频和触屏框架模块200接收音频信息并且可配置成再现本地声音(例如，以便提供用户话音的音频反馈(变换或未变换的))和远程声音(例如，参加电话、视频通话或在虚拟空间中交互的其他方的声音(变换或未变换的))。
[0020]面部检测和跟踪模块202可配置成识别并且跟踪由拍摄装置104提供的图像内的头部、面部和/或面部区域。例如，面部检测模块204可包括定制、专用、已知和/或之后开发的面部检测代码(或指令集)、硬件和/或固件，其一般被明确定义并且能操作成接收标准格式图像(例如，但不限于，RGB彩色图像)并且至少在一定程度上识别图像中的面部。面部检测和跟踪模块202还可配置成通过一系列图像(例如，以每秒24个帧的视频帧)来跟踪检测的面部并且基于检测的面部确定头部位置。可由面部检测/跟踪模块202采用的已知跟踪系统可包括粒子滤波、均值偏移、卡尔曼滤波等，其中的每个可利用边缘分析、平方和差值分析、特征点分析、直方图分析、肤色分析等。
[0021]特征提取模块204可配置成识别由面部检测模块202检测的面部中的特征(例如，例如眼睛、眉毛、鼻子、嘴等面部标志的位点和/或形状)。在一个实施例中，化身动画可直接基于感测的面部动作(例如，面部特征中的改变)而没有面部表情识别。化身面部上的对应特征点可遵循或模仿真实人的面部的移动，其称为“表达克隆”或“表现驱动的面部动画”。特征提取模块204可包括定制、专用、已知和/或之后开发的面部特性识别代码(或指令集)，其一般被明确定义并且能操作成从拍摄装置104接收标准格式图像(例如，但不限于，RGB彩色图像)并且至少在一定程度上提取图像中的一个或多个面部特性。这样的已知面部特性系统可包括但不限于，科罗拉多州立大学的CSU面部识别评估系统。
[0022]特征提取模块204还可配置成识别与检测的特征关联的表情(例如，识别之前检测的面部是否愉快、悲伤、微笑、皱眉、惊讶、激动等)。从而，特征提取模块204可进一步包括定制、专用、已知和/或之后开发的面部表情检测和/或识别代码(或指令集)，其一般被明确定义并且能操作成检测和/或识别面部中的表情。例如，特征提取模块204可确定面部特征(例如，眼睛、嘴、脸颊、牙齿等)的大小和/或位置并且可将这些面部特征与面部特征数据库比较，该面部特征数据库包括具有对应面部特征分类(例如，微笑、皱眉、激动、悲伤等)的多个样本面部特征。
[0023]音频变换模块206配置成将用户的话音变换成化身话音，即变换的用户话音。变换包括调整节奏(例如，时间延展)、音调(例如，移调)和重放速率。例如，音频变换模块206可包括定制、专用、已知和/或之后开发的音频变换代码(或指令集)，其一般被明确定义并且能操作成接收代表用户话音的话音数据并且将该话音数据转换成变换的话音数据。话音数据可与基于由麦克风106捕捉并且被拍摄装置、音频和触屏框架模块200处理的声音的音频信号有关。这样的已知话音变换系统包括但不限于SoundTouch开源音频处理库，配置成调整音频流或音频文件的节凑、音调(pitch)和重放速率。
[0024]音频变换模块206可包括多个预定义话音风格，其对应于与变换用户的话音关联的变换参数。例如，变换参数可配置成维持具有不同音调和/或节凑的人类发声变换话音输出。音调可移到女人或像孩子的话音的较高频率，音调可移到男人话音的较低频率，节凑可向上或向下调整来增加或减小语音的速度，等。在另一个示例中，变换参数可配置成产生变换的话音输出，其对应于像动物的话音(例如，猫)和/或卡通人物型话音。这可通过调整用户语音的音调、其他频率分量和/或采样参数而实现。
[0025]用户可在发起通信之前选择期望的音频变换输出和/或可在通信期间选择期望的音频变换。音频变换模块206可配置成响应于来自用户的请求提供样本音频变换输出。在实施例中，音频变换模块206可包括这样的实用程序(utility)，其允许用户选择音频变换参数来产生定制音频变换输出。该实用程序可配置成基于用户的话音输入来提供样本变换音频输出。用户然后可调整音频变换参数(例如，通过试错法)直到实现合适的变换输出。与对于用户合适的输出关联的音频变换参数然后可被存储和/或利用以用于化身通信，如本文描述的。
[0026]触摸检测模块208配置成从拍摄装置、音频和触屏框架模块200接收触摸数据并且基于接收的触摸数据识别触摸事件。触摸事件标识符可包括触摸类型和/或触摸位点。触摸类型可包括单击、双击、点击并按住、点击并移动、收缩和延展、滑动等。触摸位点可包括触摸起始位点、触摸结束位点和/或中间移动触摸位点等。触摸位点可对应于触敏显示器108的坐标。触摸检测模块208可包括定制、专用、已知和/或之后开发的触摸检测代码(或指令集)，其一般被明确定义并且能操作成接收触摸数据并且识别触摸事件。
[0027]手势检测模块210配置成从拍摄装置、音频和触屏框架模块200接收深度和/或图像数据、基于接收的深度和/或图像数据识别对应的手势以及基于识别的手势确定手势标识符。深度对应于从拍摄装置到物体的距离。手势标识符与识别的手势有关。手势检测模块210可包括定制、专用、已知和/或之后开发的手势检测代码(或指令集)，其一般被明确定义并且能操作成基于接收的深度和/或图像数据识别手势。
[0028]例如，手势检测模块210可包括预定义手势的数据库。这些预定义手势可包括至少一些相对普通、相对简单的手势，其包括张开的手、紧握的手(即，拳头)、挥手、用手做圆周运动、使手从右到左地移动、使手从左到右地移动等。从而，手势可包括静止、非移动的手部手势、主动移动手部手势和/或其组合。在实施例中，手势检测模块210可包括训练实用程序，其配置成允许用户定制预定义手势和/或训练新的手势。定制手势和/或新的手势然后可与手势标识符关联并且该手势标识符可与动画命令关联，如本文描述的。例如，用户可从动画命令的预定义列表中选择动画命令以与手势关联。
[0029]从而,动画命令与对用户输入的期望响应有关。动画命令可与识别的用户输入(例如，触摸事件标识符和/或手势标识符)关联。采用该方式，用户可与显示的化身交互和/或可做手势以便修改显示的化身的动画。
[0030]化身选择模块212配置成允许设备102的用户选择化身用于在远程设备上显示。化身选择模块212可包括定制、专用、已知和/或之后开发的用户界面构造代码(或指令集)，其一般被明确定义并且能操作成向用户呈现不同的化身使得用户可选择这些化身中的一个。在一个实施例中，一个或多个化身可在设备102中预定义。预定义化身允许所有设备具有相同的化身，并且在交互期间仅化身的选择(例如，预定义化身的识别)需要传达到远程设备或虚拟空间，这使需要交换的信息的量减少。在建立通信之前选择化身，但也可在有效通信过程中改变化身。从而，在通信期间的任何点发送或接收化身选择，并且接收设备根据接收的化身选择改变显示的化身，这可以是可能的。
[0031]化身控制模块214配置成基于到设备102的用户输入来接收用户输入标识符。该用户输入标识符可包括由触摸检测模块208基于触摸事件数据确定的触摸事件标识符或由手势检测模块210确定的手势标识符。触摸事件数据包括触摸类型和触摸位点。触摸位点可对应于与触敏显示器108关联的坐标。触摸位点可映射到显示的化身上的一个或多个点，例如映射到特征(例如，鼻端、嘴、嘴唇、耳朵、眼睛，等)。显示的化身上的点可与化身动画的期望响应(即，化身命令)有关。
[0032]化身控制模块214配置成基于用户输入标识符(即，识别的用户输入)确定动画命令。动画命令配置成识别期望的化身动画。例如，期望的动画包括改变显示的化身面部的颜色、改变显示的化身的特征的大小(例如，使鼻子更大)、递眼色(winking)、眨眼、微笑、去除特征(例如，耳朵)等。从而，化身控制模块214配置成接收用户输入标识符并且基于该用户输入标识符确定动画命令。
[0033]化身控制模块214配置成基于动画命令实现化身动画。在实施例中，对于在远程设备(例如，设备112)上显示的交互动画，动画命令可被传送并且远程化身控制模块然后可实现动画。在另一个实施例中，可传送化身参数，其配置成用于化身动画的立即实现。
[0034]实现的基于动画命令的交互动画可具有有限持续时间，在其之后化身动画可回到如本文描述的基于例如面部检测和跟踪的被动动画。实现的影响特征大小的交互动画可配置成逐渐改变大小并且逐渐回到初始大小。另外或备选地，影响特征大小的动画可配置成具有效应梯度。也就是说，大小改变的相对幅度可取决于相对于例如关键顶点的位点。显示的化身上更接近关键顶点的点可比显示的化身上相对更远的点经历更大的改变。
[0035]从而，化身控制模块214可基于用户输入来接收用户输入标识符，并且可基于该用户输入标识符确定动画命令并且可基于该动画命令实现动画。基于动画命令的交互动画在时间上可局限于一段时间(持续时间)和/或可包括效应梯度。动画在该时段后可回到基于面部检测和跟踪的被动化身动画。
[0036]化身控制模块214配置成生成用于使化身动画地呈现的参数。本文所称的动画可限定为更改图像/模型的外观。动画包括基于例如面部表情和/或头部移动的被动动画和基于用户输入的交互动画。单个动画(其可包括被动和交互动画)可更改2D静态图像的外观，或多个动画可依次出现来模拟图像中的运动(例如，头部转动、点头、眨眼、讲话、皱眉、微笑、发笑、递眼色、眨眼，等)。对于3D模型的动画示例包括使3D线框模型变形、应用纹理映射以及重新计算正常用于渲染的模型顶点。检测的面部和/或提取的面部特征的位置中的改变可转换成这样的参数，其促使化身的特征与用户面部的特征相像。在一个实施例中，检测的面部的一般表情可转换成促使化身展现相同表情的一个或多个参数。化身的表情还可夸大来突出表情。对选择的化身的知悉在化身参数一般可应用于预定义化身中的全部时可不是必需的。然而，在一个实施例中，化身参数对于选择的化身可以是特定的，并且从而，如果选择另一个化身则可更改化身参数。例如，人像化身可需要与动物化身、卡通化身等不同的参数设置(例如，可更改不同的化身特征)来证明像快乐、悲伤、生气、惊讶等情感。
[0037]化身控制模块214可包括定制、专用、已知和/或之后开发的图形处理代码(或指令集)，其一般被明确定义并且能操作成生成用于使化身动画地呈现的参数，该化身由化身选择模块212基于由面部检测和跟踪模块202检测的面部/头部位置、特征提取模块204检测的面部特征和/或由触摸检测模块208和/或手势检测模块210确定的用户输入标识符来选择。对于基于面部特征的动画方法，2D化身动画可利用例如图像扭曲或图像变形来进行，而3D化身动画可利用自由变形(FFD)或通过利用在头部的3D模型中限定的动画结构来进行。Oddcast是可用于2D化身动画的软件资源的示例,而FaceGen是可用于3D化身动画的软件资源的示例。
[0038]例如，对于包括延长3D化身显示的鼻子的交互动画，关键顶点Vk可与鼻子的尖端有关地限定(例如，选择)。对于关键顶点Vk可限定关联的3D运动矢量dk (dx,dy,dz)和作用半径R。作用半径R内的其他顶点可在交互动画中改变(即，移动)，而作用半径R外部的顶点可根据交互动画而保持不变。交互动画可具有关联的持续时间，即动画时间T，其可延续多个帧。时间效应参数Ilt可基于时间t和动画时间T而限定为:

【权利要求】
1.一种系统，其包括: 用户输入设备，其配置成捕捉用户输入；通信模块，其配置成传送以及接收信息；以及一个或多个存储介质，其上独立地或组合地存储有指令，所述指令在由一个或多个处理器执行时促成下列操作，其包括: 选择化身；发起通信；检测用户输入；识别所述用户输入；基于所述用户输入识别动画命令；生成化身参数；以及传送所述动画命令和所述化身参数至少其中之一。
2.如权利要求1所述的系统，其进一步包括: 麦克风，其配置成捕捉声音并且将捕捉的声音转换成对应的音频信号，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 捕捉用户语音并且将所述用户语音转换成对应的用户语音信号；将所述用户语音信号变换成化身语音信号；以及传送所述化身语音信号。
3.如权利要求1所述的系统，其包括拍摄装置，所述拍摄装置配置成捕捉图像，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 捕捉图像；检测所述图像中的面部；从面部提取特征；以及将所述特征转换成化身参数。
4.如权利要求1所述的系统，其进一步包括显示器，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 显示至少一个化身；接收远程动画命令和远程化身参数中的至少一个；以及基于所述远程动画命令和所述远程化身参数中的至少一个使一个显示的化身动画地呈现。
5.如权利要求1所述的系统，其进一步包括扬声器，所述扬声器配置成将音频信号转换成声音，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 接收远程化身语音信号；以及将所述远程化身语音信号转换成化身语音。
6.如权利要求1至5中任一项所述的系统，其中所述用户输入设备是拍摄装置，其配置成捕捉距离，并且所述用户输入是手势。
7.如权利要求1至5中任一项所述的系统，其中所述用户输入设备是触敏显示器并且所述用户输入是触摸事件。
8.如权利要求2至5中任一项所述的系统，其中所述变换包括移调和时间延展中的至少一个。
9.一种方法，其包括: 选择化身；发起通信；检测用户输入；识别所述用户输入；基于所述用户输入识别动画命令；生成化身参数；以及传送所述动画命令和所述化身参数至少其中之一。
10.权利要求9所述的方法，其进一步包括: 捕捉用户语音并且将所述用户语音转换成对应的用户语音信号；将所述用户语音信号变换成化身语音信号；以及传送所述化身语音信号。
11.权利要求9所述的方法，其进一步包括: 捕捉图像；检测所述图像中的面部；从面部提取特征；以及将所述特征转换成化身参数。
12.如权利要求9所述的方法，其进一步包括: 显示至少一个化身；接收远程动画命令和远程化身参数中的至少一个；以及基于所述远程动画命令和远程化身参数中的至少一个使一个显示的化身动画地呈现。
13.如权利要求9所述的方法，其进一步包括: 接收远程化身语音信号；以及将所述远程化身语音信号转换成化身语音。
14.如权利要求9至13中任一项所述的方法，其中所述用户输入是手势。
15.如权利要求9至13中任一项所述的方法，其中所述用户输入是触摸事件。
16.如权利要求10至13中任一项所述的方法，其中所述变换包括移调和时间延展中的至少一个。
17.—种系统，其包括一个或多个存储介质，所述一个或多个存储介质在其上独立地或组合地存储有指令，所述指令在由一个或多个处理器执行时促成下列操作，其包括: 选择化身；发起通信；检测用户输入；识别所述用户输入；基于所述用户输入识别动画命令；生成化身参数；以及传送所述动画命令和所述化身参数至少其中之一。
18.如权利要求17所述的系统，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 捕捉用户语音并且将所述用户语音转换成对应的用户语音信号；将所述用户语音信号变换成化身语音信号；以及传送所述化身语音信号。
19.如权利要求17所述的系统，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 捕捉图像；检测所述图像中的面部；从面部提取特征；以及将所述特征转换成化身参数。
20.如权利要求17所述的系统，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 显示至少一个化身；接收远程动画命令和远程化身参数中的至少一个；以及基于所述远程动画命令和远程化身参数中的至少一个使一个显示的化身动画地呈现。
21.如权利要求17所述的系统，其中所述指令在由一个或多个处理器执行时促成下列额外操作: 接收远程化身语音信号；以及将所述远程化身语音信号转换成化身语音。
22.如权利要求17至21中任一项所述的系统，其中所述用户输入是手势。
23.如权利要求17至21中任一项所述的系统，其中所述用户输入是触摸事件。
24.如权利要求18至21中任一项所述的系统，其中所述变换包括移调和时间延展中的至少一个。
【文档编号】H04L12/70GK104170318SQ201280071927
【公开日】2014年11月26日申请日期:2012年4月9日优先权日:2012年4月9日
【发明者】X.童, 李文龙, 杜杨洲, W.胡, Y.张申请人:英特尔公司

2012-2014专利技术

最新回复(0)