通过媒体内容的语音搜索元数据的制作方法

xiaoxiao2021-2-28 252

通过媒体内容的语音搜索元数据的制作方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求提交于2014年10月3日的美国临时专利申请No. 62/059, 703的利益，其通过引用全部并入本文。
技术领域
[0003] 本公开一般涉及媒体内容回放和交互。
【背景技术】
[0004] 经由数字化视频光盘（DVD)或录像机（VCR)与媒体内容交互的传统方法一般依赖于致动回放按钮或控件。例如，用户可快进或倒放媒体内容的部分，例如，电影的场景，以实现用户希望查看或体验的特定部分的媒体内容的回放。诸如智能手机、膝上型个人计算机 (PC)等等的设备上的媒体交互在被流传送到或下载到设备的媒体内容的回放期间模仿该类控制。

【发明内容】

[0005] 根据一个实施例，一种计算机实施的方法包括经由用户设备从用户接收语音输入。计算机实施的方法进一步包括基于语音用户输入搜索媒体内容的至少一部分。此外，计算机实施的方法包括经由用户设备提供对媒体内容的至少一部分的访问。
[0006] 根据另一个实施例，一种装置包括内容数据库，其包含一个或更多个媒体内容文件。装置进一步包括声音识别单元，其经配置识别表示搜索一个或更多个媒体内容文件的至少一部分的语音命令。此外，装置包括搜索引擎，其经配置基于识别的语音命令搜索一个或更多个媒体内容文件的至少一部分。
[0007] 根据另一个实施例，一种设备包括处理器，以及包括计算机程序代码的存储器。存储器和所述计算机程序代码经配置利用处理器使设备执行至少以下内容：显示用户界面，其适于接收请求搜索媒体内容的一个或更多个部分的语音输入；将语音输入传送到媒体内容服务器，其经配置执行搜索媒体内容的一个或更多个部分；以及从媒体内容服务器接收搜索结果，以用于呈现在设备上，其中搜索结果以与语音输入的相关性水平相当的方式呈现。
【附图说明】
[0008] 根据一个或更多个不同实施例，参考以下附图详细描述了本公开。附图被提供用于仅说明的目的，并且仅仅示出典型或示例实施例。
[0009] 图1示出其中可实施各种实施例的示例环境。
[0010] 图2为根据各种实施例示出用于通过视频文件进行语音搜索的示例过程的操作流程图。
[0011] 图3根据各种实施例示出用于执行语音搜索的示例用户界面。
[0012] 图4A根据实施例示出用于执行语音搜索并显示搜索结果的示例简单用户界面。
[0013] 图4B根据另一个实施例示出用于执行语音搜索并显示搜索结果的示例高级用户界面。
[0014] 图5根据一个实施例示出用于呈现搜索结果的示例用户界面。
[0015] 图6为可用于实施本公开中描述的实施例的各种特征的示例计算模块。
[0016] 附图不是详尽的并且不将本公开局限于所公开的精确形式。
【具体实施方式】
[0017] 如先前所描述，与媒体交互的传统方法可包括用户快进或倒放媒体内容，以实现特定部分的媒体内容的回放。在DVD的情况下，希望查看电影中的特定场景的用户通常在回放期间快进和倒放电影，直到达到所需的场景。可替代地，用户可跳到电影的特定"章节"。然而，通过传统交互方法能够实现的间隔尺寸（granularity)水平通常为粗略或不精确的。
[0018] 使用具有小显示器（相对于传统TV或监视器）的智能手机或平板PC能够通常使传统媒体交互的不精确性质恶化。这是因为该类设备上的回放控件或机制也是相当小的。
[0019] 此外，搜索媒体内容的传统方法依赖于仅文本搜索，并且通常仅检索完整版本的媒体内容，或者在基于诸如副标题信息的仅文本元数据的电影媒体背景下检索具体'帧'。
[0020] 因此，本公开中描述的各种实施例提供系统和方法，其允许用户使用语音命令或输入来搜索用户所感兴趣的媒体内容（例如，一个或更多个电影）的一个或更多个部分 (例如，一个或更多个场景）。本公开背景下的媒体内容能够为任何类型的媒体内容，诸如电影、音乐、音频书籍等等。用户不局限于经由语音命令或输入在回放期间搜索单个媒体内容的特定部分。例如，用户可搜索一个或更多个内容存储库、数字图书馆或数据库中的内容。此外，并且基于由用户发出的特定语音命令，能够访问、生成和/或呈现截短版本的媒体，例如，拼接在一起的故事情节、相关场景等等。
[0021] 图1为示出其中能够实施各种实施例的示例环境的图示。图1示出用于提供媒体内容的语音搜索的系统100。如图1中所示，系统100能够包括用户设备102。用户设备102 可包括处理器104和存储器单元106,并且能够经配置接收呈现在显示器108上的数字媒体内容。用户设备102可进一步经配置访问在内容数据库或存储库（诸如电子程序向导、在线媒体存储等等）上存储的媒体内容列表。如先前所提到的，设备102可为平板PC、智能手机、膝上型PC等等。
[0022] 系统100可进一步包括媒体服务器112,其可以由内容提供商操作，诸如电缆提供商（例如，COMCAST" )、YouTube'数字媒体内容分发商，诸如 Amazon?n iTunes?、NetHix%或其他第二方分发商。媒体服务器112可包括其上能够存储数字媒体内容的内容数据库114。媒体服务器112还进一步包括搜索引擎116,以用于基于用户的语音命令或输入执行媒体内容的或媒体内容的部分的搜索。搜索引擎116可包括语音识别/声音到文本引擎（或其他转换引擎），以用于接收和分析用户的语音命令或输入或将用户的语音命令或输入转换为搜索引擎116能够理解和跟随的搜索指令。进一步地，系统100可包括第三方内容提供商120,其可包括和/或控制其自己的内容数据库122。在某些情况下，第三方内容提供商120可从媒体服务器112提供内容（例如，通过访问内容数据库114以及将媒体传送到用户设备102)。应指出的是，系统100可包括更多或更少的媒体服务器、内容提供商和/或用户设备。
[0023] 能够经由网络110完成媒体服务器112、第三方内容提供商120和/或用户设备 102中的一个或更多个之间的通信。网络110可以是任何通信网络，诸如蜂窝式或数据网络、卫星网络、内联网、外联网、虚拟专用网（VPN)、局域网（LAN)、无线LAN(WLAN)、广域网 (WAN)、个人区域网（PAN)、一部分互联网、一部分公用交换电话网（PSTN)，或它们的任何组合。因此，网络110可采用各种通信介质，诸如同轴电缆、光纤电缆系统、以太网、无线电波等等。
[0024] 根据各种实施例，能够使用元数据完成搜索或搜遍媒体内容。也就是说，元数据能够1)包括在诸如生产者或编辑者等发起者的媒体内容中，2)在媒体内容文件（场景描述、时间、位置、字符）的制作或编辑期间，由计算机自动地生成，以及/或者3)由一个或更多个用户生成。在YouTube"·媒体内容的情况下，例如，元数据能够包括用户插入的关键字、标签、标题、注释等等。在播音室制作的媒体内容的情况下，元数据可包括帧信息、索引信息、到增强的或补充的内容的链接等等。应指出的是，各种类型的媒体内容中的元数据的类型和/或量能够不同。例如，作为内容其本身为计算机生成的结果，计算机动画媒体内容可具有与其关联的大量元数据（例如，关于对象的元数据）。
[0025] 此外，元数据能够在任何时间（例如，在制作期间，或在由用户查看之后）与媒体内容关联。例如，已经查看或体验特定的一段媒体内容的用户可提供反馈或"第三方"元数据，其能够从粉丝网站或社交媒体出口和服务被访问、挖掘、聚合等等。该类第三方元数据然后能够与媒体内容关联，并随后被索引。此外，如本文所述的元数据可进一步包括时间元数据，其能够提供基于时间的信息以及/或者提供对关于其自己的或与其他类型元数据结合的媒体内容的一个或更多个部分的访问。例如，能够包括表示在媒体内容时间线上的情绪的时间元数据，其中用户能够根据情绪搜索特定章节、场景、镜头，或者例如，跳过媒体内容的令人沮丧的部分。
[0026] 该类元数据能够作为嵌入元数据、链接元数据等等与特定媒体内容文件或电影 (帧组）中的特定场景或照相机镜头角度关联。场景能够是具有开始帧和结束帧的帧序列，其中帧涉及故事的事件、角色或地点。元数据能够包括但不限于以下内容：男演员（一个或更多个）/女演员名字（一个或更多个）（实际名字和人物角色名字）；电影原声带歌曲的歌词；电影对话框；歌曲名；场景标题；场景描述；影片地点；拍摄地点；故事地点、特定场景中所示出或包含的产品；情感；对象；动作；声学或音频指纹；关键词；和/或可与媒体内容的一个或更多个部分关联的任何其他标记。可替代地或除了元数据之外，副标题能够被利用作为用于媒体内容搜索的基础。
[0027] 在发送媒体内容之前，媒体服务器112能够通过搜索或解析所包括的或以其他方式与媒体内容文件关联的任何元数据来预处理媒体内容。在从用户设备102接收语音命令或输入后，语音识别/声音到文本引擎118能够分析语音命令或输入，以确定用户设备102 的用户在搜索什么。语音识别/声音到文本引擎118然后能够将语音命令或输入转换为搜索引擎116能够利用的格式以搜索存储在例如内容数据库114中的相关媒体内容文件（一个或更多个）的任何预处理元数据，其匹配或满足语音命令或输入中所确定的搜索标准。在完成搜索后，能够在用户设备102上传递、呈现或辨别任何相关媒体内容或媒体内容（诸如场景或相关场景组）的部分。
[0028] 元数据的预处理可包括考虑媒体内容的一个或更多个'关联'或'主题'方面。例如，并且根据一些实施例，元数据能够用于辨别一个或更多个场景，而不是仅仅媒体内容的帧。也就是说，一起考虑的一个或更多个场景能够用于呈现例如情节主题、情节点、一个或更多个图片组（G0P)等等。
[0029] 因此，内容数据库114可进一步包括预处理元数据，其能够与（诸如通过使用指针）媒体内容链接或以其他方式关联。例如，内容数据库114可被分成预处理元数据部分以及其中存储媒体内容的部分。可替代地，用于存储元数据的附加数据库或数据存储库（未示出）可在媒体服务器112中实施或者能够被媒体服务器112远程访问，其中，例如，指针或其他关联机制能够链接存储在内容数据库114中的媒体内容以及预处理元数据。
[0030] 应指出的是，由于能够在媒体服务器112上执行更集中的处理和分析，因此在服务器112处使用语音识别/声音到文本引擎118能够提供用户的语音命令（一个或更多个）或输入（一个或更多个）的更准确翻译或转换。然而，根据其他实施例，能够在用户设备102上本地执行语音识别。
[0031] 图2为根据各种实施例示出示例操作的操作流程图，其中可通过媒体服务器（例如，服务器112)执行所述示例操作，以用于提供以上所述的语音搜索功能。在操作200处，从用户设备接收语音输入。如以上所描述，用户可使用诸如智能手机的设备来输入语音命令，其表示当用户正在观看、收听或以其他方式体验媒体内容时，搜索媒体内容的一个或更多个部分。在操作202处，基于语音用户输入搜索媒体内容的至少一部分。也就是说，媒体服务器112可搜索与媒体内容文件中的一个或更多个部分（帧、G0P、场景等等）关联的元数据，其匹配或满足语音用户输入中所确定的搜索标准。例如，如果用户的语音命令或输入请求其中示出著名武器的电影内的场景，则媒体服务器112能够为场景搜索电影媒体内容文件，其中关联元数据或副标题（一个或更多个）参考或者包括著名的武器。作为另一个示例，并响应于将要示出"超级英雄X的起源"的用户请求，媒体服务器112可搜索呈现超级英雄X如何获得他的/她的超级力量的场景。
[0032] 场景可为连续的（例如，按时间顺序彼此跟随的场景），或者场景可为非连续的。在非连续场景的情况下，媒体服务器112可将非连续场景拼接在一起。
[0033] 在操作204处，经由用户设备提供对媒体内容的至少一部分的访问。遵循以上示例，媒体服务器112能够指导例如用户设备102上的媒体播放器应用呈现修改的进度条，其中突出或以其他方式指示相关场景。根据其他实施例，如下面将更详细地描述，具有基于用户的语音输入的一些相关性的媒体内容的其他部分（除了当前体验的媒体内容以外）可作为搜索结果返回给用户。也就是说，用户可在内容发现的背景下参与基于语音的搜索。
[0034] 图3为在智能手机300上实施的媒体播放器应用的图形用户界面（GUI)的示例，其可为用户设备102的一个实施例。如图3中所示，智能手机300可包括显示器302,其中能够经由媒体播放器应用在所述显示器302上显示诸如这种流传送的或下载的电影文件的媒体内容。在流传送的电影文件的回放期间的任何点处，用户能够例如敲击（swipe)或以其他方式激活语音命令按钮304。在激活语音命令按钮后，用户可说出请求搜索关于流传送的/下载的电影文件所感兴趣的一个或更多个部分（例如，"给我示出所有的动作场景"）或方面的命令。例如，用户可能希望查看其间播放特定歌曲的流传送的电影文件中的场景。用户可说出歌曲的名称、歌曲的哼声或歌词等等。智能手机300可使用户的声音/歌声数字化并处理用户的声音/歌声，以经由网络110传递到媒体服务器112。如以上所描述，语音识别/声音到文本引擎118可分析或转换声音/歌声，并且搜索引擎116可执行必需的搜索。在发现与声音/歌声的一个或更多个匹配后，媒体服务器112可指导智能手机300的媒体播放器显示其中播放所需歌曲的场景。可替代地，媒体播放器GUI可在进度条306上呈现光标或其他指示符，其指示用户能够跳到哪里以便查看相关场景。
[0035] 可替代地，并且如图3中所示，媒体播放器⑶I可显示进度条306上的或与进度条 306关联的"热图"。当例如媒体内容的多个场景或部分可潜在地与用户的搜索相关时，这能够是有用的。例如，一个或更多个标记308a、308b、308c等等可在进度条306上显示。可使用例如不同程度的颜色区别一个或更多个标记。有区别的颜色能够表示相关性分数（其能够由搜索引擎116计算）。也就是说，搜索引擎116可完成搜索并确定多个场景可潜在地满足用户所说的搜索标准。在该种情况下，搜索引擎116可确定与搜索标准的潜在相关性，例如，通过场景中的匹配元数据或副标题的量。用户然后可以触摸热图/与热图交互以及 /或者使用回放按钮310,以查看由热图指示的相关场景。此外，并且替代一个或更多个标记，能够使用例如覆盖在进度条306上的代表性缩略图像辨别媒体内容的相关部分。
[0036] 应指出的是，各种实施例不限于线性单点搜索体验，如能够为媒体内容交互的传统系统和方法的情况。相反，并且如以上所描述，各种实施例能够呈现给用户媒体内容的整个场景、镜头或部分（无论媒体内容是电影、歌曲、音频书籍或其他媒体类型）。此外，用户能够被呈现有多个选项，以用于查看媒体内容的一个或更多个部分，例如，选择从哪儿开始查看媒体内容的相关部分等等。此外，媒体服务器112能够将衍生的媒体内容诸如故事线或媒体内容的相关部分或多个场景拼接在一起，并将它们提供给用户设备。
[0037] 此外，用户能够搜索还未显示或体验的媒体内容，这能够实现内容发现的增强方法。例如，替代使用基于文本搜索的传统方法搜索所需的媒体内容，用户可基于诸如先前所描述那些的大量标记/元数据针对感兴趣的媒体内容采用基于语音的搜索。
[0038] 还可呈现给用户各种⑶I，通过所述⑶I能够进行基于语音的搜索并且能够呈现媒体内容搜索结果。图4A示出本公开的一个实施例，在该实施例中，可将'简单'搜索GUI 呈现给用户。图4A示出智能手机400,其可为用户设备102的一个实施例。如图4A中所示，智能手机400可包括其上能够呈现基于语音的搜索⑶I 404A的显示器402。基于语音的GUI 404能够包括场景请求提示机制，用户可致动所述机制以便输入一个或更多个关键字或自然语言搜索条目。响应于输入，搜索结果406A能够呈现给用户。在该特定基于语音的⑶I 404A的情况下，这可为适当的，例如，对于年轻的用户，能够呈现单个结果。如先前所描述，单个结果能够是拼接在一起的来自媒体内容的单个实例的相关场景。
[0039] 图4B示出基于语音的⑶I 404B的另一个实施例，其能够表示基于语音的媒体内容搜索的更'高级的'实施例。如先前所描述，能够被返回的搜索结果406B可包括与基于语音的搜索相关的媒体内容的各个部分。例如，这能够包括相关场景，其包括特定对象、特定人物（一个或更多个），从主题或情节视角来看相关的场景，以及附加媒体内容，无论其为衍生内容、其他或可替代媒体内容等等。
[0040] 用户界面可被设计为易于以所需的、独特的和显著的方式使用和呈现所发现的场景（一个或更多个）。
[0041] 应指出的是，能够根据需要或期望配置或者修改根据各种实施例使用的搜索机制或算法。例如，使用隐藏式字幕或副标题元数据能够被用作初始搜索参考，以辨别媒体内容的潜在相关部分。在该类搜索方法之后或者与该类搜索方法结合，更多精细的或复杂的照相机镜头或人物识别算法或方法能够用于进一步细化搜索，以增大返回给用户的搜索结果的潜在相关性。
[0042] 图5根据本公开的另一个实施例示出搜索结果GUI的示例。图5示出智能手机 500,其可为用户设备102的一个实施例。如图5中所示，智能手机500可包括显示器502，其中在所述显示器502上能够将搜索结果⑶I 504呈现给用户。搜索结果⑶I 504能够呈现'最相关'搜索结果以及较小相关的但用户潜在感兴趣的搜索结果。例如，用户可以发起请求在电影中爱情场景的人物以及饰演人物的恋爱角色的女演员的名字之间的基于语音的搜索。搜索结果⑶I 504可因此显示图标504A，其在最前列表示出与基于语音的搜索相关的场景（一个或更多个）。此外，相关场景（诸如涉及人物和女演员的动作场景）可作为另一个代表性图标504B在背景中呈现。此外，相关场景（诸如涉及人物和其他人物/演员的场景）也能够经由另一个代表性图标504C在背景中呈现。应指出的是，还能够使用相对尺寸的图标呈现有关和相关场景或者媒体内容，以表示概率'分数'，所述概率'分数'反映其相对于基于语音的搜索和/或'最相关'搜索结果（一个或更多个）的相关性。
[0043] 搜索结果的相关性能够基于多个不同来源。如上文所提到的，预处理元数据能够源自例如第三方来源，诸如社交媒体出口、粉丝网站等等。也就是说，搜索结果的相关性能够基于例如来自群众的信息或用户的先前行为。
[0044] 用户能够将场景的语音搜索限制在用户所购买的电影的集合中，即，数字图书馆。在进行搜索时，图2的媒体服务器112可访问用户的个人内容（电影）图书馆。用户的集合能够包括电影中的最喜爱场景的视频剪辑，其被称为'片段'。基于该类片段的内容，媒体服务器112可基于先前认为用户对什么感兴趣、用户已经如何对先前剪辑的片段分类或归类等等来对返回给用户的搜索结果进行调整或定制。本公开的各种实施例能够利用的片段技术（snippet technology)的示例在美国专利申请序列号14/189908中进行了描述，该申请通过引用全部并入本文。
[0045] 应进一步指出的是，在其中预处理元数据不匹配例如用户输入的一些基于语音的关键词的情况下，能够仍通过访问例如电子词表或其他第三方信息来源执行搜索。例如，用户可请求在电影中搜索其中演员经历"打嗝"的场景。与可能具有相关元数据的"爱情场景" 的搜索相反，术语打嗝可能不具有相关的元数据。因此，媒体服务器（例如，图2的媒体服务器112)可访问前述第三方信息来源，以确定打嗝与身体机能相关。因此，搜索可基于与 "身体机能"相关的元数据进行搜索。如果该种搜索未能产生任何结果，则能够执行自由形式搜索或"最佳猜想"搜索。因此，能够根据各种实施例使用分层搜索。
[0046] 返回参考图4B，应理解的是，用户可通过选择（例如，通过基于语音的输入、基于触摸的输入等等）初始搜索结果的第一方面、下钻查询（drill down)第一方面等等来进一步细化搜索结果。例如，基于语音的搜索输入可为"给我显示所有的j虫斯丨尼?电影"。在基于语音的⑶I 404B返回所有已知的迪|^尼@电影的列表后，用户可使用基于语音的⑶I 404B，以便然后输入以下搜索，"给我显示所有的动画电影"。进一步地，用户可再次使用基于语音的GUI 404B，以开始另一个缩小查找"给我显示所有的G级电影"。应指出的是，根据各种实施例的基于语音的搜索还能够用于消除用户可希望从搜索结果排除的媒体内容的一个或更多个方面。
[0047] 此外，能够根据各种实施例货币化（monetize)搜索选项和/或结果。例如，能够免费提供给用户简单的搜索。然而，可能用户希望执行更全面的搜索，则用户可被要求支付费用以访问该类全面搜索选项。此外，就搜索结果而言以及在内容发现的背景下，用户可执行请求电影的某一战斗场景的基于语音的搜索。对于微小的费用（其可少于全部媒体内容的完整实例的收费），用户能够以例如拼接场景的形式接收仅请求的战斗场景或衍生媒体内容，其中从根据用户的基于语音的搜索请求的多个媒体内容实例的视角来看，所述拼接场景具有共同的主题或情节。
[0048] 应注意的是，根据各种实施例的场景拼接不需要被唯一地限制用于组合媒体内容的现有部分。也就是说，各种实施例想到通过例如拼接在一起的请求对话框来'创建'新的媒体内容。例如，用户可请求包括演员或人物的实例的媒体内容，在该实例中特定文字或对话被拼接在一起。
[0049] 此外，用户能够搜索不被用户拥有的电影中的场景。在媒体服务器112发现场景后，媒体服务器112可向用户a)示出整个场景，或者b)仅向用户示出场景的预览（例如，缩略图像），并其后可用于i)向用户出售电影，或ii)向用户仅出售场景（例如，索要1美元或2美元）。
[0050] 用户能够将场景的搜索限制在单个电影或多个电影中。
[0051] 用户能够选择不同方式以用于将非连续场景拼接在一起，例如，通过故事、时间线，通过相关性；或者"快放"所有的场景。
[0052] 可存在根据各种实施例用于对电影中的场景/帧中的元数据进行搜索和排列的不同方式。
[0053] 用户可将发现的场景保存为最喜欢的，即，保存为片段。
[0054] 应指出的是，尽管已经在基于视频/视觉的媒体内容的背景下描述了本文所呈现的各种实施例，但是其他实施例也能够适用于其他背景中，诸如无线电广播、播客等等。此外，本文所描述的系统和方法能够适用于允许用户/消费者购买/租用或访问先前购买/ 租用的"完全访问"版本的"受限访问"游戏、应用和其他该类内容。
[0055] 图6示出可用于实施本文所公开的系统和方法的各种特征的示例计算模块。
[0056] 如本文所使用，术语模块可描述能够根据本申请的一个或更多个实施例执行的给定功能单元。如本文所使用，可使用任何形式的硬件、软件或它们的组合实施模块。例如，一个或更多个处理器、控制器、ASIC、PLA、PAL、CPLD、FPGA、逻辑部件、软件例程或其他机制可被实现用于构成模块。在实现方式中，本文所描述的各种模块可被实现为分立的模块，或者能够在一个或更多个模块当中部分或全部共享所描述的功能和特征。换句话说，如本领域普通技术人员在阅读本说明书后显而易见的，本文所描述的各种特征和功能可以在任何给定应用中实施，并且能够以各种组合和排列在一个或更多个单独的或共享的模块中实施。即使各种特征或功能元件可以被单独地描述或声明为单独模块，本领域的普通技术人员将理解，这些特征和功能能够在一个或更多个常用的软件和硬件元件当中共享，并且这种描述不要求或暗示单独的硬件或软件部件用于实施该类特征或功能。
[0057] 在一个实施例中，如果使用软件全部或部分实施应用程序的部件或模块，则这些软件元件能够被实施以利用计算或处理模块操作，所述计算或处理模块能够执行相对于它所描述的功能。图6中示出一个该种示例计算模块。关于该示例计算模块600描述了各种实施例。在阅读本说明书后，对本领域技术人员显而易见的是，如何使用其他计算模块或架构实施应用程序。
[0058] 现参考图6,计算模块600可表示例如在自调节显示器、台式机、膝上型电脑、笔记本和平板计算机；手持计算设备（平板、PDA、智能手机、蜂窝手机、掌上型电脑等等）；工作站或具有显示器的其他设备；服务器；或者如对于给定应用或环境为理想的或合适的任何其它类型的专用或通用计算设备内发现的计算或处理能力。例如，计算模块600可以是用户设备102、媒体服务器112,以及/或者其一个或更多个功能元件的一个实施例。计算模块600还可表示嵌入在给定设备内或以其他方式可用于给定设备的计算能力。例如，可在其他电子设备（诸如，例如导航系统、便携式计算设备以及可包括一些形式的处理能力的其他电子设备）中发现计算模块。
[0059] 计算模块600可包括例如一个或更多个处理器、控制器、控制模块，或其他处理设备，诸如处理器604。可使用通用或专用处理引擎（诸如，例如微处理器、控制器或其他控制逻辑）实施处理器604。在所示出的示例中，处理器604连接到总线602,尽管任何通信介质能够用于促进与计算模块600的其它部件的交互或用于外部通信。
[0060] 计算模块600还可包括一个或更多个存储器模块，其在本文中被简单地称为主存储器608。例如，优选的随机存取存储器（RAM)或其他动态存储器可用于存储信息以及将被处理器604执行的指令。主存储器608也可用于在执行将被处理器604执行的指令期间存储临时变量或其他中间信息。计算模块600可类似地包括只读存储器（"ROM"）或其他静态存储设备，其耦合到总线602以用于为处理器604存储静态信息和指令。
[0061] 计算模块600还可包括一种或更多种不同形式的信息存储机构610,其可包括例如媒体驱动器612和存储单元接口 620。媒体驱动器612可包括驱动器或其他机制，以支持固定的或可移除的存储介质614。例如，可提供硬盘驱动器、固态驱动器、磁带驱动器、光盘驱动器、压缩盘（CD)或数字视频光盘（DVD)驱动器（R或RW)，或其他可移除的或固定的媒体驱动器。因此，存储介质614可以包括例如硬盘、集成电路组件、磁带、盒式磁带、光盘、 CD或DVD，或者其它固定的或可移除的介质，其可由媒体驱动器612读取、写入或存取。如这些示例示出，存储介质614能够包括具有存储于其中的计算机软件或数据的计算机可用存储介质。
[0062] 在可替代实施例中，信息存储机构610可包括其他类似机构，以用于允许计算机程序或其他指令或数据将加载到计算模块600中。该类机构可包括例如固定的或可移除的存储单元622和接口 620。该类存储单元622和接口 620的示例能够包括程序盒和盒式接口、可移除存储器（例如，闪存或其他可移除存储器模块）和存储器插槽、PCMCIA插槽和卡，以及允许软件和数据将从存储单元622传送到计算模块600的其他固定的或可移除的存储单元622和接口 620。
[0063] 计算模块600还可包括通信接口 624。通信接口 624可用于允许软件和数据将在计算模块600和外部设备之间传送。通信接口 624的示例可包括调制解调器或软调制解调器、网络接口（诸如以太网、网络接口卡、WiMedia、IEEE 802. XX或其他接口）、通信端口 (诸如例如，USB端口、IR端口、RS232端口蓝牙@接口或其他端口），或其他通信接口。软件以及经由通信接口 624传送的数据可通常在信号上承载，其能够是电子信号、电磁（其包括光学）信号或能够通过给定通信接口 624交换的其他信号。可经由信道628将这些信号提供到通信接口 624。该信道628可承载信号并且可使用有线或无线通信介质实施。信道的一些示例可包括电话线、蜂窝链路、RF链路、光链路、网络接口、局域网或广域网，以及其他有线或无线通信信道。
[0064] 在本文档中，术语"计算机程序介质"和"计算机可用介质"一般用于指暂时性或非暂时性介质，诸如，例如，存储器608、存储单元620、介质614和信道628。这些和其他各种形式的计算机程序介质或计算机可用介质可涉及将一个或更多个序列的一个或更多个指令传输到处理设备用于执行。在介质上实现的该类指令一般被称为"计算机程序代码"或 "计算机程序产品"（其可以以计算机程序或其他分组的形式进行分组）。当被执行时，该类指令可使计算模块600能够执行如本文所讨论的本申请的特征或功能。
[0065] 尽管以上关于各种示例性实施例和实施方式进行了描述，应该理解的是，在一个或更多个单独的实施例中描述的各种特征、方面和功能不限于它们应用到描述它们的特定实施例，而是能够单独或以多种组合应用到本申请的其他实施例中的一个或更多个，无论该类实施例是否被描述，并且无论该类特征是否被呈现为所描述的实施例的一部分。因此，本申请的广度和范围不应由以上所描述的示例性实施例中的任一个限制。
[0066] 除非另有明确说明，否则该文档中使用的术语和短语及其变型应被解释为开放式的，而不是限制性的。作为上述的示例：术语"包括"应被理解为意指"包括但不限于"等等；术语"示例"用来提供讨论中的条目的示例性实例，而不是其穷尽性或限制性列表；术语"一个"应被理解为意指"至少一个"、"一个或更多个"等等；以及形容词诸如"常规的"、"传统的"、"正常的"、"标准"、"已知的"和具有类似含义的术语不应被解释为将所描述的条目限制到给定时间段或限制到自给定时间起可用的条目，而是应被理解为包括目前或未来的任何时间可用或已知的常规的、传统的、正常的或标准的技术。同样地，在本文档涉及将对本领域普通技术人员显而易见或已知的技术的地方，该类技术包括目前或在未来任何时间对技术人员明显或已知的那些技术。
[0067] -些实例中的拓宽词语和短语诸如"一个或更多个"、"至少"、"但不限于"或其他类似短语的存在不应被理解为意味在其中该类拓宽短语可能不存在的实例中期望或要求较窄的情况。术语"模块"的使用不意味着被描述或要求保护作为模块的部分的部件或功能全部在共同的封装中配置。事实上，模块的任何或全部部件，无论是控制逻辑还是其它部件，能够组合在单个封装中或被单独地保持，并且能够进一步在多个组或封装中或跨越多个位置分布。
[0068] 此外，关于示例性方框图、流程图和其他说明描述了本文阐述的各种实施例。如在阅读本文档后对本领域普通技术人员明显的，所示出的实施例和它们的各种可替代方案能够被实施，而不受所示出示例的限制。例如，方框图和它们的随附描述不应被解释为要求特定体系结构或配置。
【主权项】
1. 一种计算机实施的方法，包括：从用户设备接收语音输入；基于语音用户输入搜索媒体内容的至少一部分；以及经由所述用户设备提供对所述媒体内容的所述至少一部分的访问。2. 根据权利要求1所述的计算机实施的方法，其中所述语音输入包括搜索命令，其包含表示所述媒体内容的所述至少一部分的至少一个方面的一个或更多个标记。3. 根据权利要求2所述的计算机实施的方法，其中所述搜索所述媒体内容的所述至少一部分包括使所述一个或更多个标记和与所述媒体内容关联的一块或更多块元数据匹配。4. 根据权利要求3所述的计算机实施的方法，其中通过所述媒体内容的至少一个发起者以及所述媒体内容的至少一个消费者生成所述一块或更多块元数据。5. 根据权利要求1所述的计算机实施的方法，其中所述搜索所述媒体内容的所述至少一部分包括分层搜索。6. 根据权利要求1所述的计算机实施的方法，其中所述媒体内容包括电影，并且其中所述媒体内容的所述至少一部分包括来自所述电影的至少一个场景或者来自所述电影的图片组即GOP。7. 根据权利要求6所述的计算机实施的方法，其中所述至少一个场景或GOP与来自所述电影或者来自附加主题上相关的媒体内容的附加场景或GOP结合呈现。8. 根据权利要求7所述的计算机实施的方法，其中，相对于来自所述电影或所述附加主题上相关的媒体内容的所述附加场景或GOP，所述至少一个场景或GOP与所述附加场景或GOP结合呈现，所述附加场景或GOP与所述至少一个场景或GOP和所述语音用户输入的相关性相当。9. 根据权利要求1所述的计算机实施的方法，其中所述提供所述访问包括经由在所述用户设备上实施的媒体播放器呈现表示所述媒体内容的所述至少一部分的视觉指示器。a) 根据权利要求9所述的计算机实施的方法，其中所述视觉指示器包括热图，其基于所述媒体内容的所述至少一部分与接收的语音输入的相关性。10. 根据权利要求9所述的计算机实施的方法，其中所述视觉指示器包括缩略图像。11. 一种装置，包括：内容数据库，其包含一个或更多个媒体内容文件；声音识别引擎，其经配置识别表示搜索所述一个或更多个媒体内容文件的至少一部分的语音命令；以及搜索引擎，其经配置基于所识别的语音命令搜索所述一个或更多个媒体内容文件的所述至少一部分。12. 根据权利要求12所述的装置，其中所述声音识别引擎包括声音到文本引擎。13. 根据权利要求12所述的装置，其中所述搜索引擎通过搜索与表示所述一个或更多个媒体内容文件的所述至少一部分的至少一方面的标记匹配的元数据来搜索所述一个或更多个媒体内容文件的所述至少一部分，所述标记由所述语音命令的转换来确定。14. 根据权利要求12所述的装置，其中所述搜索引擎进一步经配置经由远离所述装置定位的用户设备，提供对所述一个或更多个媒体内容文件的所述至少一部分的访问。15. -种设备，包括：处理器；以及包括计算机程序代码的存储器，所述存储器和所述计算机程序代码经配置利用所述处理器使所述设备执行至少以下操作：显示用户界面，其适于接收请求搜索媒体内容的一个或更多个部分的语音输入；将所述语音输入转发到媒体内容服务器，其经配置执行搜索媒体内容的所述一个或更多个部分；以及从所述媒体内容服务器接收搜索结果，以用于呈现在所述设备上，其中所述搜索结果以与所述语音输入的相关性水平相当的方式呈现。16. 根据权利要求16所述的设备，其中所述语音输入包括至少一个关键字。17. 根据权利要求17所述的设备，其中通过尝试使所述至少一个关键字和与所述媒体内容关联的元数据的至少一个实例匹配来获得所述搜索结果。18. 根据权利要求18所述的设备，其中元数据的所述至少一个实例与所述媒体内容的至少一个主题方面关联。19. 根据权利要求19所述的设备，其中所述搜索结果与被确定为和所述搜索结果主题上相关的附加媒体内容的相关部分结合呈现。
【专利摘要】本发明涉及通过媒体内容的语音搜索元数据，提供了基于元数据或副标题用于语音搜索媒体内容的系统和方法。能够在媒体服务器处预处理与媒体内容关联的元数据。在接收表示搜索媒体内容方面的语音命令后，媒体服务器执行与正被搜索的媒体内容方面相关的媒体内容的一个或更多个部分的搜索。媒体通过使正被搜索的媒体内容方面与预处理元数据匹配来执行搜索。
【IPC分类】G06F17/30
【公开号】CN105488094
【申请号】CN201510640031
【发明人】J·X·万格, M·阿兰纳, E·德雷克, A·C·茨翰
【申请人】迪斯尼企业公司
【公开日】2016年4月13日
【申请日】2015年9月30日
【公告号】US20160098998

技术

最新回复(0)