一种视频处理方法及装置的制造方法

xiaoxiao2020-10-23  13

一种视频处理方法及装置的制造方法
【技术领域】
[0001] 本发明设及多媒体处理技术领域,尤其设及一种视频处理方法及装置。
【背景技术】
[0002] 随着多媒体技术和互联网的快速发展,视频信息越来越多。相应的,对视频的处理 显得越来越重要。视频编码是其中的一种关键技术,近年来受到人们越来越多的关注和重 视。
[0003] 为了提高视频编码的效率,现有技术中存在一种基于图像库进行视频编码的方 法,即将待编码视频中的图像与图像库中的预存储图像进行比较得到区别图像及相同图 像,然后对区别图像进行编码W及相同图像所对应的属性信息进行编码。
[0004] 但是,上述方法中提到的图像库通常是预先对各种类型的人物、物体或动画、片段 等数据进行采集,获取大量丰富的图片或图像的数据并存储在数据库中形成的。该图像库 中的数据与待编码视频中的图像的相关性较小,且该图像库中的数据容易出现多个数据之 间存在较高相关性的问题,即图像库中的数据冗余较大。另外,将该样的图像库传输到解码 端,将会耗费大量比特。因此,基于该样的图像库进行视频编码时,依旧会限制视频编码的 效率。

【发明内容】

[0005] 本发明的实施例提供一种视频处理方法及装置,通过分析待编码视频,构建出与 待编码视频相关性较大且内部数据之间冗余较小的知识库,进而利用该知识库对待编码视 频进行编码,可有效的解决视频编码效率较低的问题。
[0006] 为达到上述目的,本发明的实施例采用如下技术方案:
[0007] 第一方面,本发明实施例提供了一种视频处理方法,该方法包括;
[0008] 将待编码视频分割为至少两段场景;
[0009] 将各段场景划分为至少两个场景类别;
[0010] 从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像;
[0011] 保存选取出的图像,W生成知识库。
[0012] 在第一方面的第一种可能的实现方式中,所述选取出的图像中任意两幅图像之间 的相似度低于第一预设阔值。
[0013] 在第一方面的第二种可能的实现方式中,所述将各段场景划分为至少两个场景类 另0,包括:
[0014] 每段场景为一个场景类别;
[0015] 或者,
[0016] 检测至少一段场景和其不相邻场景的相似度,并将相似度大于或等于第二预设阔 值的场景划分为同一个场景类别。
[0017] 结合第一方面的第二种可能的实现方式,在第一方面的第=种可能的实现方式 中,所述检测至少一段场景和其不相邻场景的相似度,包括:
[001引从各段场景中分别选取一幅代表图像;
[0019] 计算任意两段不相邻场景的代表图像之间的相似度;所述相似度使用两幅图像之 间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。
[0020] 在第一方面的第四种可能的实现方式中,所述从所述至少两个场景类别中的至少 一个场景类别中分别选取出至少一幅图像,包括:
[0021] 选取第一场景类别中任意一段场景的第一预设位置的图像,所述第一场景类别为 所述至少一个场景类别中的任意一个场景类别;
[002引或者,
[0023]根据所述第一场景类别中各段场景的活动性选取图像,所述活动性使用运动矢量 强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量;其中,所述图像特征 至少包括亮度直方图、色度直方图、特征描述子中的一种,所述特征描述子至少包括尺度不 变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。
[0024] 结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式 中,所述第一预设位置属于所述待编码视频中的随机访问点。
[0025]在第一方面的第六种可能的实现方式中,所述保存选取出的图像,W生成知识库, 具体包括:
[0026]对选取出的图像进行编码,生成重建图像;
[0027]保存重建图像,W生成知识库。
[0028] 结合第一方面的第四种可能的实现方式,在第一方面的第走种可能的实现方式 中,所述根据所述第一场景类别中各段场景的活动性选取图像,包括:
[0029] 计算所述第一场景类别中每段场景的活动性;
[0030]根据所述每段场景的活动性,确定每段场景中需要选取图像的数量;
[0031] 采用第一预设选取规则,在每段场景中选取图像,所述选取图像的数量与所述需 要选取图像的数量相同。
[0032] 结合第一方面的第走种可能的实现方式,在第一方面的第八种可能的实现方式 中,当第一场景类别中只包含有一段场景,且在该段场景中需要选取图像的数量为零时,贝U 将所述第一场景类别需要选取图像的数量修改为一;
[0033]当所述第一场景类别中包含至少两段场景,且所有场景中需要选取图像的数量均 为零时,则将所述第一场景类别中其中一段场景需要选取图像的数量修改为一。
[0034] 结合第一方面的第走种可能的实现方式或第八种可能的实现方式,在第一方面的 第九种可能的实现方式中,每段场景中需要选取图像的数量和该段场景的活动性呈单调递 增关系,但每段场景中需要选取图像的数量不超过第=预设阔值。
[0035] 结合第一方面的第走种可能的实现方式,在第一方面的第十种可能的实现方式 中,所述采用第一预设选取规则,在每段场景中选取图像,包括:
[0036]根据选取图像的数量,等间隔或近似等间隔地从场景中选取出相应数量的图像。
[0037] 结合第一方面的第四种可能的实现方式,在第一方面的第十一种可能的实现方式 中,所述根据所述第一场景类别中各段场景的活动性选取图像,包括:
[0038] 计算所述第一场景类别中位于第二预设位置的图像的活动性;
[0039] 根据各个位于第二预设位置的图像的活动性和第二预设选取规则,选取所述第一 场景类别中的图像。
[0040] 结合第一方面的第十一种可能的实现方式,在第一方面的第十二种可能的实现方 式中,所述根据各个位于第二预设位置的图像的活动性和第二预设选取规则,选取所述第 一场景类别中的图像,包括:
[0041] 从第一幅位于第二预设位置的图像开始,累积各幅位于第二预设位置的图像的活 动性;
[0042] 当活动性累积达到第四预设阔值时,选取对应位置的图像;
[0043] 将活动性清零,从选取出的图像所在位置的下一个第二预设位置开始重复上述累 积活动性、达到第四预设阔值时选取对应位置图像的过程,直到遍历完所述第一场景类别 中所有位于第二预设位置的图像。
[0044] 结合第一方面的第十一种可能的实现方式,在第一方面的第十=种可能的实现方 式中,所述第二预设位置属于所述待编码视频中的随机访问点。
[0045] 结合前述第一方面或第一方面的第一种可能的实现方式至第十=种可能的实现 方式中的任意一种可能的实现方式,在第一方面的第十四种可能的实现方式中,所述选取 出的图像属于所述待编码视频中的随机访问点所在的图像。
[0046] 结合第一方面的第五种可能的实现方式或第十=种可能的实现方式至第十四种 可能的实现方式中的任意一种可能的实现方式,在第一方面的第十五种可能的实现方式 中,所述待编码视频中的随机访问点所在的图像采用帖内编码,或者仅参考知识库中的至 少一幅图像采用帖间编码。
[0047] 结合前述第一方面或第一方面的第一种可能的实现方式至第十五种可能的实现 方式中的任意一种可能的实现方式,在第一方面的第十六种可能的实现方式中,所述方法 还包括:
[0048] 获取当前图像,所述当前图像为所述待编码视频中至少一幅图像;
[0049] 从所述知识库中选择所述当前图像的至少一幅参考图像;
[0050] 根据所述至少一幅参考图像对所述当前图像进行编码。
[0051] 结合第一方面的第十六种可能的实现方式,在第一方面的第十走种可能的实现方 式中,所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的图像。
[0052] 结合第一方面的第十六种可能的实现方式,在第一方面的第十八种可能的实现方 式中,从所述知识库中选择所述当前图像的至少一幅参考图像,包括:
[0053] 将所述当前图像和所述知识库中至少一幅图像进行相似度比较;
[0054] 选取相似度超过第五预设阔值的N幅图像作为当前图像的参考图像,其中N为大 于等于1的整数。
[00巧]第二方面,本发明实施例提供了一种视频处理装置,包括:
[0056] 分割单元,用于将待编码视频分割为至少两段场景,W及用于将各段场景划分为 至少两个场景类别;
[0057] 选取单元,用于从所述至少两个场景类别中的至少一个场景类别中分别选取出至 少一幅图像;
[0058] 存储单元,用于保存所述选取单元选取出的图像,W生成知识库。
[0059] 在第二方面的第一种可能的实现方式中,所述选取出的图像中任意两幅图像之间 的相似度低于第一预设阔值。
[0060] 在第二方面的第二种可能的实现方式中,所述分割单元,具体用于将每段场景划 分为一个场景类别;
[006 U或者,
[0062] 所述分割单元,具体用于检测至少一段场景和其不相邻场景的相似度,并将相似 度大于或等于第二预设阔值的场景划分为同一个场景类别。
[0063] 结合第二方面的第二种可能的实现方式,在第二方面的第=种可能的实现方式 中,所述选取单元,具体用于从各段场景中分别选取一幅代表图像;
[0064] 所述视频处理装置还包括计算单元;
[0065] 所述计算单元,用于计算任意两段不相邻场景的代表图像之间的相似度;所述相 似度使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。
[0066] 在第二方面的第四种可能的实现方式中,所述选取单元,具体用于选取第一场景 类别中任意一段场景的第一预设位置的图像,所述第一场景类别为所述至少一个场景类别 中的任意一个场景类别;
[0067] 所述选取单元,具体用于根据所述第一场景类别中各段场景的活动性选取图像, 所述活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来 衡量;其中,所述图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种,所述特 征描述子至少包括尺度不变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一 种。
[0068] 结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式 中,所述第一预设位置属于所述待编码视频中的随机访问点。
[0069] 在第二方面的第六种可能的实现方式中,所述视频处理装置还包括处理单元;
[0070] 所述处理单元,还用于对选取出的图像进行编码,生成重建图像;
[0071] 所述存储单元,具体用于保存所述处理单元生成的重建图像,W生成知识库。
[0072] 结合第二方面的第四种可能的实现方式,在第二方面的第走种可能的实现方式 中,所述计算单元,还用于计算所述第一场景类别中每段场景的活动性;
[0073] 所述视频处理装置还包括确定单元;
[0074] 所述确定单元,用于根据所述计算单元计算的每段场景的活动性,确定每段场景 中需要选取图像的数量;
[0075] 所述选取单元,还用于采用第一预设选取规则,在每段场景中选取图像,所述选取 图像的数量与所述需要选取图像的数量相同。
[0076] 结合第二方面的第走种可能的实现方式,在第二方面的第八种可能的实现方式 中,当第一场景类别中只包含有一段场景,且在该段场景中需要选取图像的数量为零时,贝U 将所述第一场景类别需要选取图像的数量修改为一;
[0077] 当所述第一场景类别中包含至少两段场景,且所有场景中需要选取图像的数量均 为零时,则将所述第一场景类别中其中一段场景需要选取图像的数量修改为一。
[0078] 结合第二方面的第走种可能的实现方式或第八种可能的实现方式,在第二方面的 第九种可能的实现方式中,每段场景中需要选取图像的数量和该段场景的活动性呈单调递 增关系,但每段场景中需要选取图像的数量不超过第=预设阔值。
[0079] 结合第二方面的第走种可能的实现方式,在第二方面的第十种可能的实现方式 中,所述选取单元,还用于根据选取图像的数量,等间隔或近似等间隔地从场景中选取出相 应数量的图像。
[0080] 结合第二方面的第四种可能的实现方式,在第二方面的第十一种可能的实现方式 中,所述计算单元,还用于计算所述第一场景类别中位于第二预设位置的图像的活动性;
[0081] 所述选取单元,还用于根据所述计算单元计算的各个位于第二预设位置的图像的 活动性和第二预设选取规则,选取所述第一场景类别中的图像。
[0082] 结合第二方面的第^^一种可能的实现方式,在第二方面的第十二种可能的实现方 式中,所述处理单元,还用于从第一幅位于第二预设位置的图像开始,累积各幅位于第二预 设位置的图像的活动性;
[0083] 所述选取单元,还用于当活动性累积达到第四预设阔值时,选取对应位置的图像。
[0084] 结合第二方面的第十一种可能的实现方式,在第二方面的第十=种可能的实现方 式中,所述第二预设位置属于所述待编码视频中的随机访问点。
[0085] 结合前述第二方面或第二方面的第一种可能的实现方式至第十=种可能的实现 方式中的任意一种可能的实现方式,在第二方面的第十四种可能的实现方式中,所述选取 出的图像属于所述待编码视频中的随机访问点所在的图像。
[0086] 结合第二方面的第五种可能的实现方式或第十=种可能的实现方式至第十四种 可能的实现方式中的任意一种可能的实现方式,在第二方面的第十五种可能的实现方式 中,所述待编码视频中的随机访问点所在的图像采用帖内编码,或者仅参考知识库中的至 少一幅图像采用帖间编码。
[0087] 结合前述第二方面或第二方面的第一种可能的实现方式至第十五种可能的实现 方式中的任意一种可能的实现方式,在第二方面的第十六种可能的实现方式中,所述视频 处理装置还包括获取单元;
[0088] 所述获取单元,用于获取当前图像,所述当前图像为所述待编码视频中至少一幅 图像;
[0089] 所述选取单元,还用于从所述知识库中选择所述当前图像的至少一幅参考图像;< br>[0090] 所述处理单元,还用于根据所述选取单元选择出的至少一幅参考图像对所述当前 图像进行编码。
[0091] 结合第二方面的第十六种可能的实现方式,在第二方面的第十走种可能的实现方 式中,所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的图像。
[0092] 结合第二方面的第十六种可能的实现方式,在第二方面的第十八种可能的实现方 式中,所述处理单元,还用于将所述当前图像和所述知识库中至少一幅图像进行相似度比 较;
[0093] 所述选取单元,还用于选取相似度超过第五预设阔值的N幅图像作为当前图像的 参考图像,其中N为大于等于1的整数。
[0094] 本发明实施例提供一种视频处理方法及装置,视频处理装置将待编码视频分割为 至少两段场景,并将各段场景划分为至少两个场景类别,然后,视频处理装置从至少两个场 景类别中的至少一个场景类别中分别选取出至少一幅图像,最后,视频处理装置保存选取 出的图像,w生成知识库。
[0095] 从上面可W看出,本发明实施例中的知识库是视频处理装置根据待编码视频生成 的,因此,该知识库与待编码视频之间的相关性较高。另外,视频处理器装置是将待编码视 频进行分割,并划分为至少两个场景类别,然后根据场景类别的划分,从至少一个场景类别 中选取图像的。视频处理装置从场景类别的角度出发,选取图像,并将选取出的图像存储至 知识库,有效地降低了图像库中数据之间的冗余度。该样,本发明技术方案解决了目前图像 库中数据冗余较大,与待编码视频相关性较低的问题。进而,有效的解决了视频编码效率较 低的问题。
【附图说明】
[0096] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据该些附图获得其他的附图。
[0097] 图1为传统视频编码中随机访问点分布结构示意图;
[0098] 图2为本发明实施例的视频处理方法的流程示意图一;
[0099] 图3为本发明实施例中场景类别的结构示意图;
[0100] 图4为本发明实施例的视频处理方法的流程示意图二;
[0101] 图5为本发明实施例的视频处理方法的流程示意图S;
[0102] 图6为本发明实施例的视频处理方法的流程示意图四;
[0103] 图7为本发明实施例的视频处理方法的流程示意图五;
[0104] 图8为本发明实施例中W矩形块为单位进行运动捜索的示意图;
[0105] 图9为本发明实施例中全局运动捜索的示意图;
[0106] 图10为本发明实施例中场景类别内按照活动性积分抽取图像的示意图一;
[0107] 图11为本发明实施例中场景类别内按照活动性积分抽取图像的示意图二;
[010引图12本发明实施例的视频处理方法的流程示意图六;
[0109] 图13为本发明实施例的视频处理装置的结构示意图一;
[0110] 图14为本发明实施例的视频处理装置的结构示意图二;
[0111] 图15为本发明实施例的视频处理器的结构示意图。
【具体实施方式】
[0112] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0113] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0114] 本发明的说明书和权利要求书及上述附图中的术语"第一"、"第二"、"第和"第 四"等是用于区别不同对象,而不是用于描述特定顺序。此外,术语"包括"和"具有及 它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、 系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或 单元,或可选地还包括对于该些过程、方法、产品或设备固有的其它步骤或单元。
[0115]W下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之 类的具体细节,W便透切理解本发明。然而,本领域的技术人员应当清楚,在没有该些具体 细节的其它实施例中也可W实现本发明。在其它情况中,省略对众所周知的装置、电路W及 方法的详细说明,W免不必要的细节妨碍本发明的描述。
[0116] 另外,本文中术语"和/或",仅仅是一种描述关联对象的关联关系,表示可W存在 =种关系,例如,A和/或B,可W表示;单独存在A,同时存在A和B,单独存在B该=种情 况。另外,本文中字符"/",一般表示前后关联对象是一种"或"的关系。
[0117] 编码是指一个能够对图像、视频进行压缩的程序或者设备。传统视频编码技术中, 为了使编码后的视频支持随机访问功能,一般会在待编码视频中插入一些随机访问点,该 样待编码视频被随机访问点分割成多个具有随机访问功能的视频片段,可简称为随机访问 片段。通常,待编码视频中一个随机访问点后设置至少一个非随机访问点,一个随机访问片 段包含一幅或多幅图像。示例性的,如图1所示,常用的一个帖内编码帖(I帖)之后跟随 多个单向帖间编码帖(P帖)的编码结构(即通常说的IPPP编码结构)中包含有随机访问 点、非随机访问点和随机访问片段。
[0118] 本发明实施例提供的视频处理方法的执行主体是视频处理装置,该视频处理装置 可W为视频编码装置,也可W为其他视频处理装置,其中,该视频处理装置可W是任何需要 输出或存储视频的装置,如笔记本电脑、平板电脑、个人电脑、手机或视频服务器等设备。
[0119] 本发明实施例提供的视频处理方法适用于包含若干幅图像的一段视频,该视频可 能由至少两段场景构成,每段场景由连续多幅相似内容的图像构成。其中,任意两段相邻场 景之间存在内容发生剧烈变化的场景切换。该视频中还存在至少一段场景和该段场景的不 相邻场景之间具有相似的图像内容,也可W认为视频中的一些场景会多次重复出现,每次 出现时场景的主体内容相似,但其中局部细节可能会发生变化,例如物体的位置发生移动、 背景不变但前景人物动作改变等。其中,本发明实施例中提到的视频可W为电视剧、电影、 访谈节目、新闻广播、体育赛事、综艺节目等。
[0120] 实施例一
[0121] 本发明实施例提供一种视频处理方法,如图2所示,该方法包括:
[0122] S101、视频处理装置将待编码视频分割为至少两段场景。
[0123] 具体的,本发明实施例中视频处理装置对待编码视频进行场景切换检测,并将待 编码视频分割为至少两段场景。
[0124] 可选的,本发明实施例中的视频处理装置可W采用任意一种现有的场景切换方法 对待编码视频进行场景切换检测,本发明实施例对此不做限定。
[0125] 示例性的,视频处理装置检测相邻图像之间的图像差(化amedifference,简单的 例如对应像素点差值的总和)、运动补偿残差(motioncompensateddifference)或者亮度 或色度分量直方图的差。当差值超过某一阔值时,则认为发生了场景切换;或者,视频处理 装置提取出图像的SIFT(Scale-invariantFeaUire"Transform,尺度不变转换)特征,并比 较相邻图像的SIFT特征的匹配度,其中,匹配方法为计算SIFT特征的坐标差距、方向差距、 特征描述子的欧氏距离中的至少一种,当差距越大时,SIFT特征的相似度越低,在相似度低 于某一阔值时,则认为发生了场景切换;或者,视频处理装置比较当前图像分别和该当前图 像之前、之后相邻帖之间的相似度,如果两个相似度之间的差别过大,则认为发生了场景切 换。例如;假设第i帖图像和第i-1帖图像之间的相似度为S,则当第i帖图像和第i+1帖 图像之间的相似度低于阔值S/2时,则认为发生了场景切换。
[0126] 如图3所示,图像4、图像2、图像3为视频处理装置检测到的场景切换图像,它们 将视频分割为场景一、场景二和场景=。
[0127]S102、视频处理装置将各段场景划分为至少两个场景类别。
[0128] 视频处理器在将待编码视频分为至少两段场景后,进一步对各段场景进行聚类, 即将各段场景划分为至少两个场景类别。
[0129] 具体的,视频处理装置可W将待编码视频中的每段场景划分为一个场景类别,即 待编码视频中的场景数量和场景类别数量相同;视频处理装置还可W从待编码视频中的各 段场景中选取一幅代表图像,并计算任意两段不相邻场景的代表图像之间的相似度,然后 将相似度大于第二预设阔值的场景划分为同一个场景类别,本发明实施例不做限定。
[0130] 示例性的,如图3所示,若视频处理装置将待编码视频分割为S段场景(场景一、 场景二和场景=),第二预设阔值假设为75%。视频处理装置计算场景=的代表图像(图 像如和场景一的代表图像(图像1)之间的相似度为90%,由于90% >75%,即场景S的代 表图像与场景一的代表图像之间的相似度高于第二预设阔值,则视频处理装置认为场景S 为场景一的重复场景,因此,将它们划分为一个场景类别,记为第1场景类别。场景二的代 表图像(图像2)与场景一的代表图像(图像1)之间的相似度为38%,则场景二的代表图 像与场景一的代表图像之间的相似度低于第二预设阔值(38% <75% ),则认为场景二不是 场景一的重复场景,可W将场景二单独作为一个新的场景类别,记为第2场景类别。
[0131]S103、视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至 少一幅图像。
[0132] 其中,在从至少一个场景类别中的任意一个场景类别中选取出的图像中,任意两 幅图像之间的相似度低于第一预设阔值。
[0133] 视频处理装置可W选取第一场景类别中任意一段场景的第一预设位置的图像,其 中,第一场景类别为至少一个场景类别中的任意一个场景类别。
[0134] 其中,第一预设位置的图像可W为场景类别中任意一段场景的第一幅图像、最后 一幅图像或者第一幅图像最邻近的随机访问点图像。
[0135] 优选的,第一预设位置属于待编码视频中任意一段场景的随机访问点。
[0136] 进一步地,视频处理装置计算每个场景类别中选取出的图像之间的相似度,W确 保任意两幅图像之间的相似度低于第一预设阔值。
[0137] 视频处理装置还可W根据场景类别中各段场景的活动性选取图像。其中,活动性 使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量;图像特 征至少包括亮度直方图、色度直方图、特征描述子中的一种,特征描述子至少包括尺度不变 转换SIFT特征描述子、SURF(Speeded化RobustFea化res,加速稳健特征)描述子中的一 种。
[0138] 具体的,视频处理装置根据场景类别中各段场景的活动性选取图像的方法可W 为;视频处理装置计算场景类别中每段场景的活动性,并根据每段场景的活动性确定每段 场景中需要选取图像的数量,然后视频处理装置采用第一预设选取规则,从每段场景中选 取图像,其中,选取图像的数量与需要选取图像的数量相同。
[0139] 其中,视频处理装置可W利用场景的活动性除W预设阔值并取整,得到该段场景 需要选取图像的数量,也可W通过查找预设的二维表,获得与场景活动性相匹配的图像数 量。第一预设选取规则可W为选取预设位置的图像;也可W为将各个图像的活动性进行累 加,且累加到某一阔值时选取该位置的图像;还可W为其他选取规则,该里不再一一说明。
[0140] 示例性的,视频处理装置根据场景中需要选取图像的数量,等间隔或近似等间隔 地从该段场景中选取出相应数量的图像。
[0141] 需要说明的是,每段场景中需要选取图像的数量和该段场景的活动性呈单调递增 关系,但每段场景中需要选取图像的数量不超过第=预设阔值;所述第=预设阔值例如2 或3或4或5。
[0142] 特殊的,若第一场景类别为至少一个场景类别中的任意一个场景类别,当第一场 景类别中只包含有一段场景,且在该段场景中需要选取图像的数量为零时,则将第一场景 类别需要选取图像的数量修改为一;当第一场景类别中包含至少两段场景,且所有场景中 需要选取图像的数量均为零时,则将第一场景类别中其中一段场景需要选取图像的数量修 改为一。
[0143] 具体的,视频处理装置根据场景类别中各段场景的活动性选取图像的方法还可W 为;视频处理装置计算第一场景类别中位于第二预设位置的图像的活动性,然后视频处理 装置根据各个位于第二预设位置的图像的活动性和第二预设选取规则,选取第一场景类别 中的图像。
[0144] 其中,视频处理装置根据各个位于第二预设位置的图像的活动性和第二预设选取 规则,选取第一场景类别中的图像的方法可W为;视频处理装置从第一场景中第一幅位于 第二预设位置的图像开始,累积各幅位于第二预设位置的图像的活动性;当活动性累积达 到第四预设阔值时,视频处理装置选取对应位置的图像;然后,视频处理装置将活动性清 零,从选取出的图像所在位置的下一个第二预设位置开始重复上述累积活动性、达到第四 预设阔值时选取对应位置图像的过程,直到遍历完该第一场景类别中所有位于第二预设位 置的图像。其中,第四预设阔值为任意一个正实数,例如为1〇.5、25、200、140000等,本发明 实施例不做限定。
[0145] 优选的,第二预设位置属于待编码视频中任意一段场景的随机访问点。
[0146] 可选的,本发明实施例中视频处理装置从待编码视频的各个场景中选取的图像可 W为待编码视频的随机访问点图像,也可W为待编码视频的非随机访问点图像;视频处理 装置从待编码视频的各个场景中选取出的图像可W为场景切换图像,也可W为各段场景的 中间位置图像,本发明实施例不做限定。
[0147] 需要说明的是,本发明实施例中的视频处理器可W从各个场景类别中分别选取出 至少一幅图像,还可W从部分场景类别中分别选取出至少一幅图像,本发明实施例不做限 定。
[014引S104、视频处理装置保存选取出的图像,W生成知识库。
[0149]具体的,视频处理装置对选取出的图像进行编码,生成该些图像的重建图像,然 后,视频处理装置 保存该些图像的重建图像,已生成知识库。
[0150] 需要说明的是,知识库中的图像可W为重建图像的全部图像,也可W为重建图像 的部分图像特征信息,本发明实施例不做限定。
[0151] 需要说明的是,为减少计算复杂度,本发明实施例中的视频处理装置如果检测到 一段视频共有K。个场景,可W只对其中K1个场景进行场景类别识别,得到K2个场景类别, 进而视频处理装置只对该K2个场景类别中的K3个场景类别选取代表图像,加入知识库;其 中,1(。>1(1>1(2>1(3,町>2,1(3>1。
[0152] 通过上面分析可知,视频处理装置是从场景类别中选取出至少一幅图像,并将该 图像存储至知识库的,而场景类别的数量为至少两个,那么知识库中的图像就会映射于待 编码视频的至少两个场景类别中,由于不同场景类别的相似度低于预设阔值,因此,不同场 景类别中选取出的图像之间的相似度也会低于预设阔值。
[0153] 本发明实施例中的知识库是视频处理装置根据待编码视频生成的,因此,该知识 库与待编码视频之间的相关性较高。另外,视频处理器装置是将待编码视频进行分割,并划 分为至少两个场景类别,然后根据场景类别的划分,从至少一个场景类别中选取图像的。视 频处理装置从场景类别的角度出发,选取图像,并将选取出的图像存储至知识库,有效地降 低了图像库中数据之间的冗余度。该样,本发明技术方案解决了目前图像库中数据冗余较 大,与待编码视频相关性较低的问题。进而,有效的解决了视频编码效率较低的问题。
[0154]实施例二
[0155] 本发明实施例提供一种视频处理方法,如图4所示,该方法包括:
[0156]S201、视频处理装置将待编码视频分割为至少两段场景。
[0157]S202、视频处理装置将各段场景划分为至少两个场景类别。
[015引S203、视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至 少一幅图像。
[0159]其中,选取出的图像中任意两幅图像之间的相似度低于第一预设阔值。
[0160]S204、视频处理装置保存选取出的图像,W生成知识库。
[0161]S205、视频处理装置获取当前图像,其中,当前图像为待编码视频中至少一幅图 像。
[0162]S206、视频处理装置从知识库中选择当前图像的至少一幅参考图像。
[0163]S207、视频处理装置根据至少一幅参考图像对当前图像进行编码。
[0164]其中,上述至少一幅参考图像可能是当前图像的全部参考图像,也可能是当前图 像的部分参考图像。
[0165] 视频处理装置在获取到当前图像后,开始处理当前图像。本发明实施例中,该视频 处理装置按照预设规则从知识库中选择当前图像的至少一幅参考图像。其中,预设规则可 W为该视频处理装置根据图像相似度来为当前图像选择参考图像。具体的,视频处理装置 通过比较当前图像和知识库中图像之间的图相差、运动补偿残差、亮度或色度分量直方图 的差、图像特征之间的差等参数来进行相似度的计算。
[0166] 例如,至少一幅参考图像的图像特征与当前图像的图像特征相匹配,其中,至少一 幅参考图像的图像特征与当前图像的图像特征相匹配具体可指,至少一幅参考图像的图像 特征与当前图像的图像特征的相似度超过设定阔值。其中,相似度可W为两个图像特征矢 量之间的线性相关性,或者两个图像特征矢量中各组元素间最大差值的倒数,或者两个图 像特征矢量之间的距离的倒数。
[0167] 在视频处理装置为当前图像选择好至少一幅参考图像后,该视频处理装置根据至 少一幅参考图像对当前图像进行编码。该样,不论当前图像是随机访问点图像,还是非随机 访问点图像,均可W参考知识库中的图像进行编码。
[0168] 本发明实施例提供一种视频处理方法,视频处理装置将待编码视频分割为至少两 段场景,并将各段场景划分为至少两个场景类别,然后,视频处理装置从至少两个场景类别 中的至少一个场景类别中分别选取出至少一幅图像,最后,视频处理装置保存选取出的图 像,W生成知识库。
[0169] 从上面可W看出,本发明实施例中的知识库是视频处理装置根据待编码视频生成 的,因此,该知识库与待编码视频之间的相关性较高。另外,视频处理器装置是将待编码视 频进行分割,并划分为至少两个场景类别,然后根据场景类别的划分,从至少一个场景类别 中选取图像的。视频处理装置从场景类别的角度出发,选取图像,并将选取出的图像存储至 知识库,有效地降低了图像库中数据之间的冗余度。该样,本发明技术方案解决了目前图像 库中数据冗余较大,与待编码视频相关性较低的问题。进而,有效的解决了视频编码效率较 低的问题。
[0170] 实施例S
[0171] 本发明实施例提供一种视频处理方法,视频处理装置将待编码视频分割为至少两 段场景后,再采用不同的方法选取图像,并将选取出来的图像保存后生成知识库,进而利用 该知识库对待编码视频进行编码,可有效的解决视频编码效率较低的问题。具体的,视频处 理装置采用W下方法选取图像;如图5所示,视频处理装置将各段场景划分为至少两个场 景类别,从至少两个场景类别中的至少一个场景类别中选取出至少一幅图像;如图6所示, 视频处理装置计算每段场景的活动性,再根据每段场景的活动性,确定每段场景中需要选 取图像的数量,并选取相应数量的图像;如图7所示,视频处理装置先将各段场景划分为至 少两个场景类别,再计算每段场景的活动性,并根据每段场景活动性,从一个场景类别的图 像中选取图像。
[0172] 如图5或图6或图7所示,本发明实施例的方法可W包括:
[0173]S301、视频处理装置对待编码视频进行场景切换检测,并将待编码视频分割为至 少两段场景。
[0174] 可选的,本发明实施例中的视频处理装置可W采用任意一种现有的场景切换方法 对待编码视频进行场景切换检测。
[0175] 示例性的,视频处理装置检测相邻图像之间的图像差、运动补偿残差或者亮度或 色度分量直方图的差。当差值超过某一阔值时,则认为发生了场景切换。或者,视频处理 装置提取出图像SIFT特征,并比较相邻图像的SIFT特征的匹配度,其中,匹配方法为计 算SIFT特征的坐标差距、方向差距、特征描述子的欧氏距离中的至少一种,当差距越大时, SIFT特征的相似度越低,在相似度低于某一阔值时,则认为发生了场景切换。所述阔值为正 实数,例如为20、125、64. 4等,本发明实施例不做限定。
[017引如图3所示,图像4、图像2、图像3为视频处理装置检测到的场景切换图像,它们 将视频分割为场景一、场景二和场景=。
[0177]S302、视频处理装置选取出每段场景的代表图像,并检测任意两段不相邻场景的 代表图像之间的相似度,得到各段场景所属的场景类别。
[0178] 可选的,代表图像可W为一个场景的场景切换图像,也可W为场景中间图像,还可 W为场景中任一预设位置的图像。其中,场景中间图像可W为位于一段场景中屯、附近的图 像。例如,对一段包含M(M>2)幅图像的场景,场景中间图像可W为第(M/2)+l幅图像或 者第(M/2)幅图像。
[0179] 优选的,代表图像还可W是场景中任意一幅随机访问点图像。例如,场景中第一幅 随机访问点图像,或者场景中的所有随机访问点图像中位于中间的图像。示例性的,对一段 包含K幅随机访问点图像的场景,代表图像可W为第化/2)+1幅、第化/2)幅或第化/2)-1 幅随机访问点图像。
[0180] 其中,随机访问点图像为间隔一定时间(例如1秒、2. 5秒、5秒、20秒等)设定的 图像。任意相邻两个随机访问点图像的时间间隔可W相同,也可W不同,但一般均不超过一 个预先设置的最大时间间隔,W保证视频的随机访问要求。一个视频序列中的随机访问点 可W按照多种方式设定。例如,对至少一段场景,将场景切换图像作为该个场景的第一个随 机访问点,场景中剩下的图像,每间隔一个预设的图像数目设定一个随机访问点。或者,对 整个视频序列每间隔一定时间设置一个随机访问点,例如广播应用中通常W1秒为间隔设 置一个随机访问点。一个随机访问点图像后通常跟随若干个非随机访问点图像。
[0181] 可选的,一对代表图像之间的相似度可W通过该两幅图像之间的图像差、运动补 偿残差、亮度或色度分量直方图的差、图像特征之间的差中的一种来表示,差值越小,相似 度越高。一对代表图像之间的相似度还可W通过该两幅图像之间匹配的特征点数目或者匹 配百分比(匹配特征点数目占总特征点数目的百分比)来衡量,匹配的特征点数目越多或 者匹配百分比越高,则图像的相似度越大。
[0182] 具体的,视频处理装置在计算任意两段不相邻场景的代表图像之间的相似度后, 如果两个场景的代表图像之间的相似度高于第二预设阔值,则视频处理装置认为该两个场 景重复出现,它们属于同一场景类型。其中,一个场景类型包含一段场景或多段相似的场 景。
[0183] 进一步地,在确定一个视频中所有场景的场景类别时,可W按照场景出现的先后 顺序,W从前向后的顺序(或者W从后向前的顺序)进行处理。首先,将第一个场景和第二 个场景分别标记为第1场景类别和第2场景类别。然后,从第=个场景开始,依次判断当前 场景的代表图像与之前已经标记的所有场景类别对应的代表图像之间的相似性;如果当前 场景的代表图像与已标记的某一场景类别的代表图像之间的相似性大于某一阔值,则当前 场景归属于该场景类别;否则(即如果当前场景的代表图像与任一已有场景类别的代表图 像之间的相似性均小于某一阔值),则当前场景为一个新的场景类别。
[0184] 示例性的,如图3所示,视频处理装置将待编码视频分割为S段场景(场景一、场 景二和场景=),假设第二预设阔值为60%。视频处理装置计算场景=的代表图像(图像 如和场景一的代表图像(图像1)之间的相似度为90%,由于90%〉60%,即场景S的代表 图像与场景一的代表图像之间的相似度高于第二预设阔值,则视频处理装置认为场景S为 场景一的重复场景,因此,将它们划分为一个场景类别,记为第1场景类别。场景二的代表 图像(图像2)与场景一的代表图像(图像1)之间的相似度为38%,则场景二的代表图像 与场景一的代表图像之间的相似度低于第二预设阔值(38% <60% ),则认为场景二不是场 景一的重复场景,可W将场景二单独作为一个新的场景类别,记为第2场景类别。
[0185]S303、视频处理装置从至少一个场景类别中,选取其中一段场景的代表图像。
[0186] 视频处理装置在得到各段场景所属的场景类别后,根据场景类别选取图像。其中, 视频处理器选取至少一个场景类别的其中一段场景的代表图像可W为该段场景的随机访 问点图像,也可W为非随机访问点图像,本发明实施例不做限定。
[0187] 本发明实施例中的视频处理器可W从各个场景类别中分别选取出至少一幅图像, 还可W从部分场景类别中分别选取出至少一幅图像,本发明实施例不做限定。
[018引具体的,视频处理装置从至少一个场景类别中选取其中一段场景的代表图像时可W按照W下任意一种方法进行:
[0189] (1)、视频处理装置选取至少一个场景类别中第一次出现的场景的代表图像,对于 重复出现的场景,不选取其代表图像。
[0190] 示例性的,如图3所示,场景一和场景S均属于第1场景类别,则视频处理装置选 取场景一中的代表图像(图像1),而不选取场景S的代表图像(图像3),对于场景二而言, 场景二属于第2场景类别,且场景二为第2场景类别中第一次出现的场景,因此,视频处理 装置选取场景二的代表图像(图像2)。
[0191] (2)、如果某一个场景类别中包含至少两段场景,则视频处理装置选取该场景类别 中第二次出现的场景的代表图像;如果某一个场景类别中只包含一段场景,则选取它的代 表图像。如图3所示,场景一和场景=均属于第1场景类别,场景=是第1场景类别中第二 次出现的场景,则视频处理装置选取场景S的代表图像(图像3)。
[0192](3)、如果某一个场景类别中包含一段或两段场景,则视频处理装置选取该场景类 别中第一次出现的场景的代表图像;如果某一个场景类别中包含S段及W上场景,则视频 处理装置选取位于中间的场景的代表图像。
[0193] 示例性的,若一个场景类型包含的场景段数为N段,3,则位于中间的场景为第 (N/2)+l段或者第(N/2)段场景。
[0194](4)、如果某一个场景类别中仅包含一段场景,则视频处理装置选取该场景的代表 图像;如果某一个场景类别中包含两段场景,则视频处理装置选取场景持续时间较长的场 景的代表图像;如果某一个场景类别中包含S段及W上场景,则视频处理装置计算每一段 场景的代表图像与除它之外其它场景的代表图像之间的相似度的总和,选取相似度总和最 大的代表图像。其中,场景持续时间可用一个场景包含的图像数来表示,图像数越大,则持 续时间越长。
[0195] 巧)、如果某一个场景类别中仅包含一段场景,且该场景的持续时间大于等于阔 值,则视频处理装置选取该场景的代表图像;如果某一个场景类别中包含至少两段场景,贝U 视频处理装置选取场景持续时间较长的场景的代表图像。
[0196] 需要说明的是,上述几种选取场景的代表图像的方法中的步骤可W交叉组合,而 产生新的组合方案,本发明实施例不做详细列举。
[0197] 可选的,在本发明实施例中视频处理装置从待编码视频中选取图像的第二种方法 中,视频处理装置根据待编码视频中的场景的活动性,有选择地从待编码视频中选取图像。
[0198] 具体的,在视频处理装置从待编码视频中选取图像的第二种方法中,如图6所示, 本发明实施例第一种方法中的S302可W替换为S302' ;S303可W替换为S303'。
[0199]S302'、视频处理装置计算每段场景的活动性。
[0200] 其中,每段场景的活动性可W用区域运动矢量幅值的总和或均值代表,还可W用 全局运动矢量幅值的总和或均值代表,还可W用局部或全局运动补偿残差的总和代表,还 可W用图像差的总和代表,还可W用用图像SIFT特征距离代表,本发明实施例不做限定。
[0201] 下面具体举例说明视频处理装置计算每段场景的活动性的方法。
[0202] 示例一,若每段场景的活动性用区域运动矢量幅值的总和或均值代表,则视频处 理装置计算每段场景的活动性的方法为:
[0203] 一、视频处理装置选择每段场景内至少一幅图像,并计算选择出的图像的运动强 度。
[0204] 二、 视频处理装置将一段场景内上述已选图像的运动强度累加作为该段场景的活 动性。特别的,视频处理装置还可W对图像运动强度累加值除W所有已选图像中抽样区域 的总数目,归一化得到一个区域的运动矢量幅值均值,作为该段场景的活动性。
[0205] 其中,视频处理装置选择的场景内至少一幅图像可W为场景内图像中W-定时间 间隔抽取的若干幅图像,也可W为场景内所有的图像,还可W为场景内若干个预选位置的 图像,例如,第二幅图像、中间图像和最后一幅图像。
[0206] 具体的,视频处理装置计算选择出的图像的运动强度的方法,具体包括:
[0207] 1)选取图像中的至少两个抽样区域。其中,抽样区域的形状不做限定,可W为矩 形,也可W是圆形、六边形、=角形区域或者不规则区域。上述抽样区域的总和可W为图像 的一个子集,也可W覆盖整个图像;各抽样区域之间可W互不重叠,也可W存在重叠。
[020引2)对每个抽样区域,将前一幅图像作为参考图像进行运动捜索,得到该个抽样区 域的运动矢量。
[0209] 如图8所示,图中图像i中的矩形区域M和N,分别通过参考图像i-1进行运动捜 索得到各自的运动矢量(M\i,M\y)和(M\y,M\y),其中M\济MVM,y分别表示区域M的 运动矢量的水平方向分量和竖直方向分量。
[0210] 3)计算每个抽样区域的运动矢量幅值。
[0211] 具体的,如图8所示,W矩形块M的运动矢量为例,可W用A巧,巧,+M立,,、MV" =IMVm,XI+1MVm,yI或者MVm=max(IMVM,XHM\yI)来计算,其中MVm表示运动矢量幅值。将 图像i中所有抽样区域的运动矢量幅值求和作为图像的运动强度。
[0212] 特别的,为了防止图像左右边界和上下边界附近新出现内容带来的影响,在运动 矢量幅值求和时可W忽略图像边界的区域。
[0213] 示例二,若每段场景的活动性用全局运动矢量幅值的总和或均值代表,则视频处 理装置计算每段场景的活动性的方法为:
[0214] 一、视频处理装置选择每段场景内至少一幅图像,并计算选择出的图像的全局运 动矢量幅值。
[0215] 具体的,如图9所示,视频处理装置计算选择出的图像的全局运动矢量幅值的方 法为:
[0216]1)取一幅图像i中的中屯、矩形区域N。
[0217]。在前一幅图像中进行运动捜索得到区域N的运动矢量(M\^M\y),作为图像i的全局运动矢量。
[021引 3)图像i的运动强度为其全局运动矢量的幅值。
[0219] 二、视频处理装置将一段场景内已分析运动强度的图像的运动强度累加作为该段 场景的活动性。特别的,视频处理装置还可W对所有全局运动矢量的幅值求平均,归一化得 到全局运动矢量幅值均值,作为场景的活动性。
[0220] 具体的,不论是用局部或全局运动补偿残差的总和代表每段场景的活动性,还是 用图像差的总和代表每段场景的活动性,亦或用图像SIFT特征距离代表每段场景的活动 性,视频处理装置计算每段场景的活动性时,采用的方法与上述示例一、示例二均类似,因 此,此处不再详细介绍视频处理装置计算每段场景的活动性的方法。
[0221]S303'、视频处理装置根据每段场景的活动性,确定每段场景中需要选取图像的 数量,并选取相应数量的图像。
[0222] 具体的,视频处理装置可W利用场景的活动性除W预设阔值并取整,得到该段场 景需要选取图像的数量,也可W通过查找预设的二维表,获得与场景活动性相匹配的图像 数量。
[0223] 需要说明的是,每段场景中需要选取图像的数量和该段场景的活动性呈单调递增 关系,但每段场景中需要选取图像的数量不超过第=预设阔值,所述第=预设阔值例如3 或4或5。
[0224]进一步地,在视频处理装置确定每段场景中需要选取图像的数量之前,视频处理 装置还可W先选取出每段场景的代表图像,并检测代表图像之间的相似度,得到各段场景 所属的场景类别。
[0225]特殊的,当一个场景类别中只包含有一段场景,且该段场景中需要抽取图像的个 数为零时,如果其所在场景类别里只有一个场景,则将该段场景需要选取图像的数量修改 为一。当一个场景类别包含至少两段场景,且所有中需要抽取图像的个数为零,则将其中一 段场景需要选取图像的数量修改为一。
[0226] 具体的,视频处理装置在确定每段场景中需要选取图像的数量后,根据第一预设 选取规则,在每段场景中选取相应数量的图像。
[0227]若视频处理装置要从其中一段场景中的L幅图像中选取图像,则该视频处理装置 可W采用下述任意一种方法选取图像。其中,L幅图像可W为该段场景中所有图像;也可W 为该段场景中所有随机访问点图像。
[022引方法一;视频处理装置抽取该L幅图像中序号为中化+小/(|. = 0..1'-1)的 图像,其中a、b为预设常数,[x」表示对X下取整,L>K。
[0229]方法二;视频处理装置抽取该L幅图像中序号为L五/K + a」x/(/ = l..J〇的图像,其 中a为预设常数。
[0230]方法视频处理装置根据每段场景的场景活动性计算抽取的图像的数量K,并 对该图像数量K的上限进行限制,即用公式K=min化,巧计算需要抽取的图像数量K, 其中,min(A,B)表示取A、B中的最小值,S可W为预设的正整数,S也可W由场景的总 图像数Li和场景中两个随机访问点间隔的图像数Phtf。来确定,例如= 如X/LJ」, 其中m为预设的正实数,或者S也可W由场景中总的随机访问点图像的数目L2来决 定,例如5 = ,其中n为预设的正实数。然后,视频处理装置根据计算得到的图 像数K,从场景中选取图像。具体的,如果K= 0,则视频处理装置抽取场景中间图像或 者场景中所有随机访问点图像中位于中间的图像;如果K〉0,抽取该L幅已选图像中第 I/2i:」+L王/i:」x/(z. = 0..乂-1)幅图像。
[0231]方法四:视频处理装置从已选图像的第一幅图像开始,逐幅图像累加该幅图像的 活动性,当累加的活动性达到MI/2K时,抽取此时对应的图像。将累加的活动性清零,从第 一次抽取的图像的下一幅图像开始向后重新累加每幅图像的活动性,当累加的活动性达到 MI/K时,抽取此时对应的图像。再将累加的活动性清零,从第二次抽取的图像的下一幅图像 开始向后重新累加每幅图像的活动性,当累加的活动性达到MI/K时,再次抽取此时对应的 图像。之后W此类推,每当活动性累加达到MI/K时抽取一幅图像,直到抽取了相应数量的 图像。
[0232]方法五:视频处理装置从已选图像的第一幅图像开始,逐幅图像累加该幅图像的 活动性,当累加的活动性达到MI/K时,抽取第一幅图像。将累加的活动性清零,从抽取第一 幅图像的下一幅图像开始向后重新累加每幅图像的活动性,当累加的活动性达到MI/K时, 抽取第二幅图像。之后W此类推,每当活动性累加达到MI/K时抽取一幅图像,直到抽取了 相应数量的图像。
[0233] 可选的,在本发明实施例中视频处理装置从待编码视频中选取图像的第=种方法 中,视频处理装置根据待编码视频中的场景类别和场景类别中场景的活动性,有选择地从 待编码视频中选取图像。
[0234] 具体的,在视频处理装置从待编码视频中选取图像的第=种方法中,如图7所示, 本发明实施例第一种应用场景中的S303可W替换为S303W。
[0235]S303W、视频处理装置计算每段场景的活动性,并根据每段场景活动性,从至少一 个场景类别的图像中选取图像。
[0236] 其中,视频处理装置可采用视频处理装置从待编码视频中选取图像的第二种方法 中的任意一种计算场景活动性的方法来计算每段场景的活动性。
[0237] 具体的,视频处理装置从至少一个场景类别的图像中选取图像的方法可W为:
[023引方法一:视频处理装置从至少一个场景类别中第一个场景的第一幅图像开始依次 对各图像的活动性进行累加,得到累加的活动性,当累加的活动性达到阔值T时,选取该累 加区间内的一幅指定图像;然后将累加的活动性清零,从下一幅图像继续从零开始对图像 的活动性进行累加,开始一个新的累加区间;当累加至一个场景的最后一幅图像时,保存 已累加的活动性作为下一个场景累加活动性的起始值,直至累加的活动性再次达到阔值T 时,选取该累加区间内的一幅指定图像,依次类推进行下去,直到遍历该场景类型中所有图 像。
[0239] 其中,一个累加区间内的指定图像可W为该累加区间的最后一幅图像,也可W是 累加区间内当累加活动性达到阔值T/2时对应的图像。
[0240] 为了进一步提高压缩效率,优选的,累加区间内的指定图像可W为该累加区间的 最后一幅图像的最邻近的一个随机访问点的图像,也可W是累加区间内当累加活动性达到 阔值T/2时对应的图像的最邻近的一个随机访问点的图像。
[0241] 示例性的,如图10所示,场景类别中包含有多段场景,图像1、图像2和图像3分别 为各自累加区间的最后一幅图像,如图11所示,图像1、图像2和图像3分别为各自累加区 间内当累加活动性达到阔值T/2时对应的图像。
[0242] 方法二:视频处理装置将至少一个场景类别中的预设位置的图像按照时间顺序从 前到后依次排列,并计算该些图像中每一幅图像的活动性。从该些图像的第一幅图像开始, 逐幅图像累加每幅图像的活动性,当累加的活动性达到阔值T时,抽取该累加区间内的一 幅指定图像。将累加的活动性清零,从抽取第一幅图像的位置开始向后重新累加每幅图像 的活动性,当累加的活动性达到阔值T时,抽取该累加区间内的一幅指定图像。之后W此类 推,每当活动性累加达到阔值T时抽取对应累加区间内的一幅指定图像,直到遍历完所有 图像。
[0243] 其中,一个累加区间内的指定图像可W为该累加区间的第一幅图像或最后一幅图 像,也可W是累加区间内当累加活动性达到阔值T/2时对应的图像。上述预设位置的图像, 可W是场景类别中的所有图像,也可W对场景类别中的所有图像每间隔X幅图像设定一个 预设位置,选择该些预设位置上的图像,或者可W为该场景类别中包含的所有随机访问点 图像。所述阔值T为任意正实数,本发明实施例不做限定。例如T= 20. 5,T= 5050,T= 1000000 或者T= 1400000 等。
[0244] 如图5或图6或图7所示,无论视频处理装置在将待编码视频分割为至少两段场 景后,是采取哪一种方法选取出图像的,在视频处理装置选取出图像后,视频处理装置均将 该些选取出的图像进行保存,W生成知识库。
[0245] 需要说明的是,为减少计算复杂度,本发明实施例中的视频处理装置如果检测到 一段视频共有K。个场景,可W只对其中K1个场景进行场景类别识别,得到K2个场景类别, 进而视频处理装置只对该K2个场景类别中的K3个场景类别选取代表图像,加入知识库;其 中,1(。>1(1>1(2>1(3,町>2,1(3>1。
[0246]S304、视频处理装置对选取出的图像进行编码,生成重建图像。
[0247] 其中,视频处理装置对选取出的图像可W进行帖内编码,也可W进行帖间编码。
[024引 S305、视频处理装置保存重建图像,W生成知识库。
[0249] S306、视频处理装置获取当前图像。
[0巧0] 其中,当前图像为待编码视频中至少一幅图像。
[0251] 优选的,当前图像为待编码视频中至少一个随机访问点所在的图像。
[0巧2] S307、视频处理装置从知识库中选择当前图像的至少一幅参考图像。
[0253] 具体的,视频处理装置在获取到当前图像后,将该当前图像和知识库中至少一幅 图像进行相似度比较,然后选取相似度超过第五预设阔值的N幅图像作为当前图像的参考 图像或者选取相似度最高的1幅图像或2幅图像作为当前图像的参考图像,其中N为大于 等于1的整数。
[0巧4] S308、视频处理装置根据选择出的至少一幅参考图像对当前图像进行编码。
[0255] 其中,上述参考图像可能是当前图像的全部参考图像,也可能是当前图像的部分 参考图像。
[0256] 视频处理装置在获取到当前图像后,开始处理当前图像。本发明实施例中,该视频 处理装置按照预设规则从知识库中选择当前图像的至少一幅参考图像。其中,预设规则可W为该视频处理装置根据图像相似度来为当前图像选择参考图像。具体的,视频处理装置 通过比较当前图像和知识库中图像之间的图相差、运动补偿残差、亮度或色度分量直方图 的差、图像特征之间的差等参数来进行相似度的计算。
[0257]例如,参考图像的图像特征与当前图像的图像特征相匹配,其中,参考图像的图像 特征与当前图像的图像特征相匹配具体可指,参考图像的图像特征与当前图像的图像特征 的相似度超过设定阔值。其中,相似度可W为两个图像特征矢量之间的线性相关性,或者 两个图像特征矢量中各组元素间最大差值的倒数,或者两个图像特征矢量之间的距离的倒 数。
[025引本发明实施例提供的视频处理方法进一步是基于知识库的视频编码方法。该一方 法中随机访问点图像可W参考知识库中一幅或者多幅图像采用帖间编码的方式进行编码, 也可W不参考知识库中图像采用帖内编码方法进行编码。也就是说,随机访问点图像的编 码不依赖于视频序列码流中其它图像的重建图像,它只依赖于知识库中的图像或者它可W 独立。两个相邻的随机访问点图像间包括至少一幅图像,该些图像称为非随机访问点图像, 它们是需要参考视频序列中的其它图像的重建图像,例如其之前最近的随机访问点图像的 重建图像。
[0巧9] 本发明实施例提供一种视频处理方法,视频处理装置将待编码视频分割为至少两 段场景,并将各段场景划分为至少两个场景类别,然后,视频处理装置从至少两个场景类别 中的至少一个场景类别中分别选取出至少一幅图像,最后,视频处理装置保存选取出的图 像,W生成知识库。
[0260] 从上面可W看出,本发明实施例中的知识库是视频处理装置根据待编码视频生成 的,因此,该知识库与待编码视频之间的相关性较高。另外,视频处理器装置是将待编码视 频进行分割,并划分为至少两个场景类别,然后根据场景类别的划分,从至少一个场景类别 中选取图像的。视频处理装置从场景类别的角度出发,选取图像,并将选取出的图像存储至 知识库,有效地降低了图像库中数据之间的冗余度。该样,本发明技术方案解决了目前图像 库中数据冗余较大,与待编码视频相关性较低的问题。进而,有效的解决了视频编码效率较 低的问题。
[0261] 实施例四
[0262] 为了便于理解和简化计算,本发明实施例W预编码视频包含有3段场景(场景一、 场景二和场景=),且每段场景为一个场景类别,视频处理器选取各段场景的其中一幅随机 访问点图像为例对视频处理方法进行说明。
[0263] 具体的,本发明实施例提供一种视频处理方法,如图12所示,包括:
[0264]S401、视频处理装置将待编码视频分割为=段场景。
[0265] 具体的,视频处理装置对待编码视频采用任意一种现有的场景切换方法进行场景 切换检测,并将待编码视频分割为=段场景。
[0266]S402、视频处理装置从各段场景中选取其中一幅随机访问点图像。
[0267] 视频处理装置将各段场景视为不同场景类别,然后根据场景类别从各段场景中选 取其中一幅随机访问点图像;或者,视频处理装置根据场景类别和场景活动性从各段场景 中选取其中一幅随机访问点图像。
[026引示例性的,视频处理装置选取各个场景类别内的中间图像的邻近随机访问点图 像。
[0269] 假设一个场景类别包含L幅图像,编码时的随机访问点间隔为IP。视频处理装置 从第一幅图像开始计数,当计数到L/2位置的图像时,选取离L/2最近的随机访问点处的图 像,即第Li/Px/巧」幅或LZ/(2xiP)」+l幅随机访问点图像。
[0270] 示例性的,视频处理装置选取各个场景类别内达到累加活动性一半的图像的邻近 随机访问点图像。
[0271] 假设一个场景类别包含L幅图像,视频处理装置计算每个场景类别的活动性 MI,,其中,Mli为场景类别内第i幅图像按照实施例S中任意一种计算活 i=l 动性的方法计算出的活动性。视频处理装置从第一幅图像开始累加活动性,当累加到 第M幅图像位置,此时的累加活动性达到该场景所有图像的累加活动性的一半,即M为 满足的最小值,抽取离第M幅图像最近的随机访问点处的图像,即第 _M//f+ 0.5」幅或第LM/ /户+ 0.5」+1幅随机访问点图像。
[0272]S403、视频处理装置保存选取出的随机访问点图像,W生成知识库。
[0273] 本发明实施例提供一种视频处理方法,视频处理装置将待编码视频分割为至少两 段场景,并将各段场景划分为至少两个场景类别,然后,视频处理装置从至少两个场景类别 中的至少一个场景类别中分别选取出至少一幅图像,最后,视频处理装置保存选取出的图 像,W生成知识库。
[0274] 从上面可W看出,本发明实施例中的知识库是视频处理装置根据待编码视频生成 的,因此,该知识库与待编码视频之间的相关性较高。另外,视频处理器装置是将待编码视 频进行分割,并划分为至少两个场景类别,然后根据场景类别的划分,从至少一个场景类别 中选取图像的。视频处理装置从场景类别的角度出发,选取图像,并将选取出的图像存储至 知识库,有效地降低了图像库中数据之间的冗余度。该样,本发明技术方案解决了目前图像 库中数据冗余较大,与待编码视频相关性较低的问题。进而,有效的解决了视频编码效率较 低的问题。
[0275] 实施例五
[0276] 本发明实施例提供一种视频处理装置1,如图13所示,包括:
[0277] 分割单元10,用于将待编码视频分割为至少两段场景,W及用于将各段场景划分 为至少两个场景类别。
[027引选取单元11,用于从所述至少两个场景类别中的至少一个场景类别中分别选取出 至少一幅图像。
[0279] 存储单元12,用于保存所述选取单元11选取出的图像,W生成知识库。
[0280] 进一步地,所述选取出的图像中任意两幅图像之间的相似度低于第一预设阔值。
[0281] 进一步地,所述分割单元10,具体用于将每段场景划分为一个场景类别;
[028引或者,
[0283] 所述分割单元10,具体用于检测至少一段场景和其不相邻场景的相似度,并将相 似度大于或等于第二预设阔值的场景划分为同一个场景类别。
[0284] 进一步地,所述选取单元11,具体用于从各段场景中分别选取一幅代表图像。
[0285] 进一步地,如图14所示,所述视频处理装置1还包括计算单元13 ;
[0286] 所述计算单元13,用于计算任意两段不相邻场景的代表图像之间的相似度;所述 相似度使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。
[0287] 进一步地,所述选取单元11,具体用于选取第一场景类别中任意一段场景的第一 预设位置的图像,所述第一场景类别为所述至少一个场景类别中的任意一个场景类别;
[028引所述选取单元11,具体用于根据所述第一场景类别中各段场景的活动性选取图 像,所述活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种 来衡量;其中,所述图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种,所述 特征描述子至少包括尺度不变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的 一种。
[0289] 进一步地,所述第一预设位置属于所述待编码视频中的随机访问点。
[0290] 进一步地,如图14所示,所述视频处理装置1还包括处理单元14 ;
[0291] 所述处理单元14,还用于对选取出的图像进行编码,生成重建图像;
[0292] 所述存储单元12,具体用于保存所述处理单元14生成的重建图像,W生成知识 库。
[0293] 进一步地,所述计算单元13,还用于计算所述第一场景类别中每段场景的活动性。
[0294] 进一步地,如图14所示,所述视频处理装置1还包括确定单元15 ;
[0295] 所述确定单元15,用于根据所述计算单元13计算的每段场景的活动性,确定每段 场景中需要选取图像的数量;
[0296] 所述选取单元11,还用于采用第一预设选取规则,在每段场景中选取图像,所述选 取图像的数量与所述需要选取图像的数量相同。
[0297] 进一步地,当第一场景类别中只包含有一段场景,且在该段场景中需要选取图像 的数量为零时,则将所述第一场景类别需要选取图像的数量修改为一;
[029引当所述第一场景类别中包含至少两段场景,且所有场景中需要选取图像的数量均 为零时,则将所述第一场景类别中其中一段场景需要选取图像的数量修改为一。
[0299] 进一步地,每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关 系,但每段场景中需要选取图像的数量不超过第=预设阔值。
[0300] 进一步地,所述选取单元11,还用于根据选取图像的数量,等间隔或近似等间隔地 从场景中选取出相应数量的图像。
[0301] 进一步地,所述计算单元13,还用于计算所述第一场景类别中位于第二预设位置 的图像的活动性;
[0302] 所述选取单元11,还用于根据所述计算单元13计算的各个位于第二预设位置的 图像的活动性和第二预设选取规则,选取所述第一场景类别中的图像。
[0303] 进一步地,所述处理单元14,还用于从第一幅位于第二预设位置的图像开始,累积 各幅位于第二预设位置的图像的活动性;
[0304] 所述选取单元11,还用于当活动性累积达到第四预设阔值时,选取对应位置的图 像。
[0305] 进一步地,所述第二预设位置属于所述待编码视频中的随机访问点。
[0306] 进一步地,所述选取出的图像属于所述待编码视频中的随机访问点所在的图像。
[0307] 进一步地,所述待编码视频中的随机访问点所在的图像采用帖内编码,或者仅参 考知识库中的至少一幅图像采用帖间编码。
[030引进一步地,如图14所示,所述视频处理装置1还包括获取单元16 ;
[0309] 所述获取单元16,用于获取当前图像,所述当前图像为所述待编码视频中至少一 幅图像;
[0310] 所述选取单元11,还用于从所述知识库中选择所述当前图像的至少一幅参考图 像;
[0311] 所述处理单元14,还用于根据所述选取单元11选择出的至少一幅参考图像对所 述当前图像进行编码。
[0312] 进一步地,所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的 图像。
[0313] 进一步地,所述处理单元14,还用于将所述当前图像和所述知识库中至少一幅图 像进行相似度比较;
[0314] 所述选取单元11,还用于选取相似度超过第五预设阔值的N幅图像作为当前图像 的参考图像,其中N为大于等于1的整数。
[0315] 本发明实施例提供一种视频处理装置,包括分割单元、选取单元和存储单元。视 频处理装置将待编码视频分割为至少两段场景,并将各段场景划分为至少两个场景类别, 然后,视频处理装置从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图 像,最后,视频处理装置保存选取出的图像,W生成知识库。
[0316] 从上面可W看出,本发明实施例中的知识库是视频处理装置根据待编码视频生成 的,因此,该知识库与待编码视频之间的相关性较高。另外,视频处理器装置是将待编码视 频进行分割,并划分为至少两个场景类别,然后根据场景类别的划分,从至少一个场景类别 中选取图像的。视频处理装置从场景类别的角度出发,选取图像,并将选取出的图像存储至 知识库,有效地降低了图像库中数据之间的冗余度。该样,本发明技术方案解决了目前图像 库中数据冗余较大,与待编码视频相关性较低的问题。进而,有效的解决了视频编码效率较 低的问题。
[0317] 实施例六
[031引本发明实施例提供一种视频处理器,如图15所示,该视频处理器包括通信接口 20、处理器21、存储器22和系统总线23,其中,
[0319] 通信接口 20、处理器21和存储器22之间通过系统总线23连接并完成相互间的通 信。
[0320] 处理器21可能为单核或多核中央处理器,或者为特定集成电路,或者为被配置成 实施本发明实施例的一个或多个集成电路。
[0321] 存储器22可W为高速RAM(RandomAccessMemo巧,随机存储器)存储器,也可W 为非易失性存储器(non-volatilememcxry),例如,至少一个磁盘存储器。
[0322] 具体的,处理器21,用于将待编码视频分割为至少两段场景,W及用于将各段场景 划分为至少两个场景类别,W及用于从所述至少两个场景类别中的至少一个场景类别中分 别选取出至少一幅图像。
[0323] 具体的,存储器22,用于保存所述处理器21选取出的图像,W生成知识库。
[0324] 进一步地,所述选取出的图像中任意两幅图像之间的相似度低于第一预设阔值。
[0325] 进一步地,所述处理器21,具体用于将每段场景划分为一个场景类别,或者具体用 于检测至少一段场景和其不相邻场景的相似度,并将相似度大于或等于第二预设阔值的场 景划分为同一个场景类别。
[0326] 进一步地,所述处理器21,具体用于从各段场景中分别选取一幅代表图像。
[0327] 进一步地,所述处理器21,用于计算任意两段不相邻场景的代表图像之间的相似 度;所述相似度使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种 来衡量。
[032引进一步地,所述处理器21,具体用于选取第一场景类别中任意一段场景的第一预 设位置的图像,所述第一场景类别为所述至少一个场景类别中的任意一个场景类别,W及 具体用于根据所述第一场景类别中各段场景的活动性选取图像,所述活动性使用运动矢量 强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量;其中,所述图像特征 至少包括亮度直方图、色度直方图、特征描述子中的一种,所述特征描述子至少包括尺度不 变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。
[0329] 进一步地,所述第一预设位置属于所述待编码视频中的随机访问点。
[0330] 进一步地,所述处理器21,还用于对选取出的图像进行编码,生成重建图像。
[0331] 进一步地,所述存储器22,具体用于保存所述处理器21生成的重建图像,W生成 知识库。
[0332] 进一步地,所述处理器21,还用于计算所述第一场景类别中每段场景的活动性。
[0333] 进一步地,所述处理器21,用于根据每段场景的活动性,确定每段场景中需要选取 图像的数量,W及用于采用第一预设选取规则,在每段场景中选取图像,所述选取图像的数 量与所述需要选取图像的数量相同。
[0334] 进一步地,当第一场景类别中只包含有一段场景,且在该段场景中需要选取图像 的数量为零时,则将所述第一场景类别需要选取图像的数量修改为一;
[0335] 当所述第一场景类别中包含至少两段场景,且所有场景中需要选取图像的数量均 为零时,则将所述第一场景类别中其中一段场景需要选取图像的数量修改为一。
[0336] 进一步地,每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关 系,但每段场景中需要选取图像的数量不超过第=预设阔值。
[0337] 进一步地,所述处理器21,还用于根据选取图像的数量,等间隔或近似等间隔地从 场景中选取出相应数量的图像。
[033引进一步地,所述处理器21,还用于计算所述第一场景类别中位于第二预设位置的 图像的活动性,W及还用于根据各个位于第二预设位置的图像的活动性和第二预设选取规 贝1J,选取所述第一场景类别中的图像。
[0339] 进一步地,所述处理器21,还用于从第一幅位于第二预设位置的图像开始,累积各 幅位于第二预设位置的图像的活动性;
[0340] 所述处理器21,还用于当活动性累积达到第四预设阔值时,选取对应位置的图像。
[0341] 进一步地,所述第二预设位置属于所述待编码视频中的随机访问点。
[0342] 进一步地,所述选取出的图像属于所述待编码视频中的随机访问点所在的图像。
[0343] 进一步地,所述待编码视频中的随机访问点所在的图像采用帖内编码,或者仅参 考知识库中的至少一幅图像采用帖间编码。
[0344] 进一步地,所述处理器21,用于获取当前图像,所述当前图像为所述待编码视频中 至少一幅图像,W及还用于从所述知识库中选择所述当前图像的至少一幅参考图像,W及 还用于根据至少一幅参考图像对所述当前图像进行编码。
[0345] 进一步地,所述当前图像至少包括所述待编码视频中至少一个随机访问点所在的 图像。 [0346] 进一步地,所述处理器21,还用于将所述当前图像和所述知识库中至少一幅图像 进行相似度比较,W及还用于选取相似度超过第五预设阔值的N幅图像作为当前图像的参 考图像,其中N为大于等于1的整数。
[0347] 本发明实施例提供一种视频处理器,视频处理器将待编码视频分割为至少两段场 景,并将各段场景划分为至少两个场景类别,然后,视频处理器从至少两个场景类别中的至 少一个场景类别中分别选取出至少一幅图像,最后,视频处理器保存选取出的图像,W生成 知识库。
[034引从上面可W看出,本发明实施例中的知识库是视频处理器根据待编码视频生成 的,因此,该知识库与待编码视频之间的相关性较高。另外,视频处理器器是将待编码视频 进行分割,并划分为至少两个场景类别,然后根据场景类别的划分,从至少一个场景类别中 选取图像的。视频处理器从场景类别的角度出发,选取图像,并将选取出的图像存储至知识 库,有效地降低了图像库中数据之间的冗余度。该样,本发明技术方案解决了目前图像库中 数据冗余较大,与待编码视频相关性较低的问题。进而,有效的解决了视频编码效率较低的 问题。
[0349] 所属领域的技术人员可W清楚地了解到,为描述的方便和简洁,仅W上述各功能 模块的划分进行举例说明,实际应用中,可W根据需要而将上述功能分配由不同的功能模 块完成,即将装置的内部结构划分成不同的功能模块,W完成W上描述的全部或者部分功 能。上述描述的系统,装置和单元的具体工作过程,可W参考前述方法实施例中的对应过 程,在此不再寶述。
[0350] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可W 通过其它的方式实现。例如,W上所描述的装置实施例仅仅是示意性的,例如,模块或单元 的划分,仅仅为一种逻辑功能划分,实际实现时可W有另外的划分方式,例如多个单元或组 件可W结合或者可W集成到另一个系统,或一些特征可W忽略,或不执行。另一点,所显示 或讨论的相互之间的禪合或直接禪合或通信连接可W是通过一些接口,装置或单元的间接 禪合或通信连接,可W是电性,机械或其它的形式。
[0351] 作为分离部件说明的单元可W是或者也可W不是物理上分开的,作为单元显示的 部件可W是或者也可W不是物理单元,即可W位于一个地方,或者也可W分布到多个网络 单元上。可W根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。 [0巧2] 另外,在本发明各个实施例中的各功能单元可W集成在一个处理单元中,也可W 是各个单元单独物理存在,也可W两个或两个W上单元集成在一个单元中。上述集成的单 元既可W采用硬件的形式实现,也可W采用软件功能单元的形式实现。
[0353] 本领域普通技术人员可W理解;实现上述方法实施例的全部或部分步骤可W通过 程序指令相关的硬件来完成,前述的程序可W存储于一计算机可读取存储介质中,该程序 在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括;ROM、RAM、磁碟或者 光盘等各种可W存储程序代码的介质。
[0巧4]W上,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉 本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在 本发明的保护范围之内。因此,本发明的保护范围应W权利要求的保护范围为准。
【主权项】
1. 一种视频处理方法,其特征在于,包括: 将待编码视频分割为至少两段场景; 将各段场景划分为至少两个场景类别; 从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像; 保存选取出的图像,以生成知识库。2. 根据权利要求1所述的视频处理方法,其特征在于,所述选取出的图像中任意两幅 图像之间的相似度低于第一预设阈值。3. 根据权利要求1所述的视频处理方法,其特征在于,所述将各段场景划分为至少两 个场景类别,包括: 每段场景为一个场景类别; 或者, 检测至少一段场景和其不相邻场景的相似度,并将相似度大于或等于第二预设阈值的 场景划分为同一个场景类别。4. 根据权利要求3所述的视频处理方法,其特征在于,所述检测至少一段场景和其不 相邻场景的相似度,包括: 从各段场景中分别选取一幅代表图像; 计算任意两段不相邻场景的代表图像之间的相似度;所述相似度使用两幅图像之间的 图像差、特征描述子相似度或运动补偿残差中的一种来衡量。5. 根据权利要求1所述的视频处理方法,其特征在于,所述从所述至少两个场景类别 中的至少一个场景类别中分别选取出至少一幅图像,包括: 选取第一场景类别中任意一段场景的第一预设位置的图像,所述第一场景类别为所述 至少一个场景类别中的任意一个场景类别; 或者, 根据所述第一场景类别中各段场景的活动性选取图像,所述活动性使用运动矢量强 度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量;其中,所述图像特征至 少包括亮度直方图、色度直方图、特征描述子中的一种,所述特征描述子至少包括尺度不变 转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。6. 根据权利要求5所述的视频处理方法,其特征在于,所述第一预设位置属于所述待 编码视频中的随机访问点。7. 根据权利要求1所述的视频处理方法,其特征在于,所述保存选取出的图像,以生成 知识库,具体包括: 对选取出的图像进行编码,生成重建图像; 保存重建图像,以生成知识库。8. 根据权利要求5所述的视频处理方法,其特征在于,所述根据所述第一场景类别中 各段场景的活动性选取图像,包括: 计算所述第一场景类别中每段场景的活动性; 根据所述每段场景的活动性,确定每段场景中需要选取图像的数量; 采用第一预设选取规则,在每段场景中选取图像,所述选取图像的数量与所述需要选 取图像的数量相同。9. 根据权利要求8所述的视频处理方法,其特征在于, 当第一场景类别中只包含有一段场景,且在该段场景中需要选取图像的数量为零时, 则将所述第一场景类别需要选取图像的数量修改为一; 当所述第一场景类别中包含至少两段场景,且所有场景中需要选取图像的数量均为零 时,则将所述第一场景类别中其中一段场景需要选取图像的数量修改为一。10. 根据权利要求8或9所述的视频处理方法,其特征在于, 每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系,但每段场景中 需要选取图像的数量不超过第三预设阈值。11. 根据权利要求8所述的视频处理方法,其特征在于,所述采用第一预设选取规则, 在每段场景中选取图像,包括: 根据选取图像的数量,等间隔或近似等间隔地从场景中选取出相应数量的图像。12. 根据权利要求5所述的视频处理方法,其特征在于,所述根据所述第一场景类别中 各段场景的活动性选取图像,包括: 计算所述第一场景类别中位于第二预设位置的图像的活动性; 根据各个位于第二预设位置的图像的活动性和第二预设选取规则,选取所述第一场景 类别中的图像。13. 根据权利要求12所述的视频处理方法,其特征在于,所述根据各个位于第二预设 位置的图像的活动性和第二预设选取规则,选取所述第一场景类别中的图像,包括: 从第一幅位于第二预设位置的图像开始,累积各幅位于第二预设位置的图像的活动 性; 当活动性累积达到第四预设阈值时,选取对应位置的图像; 将活动性清零,从选取出的图像所在位置的下一个第二预设位置开始重复上述累积活 动性、达到第四预设阈值时选取对应位置图像的过程,直到遍历完所述第一场景类别中所 有位于第二预设位置的图像。14. 根据权利要求12所述的视频处理方法,其特征在于,所述第二预设位置属于所述 待编码视频中的随机访问点。15. 根据权利要求1-14中任意一项所述的视频处理方法,其特征在于,所述选取出的 图像属于所述待编码视频中的随机访问点所在的图像。16. 根据权利要求6、14、15中任意一项所述的视频处理方法,其特征在于,所述待编码 视频中的随机访问点所在的图像采用帧内编码,或者仅参考知识库中的至少一幅图像采用 帧间编码。17. 根据权利要求1-16中任意一项所述的视频处理方法,其特征在于,所述方法还包 括: 获取当前图像,所述当前图像为所述待编码视频中至少一幅图像; 从所述知识库中选择所述当前图像的至少一幅参考图像; 根据所述至少一幅参考图像对所述当前图像进行编码。18. 根据权利要求17所述的视频处理方法,其特征在于,所述当前图像至少包括所述 待编码视频中至少一个随机访问点所在的图像。19. 根据权利要求17所述的视频处理方法,其特征在于,从所述知识库中选择所述当 前图像的至少一幅参考图像,包括: 将所述当前图像和所述知识库中至少一幅图像进行相似度比较; 选取相似度超过第五预设阈值的N幅图像作为当前图像的参考图像,其中N为大于等 于1的整数。20. -种视频处理装置,其特征在于,包括: 分割单元,用于将待编码视频分割为至少两段场景,以及用于将各段场景划分为至少 两个场景类别; 选取单元,用于从所述至少两个场景类别中的至少一个场景类别中分别选取出至少一 幅图像; 存储单元,用于保存所述选取单元选取出的图像,以生成知识库。21. 根据权利要求20所述的视频处理装置,其特征在于,所述选取出的图像中任意两 幅图像之间的相似度低于第一预设阈值。22. 根据权利要求20所述的视频处理装置,其特征在于, 所述分割单元,具体用于将每段场景划分为一个场景类别; 或者, 所述分割单元,具体用于检测至少一段场景和其不相邻场景的相似度,并将相似度大 于或等于第二预设阈值的场景划分为同一个场景类别。23. 根据权利要求22所述的视频处理装置,其特征在于, 所述选取单元,具体用于从各段场景中分别选取一幅代表图像; 所述视频处理装置还包括计算单元; 所述计算单元,用于计算任意两段不相邻场景的代表图像之间的相似度;所述相似度 使用两幅图像之间的图像差、特征描述子相似度或运动补偿残差中的一种来衡量。24. 根据权利要求20所述的视频处理装置,其特征在于, 所述选取单元,具体用于选取第一场景类别中任意一段场景的第一预设位置的图像, 所述第一场景类别为所述至少一个场景类别中的任意一个场景类别; 所述选取单元,具体用于根据所述第一场景类别中各段场景的活动性选取图像,所述 活动性使用运动矢量强度、图像差、运动补偿残差或者图像特征变化中的至少一种来衡量; 其中,所述图像特征至少包括亮度直方图、色度直方图、特征描述子中的一种,所述特征描 述子至少包括尺度不变转换SIFT特征描述子、加速稳健特征SURF特征描述子中的一种。25. 根据权利要求24所述的视频处理装置,其特征在于,所述第一预设位置属于所述 待编码视频中的随机访问点。26. 根据权利要求20所述的视频处理装置,其特征在于, 所述视频处理装置还包括处理单元; 所述处理单元,还用于对选取出的图像进行编码,生成重建图像; 所述存储单元,具体用于保存所述处理单元生成的重建图像,以生成知识库。27. 根据权利要求24所述的视频处理装置,其特征在于, 所述计算单元,还用于计算所述第一场景类别中每段场景的活动性; 所述视频处理装置还包括确定单元; 所述确定单元,用于根据所述计算单元计算的每段场景的活动性,确定每段场景中需 要选取图像的数量; 所述选取单元,还用于采用第一预设选取规则,在每段场景中选取图像,所述选取图像 的数量与所述需要选取图像的数量相同。28. 根据权利要求27所述的视频处理装置,其特征在于, 当第一场景类别中只包含有一段场景,且在该段场景中需要选取图像的数量为零时, 则将所述第一场景类别需要选取图像的数量修改为一; 当所述第一场景类别中包含至少两段场景,且所有场景中需要选取图像的数量均为零 时,则将所述第一场景类别中其中一段场景需要选取图像的数量修改为一。29. 根据权利要求27或28所述的视频处理装置,其特征在于, 每段场景中需要选取图像的数量和该段场景的活动性呈单调递增关系,但每段场景中 需要选取图像的数量不超过第三预设阈值。30. 根据权利要求27所述的视频处理装置,其特征在于, 所述选取单元,还用于根据选取图像的数量,等间隔或近似等间隔地从场景中选取出 相应数量的图像。31. 根据权利要求24所述的视频处理装置,其特征在于, 所述计算单元,还用于计算所述第一场景类别中位于第二预设位置的图像的活动性; 所述选取单元,还用于根据所述计算单元计算的各个位于第二预设位置的图像的活动 性和第二预设选取规则,选取所述第一场景类别中的图像。32. 根据权利要求31所述的视频处理装置,其特征在于, 所述处理单元,还用于从第一幅位于第二预设位置的图像开始,累积各幅位于第二预 设位置的图像的活动性; 所述选取单元,还用于当活动性累积达到第四预设阈值时,选取对应位置的图像。33. 根据权利要求31所述的视频处理装置,其特征在于,所述第二预设位置属于所述 待编码视频中的随机访问点。34. 根据权利要求20-33中任意一项所述的视频处理装置,其特征在于,所述选取出的 图像属于所述待编码视频中的随机访问点所在的图像。35. 根据权利要求25、33、34中任意一项所述的视频处理装置,其特征在于,所述待编 码视频中的随机访问点所在的图像采用帧内编码,或者仅参考知识库中的至少一幅图像采 用帧间编码。36. 根据权利要求20-35中任意一项所述的视频处理装置,其特征在于,所述视频处理 装置还包括获取单元; 所述获取单元,用于获取当前图像,所述当前图像为所述待编码视频中至少一幅图 像; 所述选取单元,还用于从所述知识库中选择所述当前图像的至少一幅参考图像; 所述处理单元,还用于根据所述选取单元选择出的至少一幅参考图像对所述当前图像 进行编码。37. 根据权利要求36所述的视频处理装置,其特征在于,所述当前图像至少包括所述 待编码视频中至少一个随机访问点所在的图像。38. 根据权利要求36所述的视频处理装置,其特征在于, 所述处理单元,还用于将所述当前图像和所述知识库中至少一幅图像进行相似度比 较; 所述选取单元,还用于选取相似度超过第五预设阈值的N幅图像作为当前图像的参考 图像,其中N为大于等于1的整数。
【专利摘要】本发明的实施例提供一种视频处理方法及装置,涉及多媒体处理技术领域,能够有效提高视频编码的效率。该方法包括:将待编码视频分割为至少两段场景;将各段场景划分为至少两个场景类别;从至少两个场景类别中的至少一个场景类别中分别选取出至少一幅图像;保存选取出的图像,以生成知识库。
【IPC分类】H04N19/87, H04N19/527, H04N19/179
【公开号】CN104902279
【申请号】CN201510271487
【发明人】虞露, 左旭光, 赵寅, 杨海涛
【申请人】浙江大学, 华为技术有限公司
【公开日】2015年9月9日
【申请日】2015年5月25日

最新回复(0)