一种基于掩码的视频局部物体编辑方法及装置与流程

xiaoxiao3月前 27

本发明属于视频编辑领域，具体涉及一种基于掩码的视频局部物体编辑方法及装置。

背景技术：

1、随着数字媒体技术的飞速发展，视频已成为人们获取信息和娱乐的主要方式之一。视频内容的丰富性和多样性要求视频编辑技术不断进步以满足日益增长的编辑需求。

2、目前，视频编辑技术主要集中在非线性编辑、特效添加和色彩校正等方面，但对于视频中特定局部物体的编辑，现有技术仍存在诸多不足。例如，在电影制作中，导演可能需要替换场景中的某个物体，或者在广告中增加新的产品展示，这些操作往往需要复杂的手动操作和高成本的后期处理。现有的视频编辑算法如pix2video在处理较长视频，会出现失真的现象导致编辑结果质量下降。fatezero方法需要将真实视频进行反转，然后才能进行编辑操作，增加了计算成本和实现的复杂性。

3、针对上述的这些问题，本发明提出了一种创新的视频中局部物体编辑技术。该技术利用扩散模型和图像分割算法，能够精确识别视频中的特定物体，并进行实时的编辑和替换，极大地提高了编辑效率和视频质量。未来，该技术有望广泛应用于电影、广告、虚拟现实等多个领域，推动视频编辑技术的发展和相关产业的创新。

技术实现思路

1、本发明的目的是为解决人工方式对各类视频中的局部物体进行编辑费时费力且需要操作人员对图像编辑软件具有较高的技术水平，导致无法在短时间内编辑大量视频的问题，而提出了一种基于掩码的视频局部物体编辑方法及装置，一种基于掩码的视频局部物体编辑方法包括：

2、将需要编辑的视频按帧进行切分并得到全部帧的图像序列；

3、使用预训练的图像分割模型根据第一帧的图像和包围盒得到掩码；

4、根据第一帧掩码，使用物体追踪算法追踪后续每帧中同样的物体，同样使用图像分割模型得到每一帧的掩码；

5、利用预训练的sd模型中的编码器将第一帧图像编码到隐空间，随机采样一个同样分辨率的高斯噪音；

6、根据给定的局部物体描述文本使用sd模型对高斯噪音进行迭代去噪；得到此次迭代结果的隐空间表示；

7、通过掩码将去噪结果与加噪后的原始图像合并，重复迭代步骤，每次迭代得到的注意力信息替换原sd模型中的注意力，并保存每次迭代的注意力信息；

8、将所有帧均进行多次迭代；处理后续帧时都根据前帧的注意力信息进行注意力融合，完成所有帧的编辑后，使用sd模型的解码器将混合结果解码回像素空间，得到编辑后的视频。

9、进一步地，所述包围盒通过如下步骤得到：使用图像编辑工具对图像选择需要编辑的局部物体，获得需要编辑区域的包围盒。

10、进一步地，所述迭代结果的隐空间表示具体为：每一次迭代完成后，将获得的第一帧图像的隐空间表示加入相同迭代次数的噪声。

11、进一步地，所述通过掩码将去噪结果与加噪后的原始图像合并具体为：

12、根据掩码将加入噪声的隐空间与此次迭代的高斯噪声进行混合，即在掩码值为0的区域等于加入噪声的隐空间，在掩码值为1的区域等于此次迭代的高斯噪声，将融合后的结果作为下一步模型的输入。

13、进一步地，在第f帧的第t次迭代中注意力信息具体计算包括：

14、

15、其中代表第i帧注意力所占的权重，代表第f帧第t次迭代的注意力结果；其中保存的注意力包括query、key和value，分别通过上式计算。

16、进一步地，第f帧的第t次迭代中的注意力信息具体计算包括：

17、

18、其中代表第f帧第t次迭代的注意力结果；保存的注意力包括query、key和value，分别通过上式计算。

19、进一步地，在进行注意力融合时，引入帧间差异度量机制，计算当前帧与前帧之间的视觉差异，并根据差异程度动态调整融合权重。

20、进一步地，在获取全部帧的图像序列后，对于每一帧图像，使用物体检测算法进行筛查，判断是否存在待编辑物体；若检测结果为存在待编辑物体，则将该帧标记为有效帧；若不存在，则标记为无效帧，仅对有效帧应用掩码提取和编辑处理，而跳过无效帧的详细编辑，最终将处理过的有效帧与保留的无效帧按顺序拼接，形成完整的编辑后视频。

21、进一步地，所述sd模型中集成任务编码器，用于识别和理解用户的编辑任务，并将这些任务转换为sd模型能够处理的特征向量；任务转换的特征向量与sd模型的时间步t的编码结果进行拼接，集成任务编码器时，模型根据任务编码器的反馈动态调整参数。

22、另一方面，提供了一种基于掩码的视频局部物体编辑装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-9中任一项所述的一种基于掩码的视频局部物体编辑方法。

23、有益效果：

24、上述的基于掩码的视频局部物体编辑方法，主要优点是不需要训练就能实现视频中局部物体的编辑功能，通过掩码的策略，减少所需的计算成本和复杂性。首先，使用模板匹配追踪的方式来定位后续每一帧物体的位置，只需要在第一帧提供掩码就能完成整个视频中物体的定位。其次，根据人工给定一段描述来对第一帧图像中的物体进行编辑，使用掩码的策略使得在编辑局部物体的同时很好的保护物体周围的信息不被修改。最后，考虑到整个视频的连续性，在对每一帧进行编辑的同时，通过前几帧的隐空间信息和注意力来编辑该帧的内容，保证了时间上物体运动的连贯与一致。

技术特征：

1.一种基于掩码的视频局部物体编辑方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种基于掩码的视频局部物体编辑方法，其特征在于，所述包围盒通过如下步骤得到：使用图像编辑工具对图像选择需要编辑的局部物体，获得需要编辑区域的包围盒。

3.根据权利要求1所述的一种基于掩码的视频局部物体编辑方法，其特征在于，所述迭代结果的隐空间表示具体为：每一次迭代完成后，将获得的第一帧图像的隐空间表示加入相同迭代次数的噪声。

4.根据权利要求3所述的一种基于掩码的视频局部物体编辑方法，其特征在于，所述通过掩码将去噪结果与加噪后的原始图像合并具体为：

5.根据权利要求1所述的一种基于掩码的视频局部物体编辑方法，其特征在于，在第f帧的第t次迭代中注意力信息具体计算包括：

6.根据权利要求1所述的一种基于掩码的视频局部物体编辑方法，其特征在于，第f帧的第t次迭代中的注意力信息具体计算包括：

7.根据权利要求1所述的一种基于掩码的视频局部物体编辑方法，其特征在于，在进行注意力融合时，引入帧间差异度量机制，计算当前帧与前帧之间的视觉差异，并根据差异程度动态调整融合权重。

8.根据权利要求1所述的一种基于掩码的视频局部物体编辑方法，其特征在于，在获取全部帧的图像序列后，对于每一帧图像，使用物体检测算法进行筛查，判断是否存在待编辑物体；若检测结果为存在待编辑物体，则将该帧标记为有效帧；若不存在，则标记为无效帧，仅对有效帧应用掩码提取和编辑处理，而跳过无效帧的详细编辑，最终将处理过的有效帧与保留的无效帧按顺序拼接，形成完整的编辑后视频。

9.根据权利要求1所述的一种基于掩码的视频局部物体编辑方法，其特征在于，所述sd模型中集成任务编码器，用于识别和理解用户的编辑任务，并将这些任务转换为sd模型能够处理的特征向量；任务转换的特征向量与sd模型的时间步t的编码结果进行拼接，集成任务编码器时，模型根据任务编码器的反馈动态调整参数。

10.一种基于掩码的视频局部物体编辑装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，实现如权利要求1-9中任一项所述的一种基于掩码的视频局部物体编辑方法。

技术总结
本发明公开了一种基于掩码的视频局部物体编辑方法及装置，该方法包括：首先对视频分割成帧，得到图像序列；在第一帧中选取并优化目标物体的掩码，利用模板匹配和预训练的图像分割模型追踪并优化后续帧中的物体掩码；通过预训练的SD模型对第一帧进行编码并引入高斯噪声；根据给定文本描述，使用SD模型去噪并生成编辑后的图像；最后，通过迭代处理和解码过程完成整帧图像的编辑，并在处理后续帧时融合前几帧的编辑结果和注意力信息。由于该方法将视频编辑建立在图像编辑的基础之上，可以利用现有预训练文本图像模型的能力，不需要重新训练模型。此外在处理后续每一帧时都融合了前几帧的注意力信息，保证了编辑后视频的连续性。

技术研发人员：王忠豪,邹常青,凌泽宇,赵志峰
受保护的技术使用者：之江实验室
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)