底层视觉任务处理方法、装置及电子设备

xiaoxiao3月前  27


本申请属于图像处理,尤其涉及一种底层视觉任务处理方法、装置及电子设备。


背景技术:

1、底层视觉任务包括包括但不限于图像复原、图像增强、图像特征提取和图像风格迁移等。现有技术当中,提出了一系列方法来解决各种底层视觉任务,其中许多方法在特定的单个任务中取得了值得称赞的性能。然而,特定任务模型的定制开发通常被证明是耗时且费力的。

2、近年来,人工智能技术出现了向通用模型发展的显着趋势。在自然语言处理(nlp)领域,大型语言模型(llm)如gpt系列(gpt3,chartgpt等)表现出色。类似的研究也逐渐出现在计算机视觉领域,例如通用图像分割模型sam和通用物体追踪模型tam等。然而,现有工作的探索主要集中在感知类的高级视觉任务上,例如检测和分割。关于底层视觉任务的通用模型的研究仍然较少。

3、尽管当前的一些方法,例如mae-vqgan和painter涉及一些图像处理任务,但它们在广泛的底层视觉任务中的有效性仍有待探索,这些方法无法适用于多种不同类型的底层视觉任务的处理,泛化能力较弱,在面对一些底层视觉任务的处理时,图像重建效果不佳。


技术实现思路

1、本申请提供了一种底层视觉任务处理方法、装置及电子设备,旨在解决现有视觉处理方法适用性较差,泛化能力较弱,从而导致在面对大量不同类型的底层视觉任务处理时,图像的重建效果不佳等问题。

2、第一方面,本申请提供了一种底层视觉任务处理方法,所述方法包括:

3、获取待处理的图像;

4、将所述待处理图像输入训练好的图像处理模型进行目标视觉任务处理;所述图像处理模型包括主网络及任务提示器;

5、基于所述任务提示器获取目标视觉任务的任务提示信息;

6、通过所述主网络根据获取的任务提示信息对所述待处理图像进行目标视觉任务处理,以输出处理后的重建图像。

7、第二方面,本申请提供了一种模型训练方法,所述方法包括:

8、获取样本图像;所述样本图像包括多个带有任务标签的图像对,所述图像对包括原始图像及所述原始图像经过其任务标签对应的视觉任务处理后的结果图像;

9、将所述样本图像输入预先构建的图像处理模型中;所述图像处理模型包括主网络及任务提示器;

10、将带有目标任务标签中的一图像对输入所述任务提示器中,通过所述任务提示器对所述图像对进行特征提取,以获取目标视觉任务的任务提示信息;

11、将带有目标任务标签中的其它图像对输入所述主网络,并通过所述主网络根据获取的任务提示信息对所述原始图像进行目标视觉任务处理,以输出处理后的预测图像;

12、基于所述原始图像对应的所述预测图像与所述结果图像进行对比结果对所述主网络及所述任务提示器进行训练。

13、第三方面,本申请提供了一种底层视觉任务处理装置,所述装置包括:

14、获取模块,用于获取待处理的图像;

15、处理模块,用于将所述待处理图像输入训练好的图像处理模型;所述图像处理模型包括主网络及任务提示器;以及用于基于所述任务提示器获取目标视觉任务的任务提示信息;还用于通过所述主网络根据获取的任务提示信息对所述待处理图像进行目标视觉任务处理,以输出处理后的重建图像。

16、第四方面,本申请提供了一种电子设备,所述电子设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的底层视觉任务处理方法或者实现上述的模型训练方法。

17、第五方面,一种存储介质,其上存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行,以实现如上所述的底层视觉任务处理方法或者实现上述的模型训练方法。

18、第六方面,一种计算机程序产品,计算机程序产品包括计算机可读指令,计算机可读指令存储在存储介质中,电子设备的一个或多个处理器从存储介质读取计算机可读指令,加载并执行该计算机可读指令,使得电子设备实现如上所述的底层视觉任务处理方法或者实现上述的模型训练方法。

19、与现有技术相比,本申请的底层视觉任务处理方法,采用了基于主网络及任务提示器构建的图像处理模型,其中主网络用于底层视觉任务的处理,并通过任务提示器对主网络进行视觉任务处理的提示,以引导主网络进行相应的视觉任务处理;该模型具有很强的泛化能力和适用性,基于该模型的视觉任务处理方法,可以广泛应用于各类型的底层视觉任务的处理,从而提高最终的图像重建效果。



技术特征:

1.一种底层视觉任务处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过所述主网络根据获取的任务提示信息对所述待处理图像进行目标视觉任务处理,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述任务提示器获取待处理图像的任务提示信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述主网络是基于x-restormer网络构建的。

5.根据权利要求4所述的方法,其特征在于,所述主网络包括编码器和解码器,所述编码器与所述解码器均包括交替连接的至少一个转置自注意力块和至少一个空间自注意力块。

6.根据权利要求1所述的方法,其特征在于,所述目标视觉任务的任务类型包括图像恢复、图像增强、图像特征提取以及图像风格迁移中的任一项。

7.一种模型训练方法,其特征在于,所述方法包括:

8.根据权利要求7所述的模型训练方法,其特征在于,所述获取样本图像,包括:

9.一种底层视觉任务处理装置,其特征在于,包括:

10.一种电子设备,其特征在于,所述电子设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的底层视觉任务处理方法或实现权利要求7至8任一项所述的模型训练方法。


技术总结
本申请公开了一种底层视觉任务处理方法、装置及电子设备,该方法包括获取待处理的图像;将待处理图像输入训练好的图像处理模型进行目标视觉任务处理;图像处理模型包括主网络及任务提示器;基于任务提示器获取目标视觉任务的任务提示信息;通过主网络根据获取的任务提示信息对待处理图像进行目标视觉任务处理,以输出处理后的重建图像。本申请的底层视觉任务处理方法,采用了基于主网络及任务提示器构建的图像处理模型,其中主网络用于底层视觉任务的处理,并通过任务提示器引导主网络进行相应的视觉任务处理;该模型具有很强的泛化能力和适用性,在面对大量各类型的视觉处理任务时都可以准确完成,从而提高最终的图像重建效果。

技术研发人员:陈翔宇,刘翼豪,蒲沅东,张文龙,周建涛,乔宇,董超
受保护的技术使用者:中国科学院深圳先进技术研究院
技术研发日:
技术公布日:2024/9/23

最新回复(0)