图像生成方法、装置、设备及存储介质与流程

xiaoxiao6月前 40

本申请涉及人工智能(artificial intelligence，ai)，特别涉及一种图像生成方法、装置、设备及存储介质。

背景技术：

1、在计算机视觉领域中，利用图像生成模型来生成图像逐渐成为一项较为成熟的技术。

2、相关技术中，在生成数字对象的图像时，通常先获取描述文本，利用从描述文本中提取得到的文本特征来指导针对噪声图像的去噪过程，从而生成数字对象的对象。

3、然而，上述相关技术中，利用描述文本来生成数字对象的图像，图像生成效果较差。

技术实现思路

1、本申请实施例提供了一种图像生成方法、装置、设备及存储介质，能够提升图像生成效果。本申请提出的技术方案如下：

2、根据本申请实施例的一个方面，提供了一种图像生成方法，所述方法包括：

3、获取描述文本和骨骼信息，所述描述文本用于描述数字对象，所述骨骼信息用于指示所述数字对象的姿态；

4、编码所述描述文本得到文本特征；

5、基于所述骨骼信息，得到骨骼特征；

6、基于所述文本特征和所述骨骼特征，执行针对噪声图像的至少一次去噪过程，生成所述数字对象的图像。

7、根据本申请实施例的一个方面，提供了一种图像生成装置，所述装置包括：

8、获取模块，用于获取描述文本和骨骼信息，所述描述文本用于描述数字对象，所述骨骼信息用于指示所述数字对象的姿态；

9、编码模块，用于编码所述描述文本得到文本特征；

10、所述编码模块，还用于基于所述骨骼信息，得到骨骼特征；

11、图像生成模块，用于基于所述文本特征和所述骨骼特征，执行针对噪声图像的至少一次去噪过程，生成所述数字对象的图像。

12、根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述图像生成方法。

13、根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成方法。

14、根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由处理器加载并执行以实现上述图像生成方法。

15、本申请实施例提供的技术方案可以带来如下有益效果：

16、在生成数字对象的图像过程中，除了利用描述文本的文本特征来指导去噪过程之外，还额外引入骨骼信息的骨骼特征来指导去噪过程。这使得生成的数字对象的图像不仅符合描述文本，还能进一步符合骨骼信息所指示的数字对象的姿态，从而提升了生成的数字对象的图像的图像效果。

技术特征：

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述文本特征和所述骨骼特征，执行针对噪声图像的至少一次去噪过程，生成所述数字对象的图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述文本特征和所述骨骼特征，针对第t-1次去噪过程的去噪结果执行所述第t次去噪过程，得到所述第t次去噪过程的去噪结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述图像特征包括多个层级的图像编码特征和多个层级的图像解码特征；

6.根据权利要求5所述的方法，其特征在于，所述基于所述文本特征、所述骨骼特征以及所述图像特征，执行针对噪声图像的至少一次去噪过程，生成所述数字对象的图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述文本特征、所述骨骼特征以及所述至少一个层级的图像编码特征和所述至少一个层级的图像解码特征，针对第t-1次去噪过程的去噪结果执行所述第t次去噪过程，得到所述第t次去噪过程的去噪结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述文本特征和所述多个层级的图像编码特征，执行针对所述第t-1次去噪过程的去噪结果的至少一次编码过程，得到编码特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述多层级编码包括多个层级的编码；

10.根据权利要求7所述的方法，其特征在于，所述骨骼特征包括多个层级的骨骼解码特征；

11.根据权利要求10所述的方法，其特征在于，所述基于所述文本特征、所述骨骼特征以及所述多个层级的图像解码特征，执行针对所述编码特征的至少一次解码过程，得到所述第t次去噪过程的去噪结果，包括：

12.根据权利要求11所述的方法，其特征在于，所述多层级解码包括多个层级的解码；

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

15.根据权利要求14所述的方法，其特征在于，所述基于所述文本特征、所述骨骼特征、所述图像特征，执行针对所述参考数字对象的图像的至少一次去噪过程，生成所述数字对象的图像，包括：

16.根据权利要求14所述的方法，其特征在于，所述方法还包括：

17.根据权利要求16所述的方法，其特征在于，所述基于所述参考视频，确定所述描述文本、所述参考图像以及所述参考音频，包括：

18.一种图像生成装置，其特征在于，所述装置包括：

19.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至17任一项所述的图像生成方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至17任一项所述的图像生成方法。

21.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机程序，以实现如权利要求1至17任一项所述的图像生成方法。

技术总结
本申请公开了一种图像生成方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：获取描述文本和骨骼信息，描述文本用于描述数字对象，骨骼信息用于指示数字对象的姿态；编码描述文本，得到文本特征；基于骨骼信息，得到骨骼特征；基于文本特征和骨骼特征，执行针对噪声图像的至少一次去噪过程，生成数字对象的图像。所述方法提升了图像生成效果。

技术研发人员：蔡海军,段纪丁
受保护的技术使用者：广州酷狗计算机科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)