使用K最近邻扩散的文本到图像生成的制作方法

xiaoxiao9月前 43

本公开总体涉及在图像数据集上训练的自适应人工智能(artificialintelligence，ai)图像生成模型。更具体地，本公开包括使用k最近邻(k-nearest-neighbor，knn)扩散，响应于文本输入来生成图像、贴纸或动画等。

背景技术：

1、最近，大规模生成式网络已经应用于从文本生成超逼真图像。这些文本到图像模型展示了零次(zero-shot)功能。然而，这些模型需要大型网络规模的成对文本-图像数据集和大量参数(例如，数十亿)。当前的文本到图像生成框架通常使用成对的文本-图像数据集来训练该文本到图像生成框架的模型。一些文本到图像生成框架可以通过在训练和推理中交替地使用预先训练模型的联合文本-图像嵌入，而不需要成对的文本-图像数据集。然而，联合嵌入空间中的文本分布与图像分布之间的差距导致低得多的质量结果。可以在训练期间将噪声添加到图像嵌入中(从而通过噪声使图像分布和文本分布彼此相似)，以帮助消除该差距。然而，例如与图像搜索相比，这些模型缺乏控制和一致性。如此，需要一个更易得到和适应性更强的生成模型。

技术实现思路

1、本主题公开提供了用于使用knn扩散模型进行文本到图像生成的系统和方法。在本公开的一个方面，该方法包括：接收文本输入；从嵌入空间中的数据集确定该文本输入的文本嵌入的k个最接近的图像嵌入；连接文本嵌入和该k个最接近的图像嵌入；将所连接的嵌入映射到特征空间中；以及基于该特征空间生成与该文本输入相关联的图像。

2、本公开的另一方面涉及一种被配置用于使用knn扩散模型进行文本到图像生成的系统。该系统包括一个或多个处理器以及存储器，该存储器存储有指令，这些指令在被该一个或多个处理器执行时，使得该系统执行各操作。这些操作包括：接收文本输入；从该文本输入中提取文本嵌入；从嵌入空间中的数据集中确定该文本嵌入的k个最接近的图像嵌入；连接该文本嵌入和该k个最接近的图像嵌入；将所连接的嵌入映射到特征空间中；以及基于该特征空间生成与该文本输入相关联的图像。

3、本公开的又一方面涉及一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质在其上包含有指令，这些指令能够由一个或多个处理器执行，以执行用于使用knn扩散模型进行文本到图像生成的一种或多种方法，并使该一个或多个处理器：接收文本输入；从该文本输入提取文本嵌入；从嵌入空间中的数据集中确定该文本嵌入的k个最接近的图像嵌入；连接该文本嵌入和该k个最接近的图像嵌入；将所连接的嵌入映射到联合多模态文本-图像空间；以及基于该特征空间生成与文本输入相关联的图像。该数据集可以是贴纸数据集，并且该图像可以是基于所接收的文本输入的贴纸。

4、根据本公开的内容，这些和其它实施例将是显而易见的。应当理解的是，根据以下具体实施方式，本主题技术的其它配置对于本领域技术人员来说将是显而易见的，其中，通过举例的方式示出和描述了本主题技术的各种配置。正如将认识到的，本主题技术能够具有其它且不同的配置，并且这些配置的多个细节能够在各种其它方面进行修改，所有这些都不脱离开本主题技术的范围。因此，附图和具体实施方式本质上被视为是说明性的，而不是限制性的。

技术特征：

1.一种计算机实现的方法，所述计算机实现的方法由至少一个处理器执行，以使用knn扩散模型进行文本到图像生成，所述方法包括：

2.根据权利要求1所述的计算机实现的方法，还包括：从所述文本输入中提取文本嵌入。

3.根据权利要求1所述的计算机实现的方法，其中，所述数据集是贴纸数据集，并且所述图像是与所述文本输入相关联的贴纸。

4.根据权利要求1所述的计算机实现的方法，进一步包括：基于索引从所述数据集中的多个图像样本中确定所述k个最接近的图像嵌入，其中，所述多个图像样本是通过快速knn搜索来索引的。

5.根据权利要求1所述的计算机实现的方法，还包括：使用预先训练的文本编码器对所述文本输入进行编码，以生成所述文本嵌入。

6.根据权利要求1所述的计算机实现的方法，其中，所述k个最接近的图像嵌入是从对比语言-图像预训练clip嵌入空间中的k个最接近的图像中检索的。

7.根据权利要求1所述的计算机实现的方法，其中，所述特征空间是联合多模态文本-图像空间。

8.根据权利要求1所述的计算机实现的方法，还包括：用掩码令牌初始化所述图像嵌入。

9.根据权利要求1所述的计算机实现的方法，还包括：训练所述knn扩散模型，其中，所述训练包括：

10.根据权利要求9所述的计算机实现的方法，还包括：

11.一种用于使用knn扩散模型进行文本到图像生成的系统，所述系统包括：

12.根据权利要求11所述的系统，其中，所述特征空间是联合多模态文本-图像空间。

13.根据权利要求11所述的系统，其中，所述数据集是贴纸数据集，并且所述图像是与所述文本输入相关联的贴纸。

14.根据权利要求11所述的系统，其中，所述一个或多个处理器还执行指令，以基于索引从数据集中的多个图像样本中确定所述k个最接近的图像嵌入，其中，所述多个图像样本是通过快速knn搜索来索引的。

15.根据权利要求11所述的系统，其中，所述一个或多个处理器还执行指令，以使用预先训练的文本编码器对所述文本输入编码，以生成所述文本嵌入。

16.根据权利要求11所述的系统，其中，所述k个最接近的图像嵌入是从对比语言-图像预训练clip嵌入空间中的k个最接近的图像中检索的。

17.根据权利要求11所述的系统，其中，所述一个或多个处理器还执行指令，以用掩码令牌初始化所述图像嵌入。

18.根据权利要求11所述的系统，其中，所述一个或多个处理器还执行指令，以训练所述knn扩散模型，所述指令使所述系统：

19.根据权利要求18所述的系统，其中，所述一个或多个处理器还执行指令，以：

20.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质在其上包含有指令，所述指令能够被一个或多个处理器执行，以执行用于使用knn扩散模型进行文本到图像生成的方法，并使得所述一个或多个处理器：

技术总结
公开了使用K最近邻扩散的文本到图像生成。一种用于使用KNN扩散模型进行文本‑图像生成的方法和系统。该方法包括：接收文本输入，以及从嵌入空间中的数据集中确定该文本输入的文本嵌入的K个最接近的图像嵌入，例如，该嵌入空间可以是CLIP嵌入空间。该方法还包括连接文本嵌入和K个最接近的图像嵌入。该方法还包括将所连接的嵌入映射到特征空间中，并基于特征空间生成与输入文本相关联的图像。例如，该特征空间可以是联合多模态文本‑图像空间。

技术研发人员：亚尼夫·内希米亚·泰格曼,雪莉·谢宁,奥伦·阿舒尔,亚当·波利亚克,尤里尔·辛格,奥兰·加夫尼,埃利娅·纳赫马尼
受保护的技术使用者：元平台技术有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)