一种基于分割万物模型和前融合的指令分割方法和装置

xiaoxiao2月前 33

本发明涉及计算机视觉，特别是涉及一种基于分割万物模型和前融合的指令分割方法和装置。

背景技术：

1、分割万物模型是一种交互式分割模型，能够根据各种类型的提示(点、框、粗略掩码)预测非语义掩码。分割万物模型在大型数据集上进行训练，展现出强大的泛化能力，能够分割各种常见的物体。虽然分割万物模型在使用框、点或掩码提示的视觉分割任务中表现出色，但它目前缺乏语言理解能力，无法使用文本提示引导分割(即：指令分割)。

2、指令分割是一项多模态分割任务，要求模型根据用户输入的文本提示分割出图像中的对应区域，需要精确的像素级分割和细粒度的语言理解。在计算机视觉领域中，指令分割是一个具有挑战性的研究方向，并已经在近些年的研究中取得了巨大的进展。

3、传统的方法往往基于单模态编码器，在特征提取阶段采用后融合或无融合。这样的方法虽然相对轻量，但没有与基础大模型进行结合，训练难度高且对数据量需求高，难以进一步提升性能。

4、新兴的方法基于大语言模型或大多模态模型，将模型生成的特定词元所对应的嵌入向量视为提取的多模态特征。然而，这样的方法计算成本过高，模型体积难以控制，且不可控的回答序列长度会导致实际训练和推理过程中的不稳定。

5、鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

技术实现思路

1、本发明要解决的技术问题是现有技术将模型生成的特定词元所对应的嵌入向量视为提取的多模态特征，这样的方法计算成本过高，模型体积难以控制，且不可控的回答序列长度会导致实际训练和推理过程中的不稳定。

2、本发明采用如下技术方案：

3、第一方面，本发明提供了一种基于分割万物模型和前融合的指令分割方法，包括：

4、选取前融合的多模态特征提取编码器，将文本提示与低分辨率图像进行前期联合编码处理；

5、构造嵌入维度投影层，使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间；

6、优化提示词编码器适配性。

7、优选的，所述选取前融合的多模态特征提取编码器，将文本提示与低分辨率图像进行前期联合编码处理，具体包括：

8、使用多模态输入的特征提取器，所述多模态输入的特征提取器将文本提示和低分辨率图像作为输入，并通过联合编码处理，将两种模态的信息进行融合；其中，文本提示提供关于目标对象的语义信息，而图像提供关于目标对象的形状和纹理信息。

9、优选的，所述多模态输入的特征提取器选用基于transformer架构的双流编码器beit-3，其中一个流用于处理文本提示，另一个流用于处理低分辨率图像；

10、两个流在编码过程中周期性共享参数，使能够在编码过程中相互学习并进行信息交互；其中，不同模态的输入在进行序列化之后进入模态融合的交互关系之中，具体的：图像通过1/16的卷积层进行降采样，降采样后的张量被展平为长度196的序列；文本通过词表查询翻译为相应的序列，两个模态的序列首先拼接并计算自注意力，随后分别通过独立的前馈网络；这样的模态融合的机制在网络结构中重复多次。

11、优选的，所述多模态特征提取编码器基于transformer编码器实现，以保持输入和输出的一致序列长度。

12、优选的，所述构造嵌入维度投影层，使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间，具体包括：

13、构造一个嵌入维度投影层；该投影层由全连接层构成，用于将不同模态的特征映射到相同的维度空间，具体的：来自于多模态特征提取器的特征维度为768或1024，而分割万物模型的掩码解码器的特征维度为256，为了进行特征对齐，投影层通过两层全连接层实现维度映射，通过线性整流函数进行连接；所述投影层不包含归一化操作。

14、优选的，所述优化提示词编码器适配性，具体包括：

15、保持分割万物模型的图像编码器权重冻结，用以对高分辨率图像进行细粒特征提取，将提取的特征连同提示词编码器编码的特征一同送入掩码解码器进行掩码预测；训练过程中提示词编码器和掩码解码器的参数是解冻的，以理解来自于特征提取器的多模态嵌入特征。

16、优选的，所述优化提示词编码器适配性，还包括：

17、扩展提示词编码器的输入接口，将新输入的多模态特征与原结构内的稀疏嵌入向量进行拼接，使提示词编码器能够适应多模态输入。

18、第二方面，本发明还提供了一种基于分割万物模型和前融合的指令分割装置，用于实现第一方面所述的基于分割万物模型和前融合的指令分割方法，所述装置包括：

19、至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的基于分割万物模型和前融合的指令分割方法。

20、第三方面，本发明还提供了一种基于分割万物模型和前融合的指令分割装置，包括编码模块、投影模块和优化模块；

21、所述编码模块用于选取前融合的多模态特征提取编码器，将文本提示与低分辨率图像进行前期联合编码处理；

22、所述投影模块用于构造嵌入维度投影层，转换联合编码后的多模态特征至统一的嵌入空间；

23、所述优化模块用于优化提示词编码器适配性。

24、第四方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的方法。

25、第五方面，提供了一种芯片，包括：处理器和接口，用于从存储器中调用并运行存储器中存储的计算机程序，执行如第一方面的方法。

26、第六方面，提供了一种包含指令的计算机程序产品，当该指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面的方法。

27、本发明通过使用前融合的多模态特征提取编码器，使不同模态的输入在早期阶段进行融合，从而能够更早地整合不同模态的信息，提高模型对指令内容的理解能力和分割精度，即提高模型的性能，并且通过优化提示词编码器适配性，以保持输入和输出的一致序列长度，从而确保实际训练和推理的不稳定，并实现模型的轻量化。

技术特征：

1.一种基于分割万物模型和前融合的指令分割方法，其特征在于，包括：

2.根据权利要求1所述的基于分割万物模型和前融合的指令分割方法，其特征在于，所述选取前融合的多模态特征提取编码器，将文本提示与低分辨率图像进行前期联合编码处理，具体包括：

3.根据权利要求2所述的基于分割万物模型和前融合的指令分割方法，其特征在于，所述多模态输入的特征提取器选用基于transformer架构的双流编码器beit-3，其中一个流用于处理文本提示，另一个流用于处理低分辨率图像；

4.根据权利要求1所述的基于分割万物模型和前融合的指令分割方法，其特征在于，所述多模态特征提取编码器基于transformer编码器实现，以保持输入和输出的一致序列长度。

5.根据权利要求1所述的基于分割万物模型和前融合的指令分割方法，其特征在于，所述构造嵌入维度投影层，使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间，具体包括：

6.根据权利要求1所述的基于分割万物模型和前融合的指令分割方法，其特征在于，所述优化提示词编码器适配性，具体包括：

7.根据权利要求1所述的基于分割万物模型和前融合的指令分割方法，其特征在于，所述优化提示词编码器适配性，还包括：

8.一种基于分割万物模型和前融合的指令分割装置，其特征在于，包括：

9.一种基于分割万物模型和前融合的指令分割装置，其特征在于，包括编码模块、投影模块和优化模块；

10.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成权利要求1-7任一所述的方法。

技术总结
本发明涉及计算机视觉技术领域，提供了一种基于分割万物模型和前融合的指令分割方法和装置。包括：选取前融合的多模态特征提取编码器，将文本提示与低分辨率图像进行前期联合编码处理；构造嵌入维度投影层，使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间；优化提示词编码器适配性。本发明通过使用前融合的多模态特征提取编码器，使不同模态的输入在早期阶段进行融合，从而能够更早地整合不同模态的信息，提高模型对指令内容的理解能力和分割精度，即提高模型的性能，并且通过优化提示词编码器适配性，以保持输入和输出的一致序列长度，从而确保实际训练和推理的不稳定，并实现模型的轻量化。

技术研发人员：王兴刚,张宇轩,程天恒,刘文予
受保护的技术使用者：华中科技大学
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)