目标模型训练及图片检索方法和装置与流程

xiaoxiao2月前 45

本公开涉及人工智能，特别涉及计算机视觉、深度学习以及大模型等领域的目标模型训练及图片检索方法和装置。

背景技术：

1、在电商直播(即电商平台的直播购物)场景中，主播展示商品时的背景图片作为视觉营销的重要组成部分，对消费者的购买决策产生着重要的影响。随着电商直播市场的蓬勃发展以及消费趋势个性化需求的不断提升，对于背景图片的选择与搭配提出了更高的要求。

技术实现思路

1、本公开提供了目标模型训练及图片检索方法和装置。

2、一种目标模型训练方法，包括：

3、获取样本图片集，并针对其中的任一样本图片，分别进行以下处理：获取所述样本图片的标注结果，所述标注结果中包括m个标签，m为正整数，所述m个标签用于从m个不同维度对所述样本图片进行描述，利用所述样本图片以及所述标注结果组成训练样本；

4、利用所述训练样本对预训练的多模态神经网络模型进行微调，得到目标模型，所述目标模型用于分别对用户输入的需求描述信息以及图片库中的各候选图片进行特征提取，以得到所述需求描述信息对应的文本特征以及各候选图片的图片特征，所述文本特征和所述图片特征用于从各候选图片中确定与所述需求描述信息相匹配的目标图片。

5、一种图片检索方法，包括：

6、获取用户输入的需求描述信息，利用目标模型对所述需求描述信息进行特征提取，得到提取出的文本特征；

7、根据所述文本特征以及图片库中的各候选图片的图片特征，从各候选图片中确定出所述需求描述信息相匹配的目标图片，所述图片特征为利用所述目标模型对各候选图片进行特征提取后得到的，所述目标模型为利用训练样本对预训练的多模态神经网络模型进行微调后得到的，所述训练样本中包括：获取到的样本图片集中的任一样本图片，以及所述样本图片的标注结果，所述标注结果中包括m个标签，m为正整数，所述m个标签用于从m个不同维度对所述样本图片进行描述。

8、一种目标模型训练装置，包括：样本获取模块以及模型训练模块；

9、所述样本获取模块，用于获取样本图片集，并针对其中的任一样本图片，分别进行以下处理：获取所述样本图片的标注结果，所述标注结果中包括m个标签，m为正整数，所述m个标签用于从m个不同维度对所述样本图片进行描述，利用所述样本图片以及所述标注结果组成训练样本；

10、所述模型训练模块，用于利用所述训练样本对预训练的多模态神经网络模型进行微调，得到目标模型，所述目标模型用于分别对用户输入的需求描述信息以及图片库中的各候选图片进行特征提取，以得到所述需求描述信息对应的文本特征以及各候选图片的图片特征，所述文本特征和所述图片特征用于从各候选图片中确定与所述需求描述信息相匹配的目标图片。

11、一种图片检索装置，包括：信息获取模块以及图片检索模块；

12、所述信息获取模块，用于获取用户输入的需求描述信息，利用目标模型对所述需求描述信息进行特征提取，得到提取出的文本特征；

13、所述图片检索模块，用于根据所述文本特征以及图片库中的各候选图片的图片特征，从各候选图片中确定与所述需求描述信息相匹配的目标图片，所述图片特征为利用所述目标模型对各候选图片进行特征提取后得到的，所述目标模型为利用训练样本对预训练的多模态神经网络模型进行微调后得到的，所述训练样本中包括：获取到的样本图片集中的任一样本图片，以及所述样本图片的标注结果，所述标注结果中包括m个标签，m为正整数，所述m个标签用于从m个不同维度对所述样本图片进行描述。

14、一种电子设备，包括：

15、至少一个处理器；以及

16、与所述至少一个处理器通信连接的存储器；其中，

17、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

18、一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行如以上所述的方法。

19、一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如以上所述的方法。

20、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种目标模型训练方法，包括：

2.根据权利要求1所述的方法，其中，

3.根据权利要求2所述的方法，其中，所述获取样本图片集包括：

4.根据权利要求3所述的方法，其中，

5.根据权利要求3所述的方法，其中，

6.根据权利要求2所述的方法，还包括：

7.根据权利要求6所述的方法，其中，对所述样本图片集进行图片清洗包括如下至少一项操作：

8.根据权利要求6所述的方法，其中，对所述样本图片集进行图片内容优化包括：

9.根据权利要求8所述的方法，其中，所述将所述商品信息从所述样本图片中去除包括：

10.根据权利要求1～9中任一项所述的方法，其中，

11.一种图片检索方法，包括：

12.根据权利要求11所述的方法，还包括：

13.根据权利要求11所述的方法，其中，

14.一种目标模型训练装置，包括：样本获取模块以及模型训练模块；

15.根据权利要求14所述的装置，其中，

16.根据权利要求15所述的装置，其中，

17.根据权利要求16所述的装置，其中，

18.根据权利要求16所述的装置，其中，

19.根据权利要求15所述的装置，其中，

20.根据权利要求19所述的装置，其中，

21.根据权利要求19所述的装置，其中，

22.根据权利要求21所述的装置，其中，

23.根据权利要求14～22中任一项所述的装置，其中，

24.一种图片检索装置，包括：信息获取模块以及图片检索模块；

25.根据权利要求24所述的装置，其中，

26.根据权利要求24所述的装置，其中，

27.一种电子设备，包括：

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1-13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-13中任一项所述的方法。

技术总结
本公开提供了目标模型训练及图片检索方法和装置，涉及计算机视觉、深度学习以及大模型等人工智能领域。所述目标模型训练方法包括：针对样本图片集中的任一样本图片，分别获取其标注结果，标注结果中包括M个标签，用于从M个不同维度对该样本图片进行描述，利用该样本图片以及标注结果组成训练样本；利用训练样本对预训练的多模态神经网络模型进行微调，得到目标模型，目标模型用于分别对用户输入的需求描述信息以及图片库中的各候选图片进行特征提取，以得到需求描述信息对应的文本特征以及各候选图片的图片特征，所述文本特征和所述图片特征用于从各候选图片中确定与需求描述信息相匹配的目标图片。

技术研发人员：钟铭,戎康
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)