图片的多标签分类方法、系统及电子设备与流程

xiaoxiao3月前 41

本发明涉及人工智能领域，尤其涉及一种图片的多标签分类方法、系统及电子设备。

背景技术：

1、随着人工智能的不断发展，图片的多标签分类方法也在不断更新迭代。但是目前在对图片进行多标签分类时，由于提取到的图片特征质量不佳，会导致图片的多标签分类效果不佳。因此，图片的多标签分类方法仍需改善。

技术实现思路

1、本公开要解决的技术问题是为了克服现有技术中图片的多标签分类方法效果不佳的缺陷，提供一种图片的多标签分类方法、系统及电子设备。

2、本公开是通过下述技术方案来解决上述技术问题：

3、第一方面，提供了一种图片的多标签分类方法，其特征在于，所述多标签分类方法包括：

4、获取目标图片的第一图片特征；其中，所述第一图片特征包含冗余信息和噪音；

5、基于多头注意力机制对所述第一图片特征进行压缩处理，以去除所述冗余信息，得到第二图片特征；

6、基于稀疏编码对所述第二图片特征进行去噪处理，以得到目标图片特征；

7、对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类。

8、可选地，所述获取目标图片的第一图片特征，包括：

9、将所述目标图片输入至图像特征提取模型中，以提取所述第一图片特征。

10、可选地，所述基于多头注意力机制对所述第一图片特征进行压缩处理，包括：

11、将所述第一图片特征输入至白盒神经网络中，以对所述第一图片特征进行压缩处理；其中，所述白盒神经网络包含至少一个多头注意力模块，所述多头注意力模块用于对第一图片特征基于所述多头注意力机制进行压缩处理。

12、可选地，所述将所述第一图片特征输入至白盒神经网络中，以对所述第一图片特征进行压缩处理，包括：

13、将所述第一图片特征输入至白盒神经网络中，以由白盒神经网络将所述第一图片特征划分成k份子图片特征，并基于所述多头注意力机制对所述k份子图片特征进行自注意力运算压缩处理所述第一图片特征；其中，k值由所述多头注意力机制的头的数量决定。

14、可选地，所述基于稀疏编码对所述第二图片特征进行去噪处理，包括：

15、将所述第二图片特征输入至白盒神经网络中，以对所述二图片特征进行去噪处理；其中，所述白盒神经网络至少一个稀疏编码模块，所述稀疏编码模块用于对第二图片特征基于稀疏编码进行去噪处理。

16、可选地，对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类，包括：

17、获取所述目标图片的第一候选标签集合；其中，所述第一候选标签集合是与所述目标图片有一定相关性的图片标签；

18、使用全连接网络将所述目标图片特征所在的第一维度映射到所述第一候选标签集合所在的第二维度；

19、使用归一化函数计算得到所述第一候选标签集合中每一图片标签与所述目标图片特征的第一概率预测值集合；其中，所述第一概率预测值与所述图片标签和所述目标图片特征的相关性呈正相关；

20、若所述第一概率预测值集合中的第一概率预测值大于等于预设阈值，则所述目标图片特征所属的类别为所述第一概率预测值对应的图片标签。

21、可选地，所述对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类，包括：

22、将所述目标图片输入至概率预测模型，以得到第二候选标签集合中每一图片标签与所述目标图片特征的第二概率预测值集合；其中，所述第二候选标签集合是与所述目标图片有一定相关性的图片标签；所述第二概率预测值与所述图片标签和所述目标图片特征的相关性呈正相关；

23、若所述第二概率预测值集合中的第二概率预测值大于等于预设阈值，则所述目标图片特征所属的类别为所述第二概率预测值对应的图片标签。

24、可选地，所述对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类步骤之后，还包括：

25、获取预设概率预测值集合；

26、计算所述第二概率预测值集合与所述预设概率预测值集合的损失函数值；

27、根据所述损失函数值调整所述概率预测模型的参数，以优化所述概率预测模型。

28、第二方面，提供了一种图片的多标签分类系统，所述多标签分类系统包括：

29、获取模块，用于获取目标图片的第一图片特征；其中，所述第一图片特征包含冗余信息和噪音；

30、压缩模块，用于基于多头注意力机制对所述第一图片特征进行压缩处理，以去除所述冗余信息，得到第二图片特征；

31、去噪模块，用于基于稀疏编码对所述第二图片特征进行去噪处理，以得到目标图片特征；

32、预测模块，用于对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类。

33、可选地，所述获取模块包括：

34、提取单元，将所述目标图片输入至图像特征提取模型中，以提取所述第一图片特征。

35、可选地，所述压缩模块包括：

36、第一压缩单元，用于将所述第一图片特征输入至白盒神经网络中，以对所述第一图片特征进行压缩处理；其中，所述白盒神经网络包含至少一个多头注意力模块，所述多头注意力模块用于对第一图片特征基于所述多头注意力机制进行压缩处理。

37、可选地，所述第一压缩单元包括：

38、运算组件，用于将所述第一图片特征输入至白盒神经网络中，以由白盒神经网络将所述第一图片特征划分成k份子图片特征，并基于所述多头注意力机制对所述k份子图片特征进行自注意力运算压缩处理所述第一图片特征；其中，k值由所述多头注意力机制的头的数量决定。

39、可选地，去噪模块包括：

40、去噪单元，用于将所述第二图片特征输入至白盒神经网络中，以对所述二图片特征进行去噪处理；其中，所述白盒神经网络至少一个稀疏编码模块，所述稀疏编码模块用于对第二图片特征基于稀疏编码进行去噪处理。

41、可选地，所述预测模块包括：

42、获取单元，用于获取所述目标图片的第一候选标签集合；其中，所述第一候选标签集合是与所述目标图片有一定相关性的图片标签；

43、映射单元，用于使用全连接网络将所述目标图片特征所在的第一维度映射到所述第一候选标签集合所在的第二维度；

44、计算单元，用于使用归一化函数计算得到所述第一候选标签集合中每一图片标签与所述目标图片特征的第一概率预测值集合；其中，所述第一概率预测值与所述图片标签和所述目标图片特征的相关性呈正相关；

45、第一判断单元，用于若所述第一概率预测值集合中的第一概率预测值大于等于预设阈值，则所述目标图片特征所属的类别为所述第一概率预测值对应的图片标签。

46、可选地，所述预测模块，包括：

47、输入单元，用于将所述目标图片输入至概率预测模型，以得到第二候选标签集合中每一图片标签与所述目标图片特征的第二概率预测值集合；其中，所述第二候选标签集合是与所述目标图片有一定相关性的图片标签；所述第二概率预测值与所述图片标签和所述目标图片特征的相关性呈正相关；

48、第二判断单元，用于若所述第二概率预测值集合中的第二概率预测值大于等于预设阈值，则所述目标图片特征所属的类别为所述第二概率预测值对应的图片标签。

49、可选地，所述多标签分类系统，还包括：

50、第二获取模块，用于获取预设概率预测值集合；

51、计算模块，用于计算所述第二概率预测值集合与所述预设概率预测值集合的损失函数值；

52、优化模块，用于根据所述损失函数值调整所述概率预测模型的参数，以优化所述概率预测模型。

53、第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述中任一项所述的图片的多标签分类方法。

54、在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本公开各较佳实例。

55、本公开的积极进步效果在于：基于多头注意力机制和稀疏编码依次对第一图片特征进行压缩和去噪处理，以去除第一图片特征中的以使得到的目标图片特征冗余信息和噪声，以使得到的目标图片特征只保留有价值的特征，进而使用该目标图片特征进行图片的多标签分类的效果更佳。

技术特征：

1.一种图片的多标签分类方法，其特征在于，所述多标签分类方法包括：

2.如权利要求1所述的多标签分类方法，其特征在于，所述获取目标图片的第一图片特征，包括：

3.如权利要求1所述的多标签分类方法，其特征在于，所述基于多头注意力机制对所述第一图片特征进行压缩处理，包括：

4.如权利要求3所述的多标签分类方法，其特征在于，所述将所述第一图片特征输入至白盒神经网络中，以对所述第一图片特征进行压缩处理，包括：

5.如权利要求1-4中任一项所述的多标签分类方法，其特征在于，所述基于稀疏编码对所述第二图片特征进行去噪处理，包括：

6.如权利要求1所述的多标签分类方法，其特征在于，对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类，包括：

7.如权利要求1所述的多标签分类方法，其特征在于，所述对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类，包括：

8.如权利要求7所述的多标签分类方法，其特征在于，所述对所述目标图片特征所属的类别进行概率预测，以对所述目标图片进行多标签分类步骤之后，还包括：

9.一种图片的多标签分类系统，其特征在于，所述多标签分类系统包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的图片的多标签分类方法。

技术总结
本公开提供了一种图片的多标签分类方法、系统及电子设备。多标签分类方法包括：获取目标图片的第一图片特征；其中，第一图片特征包含冗余信息和噪音；基于多头注意力机制对第一图片特征进行压缩处理，以去除冗余信息，得到第二图片特征；基于稀疏编码对第二图片特征进行去噪处理，以得到目标图片特征；对目标图片特征所属的类别进行概率预测，以对目标图片进行多标签分类。基于多头注意力机制和稀疏编码依次对第一图片特征进行压缩和去噪处理，以去除第一图片特征中的以使得到的目标图片特征冗余信息和噪声，以使得到的目标图片特征只保留有价值的特征，进而使用该目标图片特征进行图片的多标签分类的效果更佳。

技术研发人员：王晓梅,沈旭立,虞钉钉,蔡华,徐清,宣晓华
受保护的技术使用者：华院计算技术（上海）股份有限公司
技术研发日：
技术公布日：2024/9/23

专利

最新回复(0)