本文件涉及目标检测,尤其涉及一种混合专家目标检测系统及方法。
背景技术:
1、目标检测是计算机视觉领域的一个重要任务,其目的是在图像中识别并定位特定的目标对象。常规目标通常依赖于训练集,它们的性能高度依赖于训练数据中包含的类别。当遇到训练集中未标记的新类别时,这些系统通常无法正确识别或分类。这意味着传统检测器缺乏泛化能力,无法在不同场景下稳健地工作。
2、为了解决这些问题,研究人员提出了开放词汇检测的概念。开放词汇检测旨在构建能够处理未知类别和多样化场景的目标检测模型。这些模型不仅要能够检测和分类已知的物体,还要能够识别和适应未知的新类别。但它们在实际应用中仍存在一些特点和局限性。虽然开放词汇检测器的设计旨在提高对新类别和多样化场景的适应性,但目前的方法在检测精度上与传统目标检测相比仍有许多提升空间,其所展现出来的泛化能力仍然依赖于其训练集。一是由于其模型架构仅将具备泛化能力的模块作用于对象之上,而相对忽视场景对于对象的重要性。二是由于其有限的单个模型泛化能力有限,无法充分利用其训练数据。
3、面对现实世界中复杂场景和多变条件的处理能力有限,亟须一种能基于场景语义指导的多专家模型混合目标检测的方法。
技术实现思路
1、本发明提供了一种混合专家目标检测系统及方法,旨在解决上述问题。
2、本发明提供了一种混合专家目标检测系统,包括:
3、门控神经网络以及多专家融合系统,所述门控神经网络基于预训练任务获得,包括:编码器、解码器以及路由器;
4、编码器用于将输入的图像以及图像中的提示文本进行编码,获取图像-文本模态融合向量;
5、解码器用于对所述图像-文本模态融合向量进行解码,获取场景语义信息向量,场景语义信息向量包括:对象实体向量和环境实体向量;
6、路由器用于根据所述场景语义信息向量获取最优专家模型;
7、多专家融合系统用于根据所述最优专家模型调用相应的模型对图像进行目标检测。
8、本发明提供了一种混合专家目标检测方法,包括:
9、对门控神经网络进行预训练获取训练好的门控神经网络;
10、通过门控神经网络中的编码器将输入的图像以及图像中的提示文本进行编码,获取图像-文本模态融合向量;
11、通过门控神经网络中的解码器对图像-文本模态融合向量进行解码,获取场景语义信息向量,所述场景语义信息向量包括:对象实体向量和环境实体向量;
12、通过门控神经网络中的路由器根据场景语义信息向量获取最优专家模型;
13、通过多专家融合系统用于根据最优专家模型调用相应的模型对图像进行目标检测。
14、通过采用本发明实施例,具备如下有益效果:
15、(1)结合计算机视觉与自然语言处理,充分利用了计算机视觉和自然语言处理技术,实现了多模态信息的高效利用。结合了传统目标检测的高精度特点和开放词汇检测的泛化能力,实现了泛化能力强、检测精度高的特点。
16、(2)设计了一个多专家融合系统,可以调用多个专家模型进行协同检测,利用门控网络提取场景语义,采用了高效的图像-文本编码器进行特征融合,实现了高效的场景语义理解。能够根据不同场景选择最合适的专家模型,提高了模型的全面性和适应性。并通过增量学习支持新专家的扩展,提高了检测的通用性和扩展性。
17、(3)具有广泛的适用场景,适用于多种复杂场景下的目标检测,如密集人群场景、大雾天气场景、遥感图像场景、遥感船只场景、驾驶场景、夜间场景、无人机场景等。实验证明在多个数据集上取得了显著提升,展现了强大的泛化与迁移能力。
1.一种混合专家目标检测系统,其特征在于,包括:门控神经网络以及多专家融合系统,所述门控神经网络基于预训练任务获得,包括:编码器、解码器以及路由器;
2.根据权利要求1所述的系统,其特征在于,所述解码器具体包括:对象实体解码器和环境实体解码器;
3.根据权利要求1所述的系统,其特征在于,所述编码器具体包括:
4.根据权利要求3所述的系统,其特征在于,所述跳跃连接融合块包括s个不对称的协同注意力层与一个连接注意力层,s为超参数;
5.根据权利要求1所述的系统,其特征在于,所述门控神经网络采用的预训练任务包括:图像-文本对比、图像-文本匹配、掩码语言建模、第一前缀语言建模、第二前缀语言建模;
6.根据权利要求5所述的系统,其特征在于,所述门控神经网络预训练对图像-文本对比、图像-文本匹配、掩码语言建模、第一前缀语言建模、第二前缀语言建模任务进行联合训练,总损失函数满足:
7.根据权利要求6所述的系统,其特征在于,所述图像-文本对比损失函数litc获取步骤包括:
8.根据权利要求1所述的系统,其特征在于,所述门控神经网络对路由器的训练具体包括:
9.根据权利要求1所述的系统,其特征在于,所述专家融合系统包括以下至少之一:密集人群场景专家模型、大雾天气场景专家模型、遥感图像场景专家模型、遥感船只场景专家模型、驾驶场景专家模型、夜间场景专家模型、无人机场景专家模型。
10.一种混合专家目标检测方法,其特征在于,包括: