一种基于多模态的航天装备数据检索系统的制作方法

xiaoxiao3月前  15


本发明涉及语义处理,尤其涉及一种基于多模态的航天装备数据检索系统。


背景技术:

1、航天装备作为航天任务实施的基石,在航天装备生产的过程中,需要用到大量的钣金件以及螺栓,通常会产生大量的数据。每个设备甚至最小的螺栓质量都直接关系到航天任务的成功与否,当航天装备中的一个设备或零件出现异常时,如何从海量的数据中快速检索出有用的资料,是定位异常原因,提高检测效率的关键。

2、传统的单模态数据检索方法,如图像检索和文本检索,已无法满足日益多样化的多模态数据的需求。多模态数据之间有着强相关的联系。在航天装备的海量信息中,如何高效利用一种模态信息检索与之相关的其它多种模态数据,正逐渐成为重要的研究方向。

3、现有多模态图片文本检索算法,大多通过不同的特征提取模型提取各自模态的特征,然后通过两个或多个模态特征相加、拼接、相乘构成一个特征,最后再送入到一个相似度函数中进行检索排序。这类算法用的多模态信息依然是独立,而且忽略了用户的检索偏好,缺乏灵活性,无法灵活捕捉在不同情况下不同模态之间的相关性,导致检索结果不精准。另外,现有技术中还存在检索速度慢、检索效率低的问题。


技术实现思路

1、鉴于上述的分析,本发明实施例旨在提供一种基于多模态的航天装备数据检索系统,用以解决现有检索效率低和检索结果不精准问题。

2、本发明实施例提供了一种基于多模态的航天装备数据检索系统,包括:

3、数据采集模块,用于采集航天装备的多模态数据和系统的用户交互数据;

4、数据预处理模块,用于对多模态数据和用户交互数据进行预处理并将预处理后的数据存储至数据湖,根据用户交互数据构建第一多模态相关性矩阵;

5、特征提取模块,用于基于数据湖在lora算法中引入第一多模态相关性矩阵对预训练好的多模态大模型进行微调而得到多模态嵌入模型,并利用多模态嵌入模型提取出数据湖中多模态数据的特征向量;

6、hnsw图构建模块,用于根据多模态数据的特征向量和第一多模态相关性矩阵,构建hnsw图;

7、数据检索模块,用于利用多模态嵌入模型提取出待检索数据的待检索特征向量;根据最新的用户交互数据更新第一多模态相关性矩阵得到第二多模态相关性矩阵;根据待检索特征向量和第二多模态相关性矩阵利用hnsw图得到检索结果,展示选择的检索结果并更新用户交互数据。

8、基于上述系统的进一步改进,数据采集模块中通过以下方式采集航天装备的多模态数据:通过传感器和蓝牙检测设备采集航天装备的监测数据;通过接口或系统集成获取外围系统数据;通过扫描设备识别得到人工记录数据。

9、基于上述系统的进一步改进,数据预处理模块还用于定期根据第二多模态相关性矩阵更新第一多模态相关性矩阵并发送第一更新通知至特征提取模块;特征提取模块还用于接收到第一更新通知后根据更新后的第一多模态相关性矩阵微调更新多模态嵌入模型,并利用更新后的多模态嵌入模型更新数据湖中多模态数据的特征向量后发送第二更新通知至hnsw图构建模块;hnsw图构建模块还用于接收到第二更新通知后根据更新后的多模态数据的特征向量和第一多模态相关性矩阵,重新构建hnsw图。

10、基于上述系统的进一步改进,第一多模态相关性矩阵是以模态数量r作为行列维数,根据用户交互数据计算出各模态之间的单向相关性作为元素值而构建的非对称r×r的矩阵。

11、基于上述系统的进一步改进,根据用户交互数据计算出各模态之间的单向相关性,包括:将用户交互数据中输入的待检索数据的模态作为输入模态,选择的检索结果的模态作为输出模态,统计各输入模态的检索次数,以及与各输入模态对应的各输出模态的选择次数;分别计算各输出模态的选择次数与对应的输入模态的选择次数的比值,依次得到对应的输入模态与各输出模态的单向相关性。

12、基于上述系统的进一步改进,根据最新的用户交互数据更新第一多模态相关性矩阵得到第二多模态相关性矩阵,是基于最新的用户交互数据,在第一多模态相关性矩阵的基础上,通过递增对应的输入模态的选择次数和输出模态的选择次数更新对应的单向相关性,或者,在递增对应的输入模态的检索次数的同时利用时间衰减因子更新对应的单向相关性,得到第二多模态相关性矩阵。

13、基于上述系统的进一步改进,在递增对应的输入模态的选择次数的同时利用时间衰减因子通过以下公式更新对应的单向相关性:

14、

15、其中,c'i,j和ci,j分别表示第i种输入模态与第j种输出模态的更新后和更新前的单向相关性,α表示时间衰减因子,α∈(0,1);impressioni表示第i种输入模态的检索次数。

16、基于上述系统的进一步改进,在lora算法中引入第一多模态相关性矩阵对预训练好的多模态大模型进行微调,包括:将多模态大模型中每一个线性层的权重矩阵分解为原始的权重矩阵与三个低秩矩阵的乘积之和;三个低秩矩阵包括降维矩阵、第一多模态相关性矩阵和升维矩阵,且均以模态数量作为矩阵的秩;训练时固化原始的权重矩阵和第一多模态相关性矩阵,仅更新降维矩阵和升维矩阵。

17、基于上述系统的进一步改进,根据多模态数据的特征向量和第一多模态相关性矩阵,构建hnsw图,包括:将每个特征向量作为节点,将第一模态相关性矩阵中的元素值作为对应的两个节点间的权重;依次将待插入节点插入到其目标层时,通过计算待插入节点与目标层已插入节点的节点间距离,根据预设的邻居数选择最近邻的已插入节点与待插入节点建立连接;节点间距离是根据节点间的语义相似度和权重的乘积而得到;在目标层以下的每一层插入同样的待插入节点并建立相同的连接;当插入所有节点后构建出hnsw图。

18、基于上述系统的进一步改进,根据待检索特征向量和第二多模态相关性矩阵利用hnsw图得到检索结果,是将待检索特征向量作为目标节点,从hnsw图的顶层开始逐层向下搜索与目标节点距离最小的若干候选节点,若干候选节点对应的多模态数据作为检索结果;目标节点与候选节点的距离是根据目标节点和候选节点的模态从第二多模态相关矩阵获取对应元素值作为权重,与目标节点和候选节点的语义相似度相乘而得到。

19、与现有技术相比,本发明至少可实现如下有益效果之一:

20、1、融合航天装备,通过构建数据湖整合结构化数据和非结构化数据,有效地解决了数据孤岛问题,提高了数据利用率和数据检索能力。

21、2、通过对检索输入和检索结果选择情况的分析构建多模态相关性矩阵,关注用户的检索偏好,实现了精准适配用户的检索需求。

22、3、通过在lora微调多模态大模型过程中引入非对称的模态相关性矩阵,关注不同模态间的关联性,增强了lora算法处理多模态数据的能力,使得生成的特征向量更贴合业务需求。

23、4、在构建hnsw图阶段引入非对称的模态相关性矩阵确定节点间的连接偏好,提高了模态间语义连接的准确度;在基于hnsw图查询阶段利用非对称的模态相关性矩阵加权语义相似度,提升检索结果的相关性,优化自然语言查询能力。

24、本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。


技术特征:

1.一种基于多模态的航天装备数据检索系统,其特征在于,包括:

2.根据权利要求1所述的基于多模态的航天装备数据检索系统,其特征在于,所述数据采集模块中通过以下方式采集航天装备的多模态数据:通过传感器和蓝牙检测设备采集航天装备的监测数据;通过接口或系统集成获取外围系统数据;通过扫描设备识别得到人工记录数据。

3.根据权利要求1所述的基于多模态的航天装备数据检索系统,其特征在于,所述数据预处理模块还用于定期根据第二多模态相关性矩阵更新第一多模态相关性矩阵并发送第一更新通知至特征提取模块;所述特征提取模块还用于接收到第一更新通知后根据更新后的第一多模态相关性矩阵微调更新多模态嵌入模型,并利用更新后的多模态嵌入模型更新数据湖中多模态数据的特征向量后发送第二更新通知至hnsw图构建模块;所述hnsw图构建模块还用于接收到第二更新通知后根据更新后的多模态数据的特征向量和第一多模态相关性矩阵,重新构建hnsw图。

4.根据权利要求1所述的基于多模态的航天装备数据检索系统,其特征在于,所述第一多模态相关性矩阵是以模态数量r作为行列维数,根据用户交互数据计算出各模态之间的单向相关性作为元素值而构建的非对称r×r的矩阵。

5.根据权利要求4所述的基于多模态的航天装备数据检索系统,其特征在于,所述根据用户交互数据计算出各模态之间的单向相关性,包括:将用户交互数据中输入的待检索数据的模态作为输入模态,选择的检索结果的模态作为输出模态,统计各输入模态的检索次数,以及与各输入模态对应的各输出模态的选择次数;分别计算各输出模态的选择次数与对应的输入模态的选择次数的比值,依次得到对应的输入模态与各输出模态的单向相关性。

6.根据权利要求5所述的基于多模态的航天装备数据检索系统,其特征在于,所述根据最新的用户交互数据更新第一多模态相关性矩阵得到第二多模态相关性矩阵,是基于最新的用户交互数据,在第一多模态相关性矩阵的基础上,通过递增对应的输入模态的选择次数和输出模态的选择次数更新对应的单向相关性,或者,在递增对应的输入模态的检索次数的同时利用时间衰减因子更新对应的单向相关性,得到第二多模态相关性矩阵。

7.根据权利要求6所述的基于多模态的航天装备数据检索系统,其特征在于,所述在递增对应的输入模态的选择次数的同时利用时间衰减因子通过以下公式更新对应的单向相关性:

8.根据权利要求1或4所述的基于多模态的航天装备数据检索系统,其特征在于,所述在lora算法中引入第一多模态相关性矩阵对预训练好的多模态大模型进行微调,包括:将多模态大模型中每一个线性层的权重矩阵分解为原始的权重矩阵与三个低秩矩阵的乘积之和;所述三个低秩矩阵包括降维矩阵、第一多模态相关性矩阵和升维矩阵,且均以模态数量作为矩阵的秩;训练时固化原始的权重矩阵和第一多模态相关性矩阵,仅更新降维矩阵和升维矩阵。

9.根据权利要求1或4所述的基于多模态的航天装备数据检索系统,其特征在于,所述根据多模态数据的特征向量和第一多模态相关性矩阵,构建hnsw图,包括:将每个特征向量作为节点,将第一模态相关性矩阵中的元素值作为对应的两个节点间的权重;依次将待插入节点插入到其目标层时,通过计算待插入节点与目标层已插入节点的节点间距离,根据预设的邻居数选择最近邻的已插入节点与待插入节点建立连接;所述节点间距离是根据节点间的语义相似度和权重的乘积而得到;在所述目标层以下的每一层插入同样的待插入节点并建立相同的连接;当插入所有节点后构建出hnsw图。

10.根据权利要求1所述的基于多模态的航天装备数据检索系统,其特征在于,所述根据待检索特征向量和第二多模态相关性矩阵利用hnsw图得到检索结果,是将待检索特征向量作为目标节点,从hnsw图的顶层开始逐层向下搜索与目标节点距离最小的若干候选节点,所述若干候选节点对应的多模态数据作为检索结果;所述目标节点与候选节点的距离是根据目标节点和候选节点的模态从第二多模态相关矩阵获取对应元素值作为权重,与目标节点和候选节点的语义相似度相乘而得到。


技术总结
本发明涉及一种基于多模态的航天装备数据检索系统,属于语义处理技术领域,解决了现有检索效率低和检索结果不精准的问题。包括:数据采集模块采集多模态数据和用户交互数据;数据预处理模块根据用户交互数据构建第一多模态相关性矩阵;特征提取模块引入第一多模态相关性矩阵对预训练好的多模态大模型进行微调而得到多模态嵌入模型,并提取出多模态数据的特征向量;HNSW图构建模块根据多模态数据的特征向量和第一多模态相关性矩阵构建HNSW图;数据检索模块更新第一多模态相关性矩阵得到第二多模态相关性矩阵;根据待检索数据的待检索特征向量和第二多模态相关性矩阵利用HNSW图得到检索结果。实现了精准的多模态数据检索。

技术研发人员:宇文瑾,闫鑫,刘玉蓉,姚帅,曹胜利,史小龙,贾月桥,郭小星,武丽俐,邢艳芳
受保护的技术使用者:北京京航计算通讯研究所
技术研发日:
技术公布日:2024/9/23

最新回复(0)