文档相似性分析方法、装置、设备、存储介质及产品与流程

xiaoxiao15天前  20


本申请涉及文本处理,尤其涉及一种文档相似性分析方法、装置、设备、存储介质及产品。


背景技术:

1、随着信息系统建设逐步完善,在各行各业对文档的相似性评估的需求越来越大。然而,文档相似性分析一般采用将标书文件中的转换为文本文档(如txt格式)进行相似度比较,但是,标书文件通常长达几百页,使得相似度计算时间较长,效率较低。


技术实现思路

1、为了解决上述问题,本申请提出一种文档相似性分析方法、装置、设备、存储介质及产品,能够显著提升文档相似度处理效率。

2、根据本申请实施例的第一方面,提供了一种文档相似性分析方法,包括:

3、对第一文档和第二文档分别进行文本段和图像提取,确定所述第一文档和所述第二文档中的待分析对象,其中,文档中的每一个文本段和每一个图像分别作为一个待分析对象;

4、分别确定所述第一文档和所述第二文档中的各个待分析对象的表征;

5、通过将所述第一文档的各个待分析对象的表征,与所述第二文档的各个待分析对象的表征进行比对,确定相似的待分析对象;

6、通过对所述相似的待分析对象进行基于内容的相似性分析,得到对所述第一文档和所述第二文档的相似性分析结果。

7、作为一种可选的实现方式,所述分别确定所述第一文档和所述第二文档中的各个待分析对象的表征,包括:

8、针对所述第一文档和所述第二文档中的文本段,通过第一哈希算法确定该文本段的表征;

9、和/或,

10、针对所述第一文档和所述第二文档中的图像,通过第二哈希算法确定该图像的表征。

11、作为一种可选的实现方式,所述通过将所述第一文档的各个待分析对象的表征,与所述第二文档的各个待分析对象的表征进行比对,确定相似的待分析对象,包括:

12、针对所述第一文档中的第一待分析对象以及所述第二文档中的第二待分析对象,计算所述第一待分析对象的表征与所述第二待分析对象的表征的交集与所述第一待分析对象的表征与所述第二待分析对象的表征的并集的比值,得到所述第一待分析对象与所述第二待分析对象的相似度;

13、在所述第一待分析对象与所述第二待分析对象的相似度大于第一相似度阈值时,将所述第一待分析对象与所述第二待分析对象确定为相似的待分析对象。

14、作为一种可选的实现方式,所述通过对所述相似的待分析对象进行基于内容的相似性分析,得到对所述第一文档和所述第二文档的相似性分析结果,包括:

15、在所述相似的待分析对象为相似文本段的情况下,通过比对所述相似的待分析对象的文本内容,确定所述相似的待分析对象的文本相似信息;

16、在所述相似的待分析对象为相似图像的情况下,通过比对所述相似的待分析对象的图像内容,确定所述相似的待分析对象的图像相似信息;

17、利用所述文本相似信息和/或所述图像相似信息,确定所述第一文档和所述第二文档的相似性分析结果。

18、作为一种可选的实现方式,通过比对所述相似待分析对象的文本内容,确定所述相似的待分析对象的文本相似信息,包括:

19、通过比对所述相似的待分析对象的文本内容,确定所述相似的待分析对象的公共文本内容和编辑距离;

20、和/或,

21、通过比对所述相似的待分析对象的图像内容,确定所述相似的待分析对象的图像相似信息,包括:

22、通过大语言模型分别获取所述相似的待分析对象的图像内容;

23、通过比对所述相似的待分析对象的图像内容,确定所述相似的待分析对象的相似图像内容。

24、作为一种可选的实现方式,所述方法还包括:确定所述相似的待分析对象各自在其所属文档中的位置;

25、利用所述文本相似信息和/或所述图像相似信息,确定所述第一文档和所述第二文档的相似性分析结果,包括:

26、利用所述文本相似信息和/或所述图像相似信息,以及所述相似的待分析对象各自在其所属文档中的位置,生成所述第一文档和所述第二文档的相似性分析结果。

27、根据本申请实施例的第二方面,提供了一种文档相似性分析装置,包括:

28、提取模块,用于对第一文档和第二文档分别进行文本段和图像提取,确定所述第一文档和所述第二文档中的待分析对象,其中,文档中的每一个文本段和每一个图像分别作为一个待分析对象;

29、处理模块,用于分别确定所述第一文档和所述第二文档中的各个待分析对象的表征;

30、比较模块,用于通过将所述第一文档的各个待分析对象的表征,与所述第二文档的各个待分析对象的表征进行比对,确定相似的待分析对象;

31、分析模块,用于通过对所述相似的待分析对象进行基于内容的相似性分析,得到对所述第一文档和所述第二文档的相似性分析结果。

32、本申请第三方面提供了一种电子设备,包括:

33、存储器和处理器;

34、所述存储器与所述处理器连接,用于存储程序;

35、所述处理器,通过运行所述存储器中的程序,实现上述的文档相似性分析方法。

36、本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的文档相似性分析方法。

37、本申请第五方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的文档相似性分析方法。

38、上述申请中的一个实施例具有如下优点或有益效果:

39、对第一文档和第二文档分别进行文本段和图像提取,确定第一文档和第二文档中的待分析对象,其中,文档中的每一个文本段和每一个图像分别作为一个待分析对象;分别确定第一文档和第二文档中的每个待分析对象的表征;通过将第一文档的各个待分析对象的表征,与第二文档的各个待分析对象的表征进行比对,确定相似的待分析对象;通过对相似的待分析对象进行基于内容的相似性分析,得到对第一文档和第二文档的相似性分析结果。由此可见,先根据第一文档中各个待分析对象的表征与第二文档中各个待分析对象的表征进行初步相似度匹配,从而快速定位出第一文档和第二文档中相似的待分析对象,再对相似的待分析对象其本身的内容进行相似性分析,以确定第一文档和第二文档的相似性分析结果,避免了对文档中的所有内容一一进行相似度计算,进而提升文档相似度分析的分析效率。



技术特征:

1.一种文档相似性分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述分别确定所述第一文档和所述第二文档中的各个待分析对象的表征,包括:

3.根据权利要求1所述的方法,其特征在于,所述通过将所述第一文档的各个待分析对象的表征,与所述第二文档的各个待分析对象的表征进行比对,确定相似的待分析对象,包括:

4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述通过对所述相似的待分析对象进行基于内容的相似性分析,得到对所述第一文档和所述第二文档的相似性分析结果,包括:

5.根据权利要求4所述的方法,其特征在于,通过比对所述相似待分析对象的文本内容,确定所述相似的待分析对象的文本相似信息,包括:

6.根据权利要求4所述的方法,其特征在于,所述方法还包括:确定所述相似的待分析对象各自在其所属文档中的位置;

7.一种文档相似性分析装置,其特征在于,包括:

8.一种电子设备,其特征在于,包括:

9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至6中任意一项文档相似性分析方法。

10.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至6中任意一项文档相似性分析方法。


技术总结
本申请提供了文档相似性分析方法、装置、设备、存储介质及产品,该方法包括:对第一文档和第二文档分别进行文本段和图像提取,确定所述第一文档和所述第二文档中的待分析对象,其中,文档中的每一个文本段和每一个图像分别作为一个待分析对象;分别确定所述第一文档和所述第二文档中的各个待分析对象的表征;通过将所述第一文档的各个待分析对象的表征,与所述第二文档的各个待分析对象的表征进行比对,确定相似的待分析对象;通过对所述相似的待分析对象进行基于内容的相似性分析,得到对所述第一文档和所述第二文档的相似性分析结果。根据本申请的技术方案,能够显著提升文档相似度处理效率。

技术研发人员:向磊,骆志杰,徐甲甲,金晖,张新标,丁军胜,张迪
受保护的技术使用者:羚羊工业互联网股份有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)