本发明涉及数据图谱构建,尤其涉及一种基于多维度下的原子数据图谱构建方法及系统。
背景技术:
1、在当今信息迅速增长的时代,构建原子数据图谱成为至关重要的任务。原子数据指维度较低、具有基础性质和简单结构的数据元素。构建原子数据图谱的背景技术包括数据抽取与转换、实体识别与链接、知识图谱技术、图数据库技术、机器学习与自然语言处理以及可视化与交互。通过数据清洗、转换和标准化确保数据质量,实体识别和链接揭示数据间联系,知识图谱技术建立数据网络,图数据库技术提供高效存储和查询引擎,机器学习和自然语言处理技术发现数据规律,而可视化工具则使用户更直观地理解数据关系。综合运用这些技术,可以构建出健壮、灵活且高效的原子数据图谱,为数据挖掘、智能推荐和决策支持领域提供强有力的基础支持。
2、目前,对于原子数据图谱构建方法一般基于知识图谱技术实现,该方法包括数据抽取与清洗、实体识别与链接、知识图谱建模、图数据库存储以及可视化展示等步骤。然而,在使用这种方法时,由于原子数据维度较低,从而无法充分捕捉数据之间的结构关系,导致图谱的准确性不够高。
技术实现思路
1、为了解决上述问题,本发明提供了一种基于多维度下的原子数据图谱构建方法,本发明可以提高原子数据图谱构建的准确性。
2、第一方面,本发明提供了一种基于多维度下的原子数据图谱构建方法,包括:
3、获取待处理数据,对所述待处理数据进行数据预处理,得到预处理数据,构建所述预处理数据的词袋模型,利用所述词袋模型对所述预处理数据进行词袋化处理,得到词袋化数据;
4、构建所述词袋化数据的小样本,计算所述小样本的密度峰值,基于所述密度峰值,对所述转换数据进行归簇,得到归簇数据,分析所述归簇数据的归簇精度,在所述归簇精度满足预设精度值时,得到目标数据;
5、识别所述目标数据的数据特征,分析所述数据特征对所述目标数据的全局影响力,基于所述全局影响力,对所述数据特征进行特征融合,得到融合特征,基于所述融合特征对所述目标数据进行张量重构,得到张量重构数据;
6、识别所述张量重构数据的数据元素,基于所述数据元素对所述张量重构数据进行张量表示,得到目标张量,基于所述数据元素和所述目标张量构建所述张量重构数据的数据图谱,基于所述数据图谱对所述待处理数据进行数据展示。
7、在第一方面的一种可能实现方式中,所述利用所述词袋模型对所述预处理数据进行词袋化处理,得到词袋化数据,包括:
8、对所述预处理数据进行分词处理,得到分词数据;
9、构建所述分词数据的词汇表;
10、利用所述词汇表创建所述分词数据的分词向量;
11、将所述分词向量输入至所述词袋模型中,得到词袋化数据。
12、在第一方面的一种可能实现方式中,所述构建所述词袋化数据的小样本,包括:
13、构建所述词袋化数据的初始样本;
14、将所述词袋化数据划分至所述初始样本,得到分配样本;
15、利用下述公式计算所述分配样本的样本误差:
16、
17、其中,me表示样本误差,m表示词袋化数据的数量,n表示分配样本的数量,g(,j)表示词袋化数据第i个数据被分配到第j个分配样本的概率,
18、根据所述样本误差,对所述分配样本进行更新,得到小样本。
19、在第一方面的一种可能实现方式中,所述计算所述小样本的密度峰值,包括:
20、将所述小样本和所述小样本对应的词袋化数据转换为空间向量,得到小样本向量和词袋向量;
21、利用下述公式计算所述小样本向量与所述词袋向量的向量距离:
22、
23、a=x2、y2、z2
24、b=x1、y1、z1
25、其中,d表示向量距离,a表示小样本向量,b表示词袋向量,(x2、y2、z2表示小样本向量空间的三维坐标,(x1、y1、z1表示词袋向量的三维坐标,
26、根据所述向量距离确定所述小样本的密度峰值。
27、在第一方面的一种可能实现方式中,所述分析所述归簇数据的归簇精度,包括:
28、利用下述公式计算所述归簇数据的真实相似度:
29、
30、o表示归簇数据的簇的数量,n表示通过归簇算法产生的簇的数量,ki表示归簇算法结果中第i个簇类中数据点的总个数,kj表示归簇数据中第j个簇类中数据点的总个数,表示同时出现在算法结果第i个簇和真实结果第j个类中数据点的总个数,
31、基于所述真实相似度确定所述归簇数据的归簇精度。
32、在第一方面的一种可能实现方式中,所述识别所述目标数据的数据特征,包括:
33、采集所述目标数据的数据属性;
34、根据所述数据属性,将所述目标数据转换为线性数据;
35、将所述线性数据进行降维处理,得到降维数据;
36、将所述降维数据映射到预构建的空间矩阵中,并在所述空间矩阵中利用预设的矩阵算法采集所述目标数据的数据特征。
37、在第一方面的一种可能实现方式中,所述分析所述数据特征对所述目标数据的全局影响力,包括:
38、利用下述公式计算所述数据特征的特征权重:
39、
40、其中,e表示特征权重,f表示数据特征的熵熄函数,α表示数据特征的熵熄值,m表示数据特征的特征数量,σ表示权重矩阵,ai表示第a类数据的第i个数据特征,
41、根据所述特征权重,确定所述数据特征对所述目标数据的全局影响力。
42、在第一方面的一种可能实现方式中,所述基于所述全局影响力,对所述数据特征进行特征融合,得到融合特征,包括:
43、计算所述数据特征的特征值;
44、基于所述特征值和所述全局影响力利用下述公式对所述数据特征进行特征融合,得到融合特征值:
45、ts=si×μ1+sj×μ2
46、其中,ts表示融合特征值,si表示数据特征的第i个特征,sj表示数据特征的第j个特征,μ1表示所述si的全局影响力,μ2表示所述sj的全局影响力,
47、利用预配置的直方图法根据所述融合特征值识别所述数据特征进行特征融合的特征,得到融合特征。
48、在第一方面的一种可能实现方式中,所述基于所述数据元素对所述张量重构数据进行张量表示,得到目标张量,包括:
49、基于所述数据元素,定义所述张量重构数据的节点和边;
50、配置所述节点和所述边的标识符,得到节点标识符和边标识符;
51、将所述节点标识符和所述边标识符,转换为所述张量重构数据的张量数据结构;
52、利用所述张量数据结构对所述张量重构数据进行张量表示,得到目标张量。
53、第二方面,本发明提供了一种基于多维度下的原子数据图谱构建系统,所述系统包括:
54、数据词袋化模块,用于获取待处理数据,对所述待处理数据进行数据预处理,得到预处理数据,构建所述预处理数据的词袋模型,利用所述词袋模型对所述预处理数据进行词袋化处理,得到词袋化数据;
55、数据归簇模块,用于构建所述词袋化数据的小样本,计算所述小样本的密度峰值,基于所述密度峰值,对所述转换数据进行归簇,得到归簇数据,分析所述归簇数据的归簇精度,在所述归簇精度满足预设精度值时,得到目标数据;
56、数据重构模块,用于识别所述目标数据的数据特征,分析所述数据特征对所述目标数据的全局影响力,基于所述全局影响力,对所述数据特征进行特征融合,得到融合特征,基于所述融合特征对所述目标数据进行张量重构,得到张量重构数据;
57、数据展示模块,用于识别所述张量重构数据的数据元素,基于所述数据元素对所述张量重构数据进行张量表示,得到目标张量,基于所述数据元素和所述目标张量构建所述张量重构数据的数据图谱,基于所述数据图谱对所述待处理数据进行数据展示。
58、与现有技术相比,本方案的技术原理及有益效果在于:
59、本发明实施例通过构建所述预处理数据的词袋模型可以将数据用一个模型对数据进行转换,便于理解,及利用所述词袋模型对所述预处理数据进行词袋化处理,得到词袋化数据可以将数据转换成相同形式,提高数据处理效率,以及通过所述构建所述词袋化数据的小样本可以得到所述词袋化数据的初始分类集,便于将数据更好的归类到合适的数据集中,进一步地,本发明实施例通过识别所述目标数据的数据特征可以获得不同数据的数据定义或标识,从而可以用简便的形式来代表复杂的数据也便于计算机语言的识别以及检索查询,更进一步地,本发明实施例通过分析所述数据特征对所述目标数据的全局影响力可以帮助用户深入了解各个特征对目标变量的重要性程度,并基于所述全局影响力,对所述数据特征进行特征融合,得到融合特征可以将较为明显的特征作为主特征,特征不明显的特征弱化融合,使得在后续进行特征检索的时候检索到的数据目标更加明确,如用户要预测房屋价格,可以融合房屋面积、地理位置、建筑年龄等多个特征来构建一个更全面的模型。通过将这些特征结合在一起,模型能够更准确地预测房屋价格,同时避免过拟合,提高整体预测性能,以及识别所述张量重构数据的数据元素可以了解不同特征在重构后的数据中的贡献度和重要性,帮助您进行特征选择和特征工程。本发明实施例提出的一种基于多维度下的原子数据图谱构建方法及系统,可以提高原子数据图谱构建的准确性。
1.一种基于多维度下的原子数据图谱构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述利用所述词袋模型对所述预处理数据进行词袋化处理,得到词袋化数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述构建所述词袋化数据的小样本,包括:
4.根据权利要求1所述的方法,其特征在于,所述计算所述小样本的密度峰值,包括:
5.根据权利要求1所述的方法,其特征在于,所述分析所述归簇数据的归簇精度,包括:
6.根据权利要求1所述的方法,其特征在于,所述识别所述目标数据的数据特征,包括:
7.根据权利要求1所述的方法,其特征在于,所述分析所述数据特征对所述目标数据的全局影响力,包括:
8.根据权利要求1所述的方法,其特征在于,所述基于所述全局影响力,对所述数据特征进行特征融合,得到融合特征,包括:
9.根据权利要求1所述的方法,其特征在于,所述基于所述数据元素对所述张量重构数据进行张量表示,得到目标张量,包括:
10.一种基于多维度下的原子数据图谱构建系统,其特征在于,所述系统包括: