挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及图像处理领域,特别涉及一种挖掘石窟壁画群中石窟壁画时空关联关 系的方法和装置。
【背景技术】
[0002] 所谓石窟壁画为绘制在石洞墙壁上的画作,而同一石窟内的多幅石窟壁画构成石 窟壁画群,其中,国内已经发现的石窟壁画群包括:新疆石窟壁画群、敦煌莫高窟壁画群等 等。由于石窟壁画群作为重要的文化遗产,国内外学者发表了大量关于石窟壁画群的专著 文献,以从历史渊源、宗教背景、壁画内容、艺术风格、建筑风格、壁画原材料等诸多方面对 壁画群中单幅壁画进行了大量深入细致的研究工作。
[0003] 尽管关于壁画群中单幅壁画的研究能够为石窟壁画领域的提供大量的参考数据, 但是,所提供的参考数据比较单一和分散,因此,为了提供研究石窟壁画的关于整体关系的 参考数据,存在对石窟壁画群中各个石窟壁画间的关联关系的确定的需求。
【发明内容】
[0004] 本发明实施例公开了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法和装 置,以挖掘确定出石窟壁画群中石窟壁画的时空关联关系,为研究石窟壁画的整体的关联 关系提供参考数据。具体方案如下:
[0005] -方面,本发明实施例提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的方 法,所述方法包括:
[0006] 确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟壁画确定为一个元 组,其中,所述石窟壁画的第一描述数据为:从预先获得的该石窟壁画中的描述信息以及预 先获得的关于该石窟壁画的介绍信息中提取得到;
[0007] 基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计,进而,获得各 石窟壁画所对应的描述词和所述描述词所对应的词频;
[0008] 将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预定类 别属性,其中,所述预定类别属性包括:时间类属性、空间类属性和描述类属性;
[0009] 从各石窟壁画的第一描述数据中,确定所对应元组的属于预定类别属性的各个描 述词所对应的多个描述子数据,并将所述多个描述子数据中出现次数超过预设数量阈值的 目标描述子数据确定为相应描述词所对应的元组的属性值;
[0010]根据各个元组的属于描述类属性的各个描述词的属性值,将所述各个元组关联成 复杂网络,其中,复杂网络中的节点为所述元组;
[0011]利用复杂网络分析算法,将所述复杂网络中的所有元组以模块化参数最大化的标 准分割为多个网络模块,每个网络模块中包括至少一个元组;
[0012]将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁 画确定为存在时空关联关系,其中,所述预定条件包括:所包括元组的属于时间类属性的描 述词的属性值不同和/或空间类属性的描述词的属性值不同。
[0013] 较佳的,所述基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计, 包括:
[0014] 基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语气词、 标点符号以及结构助词之外的第一词频统计。
[0015] 较佳的,关于该石窟壁画中的描述信息的获得方式,包括:
[0016] 对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而获得该 石窟壁画中的描述信息;
[0017] 关于该石窟壁画的介绍信息的获得方式,包括:
[0018] 对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而获得该 石窟壁画的介绍信息。
[0019] 较佳的,所述获得各壁画所对应的描述词和所述描述词所对应的词频包括:
[0020] 利用基于无监督学习的自组织映射算法对所述各壁画所对应的描述词进行量化 分析,以滤除属于噪声的描述词;
[0021] 获得滤除噪声的描述词的各石窟壁画所对应的描述词和所述描述词所对应的词 频,所述属于噪声的描述词为对所述纸质形式的石窟壁画中的描述信息和/或所述纸质形 式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的错误识别的描述 词;其中,所述自组织映射算法中参数选择六边形映射格点,初始化码书选择随机码书,训 练过程选择批处理batch训练算法,映射函数选择高斯邻域函数
高斯邻域函数中σ为邻域半径,r。为单元c的位置,c代表batch训练过程中,对应的各石窟壁 画所对应的描述词训练输出结果索引,η。表示滤除噪声的描述词的各石窟壁画所对应的描 述词与未滤除噪声的描述词间的高斯距离,r。是batch训练过程输出的滤除噪声的描述词 的各石窟壁画所对应的描述词,^是训练输入的各石窟壁画所对应的描述词,| |η-Γι| |表 示训练时产生的噪声的一阶原点矩。
[0022] 较佳的,所述根据各个元组的属于描述类属性的各个描述词的属性值,将所述各 个元组关联成复杂网络,包括:
[0023] 针对每两个元组,当所述两个元组的属于描述类属性的各个描述词的属性值相同 的数量超过第三预设阈值时,确定所述两个元组相互关联;
[0024] 依次确定每两个元组间的关联关系,将所述各元组关联成复杂网络。
[0025] 较佳的,在所述将所述多个网络模块中符合预定条件的目标网络模块所包括元组 对应的石窟壁画确定为存在时空关联关系之后,还包括:
[0026] 计算所述目标网络模块占所有网络模块的百分比,以定量确定所述石窟壁画群中 各石窟壁画的时空关联关系。
[0027] 另一方面,本发明实施例还提供了一种挖掘石窟壁画群中石窟壁画时空关联关系 的装置,所述装置包括:
[0028] 确定单元:用于确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟壁 画确定为一个元组,其中,所述石窟壁画的第一描述数据为:从预先获得的该石窟壁画中的 描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到;
[0029] 词频统计单元:用于基于Apriori算法对各石窟壁画的第一描述数据进行第一词 频统计,进而,获得各石窟壁画所对应的描述词和所述描述词所对应的词频;
[0030] 预定类别属性确定单元:用于将各石窟壁画中词频超过第一预设阈值的多个描述 词确定为相应元组的预定类别属性,其中,所述预定类别属性包括:时间类属性、空间类属 性和描述类属性;
[0031] 属性值确定单元:用于从各石窟壁画的第一描述数据中,确定所对应元组的属于 预定类别属性的各个描述词所对应的多个描述子数据,并将所述多个描述子数据中出现次 数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值;
[0032] 复杂网络关联单元:用于根据各个元组的属于描述类属性的各个描述词的属性 值,将所述各个元组关联成复杂网络,其中,复杂网络中的节点为所述元组;
[0033] 网络模块分割单元:用于利用复杂网络分析算法,将所述复杂网络中的所有元组 以模块化参数最大化的标准分割为多个网络模块,每个网络模块中包括至少一个元组;
[0034] 时空关联关系确定单元:用于将所述多个网络模块中符合预定条件的目标网络模 块所包括元组对应的石窟壁画确定为存在时空关联关系,其中,所述预定条件包括:所包括 元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。
[0035] 较佳的,关于该石窟壁画中的描述信息的获得方式,包括:
[0036] 对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而获得该 石窟壁画中的描述信息;
[0037] 关于该石窟壁画的介绍信息的获得方式,包括:
[0038] 对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而获得该 石窟壁画的介绍信息。
[0039] 较佳的,所述词频统计单元具体用于:
[0040] 利用基于无监督学习的自组织映射算法对所述各壁画所对应的描述词进行量化 分析,以滤除属于噪声的描述词;
[0041] 获得滤除噪声的描述词的各石窟壁画所对应的描述词和所述描述词所对应的词 频,所述属于噪声的描述词为对所述纸质形式的石窟壁画中的描述信息和/或所述纸质形 式的该石窟壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的错误识别的描述 词;其中,所述自组织映射算法中参数选择六边形映射格点,初始化码书选择随机码书,训 练过程选择批处理batch训练算法,映射函数选择高斯邻域函数
高斯邻域函数中σ为邻域半径,r。为单元c的位置,c代
表batch训练过程中,对应的各石窟壁 画所对应的描述词训练输出结果索引,η。表示滤除噪声的描述词的各石窟壁画所对应的描 述词与未滤除噪声的描述词间的高斯距离,r。是batch训练过程输出的滤除噪声的描述词 的各石窟壁画所对应的描述词,^是训练输入的各石窟壁画所对应的描述词,| |η-Γι| |表 示训练时产生的噪声的一阶原点矩。
[0042] 较佳的,还包括时空关联关系定量确定单元;
[0043] 所述时空关联关系定量确定单元:用于在所述时空关联关系确定单元将所述多个 网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关 联关系之后,计算所述目标网络模块占所有网络模块的百分比,以定量确定所述石窟壁画 群中各石窟壁画的时空关联关系。
[0044] 本方案中,首先确定石窟壁画群中各石窟壁画的第一描述数据,并将各石窟壁画 确定为一个元组,基于Apriori算法对该第一描述数据进行第一词频统计,得到各石窟壁画 的描述词及其所对应的词频,进而确定相应元组的预定类别属性,根据该预定类别属性确 定相应元组的属性值,以属于描述类属性的各个描述词的属性值,将各个元组关联成复杂 网络,然后利用复杂网络分析算法,以模块化参数最大化的标准将该复杂网络分割为多个 网络模块,挖掘确定所包括元组的属于时间类属性的描述词的属性值不同和/或空间类属 性的描述词的属性值不同的目标网络模块所包括元组对应的石窟壁画确定为存在时空关 联关系,为研究石窟壁画的整体关联关系提供了参考数据。当然,实施本发明的任一产品或 方法必不一定需要同时达到以上所述的所有优点。
【附图说明】
[0045] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0046] 图1为本发明实施例提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的方法 的流程示意图;
[0047] 图2为本发明实施例提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的装置 的结构示意图。
【具体实施方式】
[0048] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0049] 本发明实施例提供了一种挖掘石窟壁画群中石窟壁画时空关联关系的方法和装 置,以挖掘确定石窟壁画群中石窟壁画的时空关联关系,为研究石窟壁画的整体的关联关 系提供参考数据。
[0050] 下面首先对本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关联关 系的方法进行介绍。
[0051] 需要说明的是,本发明实施例所提供了一种挖掘石窟壁画群中石窟壁画时空关联 关系的方法可以应用于电子设备中,该电子设备可以为终端设备或服务器,举例而言:该终 端设备可以为台式电脑、笔记本电脑、平板电脑和智能手机。
[0052] 如图1所示,本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关联关 系的方法,可以包括如下步骤:
[0053] S101:确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟壁画确定为 一个元组;
[0054] 需要说明的是,确定该石窟壁画群中石窟壁画时空关联关系,要基于该石窟壁画 群中各石窟壁画的具体内容,如石窟壁画中的文字描述信息,以及现有的对该石窟壁画群 中各石窟壁画的介绍信息,那么,该石窟壁画的第一描述数据可以为:从预先获得的该石窟 壁画中的描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到。
[0055] 需要说明的是,对于现有的该石窟壁画中的描述信息以及关于该石窟壁画的介绍 信息的存在形式,可以为纸质形式的,也可以为电子文档形式,为了便于对石窟壁画群中石 窟壁画的时空关联关系的确定,对于纸质形式的石窟壁画中的描述信息以及纸质形式的该 石窟壁画的介绍信息,要首先转换成电子文档形式,具体的,关于该石窟壁画中的描述信息 的获得方式,可以包括:
[0056] 对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而获得该 石窟壁画中的描述信息;
[0057] 关于该石窟壁画的介绍信息的获得方式,可以包括:
[0058] 对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而获得该 石窟壁画的介绍信息。
[0059] S102:基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计,进而, 获得各石窟壁画所对应的描述词和该描述词所对应的词频;
[0060] 可以理解的是,在大量的关于该石窟壁画群中各石窟壁画的第一描述数据中,可 能存在很多非关键性的描述信息,那么就需要对该第一描述数据进行处理分析,得到关于 该石窟壁画群中各石窟壁画的主要的描述信息。对于该第一描述数据而言,其包括的词不 会单独存在,大部分会以句子的形式存在于该第一描述数据中,对于存在大量数据中的所 有词,采用穷举的方法的运算量非常大,因此在统计关于该石窟壁画群中各石窟壁画的主 要的描述信息时,可以利用数据挖掘方法中统计频繁集的Apriori算法。
[0061] 可以理解的是,在进行词频统计时,希望统计得到对各石窟壁画的关键角度的描 述词,然而在实际情况中,在关于该石窟壁画的描述信息和/或关于该石窟壁画的介绍信息 中会存在一些语气助词、数字、语气词、标点符号以及结构助词的辅助性的词,对于这些词 不会存在关于该石窟壁画的重要信息,它们主要起到保证描述语句的完整与合理性,对关 于该石窟壁画的时空关联关系的确定起到的作用很小,但是其存在的数量可能会很大,所 以在统计词频时可以不考虑该类性的词,具体的,所述基于Apriori算法对各石窟壁画的第 一描述数据进行第一词频统计,可以包括:
[0062] 基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语气词、 标点符号以及结构助词之外的第一词频统计。
[0063] 可以理解的,对各石窟壁画的第一描述数据进行除语气助词、数字、语气词、标点 符号以及结构助词之外的第一词频统计,所获得的各石窟壁画所对应的描述词和该描述词 所对应的词频可以认为是包括关于该石窟壁画群中各石窟壁画的主要的描述信息。
[0064]可以理解的是,基于Apriori算法,其基本原理为:对于长度为1的词,若其词频满 足fw(i)>fT,其中,fw(i)表示第i幅石窟壁画的词W的词频,fT表示门限值,则其包含的所有 长度为1' = 1,. . .,1-1的词,其词频均满足fc=(i)>fT。此处,若记一个由1个汉字Wi=(Cii, (312,...,(3 11)组成的词,即长度为1的词,则其包含的长度为1' = 1,...,1-1的词是指 (Cim, · · ·,Ci(m+r)),m= 1,· · ·,1-1 '。因此,一个长度 1 的词Wi= (Cil,Ci2,· · ·,Cil),若其词频 满足fc;(i)>fT,则其必然是由一个长度为1-1的词(Cil,Ci2, . . .,Cil-1)和一个长度为1的汉 字CU组成,且词(Cll,Cl2, . . . ?-Ο和汉字CU的词频均超过门限fT。故可以采用迭代的方 法,统计所有满足fw( i) >fT的词。若统计到长度为1的词时,不存在满足f。(i) >fT的词,则 算法停止。
[0065]可以理解的是,在本发明中,针对每幅石窟壁画,选择其第一描述数据中的1个汉 字(^作为词频统计的对象,获得词频Ui)>fT的全部汉字,其中fT表示词频门限值,i表示 壁画索引, Cl表示第i幅石窟壁画的词c。假设得到他个汉字。则可利用Apriori算法,进一步 统计词频fw(i)>f T包含2个汉字的词的词频,依次增加词所包含的汉字的个数,直至不满足 fw(i)>fT的条件,结束统计过程。
[0066] 可以理解的是,对于关于该石窟壁画的介绍信息一般可以从对该石窟壁画的相关 专著文献中获得,然而,相关专著文献的作者在描述介绍石窟壁画时,可能只会侧重于一个 或几个该石窟壁画的主要的角度进行描述,很可能较少描述甚至忽略一些各石窟壁画间共 有的属性。同时,由于历史原因、气候环境原因的影响,相当数量的石窟壁画内容遭到破坏, 以使石窟壁画内容模糊或丢失,或
者其中一部分石窟壁画的内容在历史文献中失于记载, 并且在对纸质形式的石窟壁画中的描述信息以及纸质形式的该石窟壁画的介绍信息进行 扫描和光学字符识别时,也会存在较多的识别错误。因此,在对各石窟壁画的第一描述数据 进行第一词频统计,获得各石窟壁画所对应的描述词和该描述词所对应的词频时,可能会 存在偏离真实性的情况,然而,考虑到上述因素的随机性与非必要性,在石窟壁画数量非常 庞大时,可以将上述因素对石窟壁画的第一描述数据的影响视为噪声。
[0067]在对各石窟壁画的第一描述数据进行第一词频统计,获得各石窟壁画所对应的描 述词和该描述词所对应的词频时,对于该噪声的描述词的滤除,可以利用无监督学习的自 组织映射算法,具体的,所述获得各壁画所对应的描述词和该描述词所对应的词频包括: [0068]利用基于无监督学习的自组织映射算法对该各壁画所对应的描述词进行量化分 析,以滤除属于噪声的描述词;
[0069]获得滤除噪声的描述词的各石窟壁画所对应的描述词和该描述词所对应的词频, 该属于噪声的描述词为对该纸质形式的石窟壁画中的描述信息和/或该纸质形式的该石窟 壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的错误识别的描述词;其中,该 自组织映射算法中参数选择六边形映射格点,初始化码书选择随机码书,训练过程选择批 处理batch训练算法,映射函数选择高斯邻域函数
,该高斯邻域函数中σ 为邻域半径,r。为单元c的位置,c代表batch训练过程中,对应的各石窟壁画所对应的描述 词训练输出结果索引,η。表示滤除噪声的描述词的各石窟壁画所对应的描述词与未滤除噪 声的描述词间的高斯距离,r。是batch训练过程输出的滤除噪声的描述词的各石窟壁画所 对应的描述词,^是训练输入的各石窟壁画所对应的描述词,| |η_Γι| |表示训练时产生的 噪声的一阶原点矩,根据该高斯距离可以依据现有技术得到滤除噪声的描述词的各石窟壁 画所对应的描述词,该描述词得到后,其对应的词频也相应得到;依据现有技术,自组织映 射获得的最佳匹配单元(BMU,Best Matching Units)可表示
中,x代表输入的预设的词频值,πη表示各石窟壁画所对应的描述词所对应的词频,m。表示最 佳匹配的各石窟壁画所对应的描述词所对应的词频,该公式可以表示为最佳匹配的单元的 欧拉距离,等于各石窟壁画所对应的描述词所对应的词频与该预设词频值的欧拉距离的最 小值。
[0070] S103:将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预 定类别属性,其中,该预定类别属性包括:时间类属性、空间类属性和描述类属性;
[0071] 需要说明的是,该描述类属性中包含了除时间类属性和空间类属性以外的所有关 于该石窟壁画的描述角度的词频超过第一预设阈值的描述词,根据描述词的描述角度进行 了分类,其中,该第一预设阈值与门限值意义相同。该描述类属性可以包括风格类属性、色 彩类属性和主题类属性等等;该空间类属性可以包括描述该石窟壁画为第几窟的描述词, 可以为该石窟壁画所属的地理位置的描述词等等;该时间类属性可以包括该石窟壁画为某 某年间所著的描述词,也可以为该石窟壁画所描述的某某年间的情景的描述词等等。
[0072] 经无监督学习的自组织映射算法得到词wk>1的词频记为fk>1,进一步可得到的 词咐词频/; = 。可取超过第-预设阈值的前' #个具有最高词频丸(々=1,...,Λ〇 的inj叫作为元I且的属性。
[0073] S104:从各石窟壁画的第一描述数据中,确定所对应元组的属于预定类别属性的 各个描述词所对应的多个描述子数据,并将该多个描述子数据中出现次数超过预设数量阈 值的目标描述子数据确定为相应描述词所对应的元组的属性值;
[0074] 需要说明的是,针对各石窟壁画的第一描述数据,确定所对应元组的属于预定类 别属性的各个描述词所对应的多个描述子数据,取该多个描述子数据中出现次数超过预设 数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值,具体的该属性值也 相应的可以分为时间类、空间类和描述类,其中,描述类还可以根据该目标描述子数据的描 述角度再进行分类。
[0075] S105:根据各个元组的属于描述类属性的各个描述词的属性值,将该各个元组关 联成复杂网络,其中,复杂网络中的节点为该元组;
[0076]需要说明的是,根据社会学相关理论,一个被广泛接受的假设是:关联元组具有相 同的属性值。根据这一假设,可以选择具有相同属性值的元组建立关联,从而将该石窟壁画 群关联成为一个复杂网络。进一步考虑到最终目的是要确定各石窟壁画间的时空关联关 系,故而在关联复杂网络时可以暂时排除对时间类属性值、空间类属性值的考虑,而仅考虑 描述类属性值是否相同,进而关联成复杂网络。
[0077] 具体的,所述根据各个元组的属于描述类属性的各个描述词的属性值,将该各个 元组关联成复杂网络,可以包括:
[0078] 针对每两个元组,当该两个元组的属于描述类属性的各个描述词的属性值相同的 数量超过第三预设阈值时,确定该两个元组相互关联;
[0079] 依次确定每两个元组间的关联关系,将该各个元组关联成复杂网络。
[0080] 举例而言,记…,,丨为元组h的除时间类属性值、空间类属性值外的描述类属 性值,其中,《?,…分别表示元组h的除时间类属性值、空间类属性值外的描述类属性 值,则当两个元组Ιι和Ik间属性满足e 2 fn,<=#,···,甿时,即可认为两个元组I_Ik 是具有关联关系的,其中,#,···,<分别表示元组Ik的除时间类属性值、空间类属性值外的 描述类属性值,畛:,…,甿分别表示元组h的除时间类属性值、空间类属性值外的描述类属 性值,f η表示关联关系门限即第三预设阈值。
[0081]进一步,对于复杂网络,对建立关联关系的元素(即各元组),可以利用加权邻接矩 阵Α表示,所有的连接关系。加权邻接矩阵的第1行、第k列元素可表示为:
[0083]其中wi,k判代表网络中顶点1和k之间的有边连通,且边的权为wi,k(例如,取权值 为两个元组?ι和ik的相同属性个数,即%HI =01:1 ),wi,k表示两个元组?ι和ik的相 同属性个数,若取wi, k=1,即为一般的邻接矩阵。
[0084] S106:利用复杂网络分析算法,将该复杂网络中的所有元组以模块化参数最大化 的标准分割为多个网络模块,每个网络模块中包括至少一个元组;
[0085] 需要说明的是,以模块化参数最大化的标准分割该由元组关联成的复杂网络,模 块化参数最大时,其模块内部的元组具有较强的关联关系。
[0086] 具体的,以模块化参数最大化的标准分割为多个网络模块,其中,模块化参数可以 定义为:
[0088] 其中,Q表示模块化参数,5(Ik, Ιι)为克罗内克delta函数(the Kronecker delta function),定义为
[0090] Wk>1表示加权邻接矩阵A的第k行、第1列元素即表示两个元组ldPI k的相同属性个
[0091] 其中,ak表示加权邻接矩阵A的第1列的第k个元素的和,akl表示加权邻接矩阵A的 第1列的第k个元素。
[0092] 要搜索最大化的Q值,一种可行的方法是利用塔布(Tabu)搜索。该算法认为网络是 一个马尔可夫链,元组代表马尔科夫链的状态,塔布搜索的过程即状态转换的过程。塔布搜 索过程从一个假设的初始的网络模块结构P_Init(即随机选取一个元组)开始,进行迭代搜 索。迭代搜索从网络模块结构P_I ter开始,将该网络模块结构P_I ter在迭代开始时认为是 当前迭代过程中具有最大模块化参数的网络模块结构P_Best,遍历所有元组,执行塔布移 动过程,即随机决定该元组所属的网络模块(也可以由该元组新建网络模块),塔布移动后 产生的网络模块结构SP+NeigagP+Neig的模块化参数&P_Best的模块化参数大,则更新 P_Neig*P_Best。下次迭代起始时,取P_Iter = P_Best。迭代过程中,P_Best没有更新的次 数用变量Num_Idle表示。若迭代进行过程中,Num_Idle=MT,MT为迭代次数门限,则可认为 P_Best已经是最优的网络模块结构,8卩P_Best为模块化参数最大的网络模块。其中,随着MT 的逐渐增大,所取网络模块结构P_Best以概率1收敛于最优网络模块结构。
[0093] S107:将该多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟 壁画确定为存在时空关联关系,其中,该预
定条件包括:所包括元组的属于时间类属性的描 述词的属性值不同和/或空间类属性的描述词的属性值不同。
[0094] 由于在关联复杂网络时回避了时间类属性值和空间类属性值,故网络模块的选取 与时间类属性和空间类属性无关。另一方面,从网络模块化参数最大化的角度出发,网络模 块内部的元组具有较强的关联关系。因而,可以考虑元组包含时间类属性和空间类属性在 内的所有属性的属性值{?丨,…,/,4},其中,…,nf'分别表示元组1:的除时间类属性 值、空间类属性值外的描述类属性值,^表示元组h的时间类属性值、81表示元组h的空间 类属性值。若同一网络模块内包含具有不同时间类属性值或空间类属性值的元组,则说明 不同时间、空间的壁画之间存在时空关联特性即存在时空关联关系。
[0095] 可以理解的是,为了更好的对该石窟壁画群中各石窟壁画的整体分析,可以进行 定量的确定该石窟壁画群中各石窟壁画的时空关联关系,具体的,在所述将该多个网络模 块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系 之后,还可以包括:
[0096] 计算该目标网络模块占所有网络模块的百分比,以定量确定该石窟壁画群中各石 窟壁画的时空关联关系。
[0097] 应用本发明实施例,首先确定石窟壁画群中各石窟壁画的第一描述数据,并将各 石窟壁画确定为一个元组,基于Apriori算法对该第一描述数据进行词频统计,得到各石窟 壁画的描述词及其所对应的词频,进而确定相应元组的预定类别属性,根据该预定类别属 性确定相应元组的属性值,以属于描述类属性的各个描述词的属性值,将各个元组关联成 复杂网络,利用复杂网络分析算法,将该复杂网络分割为多个网络模块,确定符合预定条件 的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系,可以挖掘确定石窟 壁画群中石窟壁画的时空关联关系,为研究石窟壁画的整体关联关系提供了参考数据。
[0098] 相应于上述方法实施例,如图2所示,本发明实施例还提供了一种挖掘石窟壁画群 中石窟壁画时空关联关系的装置,该装置可以包括:
[0099]确定单元201:用于确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟 壁画确定为一个元组,其中,该石窟壁画的第一描述数据为:从预先获得的该石窟壁画中的 描述信息以及预先获得的关于该石窟壁画的介绍信息中提取得到;
[0100]词频统计单元202:用于基于Apriori算法对各石窟壁画的第一描述数据进行第一 词频统计,进而,获得各石窟壁画所对应的描述词和所述描述词所对应的词频;
[0101] 预定类别属性确定单元203:用于将各石窟壁画中词频超过第一预设阈值的多个 描述词确定为相应元组的预定类别属性,其中,该预定类别属性包括:时间类属性、空间类 属性和描述类属性;
[0102] 属性值确定单元204:用于从各石窟壁画的第一描述数据中,确定所对应元组的属 于预定类别属性的各个描述词所对应的多个描述子数据,并将该多个描述子数据中出现次 数超过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值;
[0103] 复杂网络关联单元205:用于根据各个元组的属于描述类属性的各个描述词的属 性值,将该各个元组关联成复杂网络,其中,复杂网络中的节点为该元组;
[0104] 网络模块分割单元206:用于利用复杂网络分析算法,将该复杂网络中的所有元组 以模块化参数最大化的标准分割为多个网络模块,每个网络模块中包括至少一个元组;
[0105] 时空关联关系确定单元207:用于将该多个网络模块中符合预定条件的目标网络 模块所包括元组对应的石窟壁画确定为存在时空关联关系,其中,该预定条件包括:所包括 元组的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。
[0106] 应用本发明实施例,首先确定石窟壁画群中各石窟壁画的第一描述数据,并将各 石窟壁画确定为一个元组,基于Apriori算法对该第一描述数据进行词频统计,得到各石窟 壁画的描述词及其所对应的词频,进而确定相应元组的预定类别属性,根据该预定类别属 性确定相应元组的属性值,以属于描述类属性的各个描述词的属性值,将各个元组关联成 复杂网络,利用复杂网络分析算法,将该复杂网络分割为多个网络模块,确定符合预定条件 的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系,可以挖掘确定石窟 壁画群中石窟壁画的时空关联关系,为研究石窟壁画的整体关联关系提供了参考数据。
[0107] 具体的,该词频统计单元202基于Apriori算法对各石窟壁画的第一描述数据进行 第一词频统计时,可以包括:
[0108] 基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语气词、 标点符号以及结构助词之外的第一词频统计。
[0109] 具体的,关于该石窟壁画中的描述信息的获得方式,可以包括:
[0110]对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而获得该 石窟壁画中的描述信息;
[0111] 关于该石窟壁画的介绍信息的获得方式,可以包括:
[0112] 对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而获得该 石窟壁画的介绍信息。
[0113] 具体的,所述词频统计单元202具体用于:
[0114] 利用基于无监督学习的自组织映射算法对该各壁画所对应的描述词进行量化分 析,以滤除属于噪声的描述词;
[0115] 获得滤除噪声的描述词的各石窟壁画所对应的描述词和该描述词所对应的词频, 该属于噪声的描述词为对该纸质形式的石窟壁画中的描述信息和/或该纸质形式的该石窟 壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的错误识别的描述词;其中,该 自组织映射算法中参数选择六边形映射格点,初始化码书选择随机码书,训练过程选择批 处理batch训练算法,映射函数选择高斯邻域函数
,该高斯邻域函数中 σ为邻域半径,r。为单元c的位置,c代表batch训练过程中,对应的各石窟壁画所对应的描述 词训练输出结果索引,η。表示滤除噪声的描述词的各石窟壁画所对应的描述词与未滤除噪 声的描述词间的高斯距离,r。是batch训练过程输出的滤除噪声的描述词的各石窟壁画所 对应的描述词,^是训练输入的各石窟壁画所对应的描述词,| |η_Γι| |表示训练时产生的 噪声的一阶原点矩。
[0116] 具体的,该复杂网络关联单元205根据各个元组的属于描述类属性的各个描述词 的属性值,将该各个元组关联成复杂网络,可以包括:
[0117] 针对每两个元组,当该两个元组的属于描述类属性的各个描述词的属性值相同的 数量超过第三预设阈值时,确定该两个元组相互关联;
[0118] 依次确定每两个元组间的关联关系,将该各元组关联成复杂网络。
[0119] 具体的,本发明实施例所提供的一种挖掘石窟壁画群中石窟壁画时空关联关系的 装置,还包括时空关联关系定量确定单元;
[0120] 该时空关联关系定量确定单元:用于在所述时空关联关系确定单元207将该多个 网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关 联关系之后,计算该目标网络模块占所有网络模块的百分比,以定量确定该石窟壁画群中 各石窟壁画的时空关联关系。
[0121] 对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简 单,相关之处参见方法实施例的部分说明即可。
[0122] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0123] 本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中, 这里所称得的存储介质,如:R0M/RAM、磁碟、光盘等。
[0124] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、
改进等,均包含在本发明的保护范围 内。
【主权项】
1. 一种挖掘石窟壁画群中石窟壁画时空关联关系的方法,其特征在于,所述方法包括: 确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟壁画确定为一个元组, 其中,所述石窟壁画的第一描述数据为:从预先获得的该石窟壁画中的描述信息以及预先 获得的关于该石窟壁画的介绍信息中提取得到; 基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统计,进而,获得各石窟 壁画所对应的描述词和所述描述词所对应的词频; 将各石窟壁画中词频超过第一预设阈值的多个描述词确定为相应元组的预定类别属 性,其中,所述预定类别属性包括:时间类属性、空间类属性和描述类属性; 从各石窟壁画的第一描述数据中,确定所对应元组的属于预定类别属性的各个描述词 所对应的多个描述子数据,并将所述多个描述子数据中出现次数超过预设数量阈值的目标 描述子数据确定为相应描述词所对应的元组的属性值; 根据各个元组的属于描述类属性的各个描述词的属性值,将所述各个元组关联成复杂 网络,其中,复杂网络中的节点为所述元组; 利用复杂网络分析算法,将所述复杂网络中的所有元组以模块化参数最大化的标准分 割为多个网络模块,每个网络模块中包括至少一个元组; 将所述多个网络模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确 定为存在时空关联关系,其中,所述预定条件包括:所包括元组的属于时间类属性的描述词 的属性值不同和/或空间类属性的描述词的属性值不同。2. 根据权利要求1所述的方法,其特征在于,所述基于Apriori算法对各石窟壁画的第 一描述数据进行第一词频统计,包括: 基于Apriori算法对各石窟壁画的第一描述数据进行除语气助词、数字、语气词、标点 符号以及结构助词之外的第一词频统计。3. 根据权利要求1所述的方法,其特征在于,关于该石窟壁画中的描述信息的获得方 式,包括: 对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而获得该石窟 壁画中的描述信息; 关于该石窟壁画的介绍信息的获得方式,包括: 对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而获得该石窟 壁画的介绍信息。4. 根据权利要求3所述的方法,其特征在于,所述获得各壁画所对应的描述词和所述描 述词所对应的词频包括: 利用基于无监督学习的自组织映射算法对所述各壁画所对应的描述词进行量化分析, 以滤除属于噪声的描述词; 获得滤除噪声的描述词的各石窟壁画所对应的描述词和所述描述词所对应的词频,所 述属于噪声的描述词为对所述纸质形式的石窟壁画中的描述信息和/或所述纸质形式的该 石窟壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的错误识别的描述词;其 中,所述自组织映射算法中参数选择六边形映射格点,初始化码书选择随机码书,训练过程 选择批处理batch训练算法,映射函数选择高斯邻域函数:所述高斯邻 域函数中σ为邻域半径,r。为单元c的位置,c代表batch训练过程中,对应的各石窟壁画所对 应的描述词训练输出结果索引,η。表示滤除噪声的描述词的各石窟壁画所对应的描述词与 未滤除噪声的描述词间的高斯距离,r。是batch训练过程输出的滤除噪声的描述词的各石 窟壁画所对应的描述词,^是训练输入的各石窟壁画所对应的描述词,I |rc;-ri| I表示训练 时产生的噪声的一阶原点矩。5. 根据权利要求1所述的方法,其特征在于,所述根据各个元组的属于描述类属性的各 个描述词的属性值,将所述各个元组关联成复杂网络,包括: 针对每两个元组,当所述两个元组的属于描述类属性的各个描述词的属性值相同的数 量超过第三预设阈值时,确定所述两个元组相互关联; 依次确定每两个元组间的关联关系,将所述各元组关联成复杂网络。6. 根据权利要求1所述的方法,其特征在于,在所述将所述多个网络模块中符合预定条 件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系之后,还包括: 计算所述目标网络模块占所有网络模块的百分比,以定量确定所述石窟壁画群中各石 窟壁画的时空关联关系。7. -种挖掘石窟壁画群中石窟壁画时空关联关系的装置,其特征在于,所述装置包括: 确定单元:用于确定石窟壁画群中各石窟壁画的第一描述数据,并将每幅石窟壁画确 定为一个元组,其中,所述石窟壁画的第一描述数据为:从预先获得的该石窟壁画中的描述 信息以及预先获得的关于该石窟壁画的介绍信息中提取得到; 词频统计单元:用于基于Apriori算法对各石窟壁画的第一描述数据进行第一词频统 计,进而,获得各石窟壁画所对应的描述词和所述描述词所对应的词频; 预定类别属性确定单元:用于将各石窟壁画中词频超过第一预设阈值的多个描述词确 定为相应元组的预定类别属性,其中,所述预定类别属性包括:时间类属性、空间类属性和 描述类属性; 属性值确定单元:用于从各石窟壁画的第一描述数据中,确定所对应元组的属于预定 类别属性的各个描述词所对应的多个描述子数据,并将所述多个描述子数据中出现次数超 过预设数量阈值的目标描述子数据确定为相应描述词所对应的元组的属性值; 复杂网络关联单元:用于根据各个元组的属于描述类属性的各个描述词的属性值,将 所述各个元组关联成复杂网络,其中,复杂网络中的节点为所述元组; 网络模块分割单元:用于利用复杂网络分析算法,将所述复杂网络中的所有元组以模 块化参数最大化的标准分割为多个网络模块,每个网络模块中包括至少一个元组; 时空关联关系确定单元:用于将所述多个网络模块中符合预定条件的目标网络模块所 包括元组对应的石窟壁画确定为存在时空关联关系,其中,所述预定条件包括:所包括元组 的属于时间类属性的描述词的属性值不同和/或空间类属性的描述词的属性值不同。8. 根据权利要求7所述的装置,其特征在于,关于该石窟壁画中的描述信息的获得方 式,包括: 对纸质形式的石窟壁画中的描述信息依次进行扫描和光学字符识别,从而获得该石窟 壁画中的描述信息; 关于该石窟壁画的介绍信息的获得方式,包括: 对纸质形式的该石窟壁画的介绍信息依次进行扫描和光学字符识别,从而获得该石窟 壁画的介绍信息。9. 根据权利要求8所述的装置,其特征在于,所述词频统计单元具体用于: 利用基于无监督学习的自组织映射算法对所述各壁画所对应的描述词进行量化分析, 以滤除属于噪声的描述词; 获得滤除噪声的描述词的各石窟壁画所对应的描述词和所述描述词所对应的词频,所 述属于噪声的描述词为对所述纸质形式的石窟壁画中的描述信息和/或所述纸质形式的该 石窟壁画的介绍信息依次进行进行扫描和光学字符识别时,出现的错误识别的描述词;其 中,所述自组织映射算法中参数选择六边形映射格点,初始化码书选择随机码书,训练过程 选择批处理batch训练算法,映射函数选择高斯邻域函数所述高斯邻 域函数中σ为邻域半径,r。为单元c的位置,c代表batch训练过程中,对应的各石窟壁画所对 应的描述词训练输出结果索引,η。表示滤除噪声的描述词的各石窟壁画所对应的描述词与 未滤除噪声的描述词间的高斯距离,r。是batch训练过程输出的滤除噪声的描述词的各石 窟壁画所对应的描述词,^是训练输入的各石窟壁画所对应的描述词,I |rc;-ri| I表示训练 时产生的噪声的一阶原点矩。10. 根据权利要求7所述的装置,其特征在于,还包括时空关联关系定量确定单元; 所述时空关联关系定量确定单元:用于在所述时空关联关系确定单元将所述多个网络 模块中符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关 系之后,计算所述目标网络模块占所有网络模块的百分比,以定量确定所述石窟壁画群中 各石窟壁画的时空关联关系。
【专利摘要】本发明实施例公开了挖掘石窟壁画群中石窟壁画时空关联关系的方法和装置,方案包括:确定石窟壁画群中各石窟壁画的第一描述数据,将各石窟壁画确定为一个元组,基于Apriori算法对第一描述数据进行词频统计,得到各石窟壁画的描述词及所对应的词频,确定相应元组的预定类别属性,根据预定类别属性确定相应元组的属性值,以属于描述类属性的各个描述词的属性值,将各个元组关联成复杂网络,利用复杂网络分析算法,将复杂网络分割为多个网络模块,确定符合预定条件的目标网络模块所包括元组对应的石窟壁画确定为存在时空关联关系,应用本发明实施例可以确定石窟壁画群中石窟壁画的时空关联关系,为研究石窟壁画的整体关联关系提供参考数据。
【IPC分类】G06F17/30, G06K9/34
【公开号】CN105488183
【申请号】CN201510864465
【发明人】赵海英, 陈洪
【申请人】北京邮电大学世纪学院
【公开日】2016年4月13日
【申请日】2015年12月1日