基于信息论的强化学习泛化性网络

xiaoxiao10月前  38



1.本发明涉及一种用于强化学习领域的泛化性网络,具体涉及一种基于信息论的强化学习泛化性网络。


背景技术:

2.泛化性指模型经过训练后,遇到参数扰动或者新数据时的适应和应变能力。一个已训练的模型很容易对训练环境产生严重依赖,以至于在实际应用时,一旦应用环境与训练环境稍有差别,模型就无法正常发挥作用。这种泛化性问题在强化学习算法落地过程中非常常见,尤其是强化学习需要不断与环境进行交互学习,很容易对训练环境产生过度依赖和高度敏感。
3.作为算法的决策核心,人工神经网络的加入造就了智能化算法的飞速发展。但与深度学习领域下丰富多样的网络架构形成鲜明相比,强化学习的网络架构还在普遍采用浅层的多层感知器网络。这极大限制了强化学习算法的泛化潜力。因此,本发明从神经网络的角度出发,研究如何通过修改神经网络,来提升强化学习智能体的泛化性表现。


技术实现要素:

4.针对现有技术存在的不足,本发明要解决的是如何提通过修改神经网络,来提升强化学习算法的泛化性能。为解决上述技术问题,本发明采用如下的技术方案:
5.一种基于信息论的强化学习泛化性网络,包括如下步骤:
6.(1)建立获取环境信息,并转换为状态空间作为算法的输入;
7.(2)拓展强化学习神经网络,增大神经网络的容量和规模;
8.神经网络的规模直接决定了其抽象和表征能力,高容量的网络模型更有利于算法泛化性能的提高。当网络近似同一个函数时,通过增加深度和减少宽度,可以大幅减少神经元的使用数量。假设φ是一个非线性函数,q是一个正整数,p(x)是一个多元多项式。定义nk(p,θ)是当神经网络近似非线性φ函数时,神经网络隐藏层所需的最小神经元数量(不包括输入和输出),可表示为:
[0009][0010]
为了获得最优值,引入拉格朗日乘数计算求得:
[0011][0012]
其中bi是第i个隐藏层的单元数,λ是权重系数。l是拉格朗日计算。然后对其进行微分求解,化简并重新排列就得到:
[0013]bi
=b
i-1
+log2(b
i-1-1/(log2))
[0014]
根据bi与输入m在不同q值上的关系,当隐藏层数q增加时,乘积多项式的近似成本迅速下降。因此,我们发现网络深度比宽度更值得研究。所以我们定量定性地研究了网络深
度对强化学习泛化性的影响,通过扩大深度来拓展网络规模和容量。
[0015]
(3)定量分析神经网络规模对算法泛化性能的影响;
[0016]
(4)根据信息论理论,采用半密集跨层连接的方式,加强对样本信息的利用率;
[0017]
虽然拓展网络结构可以直观提升网络模型的容量和性能表现,但也伴随着训练不稳定,特征信息利用率低和梯度弥散等问题。为了扬长避短,我们提出了一种半密集网跨层连接方式,将初始特征信息与每个隐藏层的初始输入进行拼接输入。由信息论可知,变量x与变量y间的互信息量为:i(x,y)。假设神经网络的初始输入为x,隐藏层第一层输入x1,隐藏层的第n层的输入是xn,最终输出为y。它们之间互信息量的一个非常重要的性质是数据处理链(dpi),如果将整个神经网络看作数据的编解码过程,则整个的数据传播过程的dpi链为:
[0018]
x

x1→
x2…→
xn→y[0019]
它们之间的互信息量大小满足以下关系:
[0020]
i(x;x1)≥i(x2;x1)≥

≥i(y;xn)
[0021]
h(x)≥i(x;x1)≥i(x;x2)≥

≥i(x;xn)≥i(x;y)
[0022]
这说明神经网络在训练过程中不断压缩和抛弃信息数据,导致后面能学到的特征信息量越来越少。但通过跨层连接的方式,实现了对初始特征信息的重复学习,保证了隐藏层能学到更多有效特征。该方法增加了隐藏层与输出层的互信息量,符合神经网络的优化方向。这种半密集跨层连接连接方式能提高隐藏层对样本数据的利用率,加强对深层特征的学习,同时能避免全密集连接带来的过度学习,有利于提高模型的泛化能力
[0023]
(5)采用通道压缩的方法,对神经网络中的特征信息进行降维,抑制过拟合;
[0024]
为了学到输入数据的隐含特征和提升泛化效果,我们提出了一种通道压缩降维的方法。该方法类似于一种自编码器,能够通过限制网络隐藏层的通道数,对特征信息进行压缩降维。但要注意的是,降维程度过大会导致特征信息映射到隐空间时丢失过多信息,产生较大误差。隐藏层单元的数量需要控制在一个合适的范围,通常隐藏层单元的个数设置为小于原始输入数据维度,大于或等于输入数据的维度的秩:
[0025]
n=rank(x)+α(dim(x)-rank(x)),α∈[0,1]
[0026]
其中,n代表隐藏层单元数,x是神经网络的输入,rank(x)是求解矩阵x的秩,dim(x)是输入样本,α是权重系数。有些算法在输入数据中加入噪声来提高算法的泛化性,但含有噪声的输入矩阵是满秩的,所以要用衰减因子进行约束。
[0027]
n=βdim(x),β∈(0,1)
[0028]
β是衰减系数,取值范围为(0,1)。需要注意的是,整个网络的深度和宽度(特征维度数)要做到平衡。只有等比例的增大深度和维度才能最大限度的提升网络的性能。通过减少通道数对特征信息强制降维,不仅可以避免半密集连接可能带来的过拟合,也能帮助强化学习算法学习更多的新特征来提升泛化能力。
[0029]
(6)生成泛化性策略,选择和输出动作。
[0030]
本发明的优点及积极效果在于:
[0031]
(1)本发明有效拓展了神经网络的容量和规模,挖掘了强化学习算法的潜力。
[0032]
(2)本发明的提出泛化性网络能够解决强化学习泛化性能差的问题,推动强化学习算法的落地应用。
[0033]
(3)本方法在强化学习原有神经网络上实现,保证了泛化性网络的适用性。
[0034]
(4)该方法经过大量的实验并进行了验证,有效地提高了该方法可靠性。
附图说明
[0035]
图1是本发明中具体实施方式中的强化学习泛化性网络框架图;
[0036]
图2是本发明中具体实施方式中的两个泛化性验证环境图;
[0037]
图3是本发明中具体实施方式中的半密集跨层连接图;
[0038]
图4是本发明中具体实施方式中的pendulum环境下泛化性网络模型对比结果图;
[0039]
图5是本发明中具体实施方式中的halfcheetah环境下泛化性网络模型对比结果图;
具体实施方式
[0040]
为使本发明目的、技术方案更加清楚,下面结合附图详细说明本发明具体实施步骤。
[0041]
参见图1,其示出了本发明提出的基于信息论的强化学习泛化性网络整体框架图,详述如下:
[0042]
1、获取环境信息,并转换为状态空间作为算法的输入;
[0043]
使用的是openai gym中经典环境,用来模拟机器人的控制问题,主要包括pendulum和halfcheetah。它们均使用相应的mujoco物理引擎,是强化学习在控制领域的经典应用。两个环境的场景如图2所示。我们将两个环境的信息,转换强化学习算法的状态空间,输入到算法的神经网络中。
[0044]
2、拓展强化学习神经网络,增大神经网络的容量和规模;
[0045]
3、定量分析神经网络规模对算法泛化性能的影响;
[0046]
我们以原始算法3层神经网络作为基准,逐步拓展神经网络的深度。算法泛化性能的具体表现如表1所示。
[0047]
表1拓展神经网络后算法的泛化性能表
[0048]
环境基准5791113pendulum-1017.6-958.77-1318.9-1550.32-2045.15-3133.81halfcheetah4179.274806.455168.245116.615228.213937.69
[0049]
从表中可以看出,拓展神经网络带来了泛化性能的提升。
[0050]
4、根据信息论理论,采用半密集跨层连接的方式,加强对样本信息的利用率;
[0051]
虽然拓展网络结构可以直观提升网络模型的容量和性能表现,但也伴随着训练不稳定,特征信息利用率低和梯度弥散等问题。为了扬长避短,我们提出了一种半密集网跨层连接方式,将初始特征信息与每个隐藏层的初始输入进行拼接输入。如图3所示。由信息论可知,变量x与变量y间的互信息量为:i(x,y)。假设神经网络的初始输入为x,隐藏层第一层输入x1,隐藏层的第n层的输入是xn,最终输出为y。它们之间互信息量的一个非常重要的性质是数据处理链(dpi),如果将整个神经网络看作数据的编解码过程,则整个的数据传播过程的dpi链为:
[0052]
x

x1→
x2…→
xn→y[0053]
它们之间的互信息量大小满足以下关系:
[0054]
i(x;x1)≥i(x2;x1)≥

≥i(y;xn)
[0055]
h(x)≥i(x;x1)≥i(x;x2)≥

≥i(x;xn)≥i(x;y)
[0056]
这说明神经网络在训练过程中不断压缩和抛弃信息数据,导致后面能学到的特征信息量越来越少。但通过跨层连接的方式,实现了对初始特征信息的重复学习,保证了隐藏层能学到更多有效特征。该方法增加了隐藏层与输出层的互信息量,符合神经网络的优化方向。这种半密集跨层连接连接方式能提高隐藏层对样本数据的利用率,加强对深层特征的学习,同时能避免全密集连接带来的过度学习,有利于提高模型的泛化能力。
[0057]
5、采用通道压缩的方法,对神经网络中的特征信息进行降维,抑制过拟合;
[0058]
为了学到输入数据的隐含特征和提升泛化效果,我们提出了一种通道压缩降维的方法。该方法类似于一种自编码器,能够通过限制网络隐藏层的通道数,对特征信息进行压缩降维。但要注意的是,降维程度过大会导致特征信息映射到隐空间时丢失过多信息,产生较大误差。隐藏层单元的数量需要控制在一个合适的范围,通常隐藏层单元的个数设置为小于原始输入数据维度,大于或等于输入数据的维度的秩:
[0059]
n=rank(x)+α(dim(x)-rank(x)),α∈[0,1]
[0060]
其中,n代表隐藏层单元数,x是神经网络的输入,rank(x)是求解矩阵x的秩,dim(x)是输入样本,α是权重系数。有些算法在输入数据中加入噪声来提高算法的泛化性,但含有噪声的输入矩阵是满秩的,所以要用衰减因子进行约束。
[0061]
n=βdim(x),β∈(0,1)
[0062]
β是衰减系数,取值范围为(0,1)。需要注意的是,整个网络的深度和宽度(特征维度数)要做到平衡。只有等比例的增大深度和维度才能最大限度的提升网络的性能。通过减少通道数对特征信息强制降维,不仅可以避免半密集连接可能带来的过拟合,也能帮助强化学习算法学习更多的新特征来提升泛化能力。详细实验结果如图4和图5所示。从中我们可以看出泛化性网络模型的泛化效果最好。
[0063]
6、生成泛化性策略,选择和输出动作。

技术特征:
1.一种基于信息论的强化学习泛化性网络,其特征在于,该方法包括以下几个步骤:(1)获取环境信息,并转换为状态空间作为算法的输入;(2)拓展强化学习神经网络,增大神经网络的容量和规模;(3)定量分析神经网络规模对算法泛化性能的影响;(4)根据信息论理论,采用半密集跨层连接的方式,加强对样本信息的利用率;(5)采用通道压缩的方法,对神经网络中的特征信息进行降维,抑制过拟合;(6)生成泛化性策略,选择和输出动作。2.如权利要求1所示述的一种基于信息论的强化学习泛化性网络,其特征在于:所述步骤(2)中拓展强化学习的神经网络:神经网络的规模直接决定了其抽象和表征能力,高容量的网络模型更有利于算法泛化性能的提高。当网络近似同一个函数时,通过增加深度和减少宽度,可以大幅减少神经元的使用数量。假设φ是一个非线性函数,q是一个正整数,p(x)是一个多元多项式。定义n
k
(p,θ)是当神经网络近似非线性φ函数时,神经网络隐藏层所需的最小神经元数量(不包括输入和输出),可表示为:为了获得最优值,引入拉格朗日乘数计算求得:其中bi是第i个隐藏层的单元数,λ是权重系数。l是拉格朗日计算。然后对其进行微分求解,化简并重新排列就得到:b
i
=b
i-1
+log2(b
i-1-1/(log2))根据bi与输入m在不同q值上的关系,当隐藏层数q增加时,乘积多项式的近似成本迅速下降。因此,我们发现网络深度比宽度更值得研究。所以我们定量定性地研究了网络深度对强化学习泛化性的影响,通过扩大深度来拓展网络规模和容量。3.如权利要求1所示述的一种基于信息论的强化学习泛化性网络,其特征在于:所述步骤(4)中根据信息论理论,采用半密集跨层连接的方式:虽然拓展网络结构可以直观提升网络模型的容量和性能表现,但也伴随着训练不稳定,特征信息利用率低和梯度弥散等问题。为了扬长避短,我们提出了一种半密集网跨层连接方式,将初始特征信息与每个隐藏层的初始输入进行拼接输入。由信息论可知,变量x与变量y间的互信息量为:i(x,y)。假设神经网络的初始输入为x,隐藏层第一层输入x1,隐藏层的第n层的输入是x
n
,最终输出为y。它们之间互信息量的一个非常重要的性质是数据处理链(dpi),如果将整个神经网络看作数据的编解码过程,则整个的数据传播过程的dpi链为:x

x1→
x2...

x
n

y它们之间的互信息量大小满足以下关系:i(x;x1)≥i(x2;x1)≥

≥i(y;x
n
)h(x)≥i(x;x1)≥i(x;x2)≥

≥i(x;x
n
)≥i(x;y)这说明神经网络在训练过程中不断压缩和抛弃信息数据,导致后面能学到的特征信息
量越来越少。但通过跨层连接的方式,实现了对初始特征信息的重复学习,保证了隐藏层能学到更多有效特征。该方法增加了隐藏层与输出层的互信息量,符合神经网络的优化方向。这种半密集跨层连接连接方式能提高隐藏层对样本数据的利用率,加强对深层特征的学习,同时能避免全密集连接带来的过度学习,有利于提高模型的泛化能力。4.如权利要求1所示述的一种基于信息论的强化学习泛化性网络,其特征在于:所述步骤(5)中采用通道压缩的方法,对神经网络中的特征信息进行降维:为了学到输入数据的隐含特征和提升泛化效果,我们提出了一种通道压缩降维的方法。该方法类似于一种自编码器,能够通过限制网络隐藏层的通道数,对特征信息进行压缩降维。但要注意的是,降维程度过大会导致特征信息映射到隐空间时丢失过多信息,产生较大误差。隐藏层单元的数量需要控制在一个合适的范围,通常隐藏层单元的个数设置为小于原始输入数据维度,大于或等于输入数据的维度的秩:n=rank(x)+α(dim(x)-rank(x)),α∈[0,1]其中,n代表隐藏层单元数,x是神经网络的输入,rank(x)是求解矩阵x的秩,dim(x)是输入样本,α是权重系数。有些算法在输入数据中加入噪声来提高算法的泛化性,但含有噪声的输入矩阵是满秩的,所以要用衰减因子进行约束。n=βdim(x),β∈(0,1)β是衰减系数,取值范围为(0,1)。需要注意的是,整个网络的深度和宽度(特征维度数)要做到平衡。只有等比例的增大深度和维度才能最大限度的提升网络的性能。通过减少通道数对特征信息强制降维,不仅可以避免半密集连接可能带来的过拟合,也能帮助强化学习算法学习更多的新特征来提升泛化能力。

技术总结
随着强化学习逐渐被应用到更多领域,其存在的泛化性差的问题也逐渐受到关注。智能体的泛化性能决定了其能否应对各种突发情况,能否在更广泛的真实场景应用,甚至能否设计出真正的通用人工智能。因此对于强化学习泛化性能的研究是很有意义的。本发明是针对强化学习泛化性能差的问题,提出了一种基于信息论的强化学习泛化性网络。该网络型首先拓展了现有网络结构,利用高容量网络增强算法的表征能力;然后从信息论的角度探讨了特征信息在高容量网络中的传递问题,提出半密集跨层连接方式,对特征信息进行跨层重用;最后提出通道压缩降维的方法,通过压缩隐藏层通道数,来对特征信息压缩和降维。本发明可广泛用于提升强化学习算法的泛化性能。的泛化性能。的泛化性能。


技术研发人员:杨嘉琛 霍紫强 肖太秋 肖帅 温家宝
受保护的技术使用者:天津大学
技术研发日:2022.09.28
技术公布日:2023/1/6

最新回复(0)