本发明属于深度学习,具体地,涉及一种有限数据下基于脑启发的深度神经网络增强方法。
背景技术:
1、近年来,包含大量参数和复杂架构的深度神经网络模型因其强大的特征提取和学习能力而成为一种应用十分广泛的机器学习方法,然而,深度神经网络在实际应用中存在多种缺陷。其中,最典型的缺陷便是参数过耦合,即由于深度神经网络模型的固有特性,模型内的各个参数在训练过程中会受到大量与其相关的参数的极大制约,进而阻碍该参数的深度优化。该问题极大地限制了一些关键参数(如最后几个网络层中的参数)的优化,使得深度神经网络模型存在一个低于其自身潜力且难以突破的预测性能上限。而且,该问题会随着模型的增大而变得更加严重。
2、此外,大型的深度神经网络模型需要依赖于大规模的数据集进行训练。但是在实际应用中,深度神经网络往往难以获取到充足的训练样本。尤其是在数据稀少和隐私敏感的领域中,收集以及标注大量高质量数据的成本十分高昂,这极大的限制了深度神经网络在多个领域的实际应用。
3、直观地说,上述这些挑战可以通过简化神经网络模型架构来进行缓解,但这种方法将会损害深度神经网络的特征提取能力,进而影响该模型最终的预测性能。
4、而与当前的深度神经网络模型不同,人类大脑在工作时并不会存在上述的参数过耦合和对海量数据的高度依赖等缺陷,其背后的原因在于人脑的内部分区在某些情况下是异步工作的。诸如,人脑内部的海马-前额叶回路采用异步工作策略,避免了其内部的记忆和决策过程之间的相互制约,从而在资源有限的情况下保持了较高的工作效率。而其异步工作的具体细节如图1所示。
技术实现思路
1、针对上述问题,本发明提出了一种有限数据下基于脑启发的深度神经网络增强方法,参照人类大脑内部的海马-前额叶回路的异步工作机制,开发了一种通用的异步学习框架,在不损害深度神经网络特征提取能力的情况下,克服其所面临的参数过耦合和对大量训练数据高度依赖的问题。
2、本发明通过以下技术方案实现:
3、一种有限数据下基于脑启发的深度神经网络增强方法:
4、所述方法具体包括以下步骤:
5、步骤1,选择主干模型,进行区域划分;
6、步骤2,根据步骤1划分的区域进行模型重构,以获得深度神经网络的异步架构;
7、步骤3,设计异步训练方法对步骤2重构后的模型进行训练,分别独立优化其特征提取器和预测器;
8、步骤4,模型预测;使用步骤3训练后的模型进行实际应用,输出预测结果。
9、进一步地,在步骤1中,
10、选择一个具有n层网络的深度前馈神经网络模型(dnn)作为异步学习框架的主干模型;
11、将选择的dnn划分为两部分:特征提取器fe-net和预测器ip-net;
12、所述特征提取器fe-net包括输入层和dnn前侧的网络层,负责读取输入数据并提取特征;
13、所述预测器ip-net包含dnn的最后几层网络,负责整合fe-net提取的特征并完成预测。
14、进一步地,在步骤2中,
15、引入辅助输出层ao,其结构和设置与dnn的输出层相同;
16、修改特征提取器fe-net和预测器ip-net之间原有的顺序连接方式,使特征提取器fe-net并行连接预测器ip-net和辅助输出层ao,形成dnn的异步架构dnn-a。
17、进一步地,在步骤3中,所述异步训练方法包含特征提取训练和状态预测训练两个阶段;
18、所述特征提取训练:
19、将辅助输出层ao与特征提取器fe-net结合,形成dnn-a的初级实现模式dnn-aj;
20、使用训练数据(x,y)对dnn-aj进行训练,优化特征提取器fe-net中的参数;
21、所述状态预测训练:
22、将训练后的特征提取器fe-net和预测器ip-net结合,生成dnn-a的高级实现模式dnn-as;
23、使用训练数据(x,y)对高级实现模式dnn-as进行训练,但仅优化ip-net中的参数,保持fe-net参数不变。
24、进一步地,在步骤4中,
25、训练完成的dnn-as用于对输入数据进行预测,生成预测结果。
26、一种有限数据下基于脑启发的深度神经网络增强系统:
27、所述系统包括区域划分模块、模型重构模块和异步训练模块:
28、所述区域划分模块用于在选择主干模型后进行区域划分;
29、所述模型重构模块根据区域划分模块划分的区域进行模型重构,以获得给定的深度神经网络的异步架构;
30、所述异步训练模块设计异步训练方法,对模型重构模块重构后的模型进行训练,分别独立优化其特征提取器和预测器,并基于重构后的模型在实际应用中输出预测结果。
31、一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
32、一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时实现上述方法的步骤。
33、本发明有益效果
34、本发明将特征提取器(fe-net)和预测器(ip-net)分离,并进行独立优化;这种分离减少了参数之间的相互影响,使得每个部分可以更灵活地优化,以达到更好的性能。
35、本发明的fe-net和ip-net相较于原始的dnn而言,规模较小、架构简单,只需要较少的训练数据即可实现优化,这降低了深度神经网络模型对大量训练数据的依赖,使得模型训练更加高效;同时需要的计算资源也相对较少,在一定程度上减少训练过程中的计算成本。
36、本发明通过异步训练减少参数过耦合的问题,而不是直接处理具体的物理参数或数据,优化了dnn的训练过程,提高了模型的性能和效率。
37、因为异步训练算法并没有精简给定深度神经网络模型的架构和参数,所以这种方法并不会损害模型的特征提取以及学习能力。
38、本发明通过异步训练,允许模型在不同阶段专注于不同的优化目标,可以优化特征提取和状态预测能力,比传统的同步训练方法更高效。
39、本发明所提出的异步学习框架是一种通用的方法,可以应用于各种经典的深度神经网络,具有很好的通用性。
1.一种有限数据下基于脑启发的深度神经网络增强方法,其特征在于:
2.根据权利要求1所述增强方法,其特征在于:在步骤1中,
3.根据权利要求2所述增强方法,其特征在于:在步骤2中,
4.根据权利要求3所述增强方法,其特征在于:
5.根据权利要求4所述增强方法,其特征在于:在步骤4中,
6.一种根据权利要求1至5中任意一项所述的有限数据下基于脑启发的深度神经网络增强方法的增强系统,其特征在于:
7.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述方法的步骤。
8.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至5中任意一项所述方法的步骤。