本发明属于多模态信息处理,更具体地说,涉及一种基于多智能体协同的多模态情感分析方法。
背景技术:
1、深度学习和强化学习等技术的快速发展推进了人机交互的进程。然而,现有的人机交互仍然局限在命令或者任务模式,由于机器缺乏对人类情绪的感知,无法自发地提供个性化的服务。因此,帮助机器正确感知、分析人类的情绪是人工智能步入更加智能化时代迫切需要解决的技术问题。在日常生活中,人们通过一些行为信号来表达情绪,如面部表情、肢体动作、语音语调以及会话内容等。此外,随着网络的发达和智能设备的普及,每天都有大量的视频上传到公共平台(如:抖音,youtube等)记录个体的心情。日益增加的视频数据为基于多个行为信号的情感分析提供了数据支撑。与单一模态相比,集成了视觉、语音和文本三个模态的视频数据提供了更加丰富的情感线索,然而,各个模态之间的差异性也为多模态融合、联合表征学习等技术带来了挑战。早期的研究多关注模态融合技术,致力于构建模态融合的通道以获得联合的多模态表征或者统一的预测结果,忽略了各模态内在的联系。近期的研究指出模态间的交互可以分解为共性特征和差异性特征,分别地互相增强和互相补充各模态信息。然而现有的技术多关注共性特征,对互补性特征的利用率低下,导致多模态信息的不充分利用。因此,如何促进各模态的协同交互,实现对多模态信息的充分利用,以达到对个体情感状态的精准预测,是多模态情感分析领域亟待解决的问题。
2、因此,亟需一种新的基于多智能体协同的多模态情感分析方法。
技术实现思路
1、本发明提出了一种基于多智能体协同的多模态情感分析方法,基于多智能体协同的多模态情感分析模型。模型分为两个阶段:第一阶段构建模态专属的情感智能体。同时提出模态解耦和深度相空间重构模块,缓解模态间的异质性以及建模模态内的情感变化。第二阶段,实现多个模态的协同交互。通过设计情感智能体间的通信机制实现模态间的信息交互,构建中心化的评价模型促进多模态的协同,根据任务设计奖励机制引导各智能体自适应地提取各模态有效的情感属性。在多个情感分析数据集上的识别率可达到85%以上。
2、相空间重构是从低维的时间序列分析高维原动力系统运动属性的方法。可观测的时间序列是高维动力系统运动轨迹向低维空间的映射。低维的时间序列往往是混沌的,为了分析原动力系统的运动属性,从互相关联的低维观测值中学习延迟参数和维度参数是相空间重构的关键。延迟参数是指在时间序列中选取相邻观测值之间的时间间隔,以捕捉系统的动态变化。维度参数指将低维的观测值映射到高维的空间,恢复运动属性。人类情感状态的变化为一个动力系统,各模态的特征表示为可观测的时间序列,为了从这些低维的时间序列中分析个体情感状态的变化,本发明提出了基于深度学习的相空间重构模块,学习延迟和维度参数。
3、多智能体协同是指多个智能体通过相互通信,协调和合作共同完成一个任务或者达成一致目标的过程。在多智能体系统中,每个智能体具备感知和决策能力,观测环境状态,根据自身策略做出行为,并转移至下一状态。同时,环境根据智能体产生的行为反馈奖励值,用于策略调整。各智能体间存在通信机制,用于信息交流。为了促进多模态的协同,充分利用多模态信息准确地预测个体情感状态,本发明设计了情感智能体。根据任务定制了智能体的通信机制以及中心化的评估模块,促进多模态信息的交流与协同。
4、为了解决上述技术问题至少之一,根据本发明的一方面,提供了一种基于多智能体协同的多模态情感分析方法,包括如下步骤:
5、s1.数据集准备;
6、s2.输入处理与特征提取;从视频数据中分离出语音、文本和视觉三个模态的数据;
7、s3.训练网络模型;所述网络模型主要包括情感智能体建立阶段和情感智能体合作阶段;
8、设置解耦模块,针对每个模态的数据,分别设计了一个模态编码器“encoder m”从输入数据中分解模态属性一个情感编码器“encoders”提取情感信息以及一个解码器“decoder”;
9、s4.预测结果;
10、在模型调整至最优后,移除评价模型,保留各模态的策略模型独立地决定各模态内有效的情感特征。
11、进一步的,s1具体包括如下步骤:
12、s11.获取多模态情感分析数据集,包括标注情感状态的多模态数据集mosi、mosei,以及一个标注情感类别的数据集iemocap;
13、s12.分别将数据集划分为训练集、验证集和测试集,使用pytorch的dataloader工具进行数据集的读取。
14、进一步的,s2中,使用语音工具包covarep从音频中提取语音特征;使用facet工具包提取视觉特征;使用bert模型对文本数据提取特征。
15、进一步的,s3中,将各模态情感特征表示映射至256维的特征空间,对齐各模态特征表示;
16、根据现有时序特征局部和全局的关联性,对现有的时序观测值进行调整。
17、进一步的,对现有的时序观测值进行调整的具体步骤为:
18、根据现有的时序观测值,计算互相关矩阵表示观测值之间的相关性:式中,为第i个模态中的情感特征,t表示矩阵转置。
19、根据互相关矩阵调整观测值:式中,为第i个模态中的情感特征,w为互相关矩阵,矩阵中的每个元素刻画了对应时序特征的关联性。
20、约束重构的观测值间保持较小的冗余性:其中ηpq=t-|p-q为约束缩放因子,观测值之间的时序间隔越大,ηpq越小,反之亦然。
21、构建统一的多模态特征表示具体步骤为:每个情感智能体观测对应模态的特征表示fi,根据对应的策略模型πi,采取行为wi,决定该模态内有效的情感属性;
22、设计智能体间的交流机制,当前模态的观测值fi,其他智能体为当前智能体提供建议ai,组合观测值和建议采取行为
23、设计中心化的评价模型,根据当前观测值集中评估所有智能体行为的合理性:q=fcritic(fv,wv,fa,wa,ft,wt;θcritic)(5),其中q为累计奖励值,评价模型根据temporaldifference error算法进行优化;各个智能体旨在输出策略获得较高的累计观测值q;
24、在每个阶段,组合智能体的行为和观测值得到有效的情感属性,合并三个模态的属性,得到统一的下游任务:其中为多模态融合方式。
25、进一步的,多模态融合方式采用加权求和以及串联两种模态。
26、进一步的,s4中,针对情感分析任务,使用线性层将联合的特征表示映射到情感状态值,将预测的情感状态截断至-3到3;针对情感识别任务,使用分类器将联合的特征表示映射到各类别的概率,选取最大的概率所属的类别作为预测的情感。
27、根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明的基于多智能体协同的多模态情感分析方法中的步骤。
28、根据本发明的又一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明的基于多智能体协同的多模态情感分析方法中的步骤。
29、与现有的技术相比较,本发明的上述方法的有益效果为:
30、(1)本发明对视频数据中分离出的语音、文本和视觉三个模态的数据进行情感分析;
31、(2)提出了解耦模块,针对每个模态的数据,分别设计编解码器;
32、(3)提出了深度相空间重构模块,根据现有时序特征局部和全局的关联性,对现有的时序观测值进行调整;
33、(4)智能体相互协作,提取各模态有效的属性,构建统一的多模态特征表示。
1.一种基于多智能体协同的多模态情感分析方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,s1具体包括如下步骤:
3.根据权利要求2所述的方法,其特征在于,s2中,使用语音工具包covarep从音频中提取语音特征;使用facet工具包提取视觉特征;使用bert模型对文本数据提取特征。
4.根据权利要求3所述的方法,其特征在于,s3中,将各模态情感特征表示映射至256维的特征空间,对齐各模态特征表示;
5.根据权利要求4所述的方法,其特征在于,对现有的时序观测值进行调整的具体步骤为:
6.根据权利要求5所述的方法,其特征在于,多模态融合方式采用加权求和以及串联两种模态。
7.根据权利要求6所述的方法,其特征在于,s4中,针对情感分析任务,使用线性层将联合的特征表示映射到情感状态值,将预测的情感状态截断至-3到3;针对情感识别任务,使用分类器将联合的特征表示映射到各类别的概率,选取最大的概率所属的类别作为预测的情感。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现如权利要求1~7中任一项所述的基于多智能体协同的多模态情感分析方法中的步骤。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的基于多智能体协同的多模态情感分析方法中的步骤。
