一种基于大语言模型的多模态视频理解方法

xiaoxiao7月前  64


本申请涉及计算机视觉,尤其涉及一种基于大语言模型的多模态视频理解方法、装置、电子设备及存储介质。


背景技术:

1、随着自然语言处理技术与计算机视觉技术的蓬勃发展,视频理解成为新热点。视频理解通常基于对视频中图像、文本、语音、视频这四大类不同模态的数据的识别,得到视频的描述文本。

2、相关技术中,通过对视频中的语音进行识别并转化为文本,然后对文本进行互检索,结合视频标题文本进行余弦相似度计算,实现对于短视频的高层语义理解。该方案中虽然结合了视频和文本信息,但主要是对不同模态数据的特征信息进行对比,未对不同模态的数据进行综合分析。


技术实现思路

1、为解决或部分解决相关技术中存在的问题,本申请提供一种基于大语言模型的多模态视频理解方法、装置、电子设备及存储介质,能够融合视频的多模态数据,更加全面、准确地理解视频内容,克服了单一模态信息处理的局限性,同时基于时间戳对齐数据并整合数据确保多模态数据的时序一致性以及理解结果的结构化输出,在视频搜索、推荐和监控等场景中具有更高的实用性,更加智能化。

2、本申请第一方面提供一种基于大语言模型的多模态视频理解方法,包括:

3、获取包含多模态数据的待理解视频;

4、对所述待理解视频的多模态数据分别进行特征提取,得到所述待理解视频的视频帧的第一特征、所述待理解视频的文本的第二特征、所述待理解视频的音频的第三特征;其中,所述第一特征、所述第二特征、所述第三特征具有对应的时间戳;

5、对齐所述第一特征、所述第二特征、所述第三特征的时间戳,并将所述第一特征、所述第二特征、所述第三特征整合成预设格式数据;所述预设格式数据为结构化信息;

6、预设大语言模型根据所述预设格式数据、预设用户提问以及预设提示词,生成所述待理解视频的理解结果并输出。

7、优选的,所述对所述待理解视频的多模态数据分别进行特征提取包括:

8、提取所述待理解视频的关键视频帧;

9、采用预设视觉模型提取关键视频帧的第一特征;所述第一特征包括所述关键视频帧中的关键物体标签,动作标签,视频帧描述;

10、采用预设文本识别模型识别所述关键视频帧中的文本,得到文本信息;

11、对所述文本信息进行信息提取,得到第二特征。

12、优选的,所述对所述待理解视频的多模态数据分别进行特征提取还包括:

13、提取所述待理解视频的音频信息;

14、分离出所述音频信息中的语音信息;

15、采用预设语音识别模型对所述语音信息进行对话角色识别以及语音转文本,得到第三特征。

16、优选的,所述预设大语言模型根据所述预设格式数据、预设用户提问以及预设提示词,生成所述待理解视频的理解结果并输出包括:

17、将所述预设格式数据输入预设大语言模型;

18、对所述预设格式数据进行理解,生成所述待理解视频的语义表示;

19、基于所述语义表示、预设用户提问以及预设提示词生成所述待理解视频的理解结果并输出。

20、优选的,所述预设大语言模型基于预设指令对预训练模型微调得到。

21、优选的,所述预设大语言模型根据所述预设格式数据、预设用户提问以及预设提示词,生成所述待理解视频的理解结果并输出之后的步骤包括:

22、对所述理解结果进行验证和优化。

23、优选的,所述获取包含多模态数据的待理解视频之后的步骤包括:

24、校验所述待理解视频文件的完整性以及格式的正确性。

25、本申请第二方面提供一种基于大语言模型的多模态视频理解装置,包括:

26、获取模块,用于获取包含多模态数据的待理解视频;

27、提取模块,用于对所述待理解视频进行特征提取,得到所述待理解视频的视频帧的第一特征、所述待理解视频的文本的第二特征、所述待理解视频的音频的第三特征;其中,所述第一特征、所述第二特征、所述第三特征具有对应的时间戳;

28、整合模块,用于对齐所述第一特征、所述第二特征、所述第三特征的时间戳,并将所述第一特征、所述第二特征、所述第三特征整合成预设格式数据;所述预设格式数据为结构化信息;

29、结果模块,用于预设大语言模型根据所述预设格式数据、预设用户提问以及预设提示词,生成所述待理解视频的理解结果并输出。

30、本申请第三方面提供一种电子设备,包括:

31、处理器;以及

32、存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。

33、本申请第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。

34、本申请提供的技术方案可以包括以下有益效果:本申请实施例公开了一种基于大语言模型的多模态视频理解方法,包括:获取包含多模态数据的待理解视频;对待理解视频的多模态数据分别进行特征提取,得到待理解视频的视频帧的第一特征、待理解视频的文本的第二特征、待理解视频的音频的第三特征;其中,第一特征、第二特征、第三特征具有对应的时间戳;对齐第一特征、第二特征、第三特征的时间戳,并将第一特征、第二特征、第三特征整合成预设格式数据;预设格式数据为结构化信息,预设大语言模型根据预设格式数据、预设用户提问以及预设提示词,生成待理解视频的理解结果并输出,能够融合视频的多模态数据,更加全面、准确地理解视频内容,克服了单一模态信息处理的局限性,同时基于时间戳对齐数据并整合数据确保多模态数据的时序一致性以及理解结果的结构化输出,在视频搜索、推荐和监控等场景中具有更高的实用性,更加智能化。

35、本申请的技术方案,还可以:结合大语言模型进行深度语义理解和推理,将视频相关的描述或嵌入转换成可理解的文本,提高了视频内容分析的效率和精度。

36、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。



技术特征:

1.一种基于大语言模型的多模态视频理解方法,其特征在于:

2.根据权利要求1所述的方法,其特征在于,所述对所述待理解视频的多模态数据分别进行特征提取包括:

3.根据权利要求1所述的方法,其特征在于,所述对所述待理解视频的多模态数据分别进行特征提取还包括:

4.根据权利要求1所述的方法,其特征在于,所述预设大语言模型根据所述预设格式数据、预设用户提问以及预设提示词,生成所述待理解视频的理解结果并输出包括:

5.根据权利要求1或4所述的方法,其特征在于,所述预设大语言模型基于预设指令对预训练模型微调得到。

6.根据权利要求1所述的方法,其特征在于,所述预设大语言模型根据所述预设格式数据、预设用户提问以及预设提示词,生成所述待理解视频的理解结果并输出之后的步骤包括:

7.根据权利要求1所述的方法,其特征在于,所述获取包含多模态数据的待理解视频之后的步骤包括:

8.一种基于大语言模型的多模态视频理解装置,其特征在于:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。


技术总结
本申请涉及一种基于大语言模型的多模态视频理解方法。通过获取包含多模态数据的待理解视频;对待理解视频的多模态数据分别进行特征提取,得到待理解视频的视频帧的第一特征、待理解视频的文本的第二特征、待理解视频的音频的第三特征;第一特征、第二特征、第三特征具有对应的时间戳;对齐第一特征、第二特征、第三特征的时间戳,并将第一特征、第二特征、第三特征整合成预设格式数据;根据预设格式数据、预设用户提问以及预设提示词,生成待理解视频的理解结果并输出,能够融合视频多模态数据,更全面、准确理解视频内容,克服单一模态信息处理的局限性,基于时间戳对齐数据并整合数据确保多模态数据的时序一致性及理解结果的结构化输出。

技术研发人员:宋轩,刘向荣,胡清畅,张天阳,舒襄,李威
受保护的技术使用者:南方科技大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)