图像描述生成方法及电子设备与流程

xiaoxiao4月前  52


本技术实施例涉及人工智能,尤其涉及一种图像描述生成方法及电子设备。


背景技术:

1、随着终端技术的发展,电子设备(如手机、平板电脑等)可支持生成并显示图像的自然语言描述,以帮助不便于查看界面显示内容的用户,理解当前电子设备的显示。

2、比如,电子设备配置的无障碍功能,可通过图像描述生成模型生成图像的自然语言描述并显示,之后电子设备可通过音频模块播放该自然语言描述,从而让用户获知当前所显示图像的内容。

3、但是,受限于图像描述生成模型的模型能力,图像描述生成模型输出的自然语言描述通常缺乏图像中的细粒度信息,导致所生成自然语言描述的语义不够丰富,影响用户使用体验。


技术实现思路

1、为了解决上述的技术问题,本技术提供了一种图像描述生成方法及电子设备。本技术提供的技术方案,通过结合不同模型的模型能力,丰富生成的图像文本描述的语义,从而提升用户的使用体验。

2、为了实现上述的技术目的,本技术提供了如下技术方案:

3、第一方面,提供一种图像描述生成方法,应用于电子设备。该方法包括:响应于用户操作,获取输入图像。将输入图像输入第一模型,获取输入图像对应的总说句子和第一元组,第一元组对应于输入图像中的第一物体。以及将输入图像输入第二模型,获取输入图像对应的第二元组,第二元组对应于输入图像中的第二物体,第一物体和第二物体相同或部分相同,第二元组的识别粒度小于第一元组的识别粒度。根据第一元组和第二元组,生成n个补充句子,n为正整数。根据总说句子和n个补充句子,生成图像文本描述。

4、在一些示例中,第一模型为图像描述生成模型,第二模型为细粒度信息识别模型,第二模型的数量为一个或多个。

5、如此,电子设备通过结合不同模型的模型能力,实现输出的图像文本描述中包括输入图像的细粒度信息,丰富图像文本描述的语义,提升用户的使用体验。

6、此外,通过视觉定位技术来识别图像中的物体,达到复用第二模型的模型能力的目的,保证了图像细粒度信息识别的准确性,在丰富图像文本描述的语义的同时,也不必预先通过包括大量细粒度信息的标注数据来训练图像描述生成模型,从而减少数据标注的压力,具有较好的经济性,同时使得模型结构具有良好的开放性和可扩展性。

7、另外,通过结合不同模型的模型能力,实现在多种场景中更加灵活地输出图像文本描述,从而避免出现输出的句子信息冗长、没有重点、语义不通的问题。

8、根据第一方面,n个补充句子用于对总说句子中的名词短语进行补充说明。

9、其中,总说句子中的名词短语对应于输入图像中包括的物体。

10、如此,电子设备生成输入图像中包括的物体对应的补充句子,实现获取输入图像的更多细粒度信息用于后续输出的图像文本描述中,以丰富图像文本描述。

11、根据第一方面,或者以上第一方面的任意一种实现方式,根据第一元组和第二元组,生成n个补充句子,包括:将第一元组和第二元组进行组合,获得元组对集合。获取元组对集合中的第一元组对。在第一元组对中的元组匹配的情况下,生成第一元组对对应的第一补充句子,并删除第一元组对;其中,n个补充句子包括第一补充句子。在第一元组对中的元组不匹配的情况下,删除第一元组对。

12、根据第一方面,或者以上第一方面的任意一种实现方式,第一元组对中的元组匹配包括第一元组对中的元组用于描述输入图像中相同的物体。

13、如此,通过判断元组对是否匹配,能够对细粒度信息进行对齐和筛选,剔除细粒度信息识别模型输出的不满足总说句子需求的细粒度信息。从而避免后续生成的图像文本描述中包括大量不相关的细粒度信息。

14、此外,在元组对匹配的情况下,电子设备能够生成相应的补充句子,实现对总说句子中相应名称短语的补充说明。

15、根据第一方面,或者以上第一方面的任意一种实现方式,第一元组对中的元组分别用于指示第一物体边框和第二物体边框,第一元组对中的元组匹配包括第一物体边框与第二物体边框之间对应的交并比大于或等于第一阈值;或者,第一物体边框和第二物体边框交集对应的第一面积占第一边框或第二物体边框对应的第二面积的比例大于或等于第二阈值。

16、在一些示例中,电子设备在获取到元组对后,可确定当前获取到的元组对中的两个元组是否匹配,即是否指向了同一个物体。如果两个元组匹配,可确定两个元组指向同一个物体,那么这两个元组能够生成相应的补充句子。如果两个元组不匹配,可确定这两个元组指向不同的物体,可删除该元组对。

17、示例性地,第一元组u=<lc,oj>,第二元组q=<tp,lc,tx,ot>,其中,物体边框坐标lc=<x,y,w,h>。那么,例如第一元组u指示物体边框1,面积为a;第二元组q指示物体边框2,面积为b。那么,电子设备可通过确定两个边框相交部分的面积c,确定iou=c/(a+b-c)。在iou大于或等于第一阈值时,确定两个物体边框指向同一个物体,即两个元组匹配。在iou小于第一阈值时,确定两个物体边框指向不同的物体,即两个元组不匹配。

18、在一些预设场景中,第一元组u指示的物体边框通常要大于第二元组q指示的物体边框。例如,预设场景为物体信息为人脸图像、图内文本等的场景。那么在预设场景中,电子设备可通过第二元组q指示的物体边框被第一元组u指示的物体边框包含的比例,衡量两个物体边框的重叠度。

19、示例性地,例如第一元组u指示物体边框1,面积为a;第二元组q指示物体边框2,面积为b。那么,电子设备可通过确定物体边框1和物体边框2相交部分的面积c,确定相交部分的面积与物体边框2中未被物体边框1包含的面积的比例c/b。在该比例大于或等于第二阈值时,确定两个物体边框指向同一个物体,即两个元组匹配。在该比例小于第二阈值时,确定两个物体边框指向不同的物体,即两个元组不匹配。

20、如此,电子设备通过第一元组和第二元组指示的物体边框坐标,确定组成元组对的两个元组是否用于指示相同的物体。这样在确定两个元组指向相同的物体的情况下,电子设备能够生成相应的补充句子,以实现对总说句子中该相同物体对应的名词短语的补充句子,丰富句子语义。

21、根据第一方面,或者以上第一方面的任意一种实现方式,生成第一元组对对应的第一补充句子,包括:将第一元组对中第一元组指示的第一文本信息和第二元组指示的第二文本信息,分别填入句子模板中,获得第一补充句子,句子模板对应于第二元组指示的信息类型。

22、比如,第一元组对中的第一元组u={<<*,*,*,*>,猫>},第二元组q=<品种,<*,*,*,*>,英短,#>,该第一元组对中的元组均用于描述输入图像中的猫,即第一元组和第二元组匹配。那么,电子设备根据第二元组指示的物体对应的信息类型为品种,获取到相应的预设补充句子模板为“__的品种是__”。那么,电子设备将第一元组u中oj项指示的“猫”和第二元组q中tx项指示的“英短”分别填入预设补充句子模板中,可获取到的补充句子为“猫的品种是英短”。

23、如此,电子设备在确定两个元组匹配的情况下,能够通过预置的,生成相应的补充句子,从而实现丰富总说句子的语义。

24、根据第一方面,或者以上第一方面的任意一种实现方式,根据总说句子和n个补充句子,生成图像文本描述,包括:获取总说句子中的名词短语的第一排序。根据第一排序,排列n个补充句子的顺序,排序后的n个补充句子关联的名词短语的第二顺序与第一顺序相同。根据总说句子和排序后的n个补充句子,生成图像文本描述。

25、示例性地,第一模型输出的总说句子为“一只猫躺在一个垫子上”,且电子设备确定的补充句子为“猫的品种是英短”。那么,电子设备可生成图像文本描述“一只猫躺在一个垫子上,猫的品种是英短”。

26、如此,电子设备按照总说句子中名词短语的排序,对补充句子进行排序,以使得生成的图像文本描述中补充句子的顺序与总说句子中名词短语的顺序匹配,降低用户理解图像文本描述的难度。

27、根据第一方面,或者以上第一方面的任意一种实现方式,第一模型包括编码器和解码器,将输入图像输入第一模型,获取输入图像对应的总说句子和第一元组,包括:将输入图像输入编码器,获取输入图像对应的特征向量。将特征向量输入编码器,获取总说句子,并确定总说句子对应的二值信号序列。根据二值信号序列,确定总说句子中包括的第一名词短语以及第一名词短语对应的物体边框坐标,以生成第一元组。

28、根据第一方面,或者以上第一方面的任意一种实现方式,第一名词短语包括总说句子中的每一个名词短语,或者第一名词短语为总说句子中满足预设条件的一个名词短语。

29、示例性的,电子设备将输入图像输入第一模型后,输出的总说句子为“一只猫躺在一个垫子上”,二值信号序列s=(0,1,1,1,0,0,1,1,1,1,0,0)。其中,第一模型识别到的第一名词短语包括“一只猫”和“一个垫子”。那么,电子设备可确定第一模型输出的第一元组为us={<<*,*,*,*>,猫>,<<*,*,*,*>,垫子>}。

30、又示例性的,电子设备将输入图像输入第一模型后,输出的总说句子为“一只猫躺在一个垫子上”,可选地,由于解码器只需要对总说句子中最重要的名词短语进行定位。那么,解码器输出的二值信号序列s=(0,1,1,1,0,0,0,0,0,0,0,0)。即,第一模型识别到的第一名词短语为“一只猫”。

31、如此,电子设备基于第一模型的“编码器-解码器”结构生成相应的总说句子,并实现对总说句子中名词短语的定位,便于后续基于该定位到的名词短语,生成相应的补充句子。

32、根据第一方面,或者以上第一方面的任意一种实现方式,第一元组为二元组,二元组用于指示输入图像对应的第一物体边框坐标和第一文本信息;第二元组为三元组或四元组,三元组用于指示输入图像对应的信息类型、第二物体边框坐标和第二文本信息,四元组包括三元组指示的信息以及补充信息。

33、示例性的,电子设备将输入图像输入第一模型,该第一模型通过图像描述生成算法,输出的物体信息二元组u=<lc,oj>。其中,lc为物体边框坐标,用于表示输入图像中的物体在图像中的位置;oj用于表示输入图像中的物体对应的具体文本信息,该具体文本信息例如用于描述图像中的物体的名词短语。可选地,不同的物体信息二元组可组成物体信息二元组集合us={u|u是有效的二元组}。比如,第一模型输出的第一元组为us={<<*,*,*,*>,猫〉,<<*,*,*,*>,垫子>}。其中,该第一元组指示的第一物体边框坐标和对应的第一文本信息分别为<*,*,*,*>,猫;或者,<*,*,*,*>,垫子。

34、又示例性的,电子设备将输入图像输入第二模型,该第二模型根据获取到的输入图像,可输出相应的细粒度信息,如细粒度信息四元组q=<tp,lc,tx,ot>。其中,tp用于表示输入图像中的物体对应的细粒度信息的类型,例如物体细粒度信息类型为品种、人脸、二维码类型、图内文本等。lc为物体边框坐标,用于表示输入图像中的物体在图像中的位置。tx为输入图像中的物体对应的具体文本信息。ot用于表示补充信息。可选地,ot项可为空,用#表示。tp项、lc项、tx项不可为空。可选地,不同的细粒度信息四元组可组成细粒度信息四元组集合qs={q|q是有效的四元组}。比如,第二模型输出的第二元组为q=<品种,<*,*,*,*>,英短,#>。该第二元组指示输入图像对应的信息类型为品种、第二物体边框坐标为<*,*,*,*>、第二文本信息为英短、补充信息为空。

35、可选地,第一模型输出的第一元组对应于输入图像中的第一物体,该第一物体包括猫和垫子。第二模型输出的第二元组对应于输入图像中的第二物体,该第二物体包括猫。即,不同识别粒度的模型识别到的物体相同或部分相同。在一些情况下,如电子设备通过已配置的第二模型未能识别到输入图像对应的细粒度信息,那么第二元组可为空。

36、如此,通过视觉定位技术实现识别输出图像中的物体。并且基于第二模型的模型能力,实现识别到输入图像中物体对应的不同的细粒度信息。这样保证最终生成的图像文本描述具有更加丰富的语义,便于用户理解输入图像的内容,提升用户的使用体验。

37、根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:通过音频模块播放图像文本描述。

38、如此,通过音频模块播放图像文本描述,帮助用户在不便于查看电子设备显示图像时,理解图像含义。

39、根据第一方面,或者以上第一方面的任意一种实现方式,响应于用户操作,获取输入图像,包括:响应于用户操作,获取电子设备显示的输入图像。或者,响应于用户的操作,通过摄像头获取输入图像。

40、在一些示例中,用户操作用于触发识别电子设备生成图像文本描述。例如,电子设备配置有无障碍功能,响应于用户操作,电子设备可触发启动该无障碍功能,其中无障碍功能例如包括屏幕内朗读,拍照朗读等。比如,电子设备触发获取当前显示页面的图像。又比如,电子设备触发启动摄像头拍摄,获取图像。

41、第二方面,提供一种电子设备。该电子设备包括:处理器和存储器,存储器与处理器耦合,存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当处理器从存储器中读取计算机指令,使得电子设备执行:响应于用户操作,获取输入图像。将输入图像输入第一模型,获取输入图像对应的总说句子和第一元组,第一元组对应于输入图像中的第一物体。以及将输入图像输入第二模型,获取输入图像对应的第二元组,第二元组对应于输入图像中的第二物体,第一物体和第二物体相同或部分相同,第二元组的识别粒度小于第一元组的识别粒度。根据第一元组和第二元组,生成n个补充句子,n为正整数。根据总说句子和n个补充句子,生成图像文本描述。

42、根据第二方面,n个补充句子用于对总说句子中的名词短语进行补充说明。

43、根据第二方面,或者以上第二方面的任意一种实现方式,根据第一元组和第二元组,生成n个补充句子,包括:将第一元组和第二元组进行组合,获得元组对集合。获取元组对集合中的第一元组对。在第一元组对中的元组匹配的情况下,生成第一元组对对应的第一补充句子,并删除第一元组对;其中,n个补充句子包括第一补充句子。在第一元组对中的元组不匹配的情况下,删除第一元组对。

44、根据第二方面,或者以上第二方面的任意一种实现方式,第一元组对中的元组匹配包括第一元组对中的元组用于描述输入图像中相同的物体。

45、根据第二方面,或者以上第二方面的任意一种实现方式,第一元组对中的元组分别用于指示第一物体边框和第二物体边框,第一元组对中的元组匹配包括第一物体边框与第二物体边框之间对应的交并比大于或等于第一阈值;或者,第一物体边框和第二物体边框交集对应的第一面积占第一边框或第二物体边框对应的第二面积的比例大于或等于第二阈值。

46、根据第二方面,或者以上第二方面的任意一种实现方式,生成第一元组对对应的第一补充句子,包括:将第一元组对中第一元组指示的第一文本信息和第二元组指示的第二文本信息,分别填入句子模板中,获得第一补充句子,句子模板对应于第二元组指示的信息类型。

47、根据第二方面,或者以上第二方面的任意一种实现方式,根据总说句子和n个补充句子,生成图像文本描述,包括:获取总说句子中的名词短语的第一排序。根据第一排序,排列n个补充句子的顺序,排序后的n个补充句子关联的名词短语的第二顺序与第一顺序相同。根据总说句子和排序后的n个补充句子,生成图像文本描述。

48、根据第二方面,或者以上第二方面的任意一种实现方式,第一模型包括编码器和解码器,将输入图像输入第一模型,获取输入图像对应的总说句子和第一元组,包括:将输入图像输入编码器,获取输入图像对应的特征向量。将特征向量输入编码器,获取总说句子,并确定总说句子对应的二值信号序列。根据二值信号序列,确定总说句子中包括的第一名词短语以及第一名词短语对应的物体边框坐标,以生成第一元组。

49、根据第二方面,或者以上第二方面的任意一种实现方式,第一名词短语包括总说句子中的每一个名词短语,或者第一名词短语为总说句子中满足预设条件的一个名词短语。

50、根据第二方面,或者以上第二方面的任意一种实现方式,第一模型为图像描述生成模型,第二模型为细粒度信息识别模型,第二模型的数量为一个或多个。

51、根据第二方面,或者以上第二方面的任意一种实现方式,第一元组为二元组,二元组用于指示输入图像对应的第一物体边框坐标和第一文本信息;第二元组为三元组或四元组,三元组用于指示输入图像对应的信息类型、第二物体边框坐标和第二文本信息,四元组包括三元组指示的信息以及补充信息。

52、根据第二方面,或者以上第二方面的任意一种实现方式,方法还包括:通过音频模块播放图像文本描述。

53、根据第二方面,或者以上第二方面的任意一种实现方式,响应于用户操作,获取输入图像,包括:响应于用户操作,获取电子设备显示的输入图像。或者,响应于用户的操作,通过摄像头获取输入图像。

54、第二方面以及第二方面中任意一种实现方式所对应的技术效果,可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果,此处不再赘述。

55、第三方面,提供一种电子设备,该电子设备具有实现如上述第一方面及其中任一种可能的实现方式中所述的图像描述生成方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应地软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

56、第三方面以及第三方面中任意一种实现方式所对应的技术效果,可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果,此处不再赘述。

57、第四方面,提供一种计算机可读存储介质。计算机可读存储介质存储有计算机程序(也可称为指令或代码),当该计算机程序被电子设备执行时,使得电子设备执行第一方面或第一方面中任意一种实施方式的方法。

58、第四方面以及第四方面中任意一种实现方式所对应的技术效果,可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果,此处不再赘述。

59、第五方面,提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行第一方面或第一方面中任意一种实施方式的方法。

60、第五方面以及第五方面中任意一种实现方式所对应的技术效果,可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果,此处不再赘述。

61、第六方面,提供一种电路系统,电路系统包括处理电路,处理电路被配置为执行第一方面或第一方面中任意一种实施方式的方法。

62、第六方面以及第六方面中任意一种实现方式所对应的技术效果,可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果,此处不再赘述。

63、第七方面,提供一种芯片系统,包括至少一个处理器和至少一个接口电路,至少一个接口电路用于执行收发功能,并将指令发送给至少一个处理器,当至少一个处理器执行指令时,至少一个处理器执行第一方面或第一方面中任意一种实施方式的方法。

64、第七方面以及第七方面中任意一种实现方式所对应的技术效果,可参见上述第一方面及第一方面中任意一种实现方式所对应的技术效果,此处不再赘述。


技术特征:

1.一种图像描述生成方法,其特征在于,应用于电子设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述n个补充句子用于对所述总说句子中的名词短语进行补充说明。

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一元组和所述第二元组,生成n个补充句子,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一元组对中的元组匹配包括所述第一元组对中的元组用于描述所述输入图像中相同的物体。

5.根据权利要求3或4所述的方法,其特征在于,所述第一元组对中的元组分别用于指示第一物体边框和第二物体边框,所述第一元组对中的元组匹配包括所述第一物体边框与所述第二物体边框之间对应的交并比大于或等于第一阈值;或者,所述第一物体边框和所述第二物体边框交集对应的第一面积占所述第一边框或所述第二物体边框对应的第二面积的比例大于或等于第二阈值。

6.根据权利要求3-5中任意一项所述的方法,其特征在于,所述生成所述第一元组对对应的第一补充句子,包括:

7.根据权利要求1-6中任意一项所述的方法,其特征在于,所述根据所述总说句子和所述n个补充句子,生成图像文本描述,包括:

8.根据权利要求1-7中任意一项所述的方法,其特征在于,所述第一模型包括编码器和解码器,所述将所述输入图像输入第一模型,获取所述输入图像对应的总说句子和第一元组,包括:

9.根据权利要求8所述的方法,其特征在于,所述第一名词短语包括所述总说句子中的每一个名词短语,或者所述第一名词短语为所述总说句子中满足预设条件的一个名词短语。

10.根据权利要求1-9中任意一项所述的方法,其特征在于,所述第一模型为图像描述生成模型,所述第二模型为细粒度信息识别模型,所述第二模型的数量为一个或多个。

11.根据权利要求1-10中任意一项所述的方法,其特征在于,所述第一元组为二元组,所述二元组用于指示所述输入图像对应的第一物体边框坐标和第一文本信息;所述第二元组为三元组或四元组,所述三元组用于指示所述输入图像对应的信息类型、第二物体边框坐标和第二文本信息,所述四元组包括所述三元组指示的信息以及补充信息。

12.根据权利要求1-11中任意一项所述的方法,其特征在于,所述方法还包括:

13.根据权利要求1-12中任意一项所述的方法,其特征在于,所述响应于用户操作,获取输入图像,包括:

14.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器与所述处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器从所述存储器中读取所述计算机指令,使得所述电子设备执行如权利要求1-13中任意一项所述的方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1-13中任意一项所述的方法。

16.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-13中任意一项所述的方法。


技术总结
本申请提供图像描述生成方法及电子设备,涉及人工智能技术领域。本申请能够通过结合不同模型的模型能力,丰富生成的图像文本描述的语义,提升用户的使用体验。该方法包括:电子设备响应于用户操作,获取输入图像;将输入图像输入第一模型,获取输入图像对应的总说句子和第一元组,该第一元组对应于输入图像中的第一物体;以及将输入图像输入第二模型,获取输入图像对应的第二元组,该第二元组对应于输入图像中的第二物体。其中第一物体和第二物体全部或部分相同,第二元组的识别粒度小于第一元组的识别粒度。之后,电子设备根据第一元组和第二元组,生成N个补充句子,N为正整数。根据总说句子和N个补充句子,生成图像文本描述。

技术研发人员:周练,王宁
受保护的技术使用者:华为技术有限公司
技术研发日:
技术公布日:2024/9/23

最新回复(0)