本技术涉及显示设备,尤其涉及一种显示设备及推理任务执行方法。
背景技术:
1、利用端侧设备(如电视、手机)加载的大模型执行用户输入的推理任务可以避免将用户输入的文字和图片等数据上传至服务器,从而避免用户信息泄露,更好保护用户的隐私。端侧设备加载的大模型不再依赖于网络连接,即在离线的状态下也可完成推理任务。另外,对于简单的推理任务在端侧设备中执行的效率更快。
2、虽然端侧设备加载模型具有以上多个优点,但是端侧设备算力有限,而且大模型种类较多。不同应用对应的不同的会话,不同会话应用不同的模型,不同模型擅长不同推理任务。在多个应用均抢占模型推理服务时,会导致推理能力错乱,无法正常提供推理能力。
技术实现思路
1、本技术一些实施例提供了一种显示设备及推理任务执行方法,通过在打开会话窗口后将会话设置为最高优先级,从而终止非当前会话对应的推理任务,并只执行当前会话对应的推理任务,避免由于多个应用抢占模型推理服务时导致推理能力错乱,无法正常提供推理能力的情况。
2、第一方面,本技术一些实施例中提供一种显示设备,包括:
3、显示器;
4、控制器,被配置为:
5、将推理任务置于推理任务队列中,所述推理任务由用户在会话窗口中输入数据生成,所述推理任务包括推理任务所属应用、会话的优先级和目标模型,所述会话的优先级在打开会话窗口时设置为最高优先级,所述最高优先级的会话同一时间只有一个;
6、如果所述推理任务队列中的推理任务所属应用为前台应用且所述推理任务所属会话的优先级为最高优先级,将所述推理任务设置为待推理状态;
7、如果所述推理任务队列中的推理任务所属应用不为前台应用或所述推理任务所属会话的优先级不为最高优先级,将所述推理任务设置为挂起状态;
8、根据待推理状态的推理任务所属会话对应的目标模型以及第一模型执行推理任务,所述第一模型预先加载在显示设备中。
9、在一些实施例中,所述控制器执行根据待推理状态的推理任务所属会话对应的目标模型以及第一模型执行推理任务,被进一步配置为:
10、如果待推理状态的推理任务所属会话对应的目标模型数量不大于目标数量且所述目标模型为所述第一模型,则利用所述第一模型执行所述推理任务,所述目标数量为显示设备同时加载模型的数量。
11、在一些实施例中,所述控制器,被配置为:
12、如果待推理状态的推理任务所属会话对应的目标模型数量不大于目标数量且所述目标模型包括第二模型,则获取所述显示设备的资源信息,所述第二模型与所述第一模型不同;
13、如果所述资源信息满足所述第二模型的加载条件,则将所述第一模型切换为第二模型;
14、利用所述第二模型执行所述推理任务。
15、在一些实施例中,所述资源信息包括神经网络处理器剩余算力、剩余内存和剩余显存,所述控制器执行如果所述资源信息满足所述第二模型的加载条件,则将所述第一模型切换为第二模型,被配置为:
16、获取所述第二模型对应的加载信息,所述加载信息包括第一目标算力、第一目标内存和第一目标显存;
17、如果所述剩余算力大于所述第一目标算力,所述剩余内存大于所述第一目标内存,且所述剩余显存大于所述第一目标显存,则将所述第一模型切换为第二模型。
18、在一些实施例中,所述控制器,被配置为:
19、如果所述剩余显存不大于所述目标显存,所述剩余内存不大于所述目标内存,或所述剩余显存不大于所述目标显存,则将所述推理任务和第二模型标识发送至服务器;
20、接收所述服务器利用第二模型执行所述推理任务下发的推理结果。
21、在一些实施例中,所述控制器,被配置为:
22、如果待推理状态的推理任务所属会话对应的目标模型数量大于目标数量,确定待切换模型的第一数量,所述第一数量为第一模型的数量与目标模型中第一模型的数量之差;
23、如果所述第一数量为0,则利用所述第一模型执行所述推理任务,以及,将所述推理任务和第二模型标识发送至服务器,所述第二模型为所述目标模型中与第一模型不同的模型;
24、接收所述服务器利用第二模型执行推理任务下发的推理结果。
25、在一些实施例中,所述控制器,被配置为:
26、如果所述第一数量不为0,则从所述第二模型中筛选出所述第一数量的第三模型;
27、将所述第一模型切换为第三模型;
28、利用所述第三模型执行所述推理任务,以及,将所述推理任务和第四模型标识发送至服务器,所述第四模型为所述第二模型中与所述第三模型不同的模型;
29、接收所述服务器利用第四模型执行推理任务下发的推理结果。
30、在一些实施例中,所述控制器执行从所述第二模型中筛选出所述第一数量的第三模型,被进一步配置为:
31、获取所述第二模型的加载信息,所述加载信息包括模型加载所需的神经网络处理器算力、内存和显存;
32、确定第三模型为所述第二模型中神经网络处理器算力、内存或显存最低的第一数量的模型。
33、在一些实施例中,所述控制器执行将所述第一模型切换为第三模型,被进一步配置为:
34、获取所述显示设备的资源信息;
35、如果所述资源信息满足所述第三模型加载的条件,则将所述第一模型切换为第三模型。
36、第二方面,本技术一些实施例中提供一种推理任务执行方法,包括:
37、将推理任务置于推理任务队列中,所述推理任务由用户在会话窗口中输入数据生成,所述推理任务包括推理任务所属应用、会话的优先级和目标模型,所述会话的优先级在打开会话窗口时设置为最高优先级,所述最高优先级的会话同一时间只有一个;
38、如果所述推理任务队列中的推理任务所属应用为前台应用且所述推理任务所属会话的优先级为最高优先级,将所述推理任务设置为待推理状态;
39、如果所述推理任务队列中的推理任务所属应用不为前台应用或所述推理任务所属会话的优先级不为最高优先级,将所述推理任务设置为挂起状态;
40、根据待推理状态的推理任务所属会话对应的目标模型以及第一模型执行推理任务,所述第一模型预先加载在显示设备中。
41、本技术的一些实施例提供一种显示设备及推理任务执行方法。将推理任务置于推理任务队列中;如果所述推理任务队列中的推理任务所属应用为前台应用且所述推理任务所属会话的优先级为最高优先级,将所述推理任务设置为待推理状态;如果所述推理任务队列中的推理任务所属应用不为前台应用或所述推理任务所属会话的优先级不为最高优先级,将所述推理任务设置为挂起状态;根据待推理状态的推理任务所属会话对应的目标模型以及第一模型执行推理任务,所述第一模型预先加载在显示设备中。本技术实施例通过在打开会话窗口后将会话设置为最高优先级,从而终止非当前会话对应的推理任务,并只执行当前会话对应的推理任务,避免由于多个应用抢占模型推理服务时导致推理能力错乱,无法正常提供推理能力的情况。
1.一种显示设备,其特征在于,包括:
2.根据权利要求1所述的显示设备,其特征在于,所述控制器执行根据待推理状态的推理任务所属会话对应的目标模型以及第一模型执行推理任务,被进一步配置为:
3.根据权利要求2所述的显示设备,其特征在于,所述控制器,被配置为:
4.根据权利要求3所述的显示设备,其特征在于,所述资源信息包括神经网络处理器剩余算力、剩余内存和剩余显存,所述控制器执行如果所述资源信息满足所述第二模型的加载条件,则将所述第一模型切换为第二模型,被配置为:
5.根据权利要求4所述的显示设备,其特征在于,所述控制器,被配置为:
6.根据权利要求2所述的显示设备,其特征在于,所述控制器,被配置为:
7.根据权利要求6所述的显示设备,其特征在于,所述控制器,被配置为:
8.根据权利要求7所述的显示设备,其特征在于,所述控制器执行从所述第二模型中筛选出所述第一数量的第三模型,被进一步配置为:
9.根据权利要求7所述的显示设备,其特征在于,所述控制器执行将所述第一模型切换为第三模型,被进一步配置为:
10.一种推理任务执行方法,其特征在于,包括: