模板构建方法和装置、信息识别方法和装置的制造方法

xiaoxiao2021-2-28  171

模板构建方法和装置、信息识别方法和装置的制造方法
【技术领域】
[0001]本公开涉及数据处理技术,特别涉及一种模板构建方法和装置、信息识别方法和
目.ο
【背景技术】
[0002]日常生活中,用户可能会接收到各种各样的运营商短信或其他类信息。以运营商短信为例,运营商发送的话费余额提醒短信、或者剩余流量通知短信,或者,银行发送的账户信息短信,或者信用卡还款短信。这些短信都是用于通知用户一些数字信息,比如,话费余额、账户余额、剩余流量等,以使得用户及时了解这些信息。

【发明内容】

[0003]本公开提供一种模板构建方法和装置、信息识别方法和装置,以提高信息识别的准确性。
[0004]根据本公开实施例的第一方面,提供一种模板构建方法,包括:
[0005]获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
[0006]在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
[0007]对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
[0008]从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0009]根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
[0010]根据所述样本训练集中的标注结果对所述模板进行训练。
[0011]在一个例子中,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或根据信息增益从所述若干个词语中提取出所述指定特征集合。
[0012]在一个例子中,根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板,包括:将所述指定特征集合中的所述特征词和预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
[0013]在一个例子中,所述根据所述样本训练集中的标注结果对所述模板进行训练,包括:对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
[0014]在一个例子中,所述在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集,包括:在所述原始信息中包括数字信息时,根据预设关键词集合对所述数字信息进行标注,得到样本训练集,其中,所述预设关键词集合包括指示数字信息的属性的信息。
[0015]根据本公开实施例的第二方面,提供一种信息识别方法,包括:
[0016]获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
[0017]对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0018]根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0019]在一个例子中,所述方法还包括:若识别的标注结果是预设标注结果的分句的数量为多个,则将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
[0020]在一个例子中,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或根据信息增益从所述若干个词语中提取出所述指定特征集合。
[0021]在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
[0022]根据本公开实施例的第三方面,提供一种模板构建装置,包括:
[0023]样本获取模块,用于获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
[0024]样本处理模块,用于在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
[0025]分词处理模块,用于对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
[0026]特征提取模块,用于从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0027]模板构建模块,用于根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
[0028]模板训练模块,用于根据所述样本训练集中的标注结果对所述模板进行训练。
[0029]在一个例子中,所述特征提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者,根据信息增益从所述若干个词语中提取出指定特征集合。
[0030]在一个例子中,所述模板构建模块,用于将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
[0031]在一个例子中,所述模板训练模块,用于对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
[0032]在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
[0033]根据本公开实施例的第四方面,提供一种信息识别装置,包括:
[0034]分句获取模块,用于获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
[0035]词语提取模块,用于对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0036]识别处理模块,用于根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0037]在一个例子中,所述识别处理模块,用于若识别的标注结果是预设标注结果的分句的数量为多个,将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
[0038]在一个例子中,所述词语提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者根据信息增益从所述若干个词语中提取出所述指定特征集合。
[0039]在一个例子中,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
[0040]根据本公开实施例的第五方面,提供一种模板构建装置,包括:
[0041]处理器;
[0042]用于存储处理器可执行指令的存储器;
[0043]其中,所述处理器被配置为:获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;根据所述样本训练集中的标注结果对所述模板进行训练。
[0044]根据本公开实施例的第六方面,提供一种信息识别装置,包括:
[0045]处理器;
[0046]用于存储处理器可执行指令的存储器;
[0047]其中,所述处理器被配置为:获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0048]本公开的实施例提供的技术方案可以包括以下有益效果:通过根据包含预设关键词的样本进行训练,构建识别所用的模板,并根据该模板识别信息中的关键词标注结果,使得信息识别更加准确。
[0049]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0050]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0051 ]图1是根据一示例性实施例示出的一种模板构建方法的流程图;
[0052]图2是根据一示例性实施例示出的另一种模板构建方法的流程图;
[0053]图3是根据一示例性实施例示出的应用本公开的方法识别短信中数字信息的系统;
[0054]图4是根据一示例性实施例示出的又一种模板构建方法的流程图;
[0055]图5是根据一示例性实施例示出的又一种模板构建方法的流程图;
[0056]图6是根据一示例性实施例示出的一种快捷接口的显示方式;
[0057]图 7是根据一示例性实施例示出的一种模板构建装置的结构图;
[0058]图8是根据一示例性实施例示出的一种信息识别装置的结构图;
[0059]图9是根据一示例性实施例示出的一种信息识别装置的框图;
[0060]图10是根据一示例性实施例示出的一种模板构建装置的框图。
【具体实施方式】
[0061]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0062]本公开提供了一种可以用构建的模板来识别信息类别的方式,例如,可以用模板来识别运营商短信中的数字信息的类别,也可以应用于其他信息的识别。图1是根据一示例性实施例不出的一种模板构建方法的流程,包括:
[0063]在步骤101中,获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息。
[0064]例如,在识别运营商短信的例子中,原始信息可以是运营商短信,比如可以是智能手机在接收到短信后上报给用户构建模板的设备。预设类别的原始信息,可以是待构建的模板所要用于识别的信息类别,比如,如果要构建用于识别出运营商短信中的话费信息的模板,那么原始信息样本集中可以包括至少一条包含话费信息的短信,话费这个类别即为预设类别。
[0065]在步骤102中,在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集。
[0066]例如,预设关键词可以是在识别原始信息的类别时,主要是识别该预设关键词的类别。比如,智能手机接收到一个用于通知话费余额的运营商短信,话费余额是12元,那么预设关键词可以是“12”,对该预设关键词标注是对该关键词的类别进行标注,比如“12”是话费余额而不是收入款。当将原始信息样本集中的原始信息的预设关键词进行标注后,原始信息样本集就可以称为样本训练集。
[0067]在步骤103中,对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语。
[0068]例如,分词得到的词语中,也可以包括预设关键词。比如,仍以运营商短信为例,对于通知话费余额的运营商短信,分词后既包括预设关键词12,也可以包括其他词语,比如,“您” “的,,等。
[0069]在步骤104中,从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词。
[0070]例如,在步骤103中分词得到的词语,有些可能是对识别预设关键词的类别不起作用的词语,比如,“啊”、“好的”,可以将这些词筛选出来,使用剩余的词语来进行模版的构建。该指定特征集合中包括的特征词可以是筛选后的词语。
[0071]在步骤105中,根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板。
[0072]例如,构建模板的方法可以有多种,可以使用分类器,并根据上述步骤中得到的特征词和预设关键词进行模版的构建。
[0073]在步骤106中,根据所述样本训练集中的标注结果对所述模板进行训练。
[0074]经过训练,该模板可以是用于得到对于一个信息识别其类别的模型,比如,将一条信息或包含信息的内容输入该模板,就可以输出信息的类别,或者得到该信息分别属于各个已知类别的概率。
[0075]通过本实施例的模板构建方法,根据包含预设关键词的样本进行训练,构建识别所用的模板,使得可以使用该模板进行信息类别的识别,这种通过模板识别类别的方式,使得信息识别更加准确。
[0076]图2是根据一示例性实施例示出的一种信息识别方法的流程,该方法可以利用在图1中训练的模板识别信息的类别,可以包括:
[0077]在步骤201中,获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词。
[0078]例如,当目标信息是运营商短信时,可以获取该短信中的至少一个分句,比如“您好”可以是一个分句,“您的话费余额是12元”可以作为另一个分句。至少一个分句中包含预设关键词,比如话费余额的数字。
[0079]在步骤202中,对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词。
[0080]在步骤203中,根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0081]例如,本步骤中可以根据训练得到的模板,识别信息的类别,具体可以是识别信息中的预设关键词的标注结果。比如,在运营商短信识别的例子中,可以通过模板识别到预设关键词的标注结果是话费余额。
[0082]通过本实施例的信息识别方法,可以根据预先构建的模板,进行信息类别的识别,这种通过模板识别类别的方式,使得信息识别更加准确。
[0083]如下以短信中的数字信息识别为例,来说明本公开的方法在运营商短信识别中的应用。首先列举几种识别短信中数字信息的例子:
[0084]示例性的,对于短信“您的话费余额已不足10元”,应用本方法可以识别出“话费余额一一10元”这种信息,S卩,识别出某种类别的数字的值。
[0085]又例如,对于短信“您本月的流量剩余845MB”,应用本公开的方法可以识别出“流量剩余一845MB”类似信息。
[0086]再例如,对于短信“您的赠款余额是344元,请核实”,应用本公开的方法可以识别出“赠款余额——344元”类似信息。
[0087]用户接收到的运营商短信包括多种类型的短信,比如上述例子中提到的几种,并且有时一个短信中可能包括多种类别的数字信息,至于应用该方法要识别到何种类别的数字信息,可以预先设定,称为“预设类别”。
[0088]举例如下:假设本公开的数字信息识别方法就是要将“话费余额”这种类别确定为“预设类别”,那么,当用户接收到的短信是“您的赠款余额是344元,请核实”时,尽管该短信中也包含数字344,但是不属于预设类别,则该方法可以返回null,即结果为空,没有要找到的“话费余额”类别的数字信息。而当识别到短信“您的话费余额已不足10元”中的数字信息“10”的所属类别是“话费余额”时,才返回“10”作为要识别的数字。
[0089]图3示例了一种应用本公开的方法识别短信中数字信息的系统,如图3所示,例如,该系统中可以包括:智能终端11和服务器12。其中,智能终端11可以是用户的智能手机,能够用于接收运营商短信。服务器12与智能手机之间可以进行通信交互,传输信息。
[0090]在本公开的例子中,执行数字信息的识别时,需要使用到模板,在该例子中,可以将模板称为分类模型,该分类模型的作用即用于识别短信中的数字信息的类别。而该分类模型可以是在服务器12根据采集样本进行模型训练得到,并将训练得到的分类模型发送至智能终端11,由智能终端11应用该模型对短信中的数字信息进行识别。对于应用本公开的方法进行话费余额识别的例子,包括服务器侧的模型训练以及智能手机侧的利用模型进行数字信息识别的过程,如下将分别进行说明:
[0091]服务器侧的模型训练:
[0092]图4是根据一示例性实施例示出的模型训练的流程图,服务器可以根据图4所示的流程进行模型训练,仍以话费余额识别为例,可以包括如下步骤:
[0093]在步骤401中,获取多个包含已知类别的数字信息的分句样本。
[0094]本步骤可以获取用于进行模型训练的样本,例如,服务器可以收集运营商短信,该运营商短信即为原始信息。收集的方式可以是,多个终端(如,智能手机)在接收到运营商短信后主动上报至服务器,或者,服务器定期去终端获取短信。在识别话费余额的本例子中,收集的运营商短信可以包括至少一条是话费余额通知的短信。
[0095]在获取到短信后,可以将短信中包含金额的分句提取出来,金额识别可以使用正则表达式。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
[0096]包含金额的分句构成的集合,可以用于“T”标识。例如,该集合T中包括的分句可以有“您的话费余额为64.8元”、“您的协议款余额为924元”、“您的赠款余额为344元”等。
[0097]在步骤402中,可以对各个分句进行标注;
[0098]例如,本步骤中可以由对各个分句中的数字信息的类别进行识别,这些分句中的数字信息,比如64.8、924等,可以称为原始信息中包括的预设关键词。在本例子中,可以是人工对这些词的类别进行标注,在其他的应用场景中,也可以是根据预设的关键词集合由服务器自动对关键词进行标注,该关键词集合中可以包括预设关键词及其类别的信息。比如,预设关键词集合包括指示所述数字信息的属性的信息,根据该预设关键词集合对原始信息中的数字信息进行标注。
[0099]在本例子中,类别的名称可以自定义。例如,本例子中可以包括三种类别:“话费余额”、“其他余 额”、“非余额”。示例性的,将上述步骤401中的分句进行数字信息类别标注,将64.8标注为“话费余额”,将924标注为“其他余额”,将344标注为“非余额”。标注后的分句的集合可以称为T_tag,该集合中的各个分句都包含数字信息,且类别是已知的。
[0100]标准后的原始信息样本集可以称为样本训练集,在样本训练集中,对原始信息中包括的预设关键词进行了标注,比如,将64.8标注为“话费余额”。
[0101]在步骤403中,对标注后的分句集合中的各个分句进行分词。
[0102]例如,本步骤对T_tag集合中的分句进行分词,得到若干个词语,比如可以得到如下词语:[您]、[的]、[话费]、[余额]、[64.8]、[元]、[协议款]、[为]等。其中可以包括预设关键词,比如[64.8]。分词得到的这些词可以称为“特征词”,特征词的集合标识为W。
[0103]在步骤404中,使用卡方检验或信息增益,对所述分词进行筛选,得到筛选后的特征集合。
[0104]例如,上述在步骤303中分词得到的各个特征词,有的词是对类别训练没有太大关系的词,这些词可以被去掉,以优化选择得到的特征词。本步骤中可以使用卡方检验或信息增益对特征词进行筛选。
[0105]其中,卡方检验使用特征与类别间的关联性来进行量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。根据卡方检验或信息增益就可以量化得到特征词的重要程度,从而进行优化选择,可以将优化后的特征词集合标识为F。比如,在步骤403中的特征词,可以将[为]、[的]这些词去掉。本步骤其实是从分词得到的若干个词语中提取出指定特征集合,该集合中包括至少一个特征词,这些特征词即为筛选后保留的特征
Τ.κ| ο
[0106]在步骤405中,以数字信息类别为训练目标,根据筛选的特征集合,使用朴素贝叶斯分类器进行模型训练,得到预设分类模型。
[0107]例如,将分句中的金额的类别作为训练目标,使用在步骤404中筛选得到的特征词集合F^T_tag进行训练,训练模型可以采用朴素贝叶斯分类器。朴素贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。朴素贝叶斯分类器在本公开例子中的这种样本量少和短文本训练的场景中,可以使得分类效果较好。在本例子中,可以计算特征词分别属于各个类别的概率。训练得到的模型可以用Μ表示。
[0108]本步骤中,是在根据预设关键词和指定特征集合构建模板并根据样本训练集中的标注结果训练模板。比如,样本训练集中的标注结果包括“将64.8标注为话费余额”,对样本中的数字都标注了类别,并且根据短信中提取的[话费]、[余额]等特征词,就可以构建朴素贝叶斯分类器这个模板,各个特征词在所述朴素贝叶斯分类器中互相独立,并对这个模板进行训练,训练后的朴素贝叶斯分类器就可以得到某个信息的类别。
[0109]例如,在对模板训练时,可以对朴素贝叶斯分类器中的每个特征词,根据样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量。根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。这种训练后的朴素贝叶斯分类器可以用于得到各个特征词分别属于各种类别的概率。
[0110]本实施例可以通过服务器训练分句样本得到分类模型,并将分类模型发送至智能终端以用于识别短信中的预设目标类别的数字信息,这种模型识别的方式可以使得对于数字信息识别的准确度较高。
[0111]服务器在训练得到模型Μ后,将该模型发送至智能手机,智能手机可以利用该模型进行识别短信中的数字信息。
[0112]智能手机侧的数字信息识别:
[0113]图5是根据一示例性实施例示出的模型识别的流程图,智能终端可以根据图5所示的流程利用模型识别数字信息,仍以话费余额识别为例,可以包括如下步骤:
[0114]在步骤501中,接收待识别的短信;
[0115]例如,在本步骤中,智能手机可以接收到一条运营商短信,该运营商短信即为待识别的目标信息。
[0116]在步骤502中,判断待识别短信中是否包含金额;
[0117]在本步骤中,如果判断结果为是,则继续执行503;否则,可以返回NULL。
[0118]在步骤503中,获取待识别短信中包含金额的至少一个分句。
[0119]例如,待识别的短信中可能包含多个分句,比如,“您的赠款余额为344元,请您核实,如有问题请与我们联系……这个短信中有很多分句,本步骤中可以选择包含数字信息的分句即可,在本例子中,数字信息即为金额。比如,“您的赠款余额为344元”是个包含数字信息“344”的分句,而“如有问题请与我们联系”这个分句中就不包含数字信息,可以不用选择。这些分句中都包括预设关键词,比如344等数字信息。
[0120]在步骤504中,对分句进行分词,根据特征集合F进行特征词提取。
[0121]例如,本步骤中可以根据在图4实施例中得到的特征集合F,将在步骤503中得到的分句中的属于F中的词提取出来,否则不提取。
[0122]在步骤505中,使用模型Μ和提取的特征词,预测分句的数字信息类别。
[0123]本步骤可以根据训练得到的模型以及提取到的特征词、预设关键词等,识别短信中的数字的标注结果,即识别数字的类别,比如本例子中可以识别短信中的数字是否是话费余额。例如,对于其中一条分句,可以根据该分句中的每个特征词分别属于各个类别的概率,得到该分句中的金额分别属于各个金额类别的概率(“话费余额”、“其他余额”或者“非余额”),那么,预测概率最大的类别就是该分句中的金额所属的类别。
[0124]如果待识别的短信中的至少一个分句,没有分句中的金额被确定为“话费余额”,则可以返回NULL,参见图5所示。如果待识别的短信中只有一个分句中的金额被确定为“话费余额”,则可以执行步骤506;如果待识别的短信中有多个分句中的金额被确定为“话费余额”,则可以执行507。
[0125]在步骤506中,可以将待识别的短信中被确定为“话费余额”的分句中的金额,确定为本次识别到的数字信息。
[0126]在步骤507中,若数字信息预测的类别是预设目标类别即话费金额的分句的数量为多个,则将对于话费金额类别的预测概率最大的分句中的金额作为识别得到的数字信息。
[0127]在本步骤中,识别的标注结果是预设标注结果的分句的数量为多个,即识别到的话费金额的分句的数量为多个,则将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
[0128]本例子中,可以对用户接收到的运营商短信,自动识别用户的话费余额,并且通过使用分类模型进行预测,类别预测的准确度较高。
[0129]此外,需要说明的是,在服务器侧可以定期进行模型的更新。例如,服务器可以定期采集一些新的短信样本,进而从该新短信样本中获取到新分句样本,该新分句样本中包含已知类别的数字信息。服务器可以根据新分句样本重新进行模型的训练,得到新的分类模型后,将更新后的分类模型发送至智能终端,以使得智能终端根据该新模型进行数字信息的识别。
[0130]本公开的例子中,对短信中的数字信息进行识别后,可以有多种应用,可以根据识别的结果进行执行一些应用操作和处理,以为人们生活提供方便。例如,当识别到的数字信息的数值小于或等于数值阈值时,则可以根据该数字信息对用户进行数字信息提醒。这个提醒可以是,当话费余额过低时,提醒用户进行话费充值;或者,当流量剩余过少时,提醒用户进行流量充值。
[0131]如下列举两个进行数字信息提醒的例子,仍以话费余额的提醒为例:
[0132]在一个例子中,假设可以设定一个话费余额的阈值为15元,当通过上述例子中的识别方法确定用户的话费余额为10元时,低于阈值,则可以在短信中显示一个数字信息调整操作的快捷接口,以供用户通过该快捷接口对数字信息进行调整,这里的数字信息调整可以是用户进行话费充值,使得话费余额增加,用户可以通过快捷接口快速进入话费充值页面。
[0133]图6示例了该快捷接口的显示方式,如图6所示,智能手机接收到一个运营商短信,经过利用本公开的识别方法进行识别,得到该短信中包括话费金额,并且话费金额为低于10元,小于设定的阈值15元。则可以在本条短信的底端显示一个快捷接口 61,该快捷接口 61的名称可以设定为“话费充值”,当然也可以用其他名称,比如“快捷充值”、“立刻充值”等。
[0134]用户可以点击该快捷接口61,就可以进入给话费充值的页面,比如进入充值网站给话费充值。这种显示快捷接口的方式,用户只要在看到短信时直接点击短信中的接口就可以跳转到充值页面,相对于传统方式中用户还要退出短信重新搜索进入充值页面,将明显提高充值操作的效率。
[0135]在另一个例子中,当识别到用户的话费余额已经低于阈值10元时,智能手机还可以向待识别短信的发送端,查询数字信息变化之后的更新值。比如,中国移动向用户发送余额提醒短信后,其实用户一直在使用手机,手机中的余 额将会越来越少,那么本例子中,智能手机就可以去主动查询余额的变化情况,比如,每天查询一次余额的剩余(9元、7元、6元等)。但是这个查询可以设置为不被用户所感知的后台查询方式。
[0136]当根据查询得到的更新值确定数字信息小于或等于临界告警值时,比如,用户的手机话费余额已经变更为2元,马上就要停机了,则智能手机可以显示数字信息告警通知信息,比如弹出一个告警通知,提醒用户及时充值。这个例子主要是考虑到有的用户在收到话费余额提醒短信后,会忘记充值,可能导致停机,影响用户的使用。通过该方案,可以由智能手机帮助用户后台监测余额的变化,并在临界告警值时及时通知用户尽快充值,避免停机。
[0137]图7是根据一示例性实施例示出的模板构建装置的结构图,该装置可以用于实现本公开的模板构建方法,该装置例如可以应用于服务器,如图7所示,可以包括:样本获取模块71、样本处理模块72、分词处理模块73、特征提取模块74、模板构建模块75和模板训练模块76 ο
[0138]样本获取模块71,用于获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;
[0139]样本处理模块72,用于在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;
[0140]分词处理模块73,用于对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;
[0141]特征提取模块74,用于从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0142]模板构建模块75,用于根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;
[0143]模板训练模块76,用于根据所述样本训练集中的标注结果对所述模板进行训练。
[0144]进一步的,特征提取模块74,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者,根据信息增益从所述若干个词语中提取出指定特征集合。
[0145]进一步的,所述模板构建模块75,用于将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。
[0146]进一步的,模板训练模块76,用于对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。
[0147]进一步的,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。
[0148]图8是根据一示例性实施例示出的信息识别装置的结构图,该装置可以用于实现本公开的信息识别方法,该装置例如可以应用于智能终端,如图8所示,可以包括:分句获取模块81、词语提取模块82和识别处理模块83。
[0149]分句获取模块81,用于获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;
[0150]词语提取模块82,用于对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;
[0151]识别处理模块83,用于根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
[0152]进一步的,识别处理模块83,用于若识别的标注结果是预设标注结果的分句的数量为多个,将识别概率最大的分句中的预设关键词作为预设标注结果的信息。
[0153]进一步的,词语提取模块82,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者根据信息增益从所述若干个词语中提取出所述指定特征集合。
[0154]进一步的,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性、
[0155]图9是根据一示例性实施例示出的一种信息识别装置900的框图。例如,装置900可以是动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0156]参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
[0157]处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成本公开的信息识别方法。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理部件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
[0158]存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPR0M),可擦除可编程只读存储器(EPR0M),可编程只读存储器(PR0M),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0159]电力组件908为装置900的各种组件提供电力。电力组件908可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
[0160]多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0161 ]音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件90还包括一个扬声器,用于输出音频信号。
[0162]I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0163]传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900—个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或C⑶图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0164]通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0165]在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0166]在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由装置的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是R0M、随机存取存储器(RAM)、CD-R0M、磁带、软盘和光数据存储设备等。
[0167]图1 0是根据一示例性实施例示出的一种模板构建装置1000的框图。例如,装置1000可以被提供为一服务器等。参照图10,装置1000包括处理组件1022,其进一步包括一个或多个处理器,以及由存储器1032所代表的存储器资源,用于存储可由处理部件1022的执行的指令,例如应用程序。存储器1032中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1022被配置为执行指令,以执行本公开的模板构建方法。
[0168]装置1000还可以包括一个电源组件1026被配置为执行装置1000的电源管理,一个有线或无线网络接口 1050被配置为将装置1000连接到网络,和一个输入输出(I/O)接口1058。装置1000可以操作基于存储在存储器1032的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
[0169]本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0170]应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
【主权项】
1.一种模板构建方法,其特征在于,所述方法包括: 获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息; 在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集; 对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语; 从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词; 根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板; 根据所述样本训练集中的标注结果对所述模板进行训练。2.根据权利要求1所述的方法,其特征在于,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个: 根据卡方检验从所述若干个词语中提取出所述指定特征集合;或 根据信息增益从所述若干个词语中提取出所述指定特征集合。3.根据权利要求1所述的方法,其特征在于,根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板,包括: 将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。4.根据权利要求3所述的方法,其特征在于,所述根据所述样本训练集中的标注结果对所述模板进行训练,包括: 对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量; 根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。5.根据权利要求4所述的方法,其特征在于,所述在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集,包括: 在所述原始信息中包括数字信息时,根据预设关键词集合对所述数字信息进行标注,得到样本训练集,其中,所述预设关键词集合包括指示所述数字信息的属性的信息。6.一种信息识别方法,其特征在于,所述方法包括: 获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词; 对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词; 根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。7.根据权利要求6所述的方法,其特征在于,所述方法还包括: 若识别的标注结果是预设标注结果的分句的数量为多个,则将识别概率最大的分句中的预设关键词作为预设标注结果的信息。8.根据权利要求6所述的方法,其特征在于,所述从所述若干个词语中提取出指定特征集合,包括以下两个步骤中的其中一个: 根据卡方检验从所述若干个词语中提取出所述指定特征集合;或 根据信息增益从所述若干个词语中提取出所述指定特征集合。9.根据权利要求6所述的方法,其特征在于,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。10.一种模板构建装置,其特征在于,所述装置包括: 样本获取模块,用于获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息; 样本处理模块,用于在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集; 分词处理模块,用于对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语; 特征提取模块,用于从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词; 模板构建模块,用于根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板; 模板训练模块,用于根据所述样本训练集中的标注结果对所述模板进行训练。11.根据权利要求10所述的装置,其特征在于, 所述特征提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者,根据信息增益从所述若干个词语中提取出指定特征集合。12.根据权利要求10所述的装置,其特征在于, 所述模板构建模块,用于将所述指定特征集合中的所述特征词和所述预设关键词构建朴素贝叶斯分类器,各个特征词在所述朴素贝叶斯分类器中互相独立。13.根据权利要求12所述的装置,其特征在于, 所述模板训练模块,用于对于所述朴素贝叶斯分类器中的每个所述特征词,根据所述样本训练集中的标注结果,统计出携带有所述特征词和所述预设关键词的分句为第一分句的数量;根据各个所述特征词、所述预设关键词和所述数量,得到训练后的所述朴素贝叶斯分类器。14.根据权利要求13所述的装置,其特征在于,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。15.一种信息识别装置,其特征在于,所述装置包括: 分句获取模块,用于获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词; 词语提取模块,用于对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词; 识别处理模块,用于根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。16.根据权利要求15所述的装置,其特征在于, 所述识别处理模块,用于若识别的标注结果是预设标注结果的分句的数量为多个,将识别概率最大的分句中的预设关键词作为预设标注结果的信息。17.根据权利要求15所述的装置,其特征在于, 所述词语提取模块,用于通过如下两个步骤中的其中一个从若干个词语中提取出指定特征集合:根据卡方检验从所述若干个词语中提取出所述指定特征集合;或者根据信息增益从所述若干个词语中提取出所述指定特征集合。18.根据权利要求15所述的装置,其特征在于,所述预设关键词为数字信息,所述标注结果为所述数字信息的属性。19.一种模板构建装置,其特征在于,包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为:获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;根据所述样本训练集中的标注结果对所述模板进行训练。20.一种信息识别装置,其特征在于,包括: 处理器; 用于存储处理器可执行指令的存储器; 其中,所述处理器被配置为:获取待识别的目标信息中的至少一个分句,所述分句中包括预设关键词;对所述分句进行分词得到若干个词语,并从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词、特征词以及预先构建的模板,识别所述分句中的预设关键词的标注结果。
【专利摘要】本公开提供一种模板构建方法和装置、信息识别方法和装置,其中方法包括:获取原始信息样本集,所述原始信息样本集包括至少一条预设类别的原始信息;在所述原始信息中包括预设关键词时,根据预设关键词集合对所述预设关键词进行标注,得到样本训练集;对所述样本训练集中的包括所述预设关键词的分句进行分词,得到若干个词语;从所述若干个词语中提取出指定特征集合,所述指定特征集合包括至少一个特征词;根据所述预设关键词和所述指定特征集合中的所述特征词构建所述模板;根据所述样本训练集中的标注结果对所述模板进行训练。本公开提高了信息识别的准确度。
【IPC分类】G06F17/27, G06K9/62
【公开号】CN105488025
【申请号】CN201510827530
【发明人】汪平仄, 张涛, 陈志军
【申请人】小米科技有限责任公司
【公开日】2016年4月13日
【申请日】2015年11月24日

最新回复(0)