一种检测相似短信的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理技术领域,特别涉及一种检测相似短信的方法及装置。
【背景技术】
[0002] 随着科学技术的不断发展,通信技术得到了飞速的发展,通信的方式多种多样,包 括电话、短、email等。
[0003] 短信由于其具有短小精要、成本低廉等优点被人们广泛的使用,也正因为它使用 的广泛和成本低廉被不法分子所利用。人们常常会收到不法分子发送的银行卡被盗、航班 取消、积分兑换等诈骗短信,稍有不慎就会被不法分子诈骗。为了减少人们被诈骗的几率, 现有技术通常采用标记、筛查的办法帮助用户识别诈骗短信,具体过程如下:通过用户对已 识别的诈骗短信进行标记并上报服务器,服务器根据已有的诈骗短信对待发送的短信进行 比对,若发现相同的短信,则进行拦截或提示收信终端用户该短信可能为诈骗短信,使用户 勿轻信上当受骗。
[0004] 然后,诈骗短信的类型层出不穷,现有技术中的方法只能基于已标记的即已确定 的诈骗短信来拦截诈骗短信或提示用户,无法及时发现新的诈骗短信,对诈骗短信的识别 和拦截存在滞后性。另外,除了诈骗短信,其它新短信的识别也存在滞后性。可见,现有技术 中存在对新短信的识别滞后的技术问题。
【发明内容】
[0005] 本发明实施例提供一种检测相似短信的方法及装置,用于解决现有技术中对新短 信的识别存在滞后的技术问题,提高对新短信的识别效率。
[0006] 本申请实施提供一种检测相似短信的方法,所述方法包括:
[0007] 对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词 向量;
[0008] 获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少 一条或至少一类参考短信的词向量;
[0009] 判断所述相似度是否大于设定阈值;
[0010] 若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类 参考短信相似。
[0011]可选的,所述根据每个分词和语料词矩阵获得所述目标短信的目标词向量,包括: 分别将所述每个分词输入词向量工具获得所述每个分词的词向量;通过将所有所述分词的 词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。
[0012] 可选的,获得所述目标词向量和设定词向量之间的相似度,包括:计算获得所述目 标词向量与所述设定词向量之间的余弦值,将所述余弦值作为所述相似度;或者,计算获得 所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作为所述相似度。
[0013] 可选的,所述设定词向量为至少一类参考短信的词向量时,所述方法还包括:获得 所述至少一类参考短信中的每条参考短信的参考词向量;获得所述每条参考短信的参考词 向量的均值作为所述设定词向量。
[0014] 可选的,当所述参考短信为恶意短信时,在所述确定所述目标短信与所述至少一 条或至少一类参考短信相似之后,所述方法还包括:获得所述目标短信的中心号,及查询获 得所述中心号发出的N条短信;获得所述N条短信中与所述目标短信相同或相似的短信数量 M;判断M/N是否大于第一预设比例;若M/N大于所述第一预设比例,确定所述目标短信为新 的恶意短信、所述中心号为伪基站的中心号。
[0015] 可选的,当所述参考短信为恶意短信时,在所述确定所述目标短信与所述至少一 条或至少一类参考短信相似之后,所述方法还包括:获得所述目标短信的中心号,及查询获 得所述中心号发出的N条短信;判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大 于第二预设比例,其中,所述黑短信包含诈骗短信、广告短信、骚扰短信;若Μ与Ν的比值大于 所述第二预设比例,确定所述目标短信为疑似恶意短信。
[0016] 可选的,所述参考短信包括:垃圾短信、诈骗短信或骚扰短信。
[0017] 可选的,在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之 后,所述方法还包括:生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信 进行标记;获得用户对所述目标短信所做的标记信息;若所述标记信息表征所述目标短信 属于垃圾短信或恶意短信,获得发送所述目标短信的电话号码,并标记所述电话号码为发 送过垃圾短信或恶意短信的电话号码;将所述电话号码添加到分析其归属地和/或地区编 码号段的行列中。
[0018] 可选的,若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,所述方法 还包括:建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。
[0019] 本申请实施例还提供一种检测相似短信的装置,所述装置包括:
[0020] 词向量获取模块,用于对目标短信进行分词,并根据每个分词和语料词矩阵获得 所述目标短信的目标词向量;
[0021 ]相似度计算模块,用于获得所述目标词向量和设定词向量之间的相似度,其中,所 述设定词向量为至少一条或至少一类参考短信的词向量;
[0022]判断模块,用于判断所述相似度是否大于设定阈值;
[0023]第一确认模块,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所 述至少一条或至少一类参考短信相似。
[0024] 可选的,所述词向量获取模块,包括:传输子模块,用于分别将所述每个分词输入 词向量工具获得所述每个分词的词向量;运算子模块,用于将所有所述分词的词向量的乘 积与所述语料词矩阵相乘获得所述目标词向量。
[0025] 可选的,所述相似度计算模块,包括:第一计算子模块,用于计算获得所述目标词 向量与所述设定词向量之间的余弦值,将所述余弦值作为所述相似度;或者,第二计算子模 块,计算获得所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作为所 述相似度。
[0026] 可选的,所述设定词向量为至少一类参考短信的词向量时,所述装置还包括:参考 词向量获取模块,用于获得所述至少一类参考短信中的每条参考短信的参考词向量;设定 词向量获取模块,用于获得所述每条参考短信的参考词向量的均值作为所述设定词向量。
[0027] 可选的,当所述参考短信为恶意短信时,所述装置还包括:第一查询模块,用于在 确定所述目标短信与所述至少一条或至少一类参考短信相似之后,获得所述目标短信的中 心号,及查询获得所述中心号发出的N条短信;第二确认模块,用于获得所述N条短信中与所 述目标短信相同或相似的短信数量M;判断M/N是否大于第一预设比例;若M/N大于所述第一 预设比例,确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。
[0028] 可选的,当所述参考短信为恶意短信时,所述装置还包括:第二查询模块,用于在 确定所述目标短信与所述至少一条或至少一类参考短信相似之后,获得所述目标短信的中 心号,及查询获得所述中心号发出的N条短信;第三确认模块,用于判断所述N条短信中属性 为黑短信的数量Μ与N的比值是否大于第二预设比例,其中,所述黑短信包含诈骗短信、广告 短信、骚扰短信;若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短 {目。
[0029] 可选的,所述参考短信包括:垃圾短信、诈骗短信或骚扰短信。
[0030] 可选的,所述装置还包括:添加模块,用于在确定所述目标短信与所述至少一条或 至少一类参考短信相似之后,生成并显示一提示信息,所述提示信息用于提示用户对所述 目标短信进行标记;获得用户对所述目标短信所做的标记信息;若所述标记信息表征所述 目标短信属于垃圾短信或恶意短信,获得发送所述目标短信的电话号码,并标记所述电话 号码为发送过垃圾短信或恶意短信的电话号码;将所述电话号码添加到分析其归属地和/ 或地区编码号段的行列中。
[0031 ]可选的,所述添加模块还用于:若所述标记信息表征所述目标短信属于垃圾短信 或恶意短信,建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。
[0032] 本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
[0033] 通过将目标短信和参考短信转换成词向量,并计算目标短信和参考短信的词向量 之间的相似度,从而用词向量之间的相似度来判断目标短信与参考短信之间是否相似,获 得与参考短信相似的目标短信,检测出新的短信如诈骗短信、广告短信、骚扰短信等,进而 解决了现有技术中对新短信的识别存在滞后的技术问题,提高了对新短信的识别效率。
【附图说明】
[0034] 图1为本申请实施例一提供的一种检测相似短信的方法的流程图;
[0035] 图2为本申请实施例一提供的确认恶意短信的流程图;
[0036] 图3为本申请实施例提供二的一种检测相似短信的装置的示意图。
【具体实施方式】
[0037] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0038]本技术领域技术人员可以理
解,除非特意声明,这里使用的单数形式"一"、"一 个"、"所述"和"该"也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措 辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加 一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元 件被"连接"或"耦接"到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在 中间元件。此外,这里使用的"连接"或"親接"可以包括无线连接或无线耦接。这里使用的措 辞"和/或"包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0039] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术 语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该 理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的 意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义 来解释。
[0040] 在本申请实施例提供的技术方案中,通过词向量来检测相似短信,以尽早检测数 据库中没有的垃圾短信,从而解决现有技术中对新短信的识别存在滞后的技术问题,提高 对新短?目的识别效率。
[0041] 下面结合附图对本申请实施例技术方案的主要实现原理、【具体实施方式】及其对应 能够达到的有益效果进行详细的阐述。
[0042] 实施例一
[0043] 请参考图1,本申请实施例提供一种检测相似短彳目的方法,该方法包括
[0044] S11:对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目 标词向量;
[0045] S12:获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为 至少一条或至少一类参考短信的词向量;
[0046] S13:判断所述相似度是否大于设定阈值;
[0047] S14:若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少 一类参考短信相似。
[0048] 执行SI 1对目标短信进行分词时,可以将收到的所有短信作为目标短信进行分词, 也可以先对收到的短信通过分类模型进行分类,将特定类别的短信作为目标短信。具体的, 本申请实施例通过获得已有诈骗短信的类型来确定目标短信,例如:不法分子通常会利用 航班取消等缘由实施诈骗、利用积分兑换的缘由实施诈骗、利用银行卡被冻结等缘由实施 诈骗,那么可将类别为航空类、积分兑换类、银行卡类的短信作为目标短信,针对特定类别 的短信进行相似短信的挖掘能够大大提高获取新诈骗短信的效率。
[0049] 针对获得的目标短信进行分词,将目标短信拆分成多个分词,例如:假设目标短信 为"您的航班取消了",可以采用阿里分词将目标短信分为"您"、"您的"、"航班"及"取消", 分词时除了采用阿里分词,还可以采用IKAnalyzer、盘古分词等分词工具进行分词,本申请 实施例不限制分词使用的具体工具。每一个分词都有特定的语义,而特定的语义可以由不 同的分词来表示,但是若仅仅根据近义词来查找相似短信,如利用"航班"、"取消"的近义词 "飞机"、"取缔"等来获得相似短信,是无法检测"机票出票失败"等语义相似的新短信。
[0050] 为此,本申请实施例在分词后,进一步获得每个分词的词向量,通过词向量来表示 每个分词的语义。词向量为通过训练将语言中的每一个词映射成一个固定长度的向量,可 以通过将每个分词输入词向量工具获得每个分词的词向量,例如可以通过word2vec工具把 每个分词当做特征映射到K维空间获得分词的词向量。其中,词向量工具中包含有语料词矩 阵,该语料词矩阵中为n*k的矩阵,η为数据库中的分词量,k为每个词的维度,假设某一词向 量工具中包含800个分词、设定的词向量的维度为100,那么该语料词矩阵则为800*100的矩 阵。将分词输入词向量工具,词向量工具会得到一个表示该分词位置的向量并将这个向量 与语料词矩阵相乘便可获得并输出这个分词的词向量。
[0051] 在获得目标短信的每个分词的词向量之后,进一步的,为了表示目标短信的语义, 通过将目标短信的所有分词的词向量的乘积与语料词矩阵相乘获得目标短信的目标词向 量。例如:假设该语料词矩阵为800*100的矩阵T,若目标短信的有10个分词,nl~nlO分别表 示这10个分词的词向量,将nl*n2*…nlO的乘积与语料词矩阵T相乘获得目标短信的目标词 向量,即目标词向量等于η1*η2*···η10*Τ。
[0052] 在S11获得目标短信的目标词向量后,执行S12获得目标词向量和设定词向量之间 的相似度。设定词向量为至少一条或至少一类参考短信的词向量,参考短信包括垃圾短信、 恶意短信或具有指定用途的短信。垃圾短信为用户不想接收到的但对用户无害的短信如广 告短信;恶意短信包含诈骗短信、骚扰短信等可能对用户造成人身、财产伤害的短信;指定 用途的短信为快递、验证码、缴费提示等特殊用途的短信。下面以诈骗短信为例对本申请实 施例的方法进行说明。设定词向量的获得分以下两种情况:
[0053] (1)当设定词向量为一条参考短信的词向量时,与S11获得目标短信的目标词向量 的方法相同:先对该参考短信进行分词,然后将各个分词分别输入词向量工具中获得各个 分词的词向量,再将各个分词的词向量的乘积与语料词矩阵相乘获得设定词向量。
[0054] (2)当设定词向量为一类参考短信的词向量时,先采用情况(1)的方法获得一类参 考短信中的每条参考短信的参考词向量,再获得每条参考短信的参考词向量的均值作为这 一类参考短信的设定词向量。具体的,设定词向量可以通过公式(ml+m2+…mn)*l/n,mn表示 第η条参考短信的参考词向量,η表示一类参考短信中包含的参考短信的数量。例如:假设一 类航空诈骗短信中包含10条航空诈骗短信,每条航空诈骗短信的参考词向量分别为ml~ mlO,那么每条参考短信的参考词向量的均值可以通过公式(ml+m2+…ml0)*0.1计算获得。 利用一类参考短信的设定词向量来进行相似短信检测时,将目标短信的目标词向量与一个 设定词向量进行相似度计算,不再依次与每一个参考短信的参考词向量进行相似度计算, 能够大大减小相似短信检测的计算量,提高相似短信检测的效率。
[0055] S12在获得目标词向量与设定词向量之间的相似度时,可以获得两个向量之间的 余弦值来表征两个向量之间的相似度,即余弦相似度;也可以获得两个向量之间的相关系 数连表征连个向量之间的相似度。
[0056] 计算获得目标词向量与设定词向量之间的余弦值,将该余弦值作为目标词向量与 设定词向量之间的相似度时,表达式为:
[0058]其中,x、y分别表示目标词向量、设定词向量,sim(x,y)表示目标词向量与设定词 向量之间的相似度,cos(x,y)目标词向量与设定词向量之间的余弦值,xi表示目标词向量 中的元素,yi表示目标词向量中的元素,η为目标词向量、设定词向量的维度。一般在计算前 需要对向量中的各元素进行无量纲化处理,使各个元素都为正,获得的余弦值的取值范围 为[0,1],取值越大表明两个向量之间夹角越小,两个向量越接近,值为1时,两个向量完全 相同。
[0059]计算获得目标词向量与设定词向量之间的相关系数,将相关系数作为相似度时, 表达式为:
[0061] 其中,r(x,y)表示目标词向量与设定词向量之间的相关系数,
相关系数是多元统计学中用来衡量两组变量之间线性密切程度的无量纲 ? 指标,取值范围为[0,1],值越大相关性越强,当值为1时,两个向量完全相同。
[0062] 需要说明的是,本申请实施例并不限制词向量之间相似度的具体算法,除了通过 余弦值、相关系数计算相似度,还可以通过广义Dice系数、广义Jaccard系数计算相似度,不 同的算法获得的相似度对应的设定阈值不同。
[0063] S12获得目标词向量和设定词向量之间的相似度之后,进一步执行S13判断获得的 该相似度是否大于设定阈值。设定阈值可以由设计人员根据实验数据,针对不同的相似度 算法进行设置,例如:采用余弦相似度时,设定阈值可以为〇. 78;采用相关系数相似度时,设 定阈值可以为0.8。当S13判断出相似度不大于设定阈值时,表明目标词向量与设定词向量 不是很接近,当前流程结束。当S13判断出相似度大于设定阈值时,表明目标词向量与设定 词向量很接近,继续执行S14。
[0064] S14若目标词向量和设定词向量之间的相似度大于设定阈值,确定目标短信与设 定词向量对应的至少一条或至少一类参考短信相似。例如:假设目标短信为"您的航班因故 取消,请拨打……",一条参考短信为"您的机票出票失败,请登录……",虽然分词"航班"与 "机票"、"取消"与"失败"、"拨打"与"登录"之间不互为近义词,但通过计算获得该目标短信 的目标词向量与参考短信的设定词向量之间的余弦相似度为0.8大于设定阈值,可以确定 出目标短信与该参考短信相似。
[0065] 针对S14确定出的相似目标短信,本申请实施例还将该目标短信作为参考短信添 加
到参考短信库中,以为后续的相似短信挖掘或垃圾短信判别提供样本。当然,也可以在确 定出目标短信与参考短信相似之后,通过人工进行进一步判别该目标短信是否为诈骗短 信、广告短信、骚扰短信等特定类别的新短信,在确定出目标短信为特定类别的新短信时, 将其添加到参考短信库中。
[0066] 进一步的,本申请实施例还在确定出目标短信与参考短信相似之后,生成并显示 一用于提示用户对目标短信进行标记的提示信息,具体可以在用户阅读该目标短信后显示 该提示信息。然后,获得用户对目标短信所做的标记信息,判断该标记信息是否表征该目标 短信属于垃圾短信或恶意短信。若该标记信息表征该目标短信属于垃圾短信或恶意短信, 获得发送所述目标短信的电话号码。具体实现时,通信终端设备中的操作系统一般会为应 用程序开放一些接口,供应用程序从系统中获取所需的信息。因此,在本发明实施例中,为 了能够对通信终端的短信接收情况进行监测,可以在通信终端中运行一应用程序,然后就 可以利用通信终端系统的这一特点,在操作系统中对应用程序进行注册。这样,当操作系统 广播通知消息时,应用程序就能够收听到这种通知消息,并从中获取所需的信息。例如,当 接收短信时,通信终端的操作系统就会广播该短信接收消息,并携带短信发送方的电话号 码,这样,应用程序就能够监测到该事件,并从中获取到短信发送方的电话号码。
[0067] 在获得被标记的目标短信发送方的电话号码后,标记该电话号码为发送过垃圾短 信或恶意短信的电话号码,及将该电话号码添加到分析其归属地和/或地区编码号段的行 列中,以进一步分析该电话号码的来源。进一步的,在该目标号码被标记为属于垃圾短信或 恶意短信时,本申请实施例还建立目标号码的标记信息与其电话号码之间的对应关系并保 存到预置数据库中,使得通信终端能够根据该预置数据库中存储的对应关系,在接收到该 电话号码的短信时,将该短信确认为其标志信息对应的短信类型,或者拒收该短信。
[0068] 请参考图2,在具体实施过程中,本申请实施例为了能够及时检测新的诈骗短信, 当参考短信为恶意短信时,在确定出目标短信与该恶意短信相似之后,还在执行如下步骤:
[0069] S21、获得目标短信的中心号及查询获得该中心号发出的N条短信。该N条短信可以 为该中心号发出的所有短信。短信的中心号又叫信息中心号码是一种短信息服务器,用于 帮助用户转发短信或发送服务类短信。
[0070] S22、获得该中心号发送的N条短信中与目标短信相同或相似的短信数量M。其中, 判断N条短信中与目标短信相似的短信可以采用上述S11~S14提供的方法。
[0071] S23、判断Μ/N是否大于第一预设比例。若判断出Μ/N不大于第一预设比例,表明该 中心号发送的短信中诈骗短信所占比例不是特别大,既有诈骗短信又有其他短信,此时可 以对该短信中心号进行进一步观察。若判断出Μ/N大于第一预设比例,表明该中心号发送的 短信中诈骗短信所占比例非常大,继续执行S24。为了避免误判,第一预设比例可以设置为 95%以上。
[0072] S24、若Μ/N大于第一预设比例,确定目标短信为新的恶意短信、中心号为伪基站的 中心号。例如:在确定出目标短信与诈骗短信相似时,获得该目标短信的中心号为 "0270……",该中心号"0270……"发送的所有100万条短信中均与目标短信相似,即该中心 号"0270……"发送的短信均与诈骗短信相似,那么确定该目标短信为新的诈骗短信、该中 心号"0270……"为伪基站的中心号。
[0073] 由于伪基站很为了避免其发送的非法短信被拦截,除了发送诈骗短信外还发送一 些正常的短信,本申请实施例为了避免误判,还可以在Μ/N大于第一预设比例时,对目标短 信进行标记,以供技术人员判别目标短信是否为新的诈骗短信。
[0074] 本申请实施例针对被确认出与恶意短信相似的目标短信时,还可以执行如下步 骤:获得目标短信的中心号,及查询获得中心号发出的N条短信;判断该中心号发出的N条短 信中属性为黑短信的数量Μ与N的比值是否大于第二预设比例,其中,黑短信包含诈骗短信、 广告短信、骚扰短信;若Μ与Ν的比值大于第二预设比例,标记目标短信以供技术人员判别所 述目标短信是否为新的恶意短信。上述步骤通过判断中心号发出的短信的黑白属性,若该 中心号发出的短信大部分为黑短信,那么其发出的目标短信为诈骗短信的可能性就非常 大,为此确认该目标短信为疑似恶意短信,通过这种方式减少目标短信与其它短信之间相 似性的计算,减少电子设备的计算负担。
[0075]上述技术方案中,通过将目标短信和参考短信转换成词向量,并计算目标短信和 参考短信的词向量之间的相似度,从而用词向量之间的相似度来判断目标短信与参考短信 之间是否相似,获得与参考短信相似的目标短信,检测出新的短信如诈骗短信、广告短信、 骚扰短信等,进而解决了现有技术中对新短信的识别存在滞后的技术问题,提高了对新短 信的识别效率。
[0076] 实施例二
[0077] 请参考图3,本申请实施例针对实施例一提供检测相似短信的方法,还相应的提供 一种检测相似短信的装置,该装置包括:
[0078] 词向量获取模块31,用于对目标短信进行分词,并根据每个分词和语料词矩阵获 得所述目标短信的目标词向量;
[0079] 相似度计算模块32,用于获得所述目标词向量和设定词向量之间的相似度,其中, 所述设定词向量为至少一条或至少一类参考短信的词向量;
[0080] 判断模块33,用于判断所述相似度是否大于设定阈值;
[0081 ]第一确认模块34,用于在所述相似度大于所述设定阈值时,确定所述目标短信与 所述至少一条或至少一类参考短信相似。
[0082] 在具体实施过程中,词向量获取模块31包括:传输子模块和运算子模块,其中传输 子模块用于分别将目标短信的每个分词输入词向量工具获得目标短信每个分词的词向量; 运算子模块用于将目标短信的所有分词的词向量的乘积与语料词矩阵相乘获得目标词向 量。语料词矩阵中为n*k的矩阵,η为数据库中的分词数量,k为每个词的维度。将分词输入词 向量工具,词向量工具会得到一个表示该分词位置的向量并将这个向量与语料词矩阵相乘 便可获得并输出这个分词的词向量。
[0083] 该装置中的相似度计算模块32包括第一计算子模块或第二计算子模块,该两个计 算子模块分别计算不同参数来表征两个向量的相似度。第一计算子模块用于计算获得所述 目标词向量与所述设定词向量之间的余弦值,将所述余弦值作为所述相似度。第二计算子 模块,计算获得所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作为 所述相似度。
[0084] 具体的,第一计算子模块可以通过如下表达式计算获得目标词向量与设定词向量 之间的余弦相似度:
[0086] 其中,x、y分别表示目标词向量、设定词向量,sim(x,y)表示目标词向量与设定词 向量之间的相似度,cos(x,y)目标词向量与设定词向量之间的余弦值,xi表示目标词向量 中的元素,yi表示目标词向量中的元素,η为目标词向量、设定词向量的维度。
[0087] 第二计算子模块可以通过如下表达式计算获得目标词向量与设定词向量之间的 相关系数,用相关系数来表征词向量之间的相似度:
[0089] 其中,r(x,y)表示目标词向量与设定词向量之间的相关系数,
[0090] 其中,设定词向量为至少一条或至少一类参考短信的词向量,参考短信包括垃圾 短信、恶意短信或具有指定用途的短信。垃圾短信为用户不想接收到的但对用户无害的短 信如广告短信;恶意短信包含诈骗短信、骚扰短信等可能对用户造成人身、财产伤害的短 信;指定用途的短信为快递、验证码、缴费提示等特殊用途的短信。
[0091 ]当设定词向量为至少一类参考短信的词向量时,所述装置还包括:参考词向量获 取模块35和设定词向量获取模块36。参考词向量获取模块35用于获得所述至少一类参考短 信中的每条参考短信的参考词向量;设定词向量获取模块36用于获得所述每条参考短信的 参考词向量的均值作为所述设定词向量。具体的,设定词向量可以通过公式(ml+m2+…mn)* l/n,mn表示第η条参考短信的参考词向量,η表示一类参考短信中包含的参考短信的数量。 [0092]当所述参考短信为恶意短信时,所述装置还包括:第一查询模块37和第二确认模 块38。第一查询模块37用于在确定所述目标短信与所述至少一条或至少一类参考短信相似 之后,获得所述目标短信的中心号,及查询获得所述中心号发出的Ν条短信;第二确认模块 38用于获得所述Ν条短信中与所述目标短信相同或相似的短信数量Μ;判断Μ/Ν是否大于第 一预设比例;若Μ/Ν大于所述第一预设比例,确定所述目标短信为新的恶意短信、所述中心 号为伪基站的中心号。
[0093]当所述参考短信为恶意短信时,所述装置还包括:第二查询模块39和第三确认模 块40。其中,第一查询模块37和第二查询模块39可以是用一个模块。第二查询模块39用于在 确定所述目标短信与所述至少一条或至少一类参考短信相似之后,获得所述目标短信的中 心号,及查询获得所述中心号发出的Ν条短信;第三确
认模块40用于判断所述Ν条短信中属 性为黑短信的数量Μ与Ν的比值是否大于第二预设比例,其中,所述黑短信包含诈骗短信、广 告短信、骚扰短信;若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短 {目。
[0094]在具体实施过程中,所述装置还包括:添加模块41,用于在确定所述目标短信与所 述至少一条或至少一类参考短信相似之后,获得用户对所述目标短信所做的标记信息;若 所述标记信息表征所述目标短信属于垃圾短信或恶意短信,获得发送所述目标短信的电话 号码,并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码;将所述电话号码添 加到分析其归属地和/或地区编码号段的行列中。
[0095]相应的,添加模块41还用于在标记信息表征目标短信属于垃圾短信或恶意短信 时,建立标记信息与发送该目标短信的电话号码之间的对应关系并保存到预置数据库中。 [0096]针对上述一种检测相似短信的装置,本实施例提供一种移动终端,该移动终端中 包括上述一检测相似短信的装置。具体的,该装置包括:词向量获取模块31,用于对目标短 信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向量;相似度计算 模块32,用于获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至 少一条或至少一类参考短信的词向量;判断模块33,用于判断所述相似度是否大于设定阈 值;第一确认模块34,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所述至 少一条或至少一类参考短信相似。
[0097] 具体的,本申请实施例提供的移动终端可以为手机、pad、小灵通等能够收发短信 的电子设备。通过在移动终端中设置上述检测相似短信的装置,能对接收到的短信进行相 似度判别,检测出新的短信如诈骗短信、广告短信、骚扰短信等,以解决现有技术中对新短 信的识别存在滞后的技术问题,提高对新短信的识别效率。
[0098] 针对上述一种检测相似短信的装置,本实施例还提供一种服务器,该服务器中包 括上述一检测相似短信的装置。具体的,该装置包括:词向量获取模块31,用于对目标短信 进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向量;相似度计算模 块32,用于获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少 一条或至少一类参考短信的词向量;判断模块33,用于判断所述相似度是否大于设定阈值; 第一确认模块34,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所述至少 一条或至少一类参考短信相似。
[0099] 通过本申请实施例中的一个或多个技术方案,可以实现如下技术效果:
[0100] 通过将目标短信和参考短信转换成词向量,并计算目标短信和参考短信的词向量 之间的相似度,从而用词向量之间的相似度来判断目标短信与参考短信之间是否相似,获 得与参考短信相似的目标短信,检测出新的短信如诈骗短信、广告短信、骚扰短信等,进而 解决了现有技术中对新短信的识别存在滞后的技术问题,提高了对新短信的识别效率。
[0101] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序 产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实 施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机 可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产 品的形式。
[0102] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流 程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序 指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产 生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0103] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0104] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
[0105] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造 性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优 选实施例以及落入本发明范围的所有变更和修改。
[0106] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
[0107] 本发明公开了 A1、一种检测相似短信的方法,其特征在于,包括:
[0108] 对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词 向量;
[0109] 获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少 一条或至少一类参考短信的词向量;
[0110] 判断所述相似度是否大于设定阈值;
[0111] 若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类 参考短信相似。
[0112] A2、根据A1所述的方法,其特征在于,所述根据每个分词和语料词矩阵获得所述目 标短信的目标词向量,包括:
[0113] 分别将所述每个分词输入词向量工具获得所述每个分词的词向量;
[0114] 通过将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向 量。
[0115] A3、根据A1所述的方法,其特征在于,获得所述目标词向量和设定词向量之间的相 似度,包括:
[0116]计算获得所述目标词向量与所述设定词向量之间的余弦值,将所述余弦值作为所 述相似度;或者
[0117]计算获得所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作 为所述相似度。
[0118] A4、根据A1所述的方法,其特征在于,所述设定词向量为所述至少一类参考短信的 词向量时,所述方法还包括:
[0119] 获得所述至少一类参考短信中的每条参考短信的参考词向量;
[0120] 获得所述每条参考短信的参考词向量的均值作为所述设定词向量。
[0121] A5、根据A1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括:
[0122] 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0123] 获得所述N条短信中与所述目标短信相同或相似的短信数量M;
[0124] 判断Μ/N是否大于第一预设比例;
[0125] 若Μ/N大于所述第一预设比例,确定所述目标短信为新的恶意短信、所述中心号为 伪基站的中心号。
[0126] A6、根据A1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括:
[0127] 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0128] 判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大于第二预设比例,其 中,所述黑短信包含诈骗短信、广告短信、骚扰短信;
[0129] 若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短信。
[0130] Α7、根据Α1~Α6任一所述的方法,其特征在于,所述参考短信包括:垃圾短信、诈骗 短信或骚扰短信。
[0131] Α8、根据Α1~Α6任一所述的方法,其特征在于,在所述确定所述目标短信与所述至 少一条或至少一类参考短信相似之后,所述方法还包括:
[0132] 生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信进行标记;
[0133] 获得用户对所述目标短信所做的标记信息;
[0134] 若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,获得发送所述目标 短信的电话号码,并标记所述电话号码为发送过所述垃圾短信或所述恶意短信的电话号 码;
[0135] 将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。
[0136] Α9、根据Α8所述的方法,其特征在于,若所述标记信息表征所述目标短信属于垃圾 短信或恶意短信,所述方法还包括:
[0137] 建立所述标记信息与所述电话号码之间的对应关系并保存
到预置数据库中。
[0138] 本发明还公开了 Β10、一种检测相似短信的装置,其特征在于,包括:
[0139] 词向量获取模块,用于对目标短信进行分词,并根据每个分词和语料词矩阵获得 所述目标短信的目标词向量;
[0140] 相似度计算模块,用于获得所述目标词向量和设定词向量之间的相似度,其中,所 述设定词向量为至少一条或至少一类参考短信的词向量;
[0141] 判断模块,用于判断所述相似度是否大于设定阈值;
[0142] 第一确认模块,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所 述至少一条或至少一类参考短信相似。
[0143] Β11、根据Β10所述的装置,其特征在于,所述词向量获取模块,包括:
[0144] 传输子模块,用于分别将所述每个分词输入词向量工具获得所述每个分词的词向 量;
[0145] 运算子模块,用于将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所 述目标词向量。
[0146] Β12、根据Β10所述的装置,其特征在于,所述相似度计算模块,包括:
[0147] 第一计算子模块,用于计算获得所述目标词向量与所述设定词向量之间的余弦 值,将所述余弦值作为所述相似度;或者
[0148] 第二计算子模块,计算获得所述目标词向量与所述设定词向量之间的相关系数, 将所述相关系数作为所述相似度。
[0149] Β13、根据Β10所述的装置,其特征在于,所述设定词向量为所述至少一类参考短信 的词向量时,所述装置还包括:
[0150] 参考词向量获取模块,用于获得所述至少一类参考短信中的每条参考短信的参考 词向量;
[0151] 设定词向量获取模块,用于获得所述每条参考短信的参考词向量的均值作为所述 设定词向量。
[0152] B14、根据B10所述的装置,其特征在于,当所述参考短信为恶意短信时,所述装置 还包括:
[0153] 第一查询模块,用于在确定所述目标短信与所述至少一条或至少一类参考短信相 似之后,获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0154] 第二确认模块,用于获得所述N条短信中与所述目标短信相同或相似的短信数量 M;判断M/N是否大于第一预设比例;若M/N大于所述第一预设比例,确定所述目标短信为新 的恶意短信、所述中心号为伪基站的中心号。
[0155] B15、根据B10所述的装置,其特征在于,当所述参考短信为恶意短信时,所述装置 还包括:
[0156] 第二查询模块,用于在确定所述目标短信与所述至少一条或至少一类参考短信相 似之后,获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信;
[0157] 第三确认模块,用于判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大 于第二预设比例,其中,所述黑短信包含诈骗短信、广告短信、骚扰短信;若Μ与Ν的比值大于 所述第二预设比例,确定所述目标短信为疑似恶意短信。
[0158] Β16、根据Β10~Β15任一所述的装置,其特征在于,所述参考短信包括:垃圾短信、 诈骗短信或骚扰短信。
[0159] Β17、根据Β10~Β15任一所述的装置,其特征在于,所述装置还包括:
[0160] 添加模块,用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之 后,生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信进行标记;获得用 户对所述目标短信所做的标记信息;若所述标记信息表征所述目标短信属于垃圾短信或恶 意短信,获得发送所述目标短信的电话号码,并标记所述电话号码为发送过垃圾短信或恶 意短信的电话号码;将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。 [0161] Β18、根据Β17所述的装置,其特征在于,所述添加模块还用于:
[0162] 若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,建立所述标记信息 与所述电话号码之间的对应关系并保存到预置数据库中。
[0163] 本发明还公开了 C19、一种移动终端,其特征在于,包括如权利要求Β9~Β18所述的 装置。
[0164] 本发明还公开了 D20、一种服务器,其特征在于,包括如权利要求Β9~Β18所述的装 置。
【主权项】
1. 一种检测相似短信的方法,其特征在于,所述方法包括: 对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向 量; 获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少一条 或至少一类参考短信的词向量; 判断所述相似度是否大于设定阈值; 若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类参考 短信相似。2. 如权利要求1所述的方法,其特征在于,所述根据每个分词和语料词矩阵获得所述目 标短信的目标词向量,包括: 分别将所述每个分词输入词向量工具获得所述每个分词的词向量; 通过将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。3. 如权利要求1所述的方法,其特征在于,获得所述目标词向量和设定词向量之间的相 似度,包括: 计算获得所述目标词向量与所述设定词向量之间的余弦值,将所述余弦值作为所述相 似度;或者 计算获得所述目标词向量与所述设定词向量之间的相关系数,将所述相关系数作为所 述相似度。4. 如权利要求1所述的方法,其特征在于,所述设定词向量为所述至少一类参考短信的 词向量时,所述方法还包括: 获得所述至少一类参考短信中的每条参考短信的参考词向量; 获得所述每条参考短信的参考词向量的均值作为所述设定词向量。5. 如权利要求1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括: 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信; 获得所述N条短信中与所述目标短信相同或相似的短信数量M; 判断M/N是否大于第一预设比例; 若Μ/N大于所述第一预设比例,确定所述目标短信为新的恶意短信、所述中心号为伪基 站的中心号。6. 如权利要求1所述的方法,其特征在于,当所述参考短信为恶意短信时,在所述确定 所述目标短信与所述至少一条或至少一类参考短信相似之后,所述方法还包括: 获得所述目标短信的中心号,及查询获得所述中心号发出的N条短信; 判断所述N条短信中属性为黑短信的数量Μ与N的比值是否大于第二预设比例,其中,所 述黑短信包含诈骗短信、广告短信、骚扰短信; 若Μ与Ν的比值大于所述第二预设比例,确定所述目标短信为疑似恶意短信。7. 如权利要求1~6任一所述的方法,其特征在于,所述参考短信包括:垃圾短信、诈骗 短信或骚扰短信。8. 如权利要求1~6任一所述的方法,其特征在于,在所述确定所述目标短信与所述至 少一条或至少一类参考短信相似之后,所述方法还包括: 生成并显示一提示信息,所述提示信息用于提示用户对所述目标短信进行标记; 获得用户对所述目标短信所做的标记信息; 若所述标记信息表征所述目标短信属于垃圾短信或恶意短信,获得发送所述目标短信 的电话号码,并标记所述电话号码为发送过所述垃圾短信或所述恶意短信的电话号码; 将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。9. 如权利要求8所述的方法,其特征在于,若所述标记信息表征所述目标短信属于垃圾 短信或恶意短信,所述方法还包括: 建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。10. -种检测相似短信的装置,其特征在于,所述装置包括: 词向量获取模块,用于对目标短信进行分词,并根据每个分词和语料词矩阵获得所述 目标短信的目标词向量; 相似度计算模块,用于获得所述目标词向量和设定词向量之间的相似度,其中,所述设 定词向量为至少一条或至少一类参考短信的词向量; 判断模块,用于判断所述相似度是否大于设定阈值; 第一确认模块,用于在所述相似度大于所述设定阈值时,确定所述目标短信与所述至 少一条或至少一类参考短信相似。
【专利摘要】本发明公开了一种检测相似短信的方法及装置,该方法包括:对目标短信进行分词,并根据每个分词和语料词矩阵获得所述目标短信的目标词向量;获得所述目标词向量和设定词向量之间的相似度,其中,所述设定词向量为至少一条或至少一类参考短信的词向量;判断所述相似度是否大于设定阈值;若所述相似度大于所述设定阈值,确定所述目标短信与所述至少一条或至少一类参考短信相似。在上述技术方案中,通过将目标短信和参考短信转换成词向量,并计算短信的词向量之间的相似度用以获得与参考短信相似的目标短信,从而检测出新的短信,进而解决了现有技术中对新短信的识别存在滞后的技术问题,提高了对新短信的识别效率。
【IPC分类】G06F17/27
【公开号】CN105488031
【申请号】CN201510907340
【发明人】张金晶, 李强, 常富洋
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2016年4月13日
【申请日】2015年12月9日