获取正极性汉字的方法和装置的制造方法

xiaoxiao2021-2-28 249

获取正极性汉字的方法和装置的制造方法
【技术领域】
[0001]本发明涉及软件领域，特别涉及一种从文字材料中获取正极性汉字的方法和装置。
【背景技术】
[0002]汉字的情感资源是自然语言处理的重要组成部分，由于汉字的数目(尤其常用汉字)不算太多，可以考虑采用人工标注的方法来进行汉字的情感标注。通常，人们认为形容词性汉字(美、善等)和一些动词性汉字(爱、恋等)携带正极性。然而，对于一些看起来偏中性色彩的汉字，也可以具有隐含的正极性，比如“海”，“天”，“飞”等汉字。常规的人工标注者很难通过单字体会出其中的细微情感，无法达到标注要求。
[0003]现有的技术主要采用人工标注来得到正极性汉字。然而，由于汉字经历了几千年的发展演化，一些概念差别非常细微，常规的人工标注效果无法达到要求。比如，“跃”和“跳”的语义相似，但是“跃”蕴含正极性而“跳”是中性概念。

【发明内容】

[0004]为此，需要提供一种可以快速找到正极性或者隐含正极性的汉字的技术方案，以提供可供使用的高质量的汉字情感资源。
[0005]为实现上述目的，发明人提供了一种获取正极性汉字的方法，包括步骤:
[0006]从给定的文字材料中获取所有人名类词汇；
[0007]从获取的人名类词汇中去除公共字词；
[0008]将剩余的汉字中出现频率高者收集入正极性汉字集合。
[0009]进一步地，所述的获取正极性汉字的方法中，步骤“从获取的人名类词汇中去除公共字词”具体包括:去除人名类词汇中的姓氏。
[0010]进一步地，所述的获取正极性汉字的方法中，步骤“从给定的文字材料中获取所有人名类词汇”具体包括:对给定的文字材料，用词性标注工具对其进行分词和词性标注，并根据词性标注结果获取其中的人名类词汇。
[0011]进一步地，所述的获取正极性汉字的方法中，在步骤“将剩余的汉字中出现频率高者收集入正极性汉字集合”具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序，将出现频率位于前预设比例的汉字列入正极性汉字集合。
[0012]发明人同时还提供了一种获取正极性汉字的装置，包括人名获取单元、公共字词去除单元和统计单元；
[0013]所述人名获取单元用于从给定的文字材料中获取所有人名类词汇；
[0014]所述公共字词去除单元用于从获取的人名类词汇中去除公共字词；
[0015]所述统计单元用于统计剩余的汉字中出现频率高者并将其收集入正极性汉字集入口 ο
[0016]进一步地，所述的获取正极性汉字的装置中，公共字词去除单元从获取的人名类词汇中去除公共字词具体包括去除人名类词汇中的姓氏。
[0017]进一步地，所述的获取正极性汉字的装置中，人名获取单元从给定的文字材料中获取所有人名类词汇具体包括:对给定的文字材料，用词性标注工具对其进行分词和词性标注，并根据词性标注结果获取其中的人名类词汇。
[0018]进一步地，所述的获取正极性汉字的装置中，统计单元统计剩余的汉字中出现频率高者并将其收集入正极性汉字集合具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序，将出现频率位于前预设比例的汉字列入正极性汉字集合。
[0019]区别于现有技术，上述技术方案能够从任意给定的文字材料片段中寻找出常规的人工标注者很难通过单字体会出其中的细微情感，无法达到标注要求的正极性情感汉字，以作为高质量的数据资源进行进一步的利用。
【附图说明】
[0020]图1为本发明一实施方式所述的获取正极性汉字的方法的流程图；
[0021]图2为本发明一实施方式所述的获取正极性汉字的装置的结构示意图。
[0022]附图标记说明:
[0023]1-人名获取单元
[0024]2-公共字词去除单元
[0025]3-统计单元
【具体实施方式】
[0026]为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。
[0027]请参阅图1，为本发明一实施方式所述的获取正极性汉字的方法的流程图；所述方法包括如下步骤:
[0028]S1、从给定的文字材料中获取所有人名类词汇；
[0029]S2、从获取的人名类词汇中去除公共字词；
[0030]S3、将剩余的汉字中出现频率高者收集入正极性汉字集合。
[0031]步骤S2中所述的公共字词一般可以认为主要包括公共前缀或公共后缀。在人名类词汇中，最为常见的情形是公共前缀，即姓氏。例如，当获取的人名类词汇为“张XX”、“李XX”、“欧阳XX”等时，显然其姓氏“张”、“李”、“欧阳”等即为公共前缀，需要加以去除。具体为根据数据库中已有的姓氏列表将人名中的姓氏去除，这样剩下的就是单纯的名字，可以去除姓氏的影响。
[0032]在某些实施方式中，步骤“从给定的文字材料中获取所有人名类词汇”具体包括:对给定的文字材料，用词性标注工具对其进行分词和词性标注，并根据词性标注结果获取其中的人名类词汇。在另外的某些实施方式中，还可以采用其他常见的获取人名类词汇的方式从给定的文字材料中获取人名类词汇。无论是这些实施方式所述的通过分词和词性标注来获取人名类词汇的方法，还是借助其他手段获取人名类词汇的方法，都要求具有一定的准确性。例如，“张先生”一词就不是一个典型的可用于本发明所述采集正极性汉字的人名类词汇。当获取人名类词汇的手段所得到的结果如上所述不够精确时，步骤S2所述的去除公共字词的部分不仅需要去除公共前缀(姓氏)还需要去除公共后缀(称谓)，在这种情况下，可以借助公共后缀列表来进行去除公共后缀的工作，所述公共后缀列表可以为包括“先生”、“小姐”、“老师”等常见跟于姓氏、名字或姓名后的词汇。
[0033]进一步地，在某些实施方式中，步骤S3所述的“将剩余的汉字中出现频率高者收集入正极性汉字集合”具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序，将出现频率位于前预设比例的汉字列入正极性汉字集合。例如，预设10%为比例标准，将汉字出现频率从高到低排序后的前10%汉字列入正极性汉字集合。当然，在某些实施方式中，也可以预设一定的正极性汉字数量，例如将汉字出现频率从高到低排序后的前100个汉字列入正极性汉字集合。
[0034]请参阅图2，为本发明一实施方式所述的获取正极性汉字的装置的结构示意图，所述装置包括人名获取单元1、公共字词去除单元2和统计单元3;
[0035]所述人名获取单元1用于从给定的文字材料中获取所有人名类词汇；
[0036]所述公共字词去除单元2用于从获取的人名类词汇中去除公共字词；
[0037]所述统计单元3用于统计剩余的汉字中出现频率高者并将其收集入正极性汉字集入口 ο
[0038]所述公共字词去除单元2所需要去除的公共字词一般可以认为主要包括公共前缀或公共后缀。在人名类词汇中，最为常见的情形是公共前缀，即姓氏。例如，当获取的人名类词汇为“张XX”、“李XX”、“欧阳XX”等时，显然其姓氏“张”、“李”、“欧阳”等即为公共前缀，需要加以去除。具体为根据数据库中已有的姓氏列表将人名中的姓氏去除，这样剩下的就是单纯的名字，可以去除姓氏的影响。
[0039]在某些实施方式中，人名获取单元1从给定的文字材料中获取所有人名类词汇具体包括:对给定的文字材料，用词性标注工具对其进行分词和词性标注，并根据词性标注结果获取其中的人名类词汇。在另外的某些实施方式中，还可以采用其他常见的获取人名类词汇的方式从给定的文字材料中获取人名类词汇。无论是这些实施方式所述的通过分词和词性标注来获取人名类词汇的方法，还是借助其他手段获取人名类词汇的方法，都要求具有一定的准确性。例如，“张先生”这一词汇(词组)就不是一个典型的可用于本发明所述采集正极性汉字的人名类词汇。当获取人名类词汇的手段所得到的结果如上所述不够精确时，公共字词去除单元2不仅需要去除公共前缀(姓氏)还需要去除公共后缀(称谓)，在这种情况下，可以借助公共后缀列表来进行去除公共后缀的工作，所述公共后缀列表可以为包括“先生”、“小姐”、“老师”等常见跟于姓氏、名字或姓名后的词汇。
[0040]进一步地，在某些实施方式中，统计单元3进行“将剩余的汉字中出现频率高者收集入正极性汉字集合”具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序，将出现频率位于前预设比例的汉字列入正极性汉字集合。例如，预设10%为比例标准，统计单元3将汉字出现频率从高到低排序后的前10%汉字列入正极性汉字集合。当然，在某些实施方式中，也可以预设一定的正极性汉字数量，例如将汉字出现频率从高到低排序后的前100个汉字列入正极性汉字集合。
[0041]区别于现有技术，上述技术方案能够从任意给定的文字材料片段中寻找出常规的人工标注者很难通过单字体会出其中的细微情感，无法达到标注要求的正极性情感汉字，以作为高质量的数据资源进行进一步的利用。
[0042]需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此夕卜，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。
[0043]本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质，包括但不限于:RAM、R0M、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
[0044]上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0045]这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0046]这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0047]尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。
【主权项】
1.一种获取正极性汉字的方法，其特征在于，包括步骤: 从给定的文字材料中获取所有人名类词汇；从获取的人名类词汇中去除公共字词；将剩余的汉字中出现频率高者收集入正极性汉字集合。2.如权利要求1所述的获取正极性汉字的方法，其特征在于，步骤“从获取的人名类词汇中去除公共字词”具体包括:去除人名类词汇中的姓氏。3.如权利要求1或2所述的获取正极性汉字的方法，其特征在于，步骤“从给定的文字材料中获取所有人名类词汇”具体包括:对给定的文字材料，用词性标注工具对其进行分词和词性标注，并根据词性标注结果获取其中的人名类词汇。4.如权利要求1或2所述的获取正极性汉字的方法，其特征在于，在步骤“将剩余的汉字中出现频率高者收集入正极性汉字集合”具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序，将出现频率位于前预设比例的汉字列入正极性汉字集合。5.—种获取正极性汉字的装置，其特征在于，包括人名获取单元、公共字词去除单元和统计单元；所述人名获取单元用于从给定的文字材料中获取所有人名类词汇；所述公共字词去除单元用于从获取的人名类词汇中去除公共字词；所述统计单元用于统计剩余的汉字中出现频率高者并将其收集入正极性汉字集合。6.如权利要求5所述的获取正极性汉字的装置，其特征在于，公共字词去除单元从获取的人名类词汇中去除公共字词具体包括去除人名类词汇中的姓氏。7.如权利要求5或6所述的获取正极性汉字的装置，其特征在于，人名获取单元从给定的文字材料中获取所有人名类词汇具体包括:对给定的文字材料，用词性标注工具对其进行分词和词性标注，并根据词性标注结果获取其中的人名类词汇。8.如权利要求5或6所述的获取正极性汉字的装置，其特征在于，统计单元统计剩余的汉字中出现频率高者并将其收集入正极性汉字集合具体包括:统计剩余的汉字中各汉字的出现频率并将其按从高到低排序，将出现频率位于前预设比例的汉字列入正极性汉字集入口 ο
【专利摘要】本发明披露了一种获取正极性汉字的方法，包括步骤：从给定的文字材料中获取所有人名类词汇；从获取的人名类词汇中去除公共字词；将剩余的汉字中出现频率高者收集入正极性汉字集合。发明人同时还提供了实现上述方法的获取正极性汉字的装置。本发明技术方案可以快速找到正极性或者隐含正极性的汉字的技术方案，以提供可供使用的高质量的汉字情感资源。
【IPC分类】G06F17/27
【公开号】CN105488030
【申请号】CN201510873465
【发明人】徐戈, 关胤, 吴拥民, 刘德建, 陈宏展
【申请人】福建天晴数码有限公司
【公开日】2016年4月13日
【申请日】2015年12月2日

技术

最新回复(0)