汉字五笔号码数字编码输入法

xiaoxiao2020-7-22  10

汉字五笔号码数字编码输入法
【专利摘要】五笔号码数字编码属中文信息处理的核心技术。我国研究汉字编码30多年,但所有方法都过于繁琐,大众无法掌握,至今人们普遍使用拼音打字,用手写编辑短信。一种简单的数字形码是全社会的迫切需要,也是至今没有攻克的技术壁垒。本方法的规则是:将汉字笔画分为横、竖、点、提、撇、捺、折、左钩、右钩9种,并用数字1-9代替;取字的前三笔和末两笔的代码组成一个五位数字,即该字的编码;将氵、艹、木、钅、口5个部首分别用0、4、6、8、9代替,当该部首在字的开头时,则用其部首代码为编码的第一数字。该方法极其简明,易学易用,适合所有会写字的人使用。可作为检字法编辑大中型汉语工具书和在手机、电脑上用数字编码快速输入汉字。
【专利说明】汉字五笔号码数字编码输入法 (一)

【技术领域】
[0001] 汉字五笔号码数字编码输入法属于中文信息处理【技术领域】的汉字编码。汉字编码 分为音码、形码、音形结合码几种类型,本技术属于其中的形码范畴;形码又分为英文字母 编码和数字编码两大类型,本技术属于数字编码。 (二) 技术背景
[0002] 汉字编码是中文信息处理的基础。编码技术的优劣直接影响社会大众学习工作的 效率。我国自上世纪70年代末就开始汉字编码的研究,迄今有30多年的历史。期间出现 过万"码"奔腾的火热局面,然而迄今为止,真正适合大众使用的编码并未显现。既有的编码 方法最根本的、最突出的缺陷就是过于繁琐,让大众无法掌握,也无法在中小学生中推广使 用。由于没有好的形码输入法,人们普遍使用各种优化的拼音输入法完成电脑打字,久之, 导致出现不会写字、提笔忘字的现象,汉字书写水平严重下降。人们在手机上编辑短信用拼 音字母不方便,由于没有好的形码输入法,越来越多的人在用手写方式。手写不仅速度慢, 而且经常不能识别,尽管如此,人们仍不得已而用之。这些现实,足以表明一一一种简单实 用的输入法是信息化时代全社会的迫切需要,也是我国在信息【技术领域】至今没有圆满解决 的重点难点问题。
[0003] 为此,教育部、国家语言文字工作委员会在2012年12月发布的《国家中长期语言 文字事业改革和发展规划纲要(2012-2020年)》中明确提出:
[0004] "提升语言文字信息化水平。加强面向中文信息处理的语言文字基础工程建设,开 展以语言文字处理为核心的关键技术联合攻关,形成一批具有自主知识产权的核心技术, 提高中文信息处理水平。"《纲要》中提出的"以文字处理为核心的关键技术"的主要内容 应该就是汉字编码。
[0005] 好的数字编码是市场的迫切需求。随着信息通信产业的迅速发展,数字编码在实 际应用中有更广泛的需求,尤其是以手机为代表的信息终端更加需要简单实用的数字编 码。然而现有的编码技术并不尽如人意,通过下列研究成果基本上可以看出当前的技术状 况:
[0006] 对比资料1 :汉字编码数字小键盘输入法
[0007] 发明人:王雅弟
[0008] 专利号:200710130333
[0009] 地址:天津市河北区革新道颂光里2-8-105室
[0010] 一种汉字编码数字小键盘输入法,其特征在于从构成汉字的偏旁部首中选择270 个常用部首作为对汉字编码的编码码元,按其笔顺的前三个笔画分为104组,使用计算机、 手机或其他使用数字键设备的1至〇十个数字键和上导航键对汉字进行编码。1至5五个 数字键分别定义为:一画键1,I画键2, j画键3,、画键4,乙画键5。上导航键定义为词组 连接键丨。单字输入依笔顺取其字形的第一、第二个编码码元的数字代码进行编码。输入词 组依次取构成词组的所有单字的第一个编码码元的数字代码进行编码,以词组连接键丨作 为构成词组的所有单字编码之间分隔符。本发明将笔画输入和部首输入有机的结合起来, 特别适用于手机等移动设备的小键盘输入汉字。
[0011] 对比资料2 :手机汉字数字输入法
[0012] 发明人:刘洪学
[0013] 专利申请号:201110164897. 8
[0014] 地址:(400900)重庆市双桥经开区园堡村8号1单元2-1
[0015] 电话:15023141128
[0016] 项目的主要用途和技术特点:
[0017] 手机汉字数字输入法为双笔输入,每两笔取一个数字编码,用手机数字键盘直接 输汉字和词语:一二三码简码输常用字;不常用字为四码;词语为五码。输入区1行:显示 输入编码;候选字词区2行:显示1-10个单字或1-6个词语,移动光标或按导航键再按数字 键选择应输字词。汉字五种单笔画横"一"坚"I"撇")"点"、"折"乙"及双笔与1-0数字 的对应关系为:
[0018] 一组 1-5 :-横 1,| 坚 2, J 撇 3,、点 4,乙折 5 ;
[0019] -组 6-0 : 6,||7,J J 8,、、9,乙乙 0。
[0020] 二组 1-5 : - | 1,| J 2,J、3,、乙 4,乙一 5 ;
[0021 ]二组 6-0 : -、6,| 乙 7,J 一 8,、|9,乙 J 0。
[0022] 对比资料3 :汉字数字编码输入法
[0023] 发明(设计)人:欧诗淼
[0024] 专利号:200810082168
[0025] 本发明公开了汉字数字编码输入法,将汉字横、坚、撇、点、折五种基本起笔画规范 成横、坚、撇、捺(点)、四种笔画,再将四种基本笔形码的本身和两两进行组合形成16种起 始两笔组合笔形码,并分别用英文字母表示,将汉字的四种笔画的"横"笔个位数量用阿拉 伯数字0-9表示,十位用W表示;"坚"笔个位数量用阿拉伯数字0-9表示,十位用E表示; "撇"笔个位数量用阿拉伯数字0-9表示,十位用I表示;"捺"笔个位数量用阿拉伯数字0-9 表示,十位用〇表示;从右至左按横坚撇捺的顺序笔画数量的数字形成一组阿拉伯数字编 码,用计算机进行汉字输入时,其记忆量小、易学易用、且输入率高和重码率低。本发明还适 用全世界用汉字进行计算机输入使用,也可适用繁体汉字的计算机输入。
[0026] 对比资料4 :一种手机数字编码的汉字拼音输入法
[0027] 专利号:200610018187
[0028] 发明人:任文
[0029] 地址:江西省吉安县庐陵大道25号县民政局
[0030] 一种手机数字编码的汉字拼音输入法,其特征是:利用手机通用键盘的数字键及 其字母布局,先用数字编码来检索和输入汉字的单字或词组的拼音,再通过拼音或拼音组 合来检索和输入汉字或词组;该拼音输入法程序界面由显示汉字、拼音的文字显示面板和 输入数字编码的编码框组成,显示面板由候选数字区和文字区组成,编码框处于显示面板 下方,由前位编码框和后位框编码组成;在输入法开启状态下,编码框中有编码时,显示面 板处于显性状态,显示文字;编码框中无编码时,显示面板处于隐性状态;该拼音输入法由 单字输入与词组输入组成完整的输入体系;单字输入方法:直接按汉字的拼音字母所对应 的手机键盘字母键位的数字键,输入汉字拼音的数字编码检索汉字拼音,再根据汉字拼音 检索和输入汉字,具体步骤为:步骤一:根据拼音字母对应键位,按相应数字键,输入拼音 的数字编码;拼音编码显示在前位编码框中,显示面板显示符合拼音编码的候选汉字拼音; 步骤二:按确定键显现候选数字;步骤三:按候选数字键,选择候选拼音;选中后的汉字拼 音会替换拼音编码出现在前位编码框中;同时显示面板显示符合汉字拼音的候选汉字;步 骤四:按确定键显现候选数字,按候选数字键,选择候选汉字;为了降低和减少候选汉字的 重码,加快选字速度,可以在选定拼音之后,按确定键出现候选数字之前,先输入汉字的信 息码引导码,再输入汉字的信息码;引导码的编码为0,信息码共9个,即汉字起笔的5个 笔画:横(一)、坚(I)、撇(J )、点(、)、折( < ),及汉字拼音的4个声调:一声〇)、二 声(*)、三声(*)、四声(*),对应的编码分别为:1、2、3、4、5、6、7、8、9 ;在输入过程中,先输 入引导码编码[0],显示在后位编码框中,然后用信息码编码替换引导码;步骤五:选中后 的汉字输入文档,同时显示板显示该汉字的联想汉字;为加快联想汉字的选择速度,可以按 希望联想的汉字的拼音首字母(声母)对应的数字键,在前位编码框中输入该声母(首字 母)对应的数字编码;步骤六,按确定键显现候选数字,按候选数字键,选择候选联想汉字; 词组的输入方法,先输入词组的第一字拼音编码选择第一字拼音,再输入词组的第二字拼 音编码选择第二字拼音,通过第一字拼音和第二字拼音组成的拼音组合检索和输入汉字词 组,即词组的编码规则为:第一字拼音+第二字拼音,具体步骤为:步骤一:按拼音字母对应 数字键,输入词组的第一字拼音编码;第一字的拼音编码显现在前位编码框中,显示面板显 示符合拼音编码的候选汉字拼音;步骤二:按确定键显现候选数字,按候选数字键选择拼 音;选中后的汉字拼音会替换拼音编码显现在前位编码框中;步骤三:按拼音字母对应数 字键,输入词组的第二字拼音编码;第二字的拼音编码显现在后位编码框中,显示面板显示 符合拼音编码的候选汉字拼音;步骤四:按候选数字键,选择候选拼音;选中后的汉字拼音 会替换拼音编码显现在后位编码框中;同时系统检索出符合第一字拼音与第二字拼音组成 的拼音组合的汉字词组;步骤五:按候选数字键,选择候选词组。任文
[0031] 对比资料5 :-种汉字数字编码输入法
[0032] 专利申请号:CN〇2147886· 4
[0033] 发明人:刘重光
[0034] 地址:332000江西省九江市庐山南路120号黄腊梅转
[0035] -种汉字数字编码输入法,按汉字的四角笔形,结合部分常见的易分易辩的边傍 部首,每个汉字由一至四位阿拉伯数字编制而成的。根据国标GB2312-80《信息交换用汉 字编码字符集(基本集)》的规定,该编码共收入了汉字6764个(另增录"〇"),其中部首 汉字设置为W区,对于重码二级汉字(罕用字445个)采用编号末尾加零来加以区分,本 编码将词及词组、联词10000余条设置为Q区。该输入法基本上是一码两字,只要"确认"、 "切换"就可选择汉字编入文本。该编码输入法简单、易学、易记,便于初学者接受,更适合 中小学生及普通工农大众掌握,对电脑记事本、手机等键位少的器权利要求书1、一种汉字 数字编码输入法,其特征在于:该编码按汉字的四角笔形,结合部分常见的易分易辩的边傍 部首,每个汉字由一至四位阿拉伯数字编制而成的。根据国标GB2312-80《信息交换用汉 字编码字符集(基本集)》的规定,该输入法共收入了汉字6764个(另增录"0")。本编 码将词及词组、联词10000余条设置为Q区,将部首汉字3511字设置为W区,对于重码二级 汉字(为罕见字445个)采用编号末尾加零来加以区分,另设置切换键,该编码输入法基本 上是一码两字,只要"确认"、"切换"就可选择汉字编入文本。本编码的具体设置方法如下: 1)按照传统四角号码查字法口诀将不同笔形设置在0-9十个阿拉伯数字键位上,即:横一 垂二三点捺,叉四插五方框六,七角八八九是小,点下有横变零头。2)取码顺序:一般汉字 的输入按左上角一右上角一左下角一右下角的顺序编码;部首字(W区)先取部首码,再取 余下部分的左上角一左下角一右下角的顺序取码组成汉字,区号在编码之首(联词Q区亦 同)。外框形字先取外框,余下部分与部首字的取码顺序相同,其中外框形字是指特定的高 频外框。3)取角①一笔可分角取号;②一笔上下两笔和别笔构成两种笔形的,分两角取号; ③下角笔形偏在一角的,按实际位置取号,缺角作0。④一个笔形前角已用过,后角作〇;⑤ 当字的下部居中(含部首字、外框形字剩余部分),下部笔形已用过,2具更具有独特的优越 性。
[0036] 对比资料6 :-种数字键盘文字输入法
[0037] 申请号 / 专利号:201010507627
[0038] 申请人:/专利权人:苏州大学授权公告日:2012年05月23日
[0039] 发明设计人:王宏;吴纪明
[0040] 江苏省苏州市苏州工业园区仁爱路199号
[0041] 本发明公开了一种数字键盘文字输入法,其特征在于:采用数字键盘上的按键 〇?9,数字编码的码长为4至5位,其数字编码的方法是:汉字,取两位数字表示的总笔划 数为第1、2位,取汉字的前三笔笔划编码为3至5位,当总码长不足5位时,输入终止码;所 述笔划编码与笔划的对应关系为:"〇"--横或提;"1"--坚;"2"--撇;"3"--点 或捺;"4"--折;字母、数字和符号,取两位数字表示排列序号,一位识别符,第4位为终 止码。本发明不需要改变输入状态即可用同样方法输入汉字和其它字符,重码率低,可适用 于各种具备数字按键的输入装置使用。
[0042] 以上列举的几项成果有一定的代表性。它们的共同点是,仍然处于能够输入的水 平,在易学易用方面还有很大距离。而"衡量汉字编码水平高低的最重要的标准,就是易学 易用。"(国家语委前副主任傅永和先生讲话) (三)
【发明内容】

[0043] 单字的编码方法:
[0044] (1)将汉字所有笔画依据其自然形态按行笔方向区分为横、坚、点、提、撇、捺、折、 左钩、右钩9种,并分别用数字1-9代替;按照规范笔顺取字的前三笔和末两笔的笔画代码 组成一个五位数字,即该字的编码;(2)将?、廿、木、韦、口 5个部首分别用0、4、6、8、9代 替,当该部首在字的开头时,则用其部首代码为编码的第一数字,部首后的笔画代码依次为 第二、第三数字;(3)字的笔画不足五位时,在后面用0填补。
[0045] 上述方法可用歌诀描述:
[0046] 1横2坚3是点,4提5撇捺作6,
[0047] 7折不论朝哪拐,8钩9钩分左右,
[0048] 只取前三末二码,不足五位用0凑。
[0049] 水草木金口( ?夂木韦口),
[0050] 0、4、6、8、9,
[0051] 只要在字首,
[0052] 整取莫分手。
[0053] 以上歌诀概括了该编码方法的全部要领,共62字,故称"62歌诀"。
[0054] 举例说明:
[0055] 懿前三笔为横、坚、横,代码为121 ;末两笔为点、点,代码为33,其编码为12133。冷 前三笔是点、提、撇,代码为345 ;末两笔为折、点,代码为73,其编码为34573。齄前三笔为 撇、坚、折,代码为527 ;末两笔为撇、捺,代码为56 ;其编码为52756。剿前三笔为折、折、折, 代码为777;末两笔为坚、左钩,代码为28;其编码为77728。海开头是'?,代码为0,'?后的 笔画为撇、横,代码为51,前三码为051 ;末两笔为横、点,代码为13 ;其编码为05113。爨前 三笔为撇、坚、横,代码为521 ;末两笔为撇、点,代码为53 ;其编码为52153。
[0056] 词和短语的编码方法:
[0057] 两字及两字以上的词和短语的编码由7位数字组成:即第一个字的前三码+第二 字的前两码+最末字的末两码。
[0058] 举例说明:
[0059] 编码一7741581 (解释:774为"编"的前3码,15为"码"的前2码,81为"码" 的末两码);汉字编码--0763381 (解释:076为"汉"的前3码,33为"字"的前两码,81为 "码"的末两码);中华人民共和国--2715231 (解释:271为"中"的前3码,52为"华"的 前25马,31为"国"的末两码)
[0060] 编码示例:北京--2143153 ;北京市--2143182 ;北京市人民政府-- 2143183 ;雄关漫道真如铁而今迈步从头越--1573553 ;中国共产主义青年团第十三届 全国代表大会--2712773 ;红军不怕远征难万水千山......三军过后尽开颜-- 7743753
[0061] 本发明的新颖性首先体现在对汉字笔画的区分方法上。
[0062] 要实现给上万个汉字编码,正如给全国13亿多人设计身份证号码一样,首先要确 定区分标准。身份证号码设计了出生地和出生年月日作为区分的标准,然后是相同条件下 的自然排序号码。汉字编码首先需要找准区分汉字的标准。由于笔画是构成汉字的最小单 位,本发明以笔画标准为基本编码,而不涉及字的结构,更不使用码元、部件等新创的概念, 这样使编码直观性强,避免了许多中间思维过程。
[0063] 在对笔画的区分方法上,本发明首先采用了行笔方向区分法,将汉字30多种笔画 按行笔方向区分为横、坚、点、提、撇、捺、折、左钩、右钩9种,而以往的研究者大多将笔画归 为横、坚、撇、点、折5种。将笔画归为5种的方法在思维上陷入误区,犯了逻辑上的错误。 因为编码的目标是根据统一的标准区分每一个汉字,因此要尽可能多地找到字的不同点, 而不是相反。如果将30多种笔画归为5种是可行的,那么再减少一下,归为3种,甚至只有 横、坚两种,那不是更简单吗?--事实绝非如此简单。
[0064] "9分法"和"5分法"看似数量的区别,其实有质的差异。"9分法"客观地、准确地 体现了笔画的自然形态,而"5分法"模糊、混淆了笔画的基本特征。两者在编码的实际应 用中理所当然地产生质的差异。横、提不分,坚、钩不分,点、捺一体,还怎么区分汉字呢。正 如人的五官一样,如果眼睛和耳朵长在一起,嘴巴、鼻子不分,怎么区分张三、李四呢?茫茫 人海中,不知年龄、不知出生地怎么能找到你要找的人呢? 5分法就是这样将人们带入了 汉字的迷魂阵。
[0065] 将汉字笔画归为5种的方法是根据国家在上世纪60年代制定的一个笔画标准进 行的。当时这项规定的目的是为了解决汉字排序没有标准的问题。这个标准解决了笔画查 字法中遇到的笔画数相同的字如何排列先后顺序的问题。
[0066] 但是,这个标准并不是万能的,不可随意套用。试想,半个世纪前,全世界还没有信 息化的影子,我国怎么可能为实现计算机汉字输入制定汉字编码的笔画标准呢?坚持笔画 5分法的研究者实际上犯了张冠李戴和刻舟求剑的错误,不仅缺乏研究问题的逻辑思维能 力,而且习惯于因循守旧。因此,只要不放弃笔画5分法的固有观念,永远也解决不了汉字 编码的简单化问题,我国30多年的汉字编码研究历史之所以一事无成,其根本原因就在于 此。
[0067] 本发明的突出成就在于客观地认识汉字笔画的特征,科学地对笔画进行区分,使 根据笔画直接编码并简单易用成为现实。9种笔画,在数字编码分布上更接近自然数的实际 状态,加上使用了 5个部首结合编码,科学地分散了码的布局,顺应汉字本身千变万化的固 有特征,给每个汉字轻松地设计出精确的编码,并且实现了编码的简单化与实用性的统一。 笔画的区分方法参看下表: 附表: 五笔号码笔画代码细则及示例 2014.4.22

【权利要求】
1. 一种汉字数字编码输入法,其特征是:将汉字所有笔画依据其自然形态按行笔方向 及基本特征区分为横、坚、点、提、撇、捺、折、左钩、右钩9种并分别用数字1-9代替;按照规 范笔顺取字的前三笔和末两笔的笔画代码组成一个五位数字,即该字的编码;将'?、#、木、 韦、口 5个部首分别用0、4、6、8、9代替,当该部首在字的开头时,则用其部首代码为编码的 第一数字,部首后的笔画代码依次为第二、第三数字;字的笔画不足五位时,在后面用〇填 补;以上述单字编码为基础的词和短语的编码方法,两字及两字以上的词和短语的编码由 7位数字组成:即第一个字的前三码+第二字的前两码+最末字的末两码。
【文档编号】G06F3/023GK104267824SQ201410175691
【公开日】2015年1月7日 申请日期:2014年4月29日 优先权日:2014年4月29日
【发明者】赵源 申请人:赵源

最新回复(0)