基于图形拓扑特征进行识别的纳西东巴象形文字输入方法

xiaoxiao2020-11-9  10

基于图形拓扑特征进行识别的纳西东巴象形文字输入方法
【技术领域】
[0001] 本发明设及一种文字输入方法,特别是关于一种基于图形拓扑特征进行识别的纳 西东己象形文字输入方法。
【背景技术】
[0002] 东己文是一种兼备表意和表音成分的图画象形文字,其文字形态十分原始,甚至 比甲骨文的形态还要原始,属于文字起源的早期形态,是世界上极少数依旧活着的象形文 字,被誉为文字的"活化石",被国际学界认为是当今世界上唯一还在使用的象形文字。2003 年纳西族东己经典古籍被联合国教科文组织列为"世界记忆遗产",2012年度国家社科基 金重大项目一一"世界记忆遗产"东己经典传承体系数字化国际共享平台建设研究(项目 号;12&ZD234)开始实施,大量东己经典古籍从国内及国外图书馆、研究机构等进行汇集整 理,而精通东己文字的专家太少,文献资料的录入、整理、分析工作任务艰巨,同时对于纳西 族东己文化的研究、传播、保护、继承等工作来说,发明一种简易的输入法是最基础、最关键 的一步。
[0003]目前针对纳西东己文的输入方法主要有W下S种;1、拼音输入方法:即通过输入 东己文字的纳西发音来进行输入。但是拼音输入法一方面重码率高、字的输入速度慢,另一 方面需要用户对纳西读音非常熟悉,对于普通用户来说,不容易掌握,所W根据拼音输入纳 西东己象形文字的方法只能适用于极少数东己专家,对于更广泛的民众来说难度过高。2、 形码输入方法相对于拼音输入方法而言,重码率较低,比如大连民族学院发明的根据特定 图块作为编码单元进行纳西象形文字输入的方法,其缺点同样是需要用户对东己文字非常 熟悉,需要具备快速分解东己文字到指定图块的能力,并且需要记忆不同的编码单元所对 应的键盘位置,掌握起来需要较长的时间。3、分类拼意输入法相对于W上两种方法来说,重 码率降低,但是东己经典古籍所设的领域包括哲学、历史、宗教、医学、天文、地理、民俗、动 植物、军事、文学和艺术等方面,其文字根据方国瑜字典可W分为天象、地理、植物、飞禽、走 兽、虫鱼、人称、人事、形体、服饰、饮食、居住、器用、行止、形状、数名、宗教、传说古人名号等 18类,分类较多,分类编码复杂,除此之类,大理学院发明的该输入方法还需要记忆拼意编 码,同W上两种方法一样,对于普通用户来说,使用复杂、掌握耗时。

【发明内容】

[0004] 针对上述问题,本发明的目的是提供一种基于图形拓扑特征进行识别的纳西东己 象形文字输入方法,该方法不需要记忆、重码少、上手快、效率高。
[0005] 为实现上述目的,本发明采取W下技术方案;一种基于图形拓扑特征进行识别的 纳西东己象形文字输入方法,其特征在于,所述输入方法包括W下步骤;1)根据纳西东己 象形文字的特点,W现有东己经典为藍本,提取所有东己象形文字的5类拓扑特征值:块 数、孔数、端点个数、=叉点数和四叉点数,将该些特征值作为特征码存入数据表,W东己象 形文字的Unicode编码作为识别码;2)通过数字键盘按5个特征码顺序输入需要的纳西象 形文字的拓扑特征,输入全部5个拓扑特征,或选择性部分输入易识别的拓扑特征,不易识 别的拓扑特征用*代替;3)利用输入法根据输入的拓扑特征在步骤1)中的数据表内进行 查找;4)在数据表中查询到匹配全部特征码或者部分特征码的纳西象形文字后,显示所有 符合该些特征码的纳西东己象形文字,用户根据自己的需要选择其一;5)当用户选定需要 输入的东己字后,在步骤1)数据表中查询该东己字对应的化icode编码;6)根据化icode 编码在字库中提取对应的纳西象形文字轮廓数据并进行显示,使此一个完整的纳西东己象 形文字的输入完成。
[0006] 所述步骤1)中,将所有块数、孔数、端点个数、S叉点数和四叉点数该五种特征数 大于9的统一标记为9。
[0007] 所述步骤2)中,所述5个特征码顺序为;块数、孔数、端点数、=叉点数、四叉点数。 [000引所述步骤3)中,如果用户输入的是全部特征码,则输入法要在数据表中通过"合 并"属性进行查询;如果用户输入的是部分特征码,则输入法根据特征码顺序进行相应属性 查找。
[0009] 所述输入法包括W下步骤:①首先加载已创建好的东己文字标准字库;②判断该 东己文字标准字库是否存在,存在则进入布局设置;反之返回步骤①;⑨进行特征码输入, 根据用户要显示的东己文字,输入该东己文字的全部特征码或者部分特征码;④根据输入 特征码的特征形成检索条件;全部特征码的检索条件是在数据表中进行"合并";部分特征 码的检索条件是根据特征码顺序;⑥按照该检索条件在数据表中进行检索,得到用户希望 显示的东己文字的Unicode编码;⑧根据步骤⑥检索到的Unicode编码在东己文字标准字 库文件中检索该字形并进行显示。
[0010] 本发明由于采取W上技术方案,其具有W下优点;1、本发明根据东己象形文字的 特点,提取该些象形文字的5类拓扑特征;块数、孔数、端点数、=叉点数、四叉点数,将特征 结果记录到数据库中,用户在输入时只需要在数字键盘输入全部5个特征组合或者部分特 征组合即可得到一个或几个对应的东己字,然后选择需要输入的东己字,人工输入、识别的 效率较高。2、本发明具有简单、直观、易学、高效的特点,用户不需要记忆编码规则和输入方 法,只需要分析简单的拓扑特征,利用数字键盘即可输入,对于东己象形文字不够熟悉的用 户能够快速掌握并迅速提高输入效率,使其能够在计算机上进行输入和交流,可应用于纳 西东己象形文字的输入W及图形分析方面。3、本发明与纳西东己象形文字库配合还可W快 速整理纳西东己经典古籍、对古籍资料进行数字化分析,针对东己经典古籍急需抢救的溯 危状况使用该种输入方法更能扩大使用者范围、提高输入和研究效率,对于加快抢救民族 文化遗产、实现东己经典古籍的数字化、积累人类文明发展素材具有重大意义。本发明可W 广泛在文字输入领域中应用。
【附图说明】
[0011] 图1是本发明的输入法流程不意图。
【具体实施方式】
[0012] 下面结合实施例和附图对本发明进行详细的描述。
[0013] 本发明提供一种基于图形拓扑特征进行识别的纳西东己象形文字输入方法,其包 括w下步骤:
[0014] 1)根据纳西东己象形文字的特点,W东己经典为藍本(例如W方国瑜《纳西象形 文字谱》为藍本),提取所有东己象形文字的5类拓扑特征值:块数(即图论中的连通体个 数)、孔数、端点个数(度数为1的点数)、=叉点数(度数为3的点数)和四叉点数(度数 为4的点数),将该些特征值作为特征码存入数据表,W东己象形文字的化icode编码作为 识别码;
[0015] 字为例,其化icode编码是E904,对应的块数为1,孔数为2,端点数为4, S叉点数为0,四叉点数为3,则其特征码分别为1、2、4、0、3,该5个特征码合并后为12403 ;
[0016] 同时为了简化输入工作量,将所有W上五种特征数大于9的统一标记为9,如表1 所示。
[0017] 表1据纳西东己象形文字拓扑特征 [001 引
【主权项】
1. 一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法,其特征在于,所述 输入方法包括以下步骤: 1) 根据纳西东巴象形文字的特点,以现有东巴经典为蓝本,提取所有东巴象形文字的 5类拓扑特征值:块数、孔数、端点个数、三叉点数和四叉点数,将这些特征值作为特征码存 入数据表,以东巴象形文字的Unicode编码作为识别码; 2) 通过数字键盘按5个特征码顺序输入需要的纳西象形文字的拓扑特征,输入全部5 个拓扑特征,或选择性部分输入易识别的拓扑特征,不易识别的拓扑特征用*代替; 3) 利用输入法根据输入的拓扑特征在步骤1)中的数据表内进行查找; 4) 在数据表中查询到匹配全部特征码或者部分特征码的纳西象形文字后,显示所有符 合这些特征码的纳西东巴象形文字,用户根据自己的需要选择其一; 5) 当用户选定需要输入的东巴字后,在步骤1)数据表中查询该东巴字对应的Unicode 编码; 6) 根据Unicode编码在字库中提取对应的纳西象形文字轮廓数据并进行显示,使此一 个完整的纳西东巴象形文字的输入完成。
2. 如权利要求1所述的基于图形拓扑特征进行识别的纳西东巴象形文字输入方法,其 特征在于:所述步骤1)中,将所有块数、孔数、端点个数、三叉点数和四叉点数这五种特征 数大于9的统一标记为9。
3. 如权利要求1所述的基于图形拓扑特征进行识别的纳西东巴象形文字输入方法,其 特征在于:所述步骤2)中,所述5个特征码顺序为:块数、孔数、端点数、三叉点数、四叉点 数。
4. 如权利要求3所述的基于图形拓扑特征进行识别的纳西东巴象形文字输入方法,其 特征在于:所述步骤3)中,如果用户输入的是全部特征码,则输入法要在数据表中通过"合 并"属性进行查询;如果用户输入的是部分特征码,则输入法根据特征码顺序进行相应属性 查找。
5. 如权利要求1~3任一项所述的基于图形拓扑特征进行识别的纳西东巴象形文字输 入方法,其特征在于:所述输入法包括以下步骤: ① 首先加载已创建好的东巴文字标准字库; ② 判断该东巴文字标准字库是否存在,存在则进入布局设置;反之返回步骤①; ③ 进行特征码输入,根据用户要显示的东巴文字,输入该东巴文字的全部特征码或者 部分特征码; ④ 根据输入特征码的特征形成检索条件:全部特征码的检索条件是在数据表中进行 "合并";部分特征码的检索条件是根据特征码顺序; ⑤ 按照该检索条件在数据表中进行检索,得到用户希望显示的东巴文字的Unicode编 码; ⑥ 根据步骤⑤检索到的Unicode编码在东巴文字标准字库文件中检索该字形并进行 显不O
【专利摘要】本发明涉及一种基于图形拓扑特征进行识别的纳西东巴象形文字输入方法,以东巴经典为蓝本提取5类拓扑特征值,并作为特征码存入数据表,以东巴象形文字的unicode编码作为识别码;按5个特征码顺序输入需要的纳西象形文字的拓扑特征,输入全部5个拓扑特征,或选择性部分输入易识别的拓扑特征,不易识别的拓扑特征用*代替;利用输入法根据输入的拓扑特征在数据表内进行查找;当用户选定需要输入的东巴字后,在数据表中查询该东巴字对应的Unicode编码;根据Unicode编码在字库中提取对应的纳西象形文字轮廓数据并进行显示,使此一个完整的纳西东巴象形文字的输入完成。本发明不需要记忆、重码少、上手快、效率高,可以广泛在文字输入领域中应用。
【IPC分类】G06F3-023
【公开号】CN104866117
【申请号】CN201510295773
【发明人】王海燕, 王红军, 陈晓
【申请人】北京信息科技大学
【公开日】2015年8月26日
【申请日】2015年6月2日

最新回复(0)