一种实时的中文拼写纠错样本生成方法

xiaoxiao9月前  55


本公开涉及中文文本处理,具体为一种实时的中文拼写纠错样本生成方法。


背景技术:

1、此部分的陈述仅仅提供与本公开有关的背景技术信息,并且这些陈述可能构成现有技术。在实现本发明过程中,发明人发现现有技术中至少存在如下问题。

2、中文拼写纠错是一种应用场景丰富的自然语言处理任务。高效的中文拼写纠错模型可以有效提升文本编辑效率。在自动语音识别和光学字符识别等文本识别任务中,中文拼写纠错模型能够对识别出的文本进行二次处理,进一步提升识别准确率。

3、然而模型的训练离不开高质量的训练样本,训练样本的数据量和质量极大的影响着模型最终的纠错效果。现在广泛使用的中文拼写纠错数据集大多都离不开人工标注,如sighan13,sighan14和sighan15数据集的数据源是中小学生的作文,通过人工标注构建的数据集,因此数据量十分有限。还有一些使用文本识别工具识别模糊处理后的图片和语音,以此获得符合真实场景的拼写错误样本,之后再通过人工筛选保证获得的样本的质量。但由于上述样本均为静态样本,即每一条样本中的拼写错误所在的位置和错误的类型都是固定的。一方面数据的利用率不高,其次固定的错误位置和错误类型会使训练结果出现偏向性。

4、为了在保证样本多样性的基础上能获得更多的训练样本,目前有少数技术利用替换策略对训练文本中的个别文字进行替换,以获取更丰富的训练样本,来建议纠错样本库。如申请号202210788215.9专利名称为“目标领域样本库建立方法、装置、计算机设备和存储介质”,其通过对训练样本中选出的待替换字的初始拼音进行混淆,得到待替换字对应的多个参考拼音;再基于混淆关联策略从多个参考拼音中筛选出待替换拼音,并生成混淆字以替换训练文本中的待替换字,由此得到多个混淆文本以训练文本纠错模型。

5、上述方案虽然能在数据资源有限的情况下,在保证样本多样性的基础上,通过减少人工参与获得了更多的训练样本,但也仅提高了训练样本的数据量,其质量仍存在不少问题。首先,替换得到的混淆文本的有效性存疑,很多替换得到的混淆文本并不存在错误;其次,其合理性和真实性存疑。上述方案虽然采用混淆关联策略来对待替换字进行替换,但得到的混淆文本并不能贴合实际场景。

6、所以,如何在数据资源有限的情况下,既能保证样本多样性并丰富训练样本,又能使获得的训练样本保持高质量(即同时满足有效性、合理性和真实性等要求),以便后续的训练结果不出现偏差,是目前该技术的难点所在。


技术实现思路

1、针对上述问题,本发明的目的在于解决现有技术中的一部分问题,或至少缓解这些问题。

2、一种实时的中文拼写纠错样本生成方法,包括如下步骤:

3、收集拼写正确的中文文本;

4、使用分词工具将收集到的所述中文文本的字符组合区分为可替换字符组合和不可替换字符组合,并将其中的单个字符分别以可替换序列和不可替换序列进行标注,以生成对应的限制标记序列;

5、读取一条正确文本和其对应的所述限制标记序列;

6、根据所述正确文本和限制标记序列,随机生成与所述正确文本等长的随机标记序列;所述随机标记序列采用与所述限制标记序列相同的标注形式;

7、将所述限制标记序列与所述随机标记序列进行与运算,并将计算结果视为替换标记序列;

8、按照所述替换标记序列,将其可替换序列对应的所述正确文本的单个字符进行替换操作,得到替换后的待纠错文本。

9、实时的中文拼写纠错样本生成方法,还包括将所述待纠错文本输入待训练模型,并将所述正确文本作为目标输出,以构成一组中文拼写纠错样本对。

10、所述不可替换字符组合为会造成无意义替换的非特定字符组合,包括但不限于名词和数词;所述可替换字符组合为能够产生有效替换的字符组合。

11、可选的,所述限制标记序列和所述随机标记序列的形式为0-1序列;其中,所述不可替换序列标注为0,所述可替换序列标注为1。

12、所述与运算,为将所述限制标记序列和随机标记序列对应位置均标注为可替换序列的进行保留,其他位置标注为不可替换序列,以生成替换标记序列。

13、所述替换操作混合使用了近似字符替换策略和随机替换策略。

14、进一步的,按照所述替换标记序列,将其可替换序列对应的所述中文文本的单个字符进行替换操作,得到替换后的待纠错文本,包括如下步骤:

15、对替换标记为可替换序列的,通过查询相似字符表,获取其对应的相似字符集,并随机选取其一替换所述正确文本中的原字符;或随机选取其他字符替换所述正确文本中的原字符;

16、对替换标记为不可替换序列的,所述正确文本中的字符保持不变;

17、最后得到替换后的待纠错文本。

18、所述拼写正确的中文文本,包括但不限于新闻、专业资料和用户评论。

19、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的实时的中文拼写纠错样本生成方法的步骤。

20、本发明具有如下有益效果:

21、1、本方法先利用分词工具标注文本中的特殊成分,以避免无意义的替换,然后配合使用广泛的近似字替换和少量随机替换的替换策略,在获取丰富的训练样本的同时使之更贴近实际场景,从而同时保证了生成样本的有效性、合理性和真实性,使本方法生成的训练样本具备更高的质量和更丰富的多样性;

22、2、本方法需要较少的人工参与,仅需人工对收集到的中文文本进行简单的分析和筛选,更有利于获得更多的数据集,以便提高模型最终的纠错效果;且采用的替换策略并不存在固定的错误位置和错误类型,不会使训练结果出现偏向性,数据利用率更高;

23、3、本方法部署简单,只需要将相应的步骤加入到数据加载的过程中,即可自动生成符合本方法规范的训练样本;

24、4、本方法生成的样本更具备多样性,灵活的拼写错误位置和拼写错误类型能够有力地提升模型的鲁棒性。



技术特征:

1.一种实时的中文拼写纠错样本生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的实时的中文拼写纠错样本生成方法,其特征在于,还包括将所述待纠错文本输入待训练模型,并将所述正确文本作为目标输出,以构成一组中文拼写纠错样本对。

3.根据权利要求1所述的实时的中文拼写纠错样本生成方法,其特征在于,所述不可替换字符组合为会造成无意义替换的非特定字符组合,包括但不限于名词和数词;所述可替换字符组合为能够产生有效替换的字符组合。

4.根据权利要求1或3所述的实时的中文拼写纠错样本生成方法,其特征在于,所述限制标记序列和所述随机标记序列的形式为0-1序列;其中,所述不可替换序列标注为0,所述可替换序列标注为1。

5.根据权利要求1所述的实时的中文拼写纠错样本生成方法,其特征在于,所述与运算,为将所述限制标记序列和随机标记序列对应位置均标注为可替换序列的进行保留,其他位置标注为不可替换序列,以生成替换标记序列。

6.根据权利要求1所述的实时的中文拼写纠错样本生成方法,其特征在于,所述替换操作混合使用了近似字符替换策略和随机替换策略。

7.根据权利要求6所述的实时的中文拼写纠错样本生成方法,其特征在于,按照所述替换标记序列,将其可替换序列对应的所述中文文本的单个字符进行替换操作,得到替换后的待纠错文本,包括如下步骤:

8.根据权利要求1所述的实时的中文拼写纠错样本生成方法,其特征在于,所述拼写正确的中文文本,包括但不限于新闻、专业资料和用户评论。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的实时的中文拼写纠错样本生成方法的步骤。


技术总结
本发明公开了一种实时的中文拼写纠错样本生成方法。该方法作用于模型训练时,基于已有的文本,通过字符替换的方式,实时构建出多种不同的样本对,因此该方法能够极大的丰富训练样本。同时为保证生成样本的质量,首先会对已有样本进行预处理,标记部分内容旨在避免无意义的替换。其次在替换过程中保证大部分基于相似字符和少量的随机替换,进而贴合实际场景。该方法极大的减少了人工参与的过程,但仍可保证生成样本的高质量和多样性,即使在数据资源有限的情况下,仍能够尽可能地挖掘已有数据的潜力,构建更丰富的训练样本用于模型训练。

技术研发人员:项小红,李荣鹏,赵军,刘彬
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/9/23

最新回复(0)