本发明涉及图像识别,特别是涉及一种智能图纸文本检测识别方法。
背景技术:
1、超大分辨率设计图纸多角度、不定长等复杂场景的高精度文本检测与识别系统是为了帮助设计院更好的管理历史图纸,在将历史图纸进行电子化的时候纯人工处理费时费力,然而,面对超大分辨率的设计图纸、多角度和不定长等复杂场景,现有的文本检测与识别系统往往表现不佳。传统方法可能会出现文本漏检、错检等问题,严重影响工作效率和准确性。在复杂背景遮挡下人工的识别率也比较低,还原的质量比较差。
2、目前通用的ocr(opt ica l character recogn it ion,光学字符识别)技术在处理超大分辨率的设计图纸、多角度、不定长等复杂场景下存在一些痛点,这些痛点提供了我们专利系统的优势,并突出了其创新之处:
3、1、不适应超大分辨率图纸:大多数通用ocr系统在处理超大分辨率的设计图纸时往往面临性能下降的问题。由于图像分辨率过高,传统ocr技术无法有效处理这种情况,导致文本识别准确率下降。
4、2、处理多角度文本困难:通用ocr系统通常设计用于处理平整或近似平整的文本区域,当文本呈现多角度、倾斜或扭曲时,传统ocr系统的识别准确率显著下降,难以提供准确的识别结果。
5、3、应对不定长文本低效:在设计图纸上,文本的长度和行间距可能会多变,传统ocr系统往往要求文本结构规整,无法高效应对不定长文本的识别,容易造成错误的断行或漏识别。
6、4、无法处理复杂场景:设计图纸可能包含许多复杂场景,如嵌入式文本、背景干扰等,这些会对ocr系统造成干扰,降低其文本检测和识别的准确性。
技术实现思路
1、本发明旨在解决当前图纸电子化全要素文本识别过程中存在的漏识别和错误识别问题。传统的ocr技术在处理超大分辨率设计图纸、多角度、不定长等复杂场景下表现不佳,容易导致文本识别的准确率下降。因此,该发明针对这些痛点,致力于提供一种专业的文本检测和文本识别的深度学习模型,以强化对复杂场景下图纸文本的准确识别能力,帮助提高文本检测率和正确识别率,从而提升整体的图纸电子化处理效率和准确性。
2、为实现上述目的,本发明提供如下技术方案:
3、一种智能图纸文本检测识别方法,具体方法如下:用户上传图纸文件后,系统首先进行预处理,然后将预处理后的图像送入切割模块进行切割处理,切割后的子图按顺序传入文本检测模块进行文本识别,随后对文本检测结果进行后处理,同时对多角度文本框进行角度矫正,系统对所有检测到的文本进行识别。
4、作为本发明的进一步技术方案:所述预处理包括图像增强、降噪和背景去除。
5、作为本发明的进一步技术方案:所述后处理是对ocr结果进行校正和修正。
6、作为本发明的进一步技术方案:针对特殊符号和专业术语,建立了定制模型扩展字典,并利用领域专家知识数据进行调优以优化识别结果,采用自然语言处理技术或领域专有的ocr模型,以支持对特殊符号和术语的准确识别。
7、作为本发明的进一步技术方案:在数据预处理阶段,首先需要进行大量图纸数据采集与清洗,剔除重复、损坏或低质量的图纸数据,确保数据集的质量与多样性,随后,进行文本区域标注,确定每个文本框的位置和内容,为后续模型训练与验证做准备。
8、作为本发明的进一步技术方案:针对复杂场景下的文本检测,基于深度学习框架pytorch和深度学习的目标分割算法设计专属大尺寸多角度文本检测模型,该模型将主干网络提取特征值后嵌入分割网络中,联合优化每个位置的阈值。
9、与现有技术相比,本发明的有益效果是:
10、本发明的一种智能图纸文本检测识别方法,强化了对复杂场景下图纸文本的准确识别能力,帮助提高文本检测率和正确识别率,从而提升整体的图纸电子化处理效率和准确性。
1.一种智能图纸文本检测识别方法,其特征在于,具体方法如下:用户上传图纸文件后,系统首先进行预处理,然后将预处理后的图像送入切割模块进行切割处理,切割后的子图按顺序传入文本检测模块进行文本识别,随后对文本检测结果进行后处理,同时对多角度文本框进行角度矫正,系统对所有检测到的文本进行识别。
2.根据权利要求1所述的一种智能图纸文本检测识别方法,其特征在于,所述预处理包括图像增强、降噪和背景去除。
3.根据权利要求1所述的一种智能图纸文本检测识别方法,其特征在于,所述后处理是对ocr结果进行校正和修正。
4.根据权利要求1所述的一种智能图纸文本检测识别方法,其特征在于,针对特殊符号和专业术语,建立了定制模型扩展字典,并利用领域专家知识数据进行调优以优化识别结果,采用自然语言处理技术或领域专有的ocr模型,以支持对特殊符号和术语的准确识别。
5.根据权利要求1所述的一种智能图纸文本检测识别方法,其特征在于,在数据预处理阶段,首先需要进行大量图纸数据采集与清洗,剔除重复、损坏或低质量的图纸数据,确保数据集的质量与多样性,随后,进行文本区域标注,确定每个文本框的位置和内容,为后续模型训练与验证做准备。
6.根据权利要求1所述的一种智能图纸文本检测识别方法,其特征在于,针对复杂场景下的文本检测,基于深度学习框架pytorch和深度学习的目标分割算法设计专属大尺寸多角度文本检测模型,该模型将主干网络提取特征值后嵌入分割网络中,联合优化每个位置的阈值。
