ocr识别仪,3d激光轮廓仪
您当前的位置 : 首 页 > 新闻媒体 > 公司新闻

ocr识别仪厂家为您讲解OCR字符识别原理!

2021-08-05 11:21:29

规范的OCR字符辨认系统首要包括图画处理模块、版面剖析模块、文字辨认模块、文字校正模块和输出模块。

(一)图画处理模块

首要是经过扫描仪设备将纸质的期刊、学位等文献数据进行扫描,一般主张扫描成线图模式(灰图或彩色图辨认率低),扩展名为tif图格式,图画分辨率为300DPI,图画要进行去污点、去黑边、图画居中和图画纠偏等作业,不要有底纹,总之保持图画为白底黑字,图画页面整洁从而进步文字辨认率。

(二)版面剖析模塊

能够分为主动和手艺两种方法,主动版面剖析程序首要运用是非二值法,逐页将所有文字区域部分进行画框定位并存储相应的区域块坐标;手艺版面剖析是指人工经过鼠标在图画文字区域进行画框,选择特定区域进行文字辨认,这种方法首要应用于需要从图画提取特定区域的文字,有针对性的文字辨认。

(三)文字辨认模块

文字辨认模块是OCR软件的核心部分,文字辨认首要运用了是非二值法,以单个汉字“一”为例,将文字颜色取反,也便是白变成黑,黑变成白,以单字图画区域分为上下两部分,这种方法将每个字都能够区分为不同区域,将不同区域的反选区域用二进制的方法进行转化,将每个文字区域区分后生成一个二进制编码,咱们预先对每个规范的文字进行二进制编码存放到数据库中,用OCR字符辨认完的成果与规范数据库中的二进制编码进行比对,从而选择接近的二进制编码文字,得到文字辨认成果,假如没有找到相似度高的编码,则系统辨认以为有误文字会以醒意图红色显示,提示用户需进行人工修正。

orc识别仪

(四)文字校正模块

文字校正首要分纵向校正和横向校正,纵向校正是指按照顺序把文字辨认成果进行摆放,将辨认成果所有相同文字进行调用,显示辨认成果中所有相同的文字,调用辨认成果一起调出对应原图进行人工比对。

(五)输出模块

将校正无误的文字能够输出为文本或XML等格式,输出的文本文字完全能够编辑了,一起原图画文档能够输出PDF文档用于阅读原图,也可输出契合移动阅读的电子出版ePub格式等。

文章内容来源于网络,如有问题请和我联系删除!

近期浏览: