您的位置:志趣»产品库 » 机械设备 » 其它

扫一扫文档识别,文本扫描识别技术

  • 发布时间:2019-10-17 16:57:32,加入时间:2018年06月14日(距今2584天)
  • 地址:中国»北京»海淀:北京市朝阳区容达路7号太极科技产业园B座六层602
  • 公司:北京易泊时代科技个人,用户等级:普通会员 已认证
  • 联系:史苗,手机:18010470506 微信:yibo-eparking 电话:010-87422202 QQ:2025860950

文档OCR识别技术的概括

我们常说的文档OCR识别技术、文档OCR识别技术是指通过电子设备等将纸质上的文字识别出来,形成可编辑的文字。

传统的档案、文书、文案等文献资料的数字化录入,一般都是由专门做数字化加工业务的公司承接完成!这些公司一般都会有几十个工作人员,分工明确,处理图像、分析识别、结果校对、输出文件等工序是一条龙串行工作运行。这就像一个生产加工的工厂,流水作业生产最后的电子文件。

文档识别OCR技术的识别效果,主要看两方面:OCR程序是否优秀、图片文件是否清晰符合标准,具体表现在以下几方面:

1、图片:建议扫描仪分辨率设置为300DPI规格的参数;手机拍照的话建议摄像头像素为500万像素以上的摄像头;

2、颜色:常规的传统的OCR识别要求为白底黑字或者浅底黑字;如果是彩色背景图片的文字则需要特殊的OCR识别程序,比如文通视频文字识别系统;

3、字体:目前全世界范围内的OCR技术都是针对“宋体印刷字”的字形做识别库的;

4、程序:好的OCR程序遇到好的图片,识别效果才会优秀;

文档OCR识别技术的流程

随着扫描仪的普及与广泛应用,再加上摄像头迅速发展的手机等智能终端设备的应用,文档OCR识别技术软件越来越被应用于各种业务系统中。

常规的文档OCR识别技术处理的过程包括:

1、图像输入、预处理:二值化图片、噪声去除、倾斜较正;

2、版面分析:把页面分为横排文本、竖排文本、表格、图片等不同区域,帮助字符切割、识别OCR;

3、设置语种:选择需要什么OCR语种的引擎程序;

4、输出结果:输出OCR识别结果为原版原样的优质文件;

文档OCR识别技术系统,只要把图像作一个转换,使图像内的字符继续保存、有表格则表格内资料及图像内的文字,一律变成计算机文字,方便日后查询检索重复利用。

联系我时请说明来自志趣网,谢谢!

免责申明:志趣网所展示的信息由用户自行提供,其真实性、合法性、准确性由信息发布人负责。使用本网站的所有用户须接受并遵守法律法规。志趣网不提供任何保证,并不承担任何法律责任。 志趣网建议您交易小心谨慎。