LEADTOOLS使用教程:表单识别和处理流程概述

来源:互联网 发布:非洲联盟 知乎 编辑:程序博客网 时间:2024/06/09 14:40

ECM(Enterprise Content Management)系统,尤其是文档图像应用程序的一个主要特点就是表单识别和处理。ECM系统在采集、管理、储存和传递文件过程中,表单识别和处理是优化整个工作流的一个关键因素。

表单识别是一个填写表单并自动确定表单类型的过程。表单识别也是一个从所填写的表单中自动提取关键信息的过程。

在大多数情况下,一个典型的工作流以创建需要被处理的实际表单为起点,以存储稍后需要检索的数据和生成报表为终点。

表单识别和处理流程如下:

Form Creation(表单创建): 该步骤创建实际表单,并将所有相关信息和字段添加到窗体。

Distribution(分配):表单被分配给用户填写,文档以电子形式或者纸面形式进行分配。

Input/Capture(输入和捕获):文件可以以多种方式进行捕获。一旦文档被捕获,文档就被发送到内容管理系统中进行处理。源文档捕获

  • 扫描/传真文件
  • 导入所填写的电子文档
  • 现有的电子文档

Image Cleanup(图像清理):为了最大限度地提高识别和处理结果,该文件必须尽可能干净。 LEADTOOLS提供了一套广泛的方法移除扫描或传真图像中的一些常见问题,去除点、线和孔。

Recognition(识别):图像清理后就可以进行识别。通过识别还可以确定图像类型。在识别过程中,可以采用多种识别技术,如条形码、OCR以及LEADTOOLS所提供的其他技术等。可以标注一些无法识别的表单并且以后还可以手动检查。

Processing(处理):一旦识别出了表单类型,我们就可以知道哪些信息需要被提取以及位于窗体上的位置。所有相关信息如条码数据、客户填充数据(姓名,地址,日期,签名,徽标等)均可被提取。OCR, ICR和 OMR等多种技术均被用户提取数据。一些无法识别的表单将被标注出来,并且以后还可以手动检查。

Quality Assurance(质量保证):在某些情况下,表单可能无法被识别或处理。这些情况包括:扫描\传真质量低、表单没有添加到master collection、单证不全、文件没有被填写好等等。质量保证机构将手工检查这些文件,并决定稳健是否应该识别和处理,或者需要重新创建。

Output(输出):此时,表单已经就绪,准备输出。输出阶段通常需要用到所提取的数据。可以对输出文档进行存储、归档、以电子邮件发送结果、生成报表和启动其他过程等。原始文件可以以最为有效的格式进行存储,如LEADTOOLS ABC,还可以一些TIFF、PDF和JPEG等标准格式存储。 LEADTOOLS目前支持140种不同格式。

 

0 0
原创粉丝点击