Optical character recognition (OCR) es el proceso de Reconocimiento Óptico de Caracteres Este proceso se realiza con ficheros o archivos de formato de imagen ( PDF, TIFF, JPEG, … ), identificando caracteres o símbolos a partir de la imagen contenida en el fichero y convirtiendo ésta en texto con los que podremos interactuar mediante un programa de edición de texto o similar.

Partiendo de una imagen perfecta, es decir, una imagen con sólo dos niveles de gris, el reconocimiento de estos caracteres se realizará básicamente comparándolos con unos patrones o plantillas que contienen todos los posibles caracteres.

El OCR se encuentra con diversas problemáticas:

  • La imagen, o el escáner que ha producido la imagen, introduce níveles de gris, ruido
  • La resolución seleccionada no es la adecuada, incluso ni mínima.
  • El reconocimiento de texto manuscrito sigue siendo un desafío

Podemos definir como óptimos lo siguientes parámetros:

  • Formato TIFF
  • Blanco y Negro
  • Resolución 400×400
  • Texto no manuscrito

Con estos, podemos obtener un porcentaje de reconocimiento superior al 85%.

 

Se dice OCR Full Text, cuando se intenta reconocer y convertir todo el texto contenido en la imagen; proceso habitual.

El OCR Zonal se basa en el reconocimiento de zonas concretas de la imagen, extrayendo éstos y archivándolos en formato digital de forma indexada. para facilitar su posterior búsqueda. Se usa para transformar de forma masiva grandes cantidades de documentos estructurados o semiestructurados (facturas, nóminas, albaranes, pólizas, justificantes bancarios, etc.). Tiene el pequeño inconveniente de la necesidad de diseñar previamente las plantillas, pero en comparación con la barbaridad de ahorro de tiempo y ventajas, este inconveniente se queda en un detalle sin importancia.