Skip to content

Módulo OCR / Extracción

El Módulo OCR / Extracción en DocView Capture se encarga de convertir imágenes escaneadas en texto legible por máquina y extraer datos estructurados.

Aquí los documentos se transforman de imágenes de página sin procesar a texto utilizable y buscable y valores de campos que alimentan la indexación y workflows posteriores.

Flujo de Trabajo OCR / Extracción

1. Inicialización del Lote

  • El sistema identifica el lote mediante su ID de Lote.
  • Ejemplo: Batch 27781, DocView Demo Batch 26-02-2022 13:48:42.

2. Inicio del Proceso OCR

  • Cada documento del lote se procesa secuencialmente.
  • Se generan nombres de archivo (p.ej., 1.xml, 3.xml) para almacenar la salida OCR.

3. Reconocimiento de Texto

  • El motor OCR analiza las imágenes de las páginas.
  • Convierte texto, números y caracteres escaneados en texto legible por máquina.
  • Produce una salida XML con el texto reconocido y metadatos de posición.

4. Extracción de Datos

  • Después de OCR, el motor de extracción identifica campos según plantillas y reglas definidas.
  • Campos de ejemplo: Número de Factura, Fecha, Nombre del Proveedor, Importe Total.
  • La fase de reconocimiento valida los valores extraídos mediante expresiones regulares o tablas de consulta.

5. Almacenamiento de Resultados

  • Los datos extraídos se vinculan a la estructura XML del documento.
  • Tanto el texto OCR en bruto como los campos extraídos se guardan para módulos posteriores (Review, Index, Export).

Operaciones Clave en el Log

  • Iniciar OCR Documentos1.xml, 3.xml: comienza el OCR generando salida de texto para cada página.
  • Documentos OCR Generados – OCR completado con éxito, salida guardada en XML estructurado.
  • Iniciar Reconocimiento1.xml, 3.xml: comienza la extracción de datos, obteniendo valores de campos del OCR.

Barra de Herramientas

Pestaña Home

  • Iniciar OCR – Ejecutar OCR en el lote seleccionado.
  • Detener Proceso – Detener sesión OCR en curso.
  • Reprocesar – Ejecutar OCR nuevamente en documentos seleccionados para mayor precisión.

Pestaña Vista

  • Visor de Salida OCR – Previsualizar texto reconocido.
  • Registro de Errores – Muestra errores de OCR / reconocimiento.

Pestaña Configuración

  • Selección de Motor OCR – Elegir motor (Tesseract, ABBYY, etc.).
  • Paquetes de Idioma – Configurar idioma específico para OCR.
  • Reglas de Extracción – Definir reglas de campos, regex y referencias de búsqueda.

Indicadores de Estado

  • Procesando – OCR en progreso.
  • Completado – OCR / extracción finalizado para el documento.
  • Fallido – OCR no pudo procesar (baja calidad de escaneo o formato no soportado).

OCR / Extraction Module Screenshot