Módulo OCR / Extracción

El Módulo OCR / Extracción en DocView Capture se encarga de convertir imágenes escaneadas en texto legible por máquina y extraer datos estructurados.

Aquí los documentos se transforman de imágenes de página sin procesar a texto utilizable y buscable y valores de campos que alimentan la indexación y workflows posteriores.

Flujo de Trabajo OCR / Extracción

1. Inicialización del Lote

El sistema identifica el lote mediante su ID de Lote.
Ejemplo: Batch 27781, DocView Demo Batch 26-02-2022 13:48:42.

2. Inicio del Proceso OCR

Cada documento del lote se procesa secuencialmente.
Se generan nombres de archivo (p.ej., 1.xml, 3.xml) para almacenar la salida OCR.

3. Reconocimiento de Texto

El motor OCR analiza las imágenes de las páginas.
Convierte texto, números y caracteres escaneados en texto legible por máquina.
Produce una salida XML con el texto reconocido y metadatos de posición.

4. Extracción de Datos

Después de OCR, el motor de extracción identifica campos según plantillas y reglas definidas.
Campos de ejemplo: Número de Factura, Fecha, Nombre del Proveedor, Importe Total.
La fase de reconocimiento valida los valores extraídos mediante expresiones regulares o tablas de consulta.

5. Almacenamiento de Resultados

Los datos extraídos se vinculan a la estructura XML del documento.
Tanto el texto OCR en bruto como los campos extraídos se guardan para módulos posteriores (Review, Index, Export).

Operaciones Clave en el Log

Iniciar OCR Documentos – 1.xml, 3.xml: comienza el OCR generando salida de texto para cada página.
Documentos OCR Generados – OCR completado con éxito, salida guardada en XML estructurado.
Iniciar Reconocimiento – 1.xml, 3.xml: comienza la extracción de datos, obteniendo valores de campos del OCR.

Barra de Herramientas

Pestaña Home

Iniciar OCR – Ejecutar OCR en el lote seleccionado.
Detener Proceso – Detener sesión OCR en curso.
Reprocesar – Ejecutar OCR nuevamente en documentos seleccionados para mayor precisión.

Pestaña Vista

Visor de Salida OCR – Previsualizar texto reconocido.
Registro de Errores – Muestra errores de OCR / reconocimiento.

Pestaña Configuración

Selección de Motor OCR – Elegir motor (Tesseract, ABBYY, etc.).
Paquetes de Idioma – Configurar idioma específico para OCR.
Reglas de Extracción – Definir reglas de campos, regex y referencias de búsqueda.

Indicadores de Estado

Procesando – OCR en progreso.
Completado – OCR / extracción finalizado para el documento.
Fallido – OCR no pudo procesar (baja calidad de escaneo o formato no soportado).

OCR / Extraction Module Screenshot

Configuración de Administrador

Configuración de Lotes

Propiedades de Configuración de Lotes

Configuración de Documentos

Configuración de Campos

Configuración de Formateadores

Configuración de Validadores

Configuración de Búsqueda

Configuración de Localizadores

Configuración de Diccionarios

Configuración de Países

Módulo OCR / Extracción

Flujo de Trabajo OCR / Extracción

1. Inicialización del Lote

2. Inicio del Proceso OCR

3. Reconocimiento de Texto

4. Extracción de Datos

5. Almacenamiento de Resultados

Operaciones Clave en el Log

Barra de Herramientas

Pestaña Home

Pestaña Vista

Pestaña Configuración

Indicadores de Estado

Configuración de Lotes

Propiedades de Configuración de Lotes

Configuración de Documentos

Configuración de Campos

Configuración de Formateadores

Configuración de Validadores

Configuración de Búsqueda

Configuración de Localizadores

Configuración de Diccionarios

Configuración de Países

Módulo OCR / Extracción ​

Flujo de Trabajo OCR / Extracción ​

1. Inicialización del Lote ​

2. Inicio del Proceso OCR ​

3. Reconocimiento de Texto ​

4. Extracción de Datos ​

5. Almacenamiento de Resultados ​

Operaciones Clave en el Log ​

Barra de Herramientas ​

Pestaña Home ​

Pestaña Vista ​

Pestaña Configuración ​

Indicadores de Estado ​

Módulo OCR / Extracción

Flujo de Trabajo OCR / Extracción

1. Inicialización del Lote

2. Inicio del Proceso OCR

3. Reconocimiento de Texto

4. Extracción de Datos

5. Almacenamiento de Resultados

Operaciones Clave en el Log

Barra de Herramientas

Pestaña Home

Pestaña Vista

Pestaña Configuración

Indicadores de Estado