Module OCR / Extraction

Le Module OCR / Extraction dans DocView Capture est responsable de la conversion des images scannées en texte lisible par machine et de l’extraction des données structurées.

C’est ici que les documents sont transformés à partir d’images brutes en texte exploitable et consultable et en valeurs de champs pour les workflows et l’indexation en aval.

Workflow OCR / Extraction

1. Initialisation du Lot

Le système identifie le lot via son ID de lot.
Exemple : Batch 27781, DocView Demo Batch 26-02-2022 13:48:42.

2. Démarrage du Processus OCR

Chaque document du lot est traité séquentiellement.
Des noms de fichiers (ex. 1.xml, 3.xml) sont générés pour stocker la sortie OCR.

3. Reconnaissance de Texte

Le moteur OCR analyse les images de pages.
Convertit le texte, les chiffres et les caractères scannés en texte exploitable par machine.
Produit une sortie XML contenant le texte reconnu et les métadonnées de position.

4. Extraction de Données

Après OCR, le moteur d’extraction identifie les champs selon les modèles et règles définis.
Exemples : Numéro de facture, Date, Nom du fournisseur, Montant total.
La phase de reconnaissance valide les valeurs extraites avec des expressions régulières ou tables de référence.

5. Stockage des Résultats

Les données extraites sont liées à la structure XML du document.
Le texte OCR brut et les champs extraits sont stockés pour les modules suivants (Review, Index, Export).

Opérations Clés dans le Journal

Démarrer OCR Documents – 1.xml, 3.xml : début de l’OCR pour chaque page.
Documents OCR générés – OCR terminé avec succès, sortie sauvegardée en XML structuré.
Démarrer Reconnaissance – 1.xml, 3.xml : extraction de données, récupération des valeurs de champs à partir de l’OCR.

Barre d’Outils

Onglet Accueil

Démarrer OCR – Exécuter OCR sur le lot sélectionné.
Arrêter le processus – Interrompre la session OCR en cours.
Reprocesser – Relancer OCR pour des documents sélectionnés pour plus de précision.

Onglet Vue

Visionneuse OCR – Prévisualiser le texte reconnu.
Journal d’Erreurs – Affiche les erreurs OCR / reconnaissance.

Onglet Paramètres

Sélection du moteur OCR – Choisir l’engine (Tesseract, ABBYY, etc.).
Packs de Langue – Configurer la langue pour l’OCR.
Règles d’Extraction – Définir règles de champs, regex et tables de référence.

Indicateurs d’État

En traitement – OCR en cours.
Terminé – OCR / extraction terminé pour le document.
Échoué – OCR impossible (scan de mauvaise qualité ou format non supporté).

OCR / Extraction Module Screenshot

Configuration Admin

Configuration des Lots

Propriétés du lot

Configuration des documents

Configuration des champs

Configuration Formatter

Configuration Validator

Configuration Lookup

Configuration Locator

Configuration Dictionary

Configuration Pays

Module OCR / Extraction

Workflow OCR / Extraction

1. Initialisation du Lot

2. Démarrage du Processus OCR

3. Reconnaissance de Texte

4. Extraction de Données

5. Stockage des Résultats

Opérations Clés dans le Journal

Barre d’Outils

Onglet Accueil

Onglet Vue

Onglet Paramètres

Indicateurs d’État

Configuration des Lots

Propriétés du lot

Configuration des documents

Configuration des champs

Configuration Formatter

Configuration Validator

Configuration Lookup

Configuration Locator

Configuration Dictionary

Configuration Pays

Module OCR / Extraction ​

Workflow OCR / Extraction ​

1. Initialisation du Lot ​

2. Démarrage du Processus OCR ​

3. Reconnaissance de Texte ​

4. Extraction de Données ​

5. Stockage des Résultats ​

Opérations Clés dans le Journal ​

Barre d’Outils ​

Onglet Accueil ​

Onglet Vue ​

Onglet Paramètres ​

Indicateurs d’État ​

Module OCR / Extraction

Workflow OCR / Extraction

1. Initialisation du Lot

2. Démarrage du Processus OCR

3. Reconnaissance de Texte

4. Extraction de Données

5. Stockage des Résultats

Opérations Clés dans le Journal

Barre d’Outils

Onglet Accueil

Onglet Vue

Onglet Paramètres

Indicateurs d’État