Klassifizieren (Erkennung) Modul
Das Klassifizieren (Erkennung) Modul in DocView Capture identifiziert, trennt und kategorisiert automatisch Dokumente innerhalb eines Batches mithilfe von OCR (Optische Zeichenerkennung), Mustererkennung und regelbasierter Klassifizierung.
Dies stellt sicher, dass jedes Dokument dem richtigen Dokumenttyp zugeordnet und mit den korrekten Indexfeldern für nachgelagerte Indexierung, Validierung und Export verknüpft wird.
Klassifizierungsprozess
1. Batch-Auswahl
- Das System lädt Batches, die die QC bestanden haben und zur Erkennung bereit sind.
- Jeder Batch wird identifiziert durch:
- Batch-ID
- Batch-Name
- Zeitstempel (z.B. Batch 27781, DocView Demo Batch 26-02-2022 13:48:42).
2. Erkennung ausführen
- Die OCR-Engine analysiert jede Seite, um Text zu extrahieren.
- Klassifizierungsregeln bestimmen den Dokumenttyp (z.B. Rechnung, Bestellauftrag, Vertrag).
- Metadateien (z.B.
1.xml) werden für jedes erkannte Dokument erstellt.
3. Ausgabe erzeugen
- Erkannte Dokumente erhalten strukturierte XML/Metadaten.
- Klassifizierungsergebnisse steuern den nächsten Schritt (Indexierung).
Wichtige Operationen
- Erkennung starten – Beginnt den OCR- und regelbasierten Erkennungsprozess für den ausgewählten Batch.
- OCR-Extraktion – Extrahiert Text aus gescannten Bildern und PDFs zur Schlüsselwortsuche und Indexierung.
- Dokumentklassifizierung – Identifiziert Dokumenttyp mithilfe vordefinierter Templates, Regeln oder ML-Modelle.
- Metadaten-Erstellung – Generiert strukturierte Ausgabedateien (z.B. XML) mit erkanntem Text und Klassifizierungsergebnissen.
Statusanzeigen
Während der Verarbeitung zeigt das Klassifizieren-Modul Echtzeitinformationen:
- Batch-ID – Eindeutiger Identifier des aktuellen Batches.
- Batch-Name & Zeitstempel – Lesbarer Name des Batches.
- Prozessstatus – Aktueller Schritt (z.B. Start Recognize Generate).
- OCR-Dokument – Zeigt, welches XML/Dokument gerade verarbeitet wird (z.B.
1.xml).
Workflow-Integration
- Eingang – Batches kommen vom QC Modul (garantierte Qualität und Bereitschaft).
- Prozess – OCR + Klassifizierungsregeln erkennen und kennzeichnen Dokumente.
- Ausgang – Metadaten (XML, JSON oder DB-Eintrag) werden erzeugt und an das Indexierungsmodul zur Feldbefüllung und Validierung übergeben.