Zusammenfassung – Angesichts der explosionsartig wachsenden Dokumentenmengen (PDF, Rechnungen, Berichte) müssen Unternehmen die Verarbeitung automatisieren und gleichzeitig OCR-Fehler sowie LLM-Halluzinationen vermeiden, um Transparenz und regulatorische Compliance zu gewährleisten. Eine modulare Pipeline kombiniert hochauflösendes OCR, optimiertes Prompt-Engineering zur Reduktion der Tokenanzahl und eine Fuzzy-Matching-Rekonsiliation, um jedes Feld mit seinem visuellen Beleg (Bounding Box) zu strukturieren und lückenlose Nachverfolgbarkeit sicherzustellen. Lösung: Einsatz einer Microservices-Architektur OCR + LLM, gekoppelt an eine Zweispalten-Oberfläche und sichere REST-APIs, um Validierung zu beschleunigen, Inferenzkosten zu kontrollieren und das Vertrauen der Fachbereiche zu stärken.
Das Volumen der von Unternehmen verarbeiteten Dokumente explodiert: Verträge, Rechnungen, Bestellungen oder PDF-Berichte häufen sich täglich an. Die Herausforderung ist zweifach: den Prozess zu automatisieren und gleichzeitig Transparenz und Zuverlässigkeit der extrahierten Daten zu gewährleisten. Angesichts der Risiken von Halluzinationen bei Sprachmodellen und menschlichen Fehlern wird der visuelle Beleg unverzichtbar, um Vertrauen und Compliance sicherzustellen.
Herausforderungen der Dokumentenverarbeitung und visuelle Belege
Die steigenden Volumina und die Komplexität der Dokumente erfordern eine zuverlässige Automatisierung. Der visuelle Beleg gewährleistet die für Audit und Compliance unerlässliche Transparenz und Rückverfolgbarkeit.
Wachsende Volumina und Komplexität
Unternehmen bearbeiten täglich Tausende von Seiten aus verschiedenen Quellen, sei es PDF-Berichte, gescannte Rechnungen oder archivierte Dokumente. Dieser massive Datenfluss macht eine manuelle Überprüfung jeder Information unmöglich und unterstreicht die Bedeutung einer KI-gestützten Prozessoptimierung.
In manchen Branchen, wie im Finanz- oder Versicherungswesen, kann jedes Dokument sensible Daten enthalten, die strengen Vorschriften unterliegen. Die Anforderungen an Aufbewahrung, Rückverfolgbarkeit und Reporting erfordern höchste Sorgfalt. Ein einfacher Übertragungsfehler oder ein Vergessen kann erhebliche rechtliche Kosten nach sich ziehen.
Zur Veranschaulichung: Ein KMU aus der Uhrenindustrie musste aufgrund der manuellen Überprüfung der Lieferscheine am Quartalsende seine Monatsabschlüsse um zwei Tage verlängern. Dieses Beispiel zeigt, dass das Fehlen einer automatisierten und nachvollziehbaren Lösung die Reaktionsfähigkeit hemmt und die Wettbewerbsfähigkeit belastet.
Risiken von Halluzinationen und regulatorische Rückverfolgbarkeit
Große Sprachmodelle (LLM) bieten erweiterte Analysefähigkeiten, können aber Halluzinationen erzeugen: erfundene Informationen ohne Grundlage im Quelldokument. Diese Fehler gefährden die Zuverlässigkeit der Extraktion und bleiben unentdeckt, wenn kein visueller Beleg vorliegt.
Allein auf OCR zurückzugreifen, ohne visuelle Referenzen zum Originaltext, genügt zudem nicht, um interne oder externe Auditanforderungen zu erfüllen. Unternehmen müssen Herkunft und Genauigkeit jeder Information nachweisen können – sei es im Rahmen der DSGVO-Compliance, bei Steuerprüfungen oder Qualitätszertifikaten.
Definition und Nutzen des visuellen Belegs
Ein visueller Beleg ist ein im Quelldokument markierter Ausschnitt, der den extrahierten Wert präzise untermauert – sei es ein Wort, eine Zeile oder eine Tabellenzelle. Diese Granularität ermöglicht die exakte Zuordnung jeder Information zu ihrem Kontext.
Dieser Ansatz orientiert sich an den hervorgehobenen Treffern in Google-Suchergebnissen: Der Nutzer sieht sofort, woher die Information stammt, was die Validierung beschleunigt und das Fehlerrisiko minimiert. Im Rahmen einer menschlichen Überprüfung bestätigt der Operator die Daten mit nur einem Klick.
Architektur der OCR- + LLM-Pipeline
Eine modulare Architektur verbindet OCR und LLM, um strukturierte Daten mit visuellen Belegen zu erzeugen. Jede Komponente – von der Erfassung bis zum Prompt – muss für Token-Budget und Zuverlässigkeit optimiert sein.
Erfassung, Vorverarbeitung und OCR-Extraktion
Der Pipeline-Workflow beginnt mit der Aufnahme des Dokuments über eine REST-API oder ein sicheres Upload-Modul. PDFs oder Bilder werden in hochaufgelöste Bildseiten konvertiert, um das OCR vorzubereiten und in Docker-Containern orchestriert zu verarbeiten.
Die OCR-Engine, etwa AWS Textract oder eine Open-Source-Alternative, erkennt Blöcke (PAGE, LINE, WORD, TABLE, CELL) und liefert für jedes Element den Rohtext, die Bounding Box und die Parent-Child-Beziehungen. Diese Metadaten werden in einer Zwischenablage für den weiteren Prozess gespeichert.
In einem Projekt eines Finanzkonzerns half dieser Schritt, täglich 20 000 Seiten zu verarbeiten und eine Erkennungsrate von über 95 % zu erzielen. So konnte der Datenfluss standardisiert und das ERP-System automatisiert befüllt werden.
Prompt-Erstellung und Prompt Engineering
Der Aufbau des Prompts für das LLM basiert auf der selektiven Einbindung relevanter Tags. Bevorzugt werden die Tags LINE und TABLE, um das Token-Volumen zu begrenzen und dennoch ausreichend Kontext zu liefern. Das Format lautet beispielsweise: <LINE id="L23">…</LINE> oder <TABLE id="T5">…</TABLE>.
Um das Token-Budget zu schonen, werden nur die wahrscheinlich relevanten Seiten und Blöcke übergeben. Ein fortschrittlicher Indexierungsmechanismus kann vordefinierte Schlagwörter nutzen, um gezielt Dokumentabschnitte auszuwählen.
Der Prompt enthält klare Anweisungen: die gewünschten Felder mit den zugehörigen OCR-Tags zu extrahieren. Ein minimalistisches Beispiel: “Gib für jeden Vertrag ein JSON mit Betrag, Datum und Namen des Unterzeichners zurück, und weise jedem Feld das entsprechende OCR-Tag zu.”
Ein Vermögensverwaltungsunternehmen konnte so seine durchschnittlichen Prozesskosten pro Dokument um 30 % senken, indem es die Granularität des Prompts optimierte und jede Anfrage auf weniger als 1 000 Tokens begrenzte.
LLM-Inferenz und Granularität
Bei der Inferenz kann das Modell verschiedene Belegtypen (Wort, Zeile, Zelle, Tabelle) referenzieren, indem es die eingebetteten Tags nutzt. Es liefert die Ergebnisse in der vereinbarten Struktur und nennt die Tag-IDs explizit.
Die Granularität erfolgt auf zwei Ebenen: feinkörnig (Wort oder Zeile) und grob (Tabellen). Überlässt man dem LLM die feinkörnige Zuordnung anhand der Zeilen- und Tabellentags, reduziert sich das erforderliche Token-Volumen drastisch.
Der Effekt auf Performance und Kosten ist erheblich: Ein 1 000-Token-Prompt statt 100 000 Tokens bei einer Brute-Force-Methode. Antwortzeiten und Anfragekosten sinken, ohne dass Präzision oder Rückverfolgbarkeit leiden.
Edana: Strategischer Digitalpartner in der Schweiz
Wir begleiten Unternehmen und Organisationen bei ihrer digitalen Transformation.
Post-Processing, Abgleich und Ergebnisstrukturierung
Das Post-Processing wandelt die LLM-Ausgabe in nutzbare Daten mit zugehörigen OCR-Belegen um. Beim Abgleich kommen Fuzzy-Matching-Algorithmen zum Einsatz, um Abweichungen zu korrigieren.
Abgleich von OCR- und LLM-Referenzen
Das LLM liefert für jedes Feld die verwendeten Tag-IDs, und angemessenes Master-Data-Management sorgt für konsistente Datengovernance.
Bei Abweichungen in Namen oder IDs wird Fuzzy Matching sowie die Levenshtein-Distanz eingesetzt. So lassen sich auch bei geringfügigen Tippfehlern die passenden OCR-Tags zuordnen.
JSON-Modell für Wert und Beleg
Jedes extrahierte Feld wird als JSON-Objekt dargestellt: {«value»: …, «proof»: [… identifiers …]}. Das Array «proof» listet die OCR-Tags auf, die den Wert belegen.
Dieses Schema erleichtert die Frontend-Darstellung: Werte werden angezeigt und auf Klick die markierten Bereiche im annotierten Bild sichtbar. Gleichzeitig füllen die Daten die Audit-Logs, wodurch vollständige Rückverfolgbarkeit jeder Information sichergestellt wird.
Beispiel: Ein Vertrag liefert {«dateSignature»:»2024-03-15″,»proof»:[«L23″,»L24»]}. Das Frontend wählt die entsprechende Seite aus und hebt die Zeilen hervor, was eine schnelle und sichere Prüfung ermöglicht.
Beispiel für visuelle Annotation im Backend
Die Erstellung der annotierten Bilder erfolgt in zwei Schritten. Zuerst wird mit pdf-lib jede Seite in ein Canvas überführt und die normalisierten Koordinaten (0–1) eingepflegt. Anschließend nutzt man die Bibliothek sharp, um die Bounding Boxes in passender Farbe und Dicke zu zeichnen.
Die Normalisierung garantiert eine pixelgenaue Darstellung unabhängig von der Auflösung. Die Bilder werden als PNG oder JPEG exportiert und hinter sicheren URLs für die UI bereitgestellt.
Benutzererlebnis, Best Practices und SI-Integration
Eine zweispaltige Oberfläche ermöglicht die gleichzeitige Ansicht der Ergebnisse und der Quelldokumente. Die modulare Integration via REST-API gewährleistet Flexibilität und Sicherheit.
Zweispaltiges Interface und dynamische Annotation
Die UI zeigt links die extrahierten Felder mit ihren Werten, untermauert durch bewährte UX-Praktiken, und rechts das annotierte Bild des Quelldokuments. Ein Klick auf einen Wert führt automatisch zur Hervorhebung des entsprechenden Bereichs im Bild.
Dieses bidirektionale Navigationsprinzip erleichtert die menschliche Prüfung: Der Operator findet den Beleg sofort, verifiziert ihn und fährt ohne Kontextwechsel fort.
Das Design bleibt schlank, um kognitive Überlastung zu vermeiden: Nur relevante Annotationen werden angezeigt, und der Nutzer kann Belegtypen nach Bedarf filtern oder ausblenden.
Integration über REST-APIs und Sicherheit
REST-APIs stellen die Dienste für Extraktion, Post-Processing und den Zugriff auf annotierte Bilder bereit. Die Endpunkte sind via OAuth2 oder JWT geschützt, sodass nur autorisierte Anwendungen mit der Pipeline kommunizieren können. Diese Endpunkte lassen sich zudem mit robusten API-Tests validieren, um Qualität und Stabilität sicherzustellen.
Die Aufrufe erfolgen asynchron: Der Client übermittelt ein Dokument, erhält eine Job-ID und fragt den Status-Endpoint, bis das Endergebnis vorliegt. Dieses Modell bewältigt Lastspitzen, ohne Ressourcen zu blockieren.
Sensible Daten werden während der Übertragung und im Ruhezustand verschlüsselt, und Audit-Logs protokollieren jede Aktion – von API-Aufrufen bis zu manuellen Validierungen. So werden höchste Sicherheits- und Compliance-Anforderungen erfüllt.
Prinzipien und Fallstricke
Die Wahl der OCR-Engine ist strategisch: AWS Textract, Azure Cognitive Services oder Open-Source-Lösungen müssen hinsichtlich Genauigkeit, Kosten und Vendor-Lock-In verglichen werden. Ein hybrider Ansatz aus Open Source und Managed Services begrenzt Abhängigkeiten.
Für die Anbindung an bestehende Systeme empfiehlt sich eine Microservices-Architektur. Jeder Service übernimmt eine klar definierte Aufgabe (Ingestion, OCR, LLM, Post-Processing), um Auswirkungen von Änderungen zu minimieren.
Szenarien für Ausnahmefälle sollten vorbereitet werden: schlecht gescannte Dokumente, OCR-Fehler oder unvollständige LLM-Ergebnisse. Definieren Sie einen klaren menschlichen Review-Workflow, um diese Fälle zu behandeln und in die kontinuierliche Verbesserung einzuspeisen.
Implementieren Sie eine proaktive Überwachung von Performance und Extraktionsqualität. Ein Dashboard alarmiert bei Ausfallraten oder fehlenden Annotationen und initiiert zeitnahe Korrekturmaßnahmen.
Nutzen Sie visuelle Belege für zuverlässige Extraktionen
Die Kombination aus OCR und LLM, ergänzt durch visuelle Belege, verwandelt die Dokumentenverarbeitung in einen vertrauenswürdigen, transparenten und compliant-fähigen Prozess. Sie gewinnen an Geschäftssicherheit, Validierungsgeschwindigkeit und regulatorischer Compliance – bei gleichzeitig optimierten Inferenzkosten.
Unsere Edana-Experten unterstützen Sie bei der Projektplanung, Definition der technischen Architektur, Entwicklung der maßgeschneiderten Pipeline und Integration der Oberfläche in Ihr SI. Profitieren Sie von unserem pragmatischen, modularen Ansatz, um Ihre Dokumentenautomatisierung noch heute zu industrialisieren.
Besprechen Sie Ihre Herausforderungen mit einem Edana-Experten







Ansichten: 4













