Dokumentenverarbeitung mit DocBits Version 2.0

Die Extraktion von Informationen aus PDFs und gescannten Dokumenten ist vielleicht nicht die interessanteste oder herausforderndste Thematik des Jahrhunderts. Es gibt einem nicht die Möglichkeit einen Roboter zu steuern, virtuelle Spiele zu spielen oder seine Kreativität auszuleben. Stattdessen ist es reine Fleißarbeit, etwas, das die “KI” zu automatisieren versprochen hat, jedoch bisher nicht erreicht hat. Nichtsdestotrotz stellt die Dokumentenverarbeitung, also die Umwandlung analoger Daten in ein digitales Format, eine subtile Herausforderung dar – eine Aufgabenstellung, die so einfach und doch so schwer zu lösen ist.

Dokumentenverarbeitung mit DocBits Version 2.0, die Umwandlung analoger Daten in ein digitales Format – eine so einfache und doch schwer zu lösende Aufgabe.

Nach Abschluss verschiedener Projekte wurde uns bei Polydocs klar, dass die Verarbeitung von Dokumenten allgegenwärtig ist – von Unternehmen bis zu Nichtregierungsorganisationen, von kleinen Betrieben bis zu Großkonzernen – es gibt immer ein PDF, das digitalisiert werden muss! Die Verarbeitung von Dokumenten ist demnach also nicht nur schwierig, sondern vielleicht auch dringend notwendig. In diesem Blogbeitrag wird ein Rahmen für die Entwicklung von Dokumentenverarbeitungslösungen beschrieben und woran wir für DocBits Version 2.0 arbeiten.

Die Dokumentenverarbeitung mit DocBits Version 2.0 basiert auf drei Prinzipien:

Anmerkungen sind das A und O: Es gibt kein Patentrezept. Selbst wenn Sie ein gutes Modell haben, müssen Sie immer noch eine Feinabstimmung mit Ihren Daten vornehmen. Idealerweise sollten Sie ein Annotationswerkzeug mit eingebauter Feinabstimmung haben oder flexibel genug sein, um diesen Mechanismus zu integrieren.

Erstellen von multimodalen Modellen: Wir verlassen uns bei der Analyse eines Dokuments nicht nur auf den Text. Stattdessen übernehmen wir alle Informationen (Position, Textgröße usw.) als Kontext, um diese als Merkmale nutzen zu können. Eine reine OCR (optische Zeichenerkennung) oder ein rein textbasierter Ansatz sind suboptimal, um diese Aufgabe zu lösen.

Immer korrigieren: OCR– und Dokumentenlayoutmodelle sind nicht immer perfekt, daher ist es wichtig, dass der Mensch die Ergebnisse des Systems korrigiert. Sie können die Korrektur verwenden, um Ihr Modell neu zu trainieren oder als vorletzten Schritt vor dem Speichern der Ergebnisse in einer Datenbank.

Formularverständnis

OCR
In DocBits haben wir alle oben genannten Grundsätze berücksichtigt. Das Diagramm, beschreibt den typischen Dokumentenverarbeitungsworkflow:

Anmerkungen sind das A und O

Beschriftungen sind bei jeder Lösung für die Dokumentenverarbeitung unabdingbar. Dokumente neigen dazu, sehr unterschiedlich auszusehen, selbst wenn sie unterscheidbare Muster haben. Sie brauchen also ein Werkzeug, mit dem Sie Dokumente zuverlässig beschriften können.

Multimodale Modelle erstellen

in weiterer Grund, warum die Verarbeitung von Dokumenten eine so attraktive Herausforderung darstellt, liegt darin, dass sie von Natur aus multimodal ist – textliche und visuelle Informationen stehen ohne weiteres zur Verfügung. Jedoch neigen grobe Lösungen für die Dokumentenverarbeitung leider dazu, nur eins der beiden Modelle zu nutzen: Bildzentrierte Ansätze beinhalten eine Menge komplexer Geschäftsregeln rund um Begrenzungsrahmen und Textplatzierung, um die erforderlichen Informationen zu erhalten. Sie verlassen sich meist auf Vorlagen, die nicht skalierbar sind. Textzentrierte Ansätze basieren auf NLP-Pipelines für OCR-erfasste Texte. Wobei Textblöcke jedoch nicht mit der Domäne kompatibel sind, auf der diese Modelle ursprünglich trainiert wurden, was zu einer suboptimalen Leistung führt. Glücklicherweise können multimodale Modelle wie DocBits aus textlichen und visuellen Informationen lernen. Für ein bestimmtes Dokument werden nicht nur das Wort und das Bild selbst, sondern auch ihre Positionen eingebettet. Die Interaktionen zwischen ihnen wird dann mit Hilfe mehrerer Vortrainingsziele erlernt.
Das DocBits-Modell lernt sowohl aus textlichen als auch aus visuellen Informationen und lernt die Wechselwirkungen zwischen ihnen

Immer wieder korrigieren

Wir sind nach wie vor der Meinung, dass man selbst bei einem noch so leistungsfähigen Dokumentenverarbeitungssystem menschliches Wissen und menschliche Erfahrung zur Korrektur und Bewertung einbeziehen muss. Human-in-the-loop kann als Endkontrolle für die Ausgabe eines Modells dienen. Wir können die korrigierten Anmerkungen wiederverwenden, um das Modell weiter zu verfeinern und so den Kreislauf zu schließen.

Abschließende Anmerkungen zur Dokumentenverarbeitung mit DocBits Version 2.0

Dieser Blogbeitrag gibt einen Ausblick auf unsere Version 2.0, beschrieben nach wichtigsten Aspekten einer Dokumentenverarbeitungslösung: ein Annotationsmechanismus, ein multimodales Modell und ein Bewertungsschritt. Maschinelles Lernen wurde versprochen, um die manuelle Arbeit zu automatisieren. Aber es scheint, dass wir auf eine Mauer gestoßen sind und stattdessen begonnen haben, kreative Arbeiten zu automatisieren. Meiner Meinung nach haben wir die Suche nach Patentlösungen optimiert: Man füttert ein großes Modell mit Eingaben und erhält die gewünschte Ausgabe. Manuelle Arbeit, wie die Verarbeitung von Dokumenten, ist nicht so. Stattdessen sind sie in der Regel maßgeschneidert: Sie müssen Daten beschriften, Sie müssen alle Elemente Ihres Dokuments berücksichtigen, Sie müssen die Ausgabe Ihres Modells korrigieren – und ein großes einziges Modell reicht dafür nicht aus. Es gibt unterschiedliche Modelle, die Unterschiedliche Dinge extrahieren.

Fordern Sie uns mit Ihren Dokumenten heraus

document processing

Dokumentenverarbeitung mit DocBits Version 2.0

Bildnachweis: Header- & Beitragsbild von Freepik

Teilen: