Dokumentenverarbeitung mit DocBits Version 2.0

1. November 2022
| Daniel Jordan

Dokumentenverarbeitung mit DocBits Version 2.0

Die Extraktion von Informationen aus PDFs und gescannten Dokumenten ist vielleicht nicht die interessanteste oder herausforderndste Thematik des Jahrhunderts. Es gibt einem nicht die Möglichkeit einen Roboter zu steuern, virtuelle Spiele zu spielen oder seine Kreativität auszuleben. Stattdessen ist es reine Fleißarbeit, etwas, das die “KI” zu automatisieren versprochen hat, jedoch bisher nicht erreicht hat. Nichtsdestotrotz stellt die Dokumentenverarbeitung, also die Umwandlung analoger Daten in ein digitales Format, eine subtile Herausforderung dar – eine Aufgabenstellung, die so einfach und doch so schwer zu lösen ist.

Dokumentenverarbeitung mit DocBits Version 2.0, die Umwandlung analoger Daten in ein digitales Format – eine so einfache und doch schwer zu lösende Aufgabe.

Nach Abschluss verschiedener Projekte wurde uns bei Polydocs klar, dass die Verarbeitung von Dokumenten allgegenwärtig ist – von Unternehmen bis zu Nichtregierungsorganisationen, von kleinen Betrieben bis zu Großkonzernen – es gibt immer ein PDF, das digitalisiert werden muss! Die Verarbeitung von Dokumenten ist demnach also nicht nur schwierig, sondern vielleicht auch dringend notwendig. In diesem Blogbeitrag wird ein Rahmen für die Entwicklung von Dokumentenverarbeitungslösungen beschrieben und woran wir für DocBits Version 2.0 arbeiten.

Die Dokumentenverarbeitung mit DocBits Version 2.0 basiert auf drei Prinzipien:

Anmerkungen sind das A und O: Es gibt kein Patentrezept. Selbst wenn Sie ein gutes Modell haben, müssen Sie immer noch eine Feinabstimmung mit Ihren Daten vornehmen. Idealerweise sollten Sie ein Annotationswerkzeug mit eingebauter Feinabstimmung haben oder flexibel genug sein, um diesen Mechanismus zu integrieren.

Erstellen von multimodalen Modellen: Wir verlassen uns bei der Analyse eines Dokuments nicht nur auf den Text. Stattdessen übernehmen wir alle Informationen (Position, Textgröße usw.) als Kontext, um diese als Merkmale nutzen zu können. Eine reine OCR (optische Zeichenerkennung) oder ein rein textbasierter Ansatz sind suboptimal, um diese Aufgabe zu lösen.

Immer korrigieren: OCR– und Dokumentenlayoutmodelle sind nicht immer perfekt, daher ist es wichtig, dass der Mensch die Ergebnisse des Systems korrigiert. Sie können die Korrektur verwenden, um Ihr Modell neu zu trainieren oder als vorletzten Schritt vor dem Speichern der Ergebnisse in einer Datenbank.

Formularverständnis

In DocBits haben wir alle oben genannten Grundsätze berücksichtigt. Das Diagramm, beschreibt den typischen Dokumentenverarbeitungsworkflow:

Anmerkungen sind das A und O

Beschriftungen sind bei jeder Lösung für die Dokumentenverarbeitung unabdingbar. Dokumente neigen dazu, sehr unterschiedlich auszusehen, selbst wenn sie unterscheidbare Muster haben. Sie brauchen also ein Werkzeug, mit dem Sie Dokumente zuverlässig beschriften können.

Multimodale Modelle erstellen

in weiterer Grund, warum die Verarbeitung von Dokumenten eine so attraktive Herausforderung darstellt, liegt darin, dass sie von Natur aus multimodal ist – textliche und visuelle Informationen stehen ohne weiteres zur Verfügung. Jedoch neigen grobe Lösungen für die Dokumentenverarbeitung leider dazu, nur eins der beiden Modelle zu nutzen: Bildzentrierte Ansätze beinhalten eine Menge komplexer Geschäftsregeln rund um Begrenzungsrahmen und Textplatzierung, um die erforderlichen Informationen zu erhalten. Sie verlassen sich meist auf Vorlagen, die nicht skalierbar sind. Textzentrierte Ansätze basieren auf NLP-Pipelines für OCR-erfasste Texte. Wobei Textblöcke jedoch nicht mit der Domäne kompatibel sind, auf der diese Modelle ursprünglich trainiert wurden, was zu einer suboptimalen Leistung führt. Glücklicherweise können multimodale Modelle wie DocBits aus textlichen und visuellen Informationen lernen. Für ein bestimmtes Dokument werden nicht nur das Wort und das Bild selbst, sondern auch ihre Positionen eingebettet. Die Interaktionen zwischen ihnen wird dann mit Hilfe mehrerer Vortrainingsziele erlernt.

Das DocBits-Modell lernt sowohl aus textlichen als auch aus visuellen Informationen und lernt die Wechselwirkungen zwischen ihnen

Immer wieder korrigieren

Wir sind nach wie vor der Meinung, dass man selbst bei einem noch so leistungsfähigen Dokumentenverarbeitungssystem menschliches Wissen und menschliche Erfahrung zur Korrektur und Bewertung einbeziehen muss. Human-in-the-loop kann als Endkontrolle für die Ausgabe eines Modells dienen. Wir können die korrigierten Anmerkungen wiederverwenden, um das Modell weiter zu verfeinern und so den Kreislauf zu schließen.

Abschließende Anmerkungen zur Dokumentenverarbeitung mit DocBits Version 2.0

Dieser Blogbeitrag gibt einen Ausblick auf unsere Version 2.0, beschrieben nach wichtigsten Aspekten einer Dokumentenverarbeitungslösung: ein Annotationsmechanismus, ein multimodales Modell und ein Bewertungsschritt. Maschinelles Lernen wurde versprochen, um die manuelle Arbeit zu automatisieren. Aber es scheint, dass wir auf eine Mauer gestoßen sind und stattdessen begonnen haben, kreative Arbeiten zu automatisieren. Meiner Meinung nach haben wir die Suche nach Patentlösungen optimiert: Man füttert ein großes Modell mit Eingaben und erhält die gewünschte Ausgabe. Manuelle Arbeit, wie die Verarbeitung von Dokumenten, ist nicht so. Stattdessen sind sie in der Regel maßgeschneidert: Sie müssen Daten beschriften, Sie müssen alle Elemente Ihres Dokuments berücksichtigen, Sie müssen die Ausgabe Ihres Modells korrigieren – und ein großes einziges Modell reicht dafür nicht aus. Es gibt unterschiedliche Modelle, die Unterschiedliche Dinge extrahieren.

Fordern Sie uns mit Ihren Dokumenten heraus

Dokumentenverarbeitung mit DocBits Version 2.0

Bildnachweis: Header- & Beitragsbild von Freepik

PO-Matching

Bewältigung von Herausforderungen beim PO-Abgleich mit DocBits

März 12, 2024März 25, 2024

In der komplizierten Welt des Bestellungsabgleichs (PO) ist die effiziente und genaue Bewältigung von Herausforderungen entscheidend für die finanzielle Gesundheit eines jeden Unternehmens. Diese Fallstudie zeigt, wie DocBits, eine innovative ...

Software

Februar 20, 2024Januar 30, 2024

In der dynamischen Welt des Unternehmertums ist Zeit bekanntlich Geld, und die richtige Technologie kann den Unterschied zwischen einem florierenden Unternehmen und ineffizienten Abläufen ausmachen.

DocBits

Transformation der Kreditorenbuchhaltung

Februar 15, 2024Februar 15, 2024

Im Bereich der Finanzoperationen sind die Effizienz und Genauigkeit der Kreditorenbuchhaltung (Accounts Payable, AP) entscheidend für die Gesundheit und den Erfolg eines jeden Unternehmens.

PO-Matching

Beherrschen des PO-Abgleichs mit DocBits für Infor ERP

Februar 6, 2024Februar 6, 2024

Um die Feinheiten des Dokumentenmanagements von Infor ERP zu beherrschen, ist ein präzises und effizientes Tool erforderlich. Hier kommt DocBits ins Spiel - ein Leuchtturm der Innovation im Bereich der ...

Automatisierung

Januar 30, 2024Januar 29, 2024

In der sich ständig wandelnden Geschäftswelt ist Effizienz der Schlüssel zum Erfolg. Unternehmen suchen nach innovativen Lösungen, um ihre Prozesse zu optimieren und ihre Produktivität zu steigern.

Künstliche Intelligenz

KI: Der Game-Changer für Infor ERP-Dokumente

Januar 23, 2024Januar 23, 2024

Der Einzug der künstlichen Intelligenz (KI) verändert die Welt der Enterprise Resource Planning (ERP)-Systeme. Ein Beweis für diese Entwicklung ist die Integration von KI in das Dokumentenmanagement von Infor ERP.

Dokumentenverarbeitung mit DocBits Version 2.0

Dokumentenverarbeitung mit DocBits Version 2.0, die Umwandlung analoger Daten in ein digitales Format – eine so einfache und doch schwer zu lösende Aufgabe.

Die Dokumentenverarbeitung mit DocBits Version 2.0 basiert auf drei Prinzipien:

Formularverständnis

Anmerkungen sind das A und O

Multimodale Modelle erstellen

Immer wieder korrigieren

Abschließende Anmerkungen zur Dokumentenverarbeitung mit DocBits Version 2.0

Fordern Sie uns mit Ihren Dokumenten heraus

Dokumentenverarbeitung mit DocBits Version 2.0

Neueste Beiträge

Kontakt