Open Text Corporation

Open Text Capture Document Extraction (DOKuStar)

Information - Extraktion - Dokumententyp - Dokumentklasse

Open Text Capture Document Extraction verarbeitet einen gemischten Stapel von gescannten Dokumenten. Dabei ist es egal, ob es sich um einen Stapel von Formularen, einen Stapel ein- oder mehrseitiger Rechnungen oder um komplette Vorgangsakten handelt, die aus einer Vielzahl von Dokumenten besteht. Open Text Capture Document Extraction klassifiziert die einzelnen Seiten, fasst Seiten zu Dokumenten und Akten zusammen und extrahiert von jedem Dokument die benötigten Daten.

Mit der "Option Invoice" kann Open Text Capture Document Extraction beliebige Handelsrechnungen verarbeiten und verfügt damit über eine Wissensbasis für die Erkennung der Daten, die aus jeder Rechnung ausgelesen werden müssen.

Die Verarbeitung geschieht in drei Schritten: Dokumentenklassifikation, Informationsextraktion und Dokumentenbildung. Es ist selbstverständlich möglich, die Schritte auch unabhängig voneinander ablaufen zu lassen.

Open Text Capture Document Extraction besteht aus zwei Elementen. Das Design Studio ist das Werkzeug für den Systemadministrator. Er definiert damit ein Projekt, in dem festgelegt wird, welche Dokumentenklassen unterschieden werden sollen, welche Informationen je Dokumentenklasse extrahiert werden sollen und wie sich die einzelnen Seiten zu Dokumenten zusammensetzen.

Open Text Capture Document Extraction Engine verarbeitet die einzelnen Dokumentenstapel. Erst wird eine Projektdatei geladen und dann wird Image für Image bearbeitet. Die Klassifikationsergebnisse und die extrahierten Informationen werden in einer XML-Datei abgelegt. Die Document Extraction Engine besitzt eine Programmierschnittstelle über die sie in andere Systeme oder Fachanwendungen eingebunden wird. Sie arbeitet in der Regel ohne Überwachung durch einen Benutzer auf einem Server.

Zur Informationsextraktion bietet Document Extraction Feldtypen an. Es sind die gleichen, die auch als Merkmale für die Dokumentenklassifikation dienen. Für die häufigen Datentypen wie Beträge, Adressen, Datumsangaben gibt es spezialisierte Feldtypen. Anwendungsspezifische Datentypen können mit dem Feldtyp "Regular Expression" modelliert werden.

Um mehrere gleiche Informationen auf einem Dokument auseinander zu halten, können Schlüsselworte und Phrasen benutzt werden, die dann durch den Key-Value-Feldtyp mit dem eigentlichen Datentyp verknüpft werden.

Design Studio

Das Design Studio ist der Arbeitsplatz des Administrators. Hier werden Dokumentenklassen, Dokumententypen und die zu extrahierenden Informationen, wie Index- oder Datenfelder definiert. Dazu werden die Regeln erstellt, wie diese Informationen auf den Dokumenten zu finden sind.

Ab der Version 3.8 wartet das Design Studio mit einer Vielzahl von Neuerungen und Verbesserungen gegenüber den Vorgängerversionen auf. Dazu wurde das Design Studio mit einer neuen Oberfläche ausgestattet. Die Setup-, Input und Result-Views werden nun unabhängig gehalten; die Auswahl einer Gruppe von Feldern ermöglicht das gemeinsame Ändern von Parametern.Der momentane Zustand des Design Studios kann gespeichert werden und ermöglicht das nahtlose Fortsetzen der Arbeit nach einem Neuststart.Statistiken und Monitore helfen bei der Optimierung der Erkennungsaufgabe.

Jede erstellte Regel kann sofort getestet werden. Das Feedback über den Erfolg oder Misserfolg einer Regel führt schnell zu höchsten Erkennungsraten.

Option "Klassifikation"

Die Klassifikation legt für jede zu verarbeitende Seite fest, welcher Dokumentenklasse sie angehören soll. Eine Klasse wird dabei durch die Anwendung definiert. In einem Handelsunternehmen können dies zum Beispiel die Klassen "Rechnung", "Lieferschein", "Bestellung", "Gutschrift" und "Sonstiges" sein.

Um ein zunächst unbekanntes Dokument zu klassifizieren, sucht Document Extraction auf dem Dokument nach bestimmten, vom Administrator festgelegten Merkmalen. In der Regel sind dies bestimmte Schlüsselwörter oder Phrasen. Document Extraction unterstützt mit seinem Feldtypenkonzept eine Vielzahl unterschiedlicher Merkmale. Die Merkmale können mit logischen Operationen verknüpft werden.Auch subtile Unterscheidungen können damit sicher und nachvollziehbar getroffen werden.

Neben den Dokumentenklassen gibt es Dokumententypen. Sie sind eine feinere Unterscheidung in der z.B. Rechnungen nach Lieferanten unterschieden werden können. Diese feinere Unterscheidung, kann genutzt werden, um die Erkennungsrate des Systems zu optimieren.

Option "Fachanwendung"

Zur automatischen Verarbeitung von Dokumenten reicht die Klassifikation nicht aus. Es müssen auch Informationen von den Dokumenten extrahiert werden. Dienen diese Informationen lediglich dazu, das Dokument in einem Archiv wiederzufinden, spricht man von Indizierung. Wandern die Informationen in eine Fachanwendung und werden dort zur weiteren Verarbeitung benutzt, spricht man von Datenerfassung. Technisch sind beide Prozesse identisch und in Document Extraction werden diese Anwendungsfälle nicht unterschieden.

Verwandte Dokumente

English Open Text Capture Document Extraction Brochure (English - PDF)