Open Text Corporation
ÜberblickBeschreibungVorteileFeaturesScreenshots 

Beschreibung

Warum Open Text Capture Full Page Reader (RecoStar)?

Extraktion von Text aus Bildern

Gescannte Dokumente und Faxe sind zunächst nur eine Ansammlung von Pixeln mit meist kryptischen Namen – Informationen, mit denen der Adressat nicht arbeiten kann. Um gezielt nach diesen Dokumenten zu suchen und Informationen in ihnen zu finden, muss der Text zunächst mit einer Zeichenerkennung (OCR) vollständig wiederhergestellt werden. Genau das leistet Open Text Capture Full Page Reader (RecoStar).

Der Full Page Reader wird überall dort eingesetzt, wo große Dokumentmengen produziert werden, z. B. beim Scannen, oder wo diese gespeichert werden, sei es in Dokumentenarchiven oder Dokumentenmanagement-Systemen. Die von der Software erzeugten Textdaten werden dabei entweder als Index zu einem Dokument abgelegt oder direkt in das Dokument integriert, z. B. als ein PDF.

Eine optionale Erweiterung bietet der Full Page Reader für eine weiterführende Dokumentenklassifikation und Dokumentenanalyse, z. B. für die automatisierte Posteingangs- oder Rechnungseingangsbearbeitung: So kann er die Geometriedaten der einzelnen Zeichen, deren Glaubwürdigkeit und ihre eventuellen Alternativen ausgeben.

Wie arbeitet Open Text Capture Full Page Reader (RecoStar)?

Die Software wandelt gescannte Dokumente je nach Einstellung in ein durchsuchbares PDF (Searchable PDF) oder reinen Text (XML-Format, ASCII-Text) um. Dabei werden die wichtigsten Bitmap-Formate verarbeitet: FAX, TIFF, JPG, BMP, GIF und PDF.

Bei der inhaltlichen Bearbeitung wird jede Seite eines Dokuments zunächst auf Textbereiche und Bilder oder Grafiken untersucht. Anschließend werden die Textpassagen in Paragrafen, Zeilen, Worte und Zeichen zerlegt, mit der integrierten optischen Zeichenerkennung gewandelt und mit verschiedenen semantischen Techniken geprüft und verbessert. Als Ergebnis steht der textuelle Inhalt des Dokuments zur weiteren Verarbeitung zur Verfügung.