Open Text Capture Document Reader (DOKuStar)
Klassifikation digitaler Dokumente - Datenextraktion
Quicklinks
Open Text Capture Document Reader (DOKuStar) Open Text Capture Document Extraction (DOKuStar) Open Text Capure Document Validation (DOKuStar) Adaptive Classification Technology Adaptive Read Technology Document Technologies for SharePoint®Open Text Capture Document Reader ist eine Dokumentenanalyse-Software, die unbedient digitale Dokumente klassifiziert, Daten extrahiert und strukturierte Daten abliefert (z.B. TIFF->XML).
Die zentralen Verarbeitungsmodule im Document Reader sind Document Extraction, Adaptive Read Technology (ART) und Adaptive Classification Technology (ACT).
Open Text Capture Document Reader arbeitet mit konfigurierbaren Verarbeitungsketten, sogenannten Pipelines. In einer Verarbeitungskette durchläuft ein Dokument nacheinander verschiedene Module. Aus Sicht des aufrufenden Systems stellt sich der Document Reader als eine Komponente (Subsystem) dar.
Open Text Capture Document Reader bietet gegenüber dem bewährten Open Text Capture Document Extraction wesentliche Erweiterungen:
- Neben der regelbasierten Klassifikation und Datenextraktion bietet Open Text Capture Document Reader ein lernendes Verfahren, Adaptive Read Technology (ART). Ein patentiertes Verfahren, bei dem der Anwender auf beispielhaften Dokumenten dem System mit der Maus zeigt, wo sich die gesuchte Information befindet. Danach findet ART diese Information auch auf ähnlichen Dokumenten. Das neue Verfahren erleichtert damit die Systemoptimierung entscheidend und erhöht die Erkennungsleistung in den Anwendungen deutlich.
- Die regelbasierte Klassifikation im Document Reader kann durch das selbstlernende Verfahren, Adaptive Classification Technology (ACT), ergänzt werden. Das ACT Modul ermöglicht eine automatische, inhaltsbasierte Klassifikation von unstrukturierten Dokumenten. Durch einfaches Trainieren von Beispieldokumenten und einer effizienten Konfliktlösung im integrierten Analysetool wird die Klassifikationsleistung deutlich gesteigert.
- PDF als Input-Quelle: Adobes "Portable Document Format" wird im Dokumentenumfeld immer wichtiger. Mit PDF/A liegt nun ein Standard vor, der Anwendern die Sicherheit gibt, archivierte PDF-Dokumente auch in der Zukunft anzeigen zu können. PDF wird damit zu einer vollwertigen Alternative zu TIFF bei der Archivierung gescannter Dokumente.
- Open Text Capture Document Reader verarbeitet mehrseitige Dokumente. Auch komplexe Dokumentenstrukturen mit Sub-Dokumenten werden von der Software unterstützt. Damit lassen sich auch sehr anspruchsvolle Posteingangslösungen schnell abbilden.
- Über verschiedene Programmierschnittstellen können die Erkennungsfunktionen schnell an spezifische Projektanforderungen angepasst werden. Gerade anspruchsvolle Projekte und Anwender lassen sich mit einem System von der Stange nicht bedienen. Zugriffe auf Unternehmensdatenbanken oder Ablaufsteuerungen, die von den Inhalten eines Dokuments abhängen, lassen sich über .Net- oder COM-Schnittstellen realisieren.
- Die Lastverteilung über ein Server-Cluster sorgt dafür, dass Open Text Capture Document Reader stets die vorhandene Rechenleistung nutzt. Die Server-Schnittstelle ist genau so einfach zu benutzen, wie die Schnittstelle der Erkennungssoftware selbst. Damit lässt sich Open Text Capture Document Reader direkt in beliebige Enterprise-Anwendungen einhängen.
Verwandte Dokumente
Open Text Capture Document Reader Brochure (English - PDF)

International
Deutsch
Française
Italiano
USA