Open Text Capture Recognition Engine (RecoStar)
Leistungsmerkmale
- Präzises Erkennen aller gängigen Arten von Handblock-und Maschinenschriften
- Optimale Leseergebnisse durch exzellente Bildvorverarbeitung
- Aus einer Vielzahl von Einzelergebnissen wird das korrekte Gesamtergebnis synthetisiert
- Verarbeitung von Formularen und Dokumenten mit unterschiedlichstem Layout - Blindfarbenformulare, Schwarz-Weiss-Vorlagen, Faximages
- Intelligente Farbfilterung und Binarisierung farbiger und grauer Dokumente
- Eweiterte Binärbildverarbeitung Advanced Imaging (ADI) : Behandlung von Linien, dotshading und Inversdruck.
- Lesen von Barcodes
- Spezielle Klassifikatoren ermöglichen einen weltweiten Einsatz
- Verarbeitung unterschiedlichster Formulartypen im Stapel - ohne manuelles Vorsortieren
- Automatisches Finden und Lesen von Feldern dank Suchstrings
- Zusätzliche Verbesserung der Leseergebnisse durch kunden-spezifische Lexika
- Text Layout Analyse (TLA) zur Textblockbildung und Textblockausgabe
- Komfortable Schnittstellen für die Integration
- Skalierbarkeit entsprechend dem erforderlichen Belegdurchsatz
- Tools für die Definition der Formularerkennung, für den Test und die Ergebnisbetrachtung von Erkennungsprojekten
- Umfangreiche Dokumentation mit Programmierbeispielen für die Integration von Open Text Capture Recognition Engine in verschiedene System-umgebungen
- Ein exzellentes Preis-/Leistungsverhältnis
Voting, Klassifikatoren, Barcode
Die durch die parallele Nutzung der integrierten Erkenner gewonnenen Erkennungsresulate werden durch ein Voting optimiert. Die Kombination der verschiedenen Erkennungsverfahren und der intelligente Abgleich der einzelnen Zwischenergebnisse führt zu einer exellenten Leseleistung mit einer konkurenzlosen Genauigkeit (äußerst niedrige Fehlerrate).

Beispiel für das Votingverfahren
Lesen Sie zu diesem Thema auch unser Whitepaper "Improving OCR & ICR Accuracy Through Expert Voting".
Advanced Forms Handling (AFH)
Unter dieser Bezeichnung werden die Leistungsmerkmale : Koordinatensysteme, Vermessungsmarken, Stringsuche, Objektsuche, Lesen aus Boxen und LineRemoval im RecoStar zu einer Option zusammengefasst.
Koordinatensystem
Ein Meßreferenzsystem ist ein x-, y- Koordinatensystem, das ein Dokument überspannt. Recostar bietet vier Funktionen für ein Image,- Dokument,- Vermessungsystem und die relative Positionierung zu einer anderen Lesezone. Die Funktionen versuchen auf Grund der im Bild liegenden Informatinen ein optimales Koordinatensystem für die referierenden Lesebereiche / Images zu finden.
Vermessungsmarken
Die auf dem Dokument (Winkel, Rechtecke) gedruckten geometrischen Objekte werden erkannt. Sie dienen ausschließlich als Meßobjekte und definieren das Meßreferenzsystem.
Linenentfernung
Bei Aktivierung der Funktionalität "Lesen von Dokumentfeldern" wird die Linienentfernung automatisch aktiviert.
Lesen aus Boxen
Boxen auf Formularen und Dokumenten haben normalerweise eine Kastenstruktur, die eine Person dazu anleitet, Zeichen oder Markierungen in diesen Boxen auszufüllen. Die Aufgabe für den Leseprozeß ist, diese Kastenstruktur im tatsächlichen Leseprozeß zu ignorieren und die Inhalte aus diesen Boxen zu extrahieren oder zu überprüfen. RecoStar bietet diese Funktionalität für einzelne und verschachtelte Boxen.
Formulardrehung
Nach der In Formulartypbestimmung kann das Formular in 90Grad Schritten gedreht und neu verarbeitet werden, ohne daß die Formularelemente mehrfach definiert werden müssen.Damit können in derselben Applikation gedrehte und nichtgedrehte Formulare mit minimalem Aufwand verarbeiten.
Advanced Imaging (ADI) Binärbildverarbeitung
RecoStar
Professional beinhaltet eine integrierte Bildvorverarbeitung
mit
Farbfilterung und einer intelligenten Binarisierung von Grau-Images.
Damit können
Dokumente, die in Farbe oder als Graubild gescannt
wurden, direkt der Zeichenerkennung zugeführt werden.
Eine effiziente und intelligente Imagevorverarbeitung wirkt sich stark performancefördernd auf die Leseleistung der Engine aus.
Bisher wurden von Open Text Capture Recognition Engine die bekannten Funktionen der
Binärbildverarbeitung, wie z. B. Linienentfernung
oder Schmutzeliminierung für Formularanwendungen optimiert. Für
die Vorbereitung von Business Dokumenten (Geschäftsbriefe, Rechnungen,
Lieferscheine etc.), wie diese z.B. bei der Automatisierung der Eingangspost
eines Betriebes zu Erfassen sind, bedarf es zuverlässiger Lesequalität
und geringer Erkennungszeit.
Ab der Version 2.6 sind Binärbildbearbeitungsfunktionen
zur Elimination von "dot shading" , zur Behandlung von Inversdruck und
komplexen Linenesystemen und zur Löschung von Lochungen verfügbar.
Unter der Bezeichnung "Advanced Imaging (ADI)" werden
diese neuen Leistungsmerkmale mit der Funktion zur Farb- und Graubildverarbeitung
zu einer Option zusammengefasst.
Das neue Leistungsmerkmal „Text Layout Analyse" ist
ein weiteres Bestandteil der Option Advanced Imaging (ADI). Dabei
wird Text in Business Dokumenten wie Rechnungen, Bestellungen, Lieferscheinen,
etc. analysiert, gegliedert und die gelesenen Worte zu Textblöcken
und -Zeilen zusammengefasst und ausgegeben.
Die Binärbildbearbeitungsfunktionen von denen nachfolgend einige
aufgeführt sind, wurden ab der Version 2.6 als Bestandteil der
Option Advanced
Imaging (ADI) zur Verfügung gestellt.
Zu Beginn der Binärbildverarbeitung
wird das Image so aufbereitet, dass der
sich daran anschließende
Verarbeitungsschritt möglichst ohne störende
Konturen erfolgen
kann.
Störende Konturen können durch durch graphische Elemente,
Verschmutzungen, Dotshading, Invertbereiche usw. auftreten und werden
für den nachfolgenden Verarbeitungsschritt aufbereitet.
Dazu gehören u.a die Bearbeitungsfunktionen:
- Remove Shading erkennt
Bereiche die z.B. zur Hervorhebung mit feinen Rauschelementen
bedruckt wurden und säubert diese.

Beseitigung von Rauschen
- GraphicLines Linien, auch leicht zerfallene
oder mit angrenzenden Objekten verklebte, werden rotationsunabhängig
als logische Objekte erkannt und mit Zeichenrekonstruktion aus
dem Bild gelöscht.
Dabei können sogar kleine Stücke - sofern sie als Teile
von Boxen erkennbar sind - erfolgreich behandelt werden. Wenn
Boxlinien aus einem grafischen Objekt „Box“, entfernt
wurden, liefert das Lesen als Leseergebnis einen Textblock.


Boxanalyse

Schräglagenkorrektur, Linienbefreiung mit Zeichenrekonstruktion, Layoutwiedergabe bei inhomogenen Zeilen.
- InversPrint erlaubt
die intelligente Behandlung von inversem Text und Boxen

Behandlung von inversem Text und Boxen
- BarCode Finden,Lesen und Löschen des Barcodes im Image.
- Punching Beseitigt die Ausprägung einer Lochung in 2- oder 4-facher Bügelausführung und die in den USA genutzte 3-fache Bügellochung.
- PaperArea falls vorhanden wird ein schwarzer Rand entfernt und die Schräglage ermittelt.
Farbfilterung und Graubildverarbeitung
Das Leistungsmerkmal integrierte Bildvorverarbeitung für Grau- und Farb-Images wird in der Option Advanced Imaging (ADI) angeboten. Die einzelnen Arbeitsschritte dieser Bildvorverarbeitung unterteilen sich in Farbfilterung, Graubildverbesserung und Binarisierung. Zu den dabei unterstützeten Standardformaten zählen:
- TIFF unkomprimiert, FAX, JPEG
- JFIF
- BMP
- PCX binär
- BO (RecoStar)

Neben Standardverfahren zur Graubildextraktion können durch die digitale Farbfilterung auch optische Filter ersetzt werden. Mehrere farbige Hintergründe, die in einem Dokument auftreten, können dabei mit einem Digitalfilter eliminiert werden. Die digitale Farbfilterung wird anwendungsspezifisch über ein DesignTool definiert. Die bei der digitalen Farbfilterung erzeugten Graubilder werden weiter verarbeitet und für die Zeichenerkennung optimiert.
Die von Open Text Document Technologies eingesetzte Binarisierung der Graubilder ist für die Zeichenerkennung optimiert. Hier unterscheiden wir uns von den üblichen Binarisierungsverfahren, die für die Verarbeitung von Fotos und ähnlichen Bildern optimiert sind. Durch geschickte Umgebungsbetrachtungen und eine dynamische Schwellwertbestimmung gelingt es den Algorithmen, auch bei einem unruhigen Hintergrund den eigentlichen Nutztext zu finden und der Zeichenerkennung zur Verfügung zu stellen.
Beispiel für die Erkennung von Farbimages
Text Layout Analyse (TLA)
Dieses Leistungsmerkmal
steht im Produkt Open Text Capture Recognition Engine ab der Version
2.6 als Bestandteil der Option Advanced Imaging (ADI) zur Verfügung.
In der Text Layout Analyse werden gelesene Daten aufgrund ihrer jeweiligen

Zusammenfassung von Textblöcken und -zeilen

International
Deutsch
Française
Italiano
USA