Texterkennung

Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OCR von englisch Optical Character Recognition, selten auch: OZE) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.

Automatische Texterkennung und OCR werden im deutschen Sprachraum oft synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildschnipsel als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcken von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Diese OCR Ergebnisse können durch nachfolgende Verfahren, in der der Kontext berücksichtigt wird, präzisiert werden.

Ursprünglich wurden zur automatischen Texterkennung eigens entworfene Schriftarten entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart OCR-A (DIN 66008, ISO 1073-1) durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. OCR-B (ISO 1073-2) ähnelt mehr einer serifenlosen, nicht-proportionalen Schriftart, während OCR-H (DIN 66225) handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde.

Die gestiegene Leistungsfähigkeit moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von „normalen“ Druckerschriftarten bis hin zu Handschriften (z.B. bei der Briefverteilung), wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden technologisch einfacher handhabbare Strichcodes genutzt.

Moderne Texterkennung umfasst auch die Erkennung verschiedener Schriftarten und -größen und des Seitenlayouts zur möglichst originalgetreuen Wiedergabe einer Vorlage.

Verfahren

Ausgangspunkt ist eine Bilddatei (Rastergrafik), die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird. Die Texterkennung selbst erfolgt dreistufig:

1. Seiten- und Layouterkennung:

Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt.

2. Mustererkennung:

Fehlerkorrektur Pixelebene: Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixel korrigiert werden. Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage.
Mustervergleich Mapping: Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen und Rohdigitalisate erzeugt.
Fehlerkorrektur Zeichenebene ( ICR): Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet. In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt.
Fehlerkorrektur auf Wortebene ( IWR): Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, werden anhand globaler Charakteristiken mit Wörterbüchern verglichen. Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, z.B. handgeschriebene Adressen auf Briefumschlägen.
Manuelle Fehlerkorrektur: viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Fehlerkorrektur durch den Anwender für diejenigen Textbereiche die 'unsicher' erkannt wurden.

3. Codierung in das Ausgabeformat: je nach Aufgabenstellung erfolgt die Ausgabe in eine Datenbank, oder als Textdatei in einem definiertem Format wie ASCII oder XML, gegebenenfalls auch mit Layout (z.B. als HTML oder PDF).

Die Qualität der Texterkennung bestimmen mehrere Faktoren, u.a.:

Qualität der Layouterkennung,
Umfang und Qualität der Muster-Datenbank,
Umfang und Qualität der Wörterbücher,
Qualität der Algorithmen zur Fehlerkorrektur,
Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes,
Auflösung und Qualität der Bilddatei.

Während eine reine Mustererkennung eine Fehlerfreiheit in der Größenordnung von 80 % erreicht (jedes fünfte Zeichen wird falsch erkannt), erzielen gute Programme dank leistungsfähiger Algorithmen eine Fehlerfreiheit von bis zu 99 %. Solche Algorithmen operieren auf Graustufenbildern und erkennen Buchstaben so als dreidimensionale Kurven mit charakteristischen Merkmalen.

Die Zahl der unerkannten Fehler in einem Dokument lässt sich abschätzen, siehe Rechtschreibfehler. Während Texte redundant sind und eine höhere Fehlerrate zulassen, erfordern Zahlenlisten wie z.B. Telefonnummern ein mehrmaliges Korrekturlesen.

Anwendungen

Wiedergewinnen von Textinformation aus Bilddateien, um diese mit Hilfe einer Textverarbeitung weiter zu bearbeiten und/oder elektronisch durchsuchbar zu machen
Erkennung von relevanten Merkmalen (z.B. Postleitzahl, Vertragsnummer, Rechungsnummer) zur mechanischen (Poststraße) oder elektronischen (Workflow-Management-System) Einsortierung eines Schriftstücks
Erkennung von Merkmalen zur Registrierung und ggf. Verfolgung von Gegenständen (z.B. Kfz-Kennzeichen)

Programme

Layouterkennung: Es wird ein formatiertes Dokument erstellt, das bezüglich Text-, Bild- und Tabellenanordnung möglichst 1:1 der Vorlage entspricht.

Ocrad - The GNU OCR, freies OCR, keine Layouterkennung
GOCR, freies OCR, keine Layouterkennung
SimpleOCR, Freeware, kein deutsch, keine Layouterkennung
FormPro, OCR für Formulare
RecoStar Professional, keine Demoversion, primär für Formulare
Kofax Ascent Capture, englische Seite, keine Demoversion
Readiris Pro 11, Pro-Version ab ca. 120€, Corporate Edition ab 399€, keine Demoversion
ScanSoft Omnipage, Standardversion ab ca. 95€, Pro ab 500€, keine Demoversion, Layouterkennung
ABBYY FineReader, ca. 150€, Demoversion downloadbar, Layouterkennung, russische Software die in vielen Bereichen sogar Omnipage überlegen ist. Unterstützt auch Grafiken in Textzonen (z.B. Sonderzeichen, Noten, ...) und umgekehrt (z.B. Bezeichnungen in Grafiken)

Siehe auch

Literatur

Jüngste Forschungsergebnisse am MIT (2001) (engl.)