Texterkennung
Texterkennung ist ein Verfahren, in welchem ein Rechner versucht, aus Bilddateien den ursprünglichen Text, möglichst unter Beibehaltung der Formatierung, zu extrahieren.
Anwendung
Die Texterkennung wird beispielsweise dazu verwendet, in größeren Unternehmen den gesamten Posteingang zu Scannen und den Mitarbeitern den Text in weiterbearbeitbarer Form elektronisch zur Verfügung zu stellen (siehe auch Unified Messaging). Die hierbei entstehenden Bilddateien sind Ausgangsmaterial für die Texterkennung.
Ferner können Faxe von Faxservern gleich elektronisch empfangen werden (also ohne die Faxe auszudrucken). Hierbei entstehen ebenfalls Bilddateien.
Verfahren
Die Bilddateien werden nun der Texterkennungs- bzw. englisch OCR-Software (Original Character Recognizing) zugeführt. Diese vergleicht die in der Datei auftretenden Pixelmuster mit Mustern in einer Datenbank und gibt anschließend den Text in eine Textdatei aus.
Schwierigkeiten
Eine Bilddatei ist für eine Rechenanlage etwas vollkommen anderes als eine Textdatei. Bei der Texterkennung gelingt es daher meist nicht, eine Textdatei zu generieren, die tatsächlich wie die Originalvorlage aussieht. Wie nahe das Ergebnis an das Original herankommt, hängt von mehreren Faktoren ab:
- der Qualität der eingesetzten Software
- der Qualität der zugrundeliegenden Datenbank
- dem Layout des Originaldokumentes
- der Farbtiefe des Originales
- der im Original verwendeten Schriftart
- der Auflösung des Scans
Bezugsmöglichkeiten
Im professionellen Umfeld hat man eine Anzahl (teilweise hochpreisiger) Anbieter zur Auswahl. Im Privatbereich liegen oft den Scannern bereits entsprechende Softwarepakete bei. Die Ergebnisse sind jedoch dementsprechend nicht so gut, so dass man den gewonnenen Text oft mühsam nachbearbeiten muss. Geübte Schreiber sind beim Abtippen des Textes oft schneller.
Siehe auch Spracherkennung, Iriserkennung