Zum Inhalt springen

hOCR (Standard)

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 21. Dezember 2009 um 02:32 Uhr durch 87.78.22.74 (Diskussion) (Weblinks). Sie kann sich erheblich von der aktuellen Version unterscheiden.

hOCR (nicht zu verwechseln mit HOCR) ist ein offener Standard, der ein Datenformat beschreibt, das der Repräsentation von Texterkennungsergebnissen dient. Mit diesem Format lassen sich zusätzlich zum Text dessen Layout, Erkennungsgenauigkeit, Formatierungen und andere Informationen erfassen. Das Format baut auf XHTML (oder auch HTML) und damit letztlich auf ASCII-Text auf. Metadaten werden nach der Dublin-Core-Konvention zur Einbettung von Metadaten in HTML in speziellen <meta>-Tags abgespeichert.

Das Format wurde in Googles OCRopus eingeführt. Außer von OCRopus wird das Format auch von HOCR, einer auf hebräische Schrift spezialisierten Texterkennungssoftware, und von CuneiForm eingesetzt.

Die hocr-tools sind ein Paket von Werkzeugen zur Verarbeitung (Zusammenfügen, Aufteilen, Einfügen von Metadaten) und Analyse von hOCR-Daten. Mit hocr2pdf[1] existiert ein Kommandozeilenwerkzeug zur Konvertierung von hOCR-Daten in PDF-Dateien.

Einzelnachweise

  1. exactcode.de/site/open_source/exactimage/hocr2pdf