„Texterkennung“ – Versionsunterschied
[ungesichtete Version] | [gesichtete Version] |
K →Verfahren: Linkfix |
Keine Bearbeitungszusammenfassung |
||
(434 dazwischenliegende Versionen von mehr als 100 Benutzern, die nicht angezeigt werden) | |||
Zeile 1: | Zeile 1: | ||
[[Datei:Beispiel Texterkennung.png|mini|Beispiel einer fehlerhaften automatischen Texterkennung. Aktuelle OCR-Software erkennt diesen Text fehlerfrei.]] |
|||
'''Texterkennung''' oder auch '''Optische Zeichenerkennung''' (Abkürzung ''[[Optical Character Recognition (OCR)|OCR]]'' von englisch ''Optical Character Recognition'', selten auch: ''OZE'') ist ein Begriff aus dem [[IT]]-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage. |
|||
'''Texterkennung''' ist ein Begriff aus der [[Informationstechnik]]. Es bezeichnet die automatisierte Text- bzw. Schrifterkennung innerhalb von [[Bilddatei|Bildern]]. |
|||
Ursprünglich basierte die automatische Texterkennung auf '''optischer Zeichenerkennung''' (englisch '''optical character recognition''', Abkürzung '''OCR'''). Diese Technik wird zunehmend durch [[neuronale Netze]], die ganze Zeilen statt einzelner [[Schriftzeichen|Zeichen]] verarbeiten, abgelöst. |
|||
Automatische Texterkennung und OCR werden im deutschen Sprachraum oft synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildschnipsel als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcken von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Diese OCR Ergebnisse können durch nachfolgende [[#Verfahren|Verfahren]], in der der Kontext berücksichtigt wird, präzisiert werden. |
|||
== Grundsätzliches == |
|||
Ursprünglich wurden zur automatischen Texterkennung eigens entworfene [[Schriftart]]en entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart ''[[OCR-A]]'' (DIN 66008, ISO 1073-1) durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. ''[[OCR-B]]'' (ISO 1073-2) ähnelt mehr einer [[serife]]nlosen, [[Nicht-proportionale Schriftart|nicht-proportionalen]] Schriftart, während ''[[OCR-H]]'' (DIN 66225) handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde. |
|||
Texterkennung ist deshalb notwendig, weil optische Eingabegeräte ([[Scanner (Datenerfassung)|Scanner]] oder Digitalkameras, aber auch Faxempfänger) als Ergebnis ausschließlich [[Rastergrafik]]en liefern können, d. h. in Zeilen und Spalten angeordnete Punkte unterschiedlicher Färbung ([[Pixel]]). Texterkennung bezeichnet dabei die Aufgabe, die so dargestellten Buchstaben als solche zu erkennen, d. h. zu identifizieren und ihnen den Zahlenwert zuzuordnen, der ihnen nach üblicher Textcodierung zukommt ([[ASCII]], [[Unicode]]). Automatische Texterkennung und OCR werden im deutschen Sprachraum oft als Synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der [[Mustererkennung|Mustervergleiche]] von separierten Bildteilen als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR-Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcke von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Bei der Entscheidung, welches Zeichen vorliegt, kann über weitere [[#Verfahren|Algorithmen]] ein sprachlicher Kontext berücksichtigt werden. |
|||
Ursprünglich wurden zur automatischen Texterkennung eigens entworfene [[Schriftart]]en entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart ''[[OCR-A]]'' (DIN 66008, ISO 1073-1) durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. ''[[OCR-B]]'' (ISO 1073-2) ähnelt mehr einer [[serife]]nlosen, [[Nichtproportionale Schriftart|nicht-proportionalen]] Schriftart, während ''[[OCR-H]]'' (DIN 66225) handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde. |
|||
Die gestiegene Leistungsfähigkeit moderner [[Computer]] und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von „normalen“ Druckerschriftarten bis hin zu Handschriften (z.B. bei der Briefverteilung), wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden technologisch einfacher handhabbare [[Strichcode]]s genutzt. |
|||
Die gestiegene Leistungsfähigkeit moderner [[Computer]] und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von „normalen“ Druckerschriftarten bis hin zu [[Schreibschrift|Handschriften]] (etwa bei der Briefverteilung); wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden drucktechnisch und erkennungstechnisch einfacher handhabbare [[Strichcode]]s genutzt. |
|||
Moderne Texterkennung umfasst auch die Erkennung verschiedener Schriftarten und -größen und des Seitenlayouts zur möglichst originalgetreuen Wiedergabe einer Vorlage. |
|||
Moderne Texterkennung umfasst inzwischen mehr als reine OCR (definiert als Verfahren der automatischen Schrifterkennung<ref>[[Hans Friedrich Ebel|Hans F. Ebel]], [[Claus Bliefert]]: ''Vortragen in Naturwissenschaft, Technik und Medizin.'' 1991; 2., bearbeitete Auflage 1994, VCH, Weinheim ISBN 3-527-30047-3, S. 300.</ref>), das heißt die Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse, ''Intelligent Character Recognition (ICR)'', hinzugezogen, mit denen die eigentlichen OCR-Ergebnisse korrigiert werden können. So kann ein Zeichen, das eigentlich als „8“ erkannt wurde, zu einem „B“ korrigiert werden, wenn es innerhalb eines Wortes steht. Statt „8aum“ wird also „Baum“ erkannt, aber eine Umwandlung von „8te“, also eine alphanumerische Kombination, sollte nicht vorgenommen werden. Im Bereich industrieller Texterkennungssysteme wird daher von OCR/ICR-Systemen gesprochen. Die Grenzen des OCR-Begriffes sind jedoch fließend, denn OCR und ICR dienen auch als Marketingbegriffe, um technische Weiterentwicklungen besser vermarkten zu können. Auch [[Intelligent Word Recognition]] (IWR) fällt unter diese Kategorie. Dieser Ansatz versucht das Problem bei der Erkennung von Fließhandschriften zu lösen, bei der die Einzelzeichen nicht eindeutig separiert und daher nicht über herkömmliche OCR-Methoden erkannt werden können. |
|||
Ein prinzipiell anderer Ansatz der Texterkennung wird bei der Handschriftenerkennung auf Touchscreens oder Eingabefeldern ([[Personal Digital Assistant|PDA]] usw.) verwendet. Hier werden vektorbasierte Muster verarbeitet, entweder ‚offline‘ als gesamtes Wort oder ‚online‘ mit zusätzlicher Analyse des Eingabeflusses (beispielsweise [[Apple]]s [[Inkwell]]). |
|||
Eine Sonderform der Texterkennung ergibt sich beispielsweise bei der automatischen Verarbeitung des Posteingangs großer Firmen. Eine Aufgabenstellung ist das Sortieren der Belege. Dafür braucht nicht immer der Inhalt analysiert zu werden, sondern es genügt manchmal schon, die groben Merkmale, etwa das charakteristische Layout von Formularen, Firmenlogos etc., zu erkennen. Die Klassifikation bestimmter Textarten erfolgt wie bei der OCR über eine [[Mustererkennung]], die sich jedoch global auf das gesamte Blatt oder definierte Stellen anstelle einzelner Buchstaben bezieht. |
|||
== Verfahren == |
== Verfahren == |
||
Ausgangspunkt ist eine Bilddatei ([[Rastergrafik]]), die von der Vorlage per [[Scanner (Datenerfassung)|Scanner]], [[Digitalfotografie]] oder [[Videokamera]] erzeugt wird. Die Texterkennung selbst erfolgt dreistufig: |
|||
=== Seiten- und Gliederungserkennung === |
|||
Ausgangspunkt ist eine Bilddatei ([[Rastergrafik]]), die von der Vorlage per [[Scanner]], [[Digitalfotografie]] oder [[Videokamera]] erzeugt wird. Die Texterkennung selbst erfolgt dreistufig: |
|||
Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt. |
|||
;'''1. Seiten- und Layouterkennung:''' |
|||
:Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt. |
|||
;'''2. Mustererkennung:''' |
|||
:;Fehlerkorrektur Pixelebene |
|||
::Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixel korrigiert werden. Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage. |
|||
:;Mustervergleich Mapping |
|||
::Die Pixelmuster der Textbereiche werden mit Mustern in einer [[Datenbank]] verglichen und Rohdigitalisate erzeugt. |
|||
:;Fehlerkorrektur Zeichenebene ([[Intelligent Character Recognition| ICR]]) |
|||
::Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet. In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt. |
|||
:;Fehlerkorrektur auf Wortebene ([[Intelligent Word Recognition (IWR)| IWR]]) |
|||
::Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, werden anhand globaler Charakteristiken mit Wörterbüchern verglichen. Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, z.B. handgeschriebene Adressen auf Briefumschlägen. |
|||
:; Manuelle Fehlerkorrektur |
|||
::viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Fehlerkorrektur durch den Anwender für diejenigen Textbereiche die 'unsicher' erkannt wurden. |
|||
;'''3. Codierung in das Ausgabeformat''' |
|||
: je nach Aufgabenstellung erfolgt die Ausgabe in eine Datenbank, oder als [[Textdatei]] in einem definiertem Format wie [[ASCII]] oder [[XML]], gegebenenfalls auch mit Layout (z.B. als [[HTML]] oder [[PDF]]). |
|||
=== Mustererkennung === |
|||
Die Qualität der Texterkennung bestimmen mehrere Faktoren, u.a.: |
|||
==== Fehlerkorrektur auf Pixelebene ==== |
|||
Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixeln korrigiert werden. Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage. |
|||
==== Mustervergleich Mapping ==== |
|||
Die Pixelmuster der Textbereiche werden mit Mustern in einer [[Datenbank]] verglichen, Rohdigitalisate werden erzeugt. |
|||
==== Fehlerkorrektur Zeichenebene (Intelligent Character Recognition, ICR) ==== |
|||
{{Hauptartikel|Intelligente Zeichenerkennung}} |
|||
Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet. In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt. |
|||
==== Fehlerkorrektur auf Wortebene (Intelligent Word Recognition, IWR) ==== |
|||
{{Siehe auch|Intelligent Word Recognition}} |
|||
Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, wird anhand globaler Charakteristiken mit Wörterbüchern verglichen. Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, zum Beispiel handgeschriebene Adressen auf Briefumschlägen. |
|||
==== Manuelle Fehlerkorrektur ==== |
|||
Viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Korrektur nicht sicher erkannter Zeichen. |
|||
=== Codierung in das Ausgabeformat === |
|||
Im einfachsten Fall wird eine [[Textdatei]] in einem definierten Format wie [[UTF-8]] erzeugt. |
|||
Je nach Aufgabenstellung kann die Ausgabe auch in eine Datenbank oder als [[PDF]]-Datei erfolgen. |
|||
Spezialisierte Ausgabeformate wie die [[Extensible Markup Language|XML]]-basierten Formate [[Analyzed Layout and Text Object|ALTO]] und [[PAGE (XML)|PAGE]] oder [[hOCR (Standard)|hOCR]], eine [[HTML]]-Variante, speichern den Text mit Layout-Information. |
|||
Die Qualität der Texterkennung bestimmen unter anderem mehrere Faktoren: |
|||
* Qualität der Layouterkennung, |
* Qualität der Layouterkennung, |
||
* Umfang und Qualität der Muster-Datenbank, |
* Umfang und Qualität der Muster-Datenbank, |
||
Zeile 36: | Zeile 55: | ||
* Auflösung und Qualität der Bilddatei. |
* Auflösung und Qualität der Bilddatei. |
||
Die Zahl der unerkannten Fehler in einem Dokument lässt sich abschätzen, siehe [[Rechtschreibfehler]]. Während Texte [[Redundanz (Informationstheorie)|Redundanzen]] enthalten und deshalb eine höhere Fehlerrate zulassen, erfordern Zahlenlisten, wie beispielsweise Telefonnummern, ein mehrmaliges Korrekturlesen. |
|||
Während eine reine Mustererkennung eine Fehlerfreiheit in der Größenordnung von 80 % erreicht (jedes fünfte Zeichen wird falsch erkannt), erzielen gute Programme dank leistungsfähiger Algorithmen eine Fehlerfreiheit von bis zu 99 %. Solche Algorithmen operieren auf Graustufenbildern und erkennen Buchstaben so als dreidimensionale Kurven mit charakteristischen Merkmalen. |
|||
== Erfolge durch neuronale Netze == |
|||
Die Zahl der unerkannten Fehler in einem Dokument lässt sich abschätzen, siehe [[Rechtschreibfehler]]. Während Texte redundant sind und eine höhere Fehlerrate zulassen, erfordern Zahlenlisten wie z.B. Telefonnummern ein mehrmaliges Korrekturlesen. |
|||
In jüngster Zeit erzielten [[künstliche neuronale Netzwerke]] bei Handschriftanwendungen oft bessere Ergebnisse als konkurrierende Lernverfahren. Zwischen 2009 und 2012 gewannen die rekurrenten bzw. tiefen vorwärtsgerichteten neuronalen Netzwerke der Forschungsgruppe von [[Jürgen Schmidhuber]] am [[IDSIA|Schweizer KI Labor IDSIA]] eine Serie von acht internationalen Wettbewerben in den Bereichen [[Mustererkennung]].<ref>[http://www.kurzweilai.net/how-bio-inspired-deep-learning-keeps-winning-competitions 2012 Kurzweil AI Interview] mit [[Jürgen Schmidhuber]] zu den acht Wettbewerben, die sein Deep Learning Team zwischen 2009 und 2012 gewann</ref> Insbesondere gewannen ihre rekurrenten [[Long short-term memory|LSTM]]-Netzwerke<ref>Graves, Alex; and Schmidhuber, Jürgen; ''Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks'', in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), ''Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC'', Neural Information Processing Systems (NIPS) Foundation, 2009, S. 545–552; ein gleichnamiges Preprint befindet sich unter: [https://people.idsia.ch/~juergen/nips2009.pdf (PDF; 808 kB)], ''people.idsia.ch''</ref><ref>A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Band 31, Nummer 5, 2009.</ref> drei Wettbewerbe zur verbundenen Handschrifterkennung bei der „2009 Intl. Conf. on Document Analysis and Recognition ([[ICDAR]])“, ohne eingebautes a priori-Wissen über die drei verschiedenen zu lernenden Sprachen. Die LSTM-Netze erlernten gleichzeitige Segmentierung und Erkennung<ref name=handwriting>[[Jürgen Schmidhuber|Schmidhuber, Jürgen]]; ''Winning Handwriting Recognition Competitions Through Deep Learning'', [https://people.idsia.ch/~juergen/handwriting.html ''people.idsia.ch'']</ref>. Dies waren auch die ersten internationalen Wettbewerbe, die durch ''Deep Learning''<ref>Bengio, Y. (2009). Learning Deep Architectures for AI. Now Publishers. {{Webarchiv |url=http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf |wayback=20140321040828 |text=''Archivierte Kopie.'' |format=PDF; 1,1 MB}} In: ''iro.umontreal.ca'' (englisch).</ref><ref name=timeline>[[Jürgen Schmidhuber|Schmidhuber, Jürgen]]; ''My First Deep Learning System of 1991 + Deep Learning Timeline 1962-2013'', [https://people.idsia.ch/~juergen/firstdeeplearner.html ''people.idsia.ch'']</ref> oder durch rekurrente Netze gewonnen wurden. |
|||
Auch tiefe vorwärtsgerichtete Netzwerke wie Kunihiko Fukushimas Konvolutionsnetz der 1980er Jahre<ref name="K. Fukushima. Neocognitron 1980">{{cite journal |author=Fukushima, K. |title=Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position |language=en |date=1980 |journal=Biological Cybernetics |volume=36 |issue=4 |pages=93–202 |doi=10.1007/BF00344251}}<!-- K. Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics, 36(4): 93-202, 1980.--></ref> sind heute wieder wichtig für Handschrifterkennung. Sie verfügen über alternierende [[Konvolution]]slagen und Lagen von Neuronen, die miteinander im Wettbewerb stehen. [[Yann LeCun]]s Team von der [[New York University]] wendete den 1989 schon gut bekannten [[backpropagation]] Algorithmus auf solche Netze an<ref name=LeCun1989>Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. ''Backpropagation Applied to Handwritten Zip Code Recognition.'' Neural Computation, 1(4):541-551, 1989. [https://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf PDF; 5,4 MB]</ref>. Moderne Varianten verwenden sogenanntes „max-pooling“ für die Wettbewerbslagen<ref name="M Riesenhuber, 1999">M. Riesenhuber, T. Poggio. Hierarchical models of object recognition in cortex. [[Nature Neuroscience]], 1999. {{Webarchiv |url=http://riesenhuberlab.neuro.georgetown.edu/docs/publications/nn99.pdf |wayback=20241009041710 |text=''Archivierte Kopie.'' |format=PDF; 275 kB |()=[]}}</ref>. Zum Abschluss krönt man das tiefe Netz durch mehrere voll vernetzte Neuronenlagen. Schnelle [[Grafikprozessor|GPU]]-Implementierungen dieser Kombination wurden 2010 durch Scherer und Kollegen eingeführt<ref name="Scherer2010">Dominik Scherer, Andreas C. Müller, and Sven Behnke: Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition. In 20th International Conference on Artificial Neural Networks (ICANN), S. 92–101, 2010. {{doi|10.1007/978-3-642-15825-4_10}}, [https://www.ais.uni-bonn.de/papers/icann2010_maxpool.pdf PDF; 295 kB]</ref>. Sie gewannen seither zahlreiche Wettbewerbe zur Erkennung von Handschrift und anderen Mustern<ref name="deeplearning">[[Jürgen Schmidhuber|J. Schmidhuber]], 2009–2013: Deep Learning since 1991: First Deep Learners to Win Contests in Pattern Recognition, Object Detection, Image Segmentation, Sequence Learning, Through Fast & Deep / Recurrent Neural Networks. www.deeplearning.it</ref>. GPU-basierte „max-pooling“ Konvolutionsnetze waren auch die ersten Verfahren, die die handgeschriebenen Ziffern des MNIST Benchmarks so gut erkennen konnten wie Menschen<ref name="C. Ciresan, U. Meier 2012">D. C. Ciresan, U. Meier, [[Jürgen Schmidhuber|J. Schmidhuber]]. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012. [https://people.idsia.ch/~juergen/cvpr2012.pdf PDF; 1,7 MB]</ref>. |
|||
Auch bei gedrucktem Text gibt es einen Trend, die klassische zeichenweise Texterkennung durch zeilenweise Texterkennung mittels neuronaler Netze zu ersetzen. Diese Technik wird beispielsweise in den Programmen [[OCRopus]], [[Tesseract (Software)|Tesseract]] (ab Version 4), PERO OCR und Loghi eingesetzt. |
|||
== Anwendungen == |
== Anwendungen == |
||
* Wiedergewinnen von Textinformation aus Bilddateien, um diese mit Hilfe einer [[Textverarbeitung]] weiter zu bearbeiten oder elektronisch durchsuchbar zu machen |
|||
* Erkennung von relevanten Merkmalen (zum Beispiel Postleitzahl, Vertragsnummer, Rechnungsnummer) zur mechanischen (Poststraße) oder elektronischen ([[Workflow-Management]]-System) Einsortierung eines Schriftstücks |
|||
* Eine erweiterte Volltextsuche in Datenbanken oder Document-Management-Systemen, um auch PDFs und Bilder durchsuchen zu können. |
|||
* Erkennung von Merkmalen zur Registrierung und gegebenenfalls Verfolgung von Gegenständen (beispielsweise [[Kfz-Kennzeichen]]) |
|||
* Layouterkennung: Es wird ein formatiertes Dokument erstellt, das der Vorlage bezüglich Text-, Bild- und Tabellenanordnung möglichst nahekommt. |
|||
* Blindenhilfsmittel: Für [[Blindheit|Blinde]] wird es durch die Texterkennung möglich, eingescannte Texte über Computer und [[Braillezeile]] zu lesen oder sich per Sprachausgabe vorlesen zu lassen. |
|||
== OCR-Software == |
|||
* Wiedergewinnen von Textinformation aus Bilddateien, um diese mit Hilfe einer [[Textverarbeitung]] weiter zu bearbeiten und/oder elektronisch durchsuchbar zu machen |
|||
=== Proprietäre Software === |
|||
* Erkennung von relevanten Merkmalen (z.B. Postleitzahl, Vertragsnummer, Rechungsnummer) zur mechanischen ([[Poststraße]]) oder elektronischen ([[Workflow#Workflow-Management-System|Workflow-Management-System]]) Einsortierung eines Schriftstücks |
|||
* Erkennung von Merkmalen zur Registrierung und ggf. Verfolgung von Gegenständen (z.B. [[Kfz-Kennzeichen]]) |
|||
* [[BIT-Alpha]] von B.I.T. Bureau Ingénieur Tomasi |
|||
== Programme == |
|||
* [[FineReader]] von [[ABBYY]] |
|||
Layouterkennung: Es wird ein formatiertes Dokument erstellt, das bezüglich Text-, Bild- und Tabellenanordnung möglichst 1:1 der Vorlage entspricht. |
|||
* [[FormPro]] von OCR Systeme |
|||
* [http://www.gnu.org/software/ocrad/ocrad.html Ocrad - The GNU OCR], freies OCR, keine Layouterkennung |
|||
* KADMOS best OCR/ICR |
|||
* [http://jocr.sourceforge.net/index.html GOCR], freies OCR, keine Layouterkennung |
|||
* Ocelus von [[Teklia]] |
|||
* [http://simpleocr.com/ SimpleOCR], Freeware, kein deutsch, keine Layouterkennung |
|||
* [[OCRKit]] für Mac OS und iOS |
|||
* [http://www.formpro.de FormPro], OCR für Formulare |
|||
* [[OmniPage]] von [[Kofax]] (früher: ScanSoft, [[Nuance Communications]]) |
|||
* [http://www.odt-oce.com/german/produkte/recostar_professional.asp RecoStar Professional], keine Demoversion, primär für Formulare |
|||
* [[Readiris]] von Image Recognition Integrated Systems Group (I. R. I. S), seit 2013 zu [[Canon]] |
|||
* [http://www.kofax.com Kofax Ascent Capture], englische Seite, keine Demoversion |
|||
* NSOCR von Nicomsoft |
|||
* [http://www.irislink.de/ Readiris Pro 11], Pro-Version ab ca. 120€, Corporate Edition ab 399€, keine Demoversion |
|||
* [https://planet-ai.com/product/recognition/ IDA Recognition] von PLANET AI |
|||
* [http://www.scansoft.de ScanSoft Omnipage], Standardversion ab ca. 95€, Pro ab 500€, keine Demoversion, Layouterkennung |
|||
* [[Screenworm]] für Mac OS von [[Funchip]] |
|||
* [http://download.abbyy.com/content/default.aspx ABBYY FineReader], ca. 150€, Demoversion downloadbar, Layouterkennung, russische Software die in vielen Bereichen sogar Omnipage überlegen ist. Unterstützt auch Grafiken in Textzonen (z.B. Sonderzeichen, Noten, ...) und umgekehrt (z.B. Bezeichnungen in Grafiken) |
|||
* [[Transkribus]] |
|||
Als Nebenfunktion in proprietärer Software: |
|||
==Siehe auch== |
|||
* Acrobat Text Capture in [[Adobe Acrobat]] von [[Adobe Inc.]] |
|||
* Corel OCR-Trace in [[CorelDRAW]] von [[Corel]] |
|||
* [[Microsoft OneNote]], seit Version 2010 |
|||
* [[Microsoft Word|Microsoft 365, Word ab Version 2013]]<ref>[https://support.microsoft.com/de-de/office/bearbeiten-einer-pdf-datei-b2d1d729-6b79-499a-bcdb-233379c2f63a Microsoft Word Supportseite]</ref> |
|||
* [[ExactScan Pro]] für Mac OS |
|||
* [[PDF-XChange Viewer]] (kostenlos, auch als portable Version verfügbar) |
|||
Cloudbasiert: |
|||
*[[Spracherkennung]] |
|||
*[[Iriserkennung]] |
|||
*[[ECM-Komponenten]] |
|||
* ABBYY Cloud OCR<ref>{{Internetquelle |url=https://ocrsdk.com/ |titel=ABBYY Cloud OCR SDK |werk=ocrsdk.com |sprache=en |abruf=2017-12-04}}</ref> |
|||
== Literatur == |
|||
* Google Cloud Vision (Beta)<ref name=":0">{{Internetquelle |url=https://cloud.google.com/vision/ |titel=Vision API – Analyse von Bildinhalten {{!}} Google Cloud Platform |sprache=de |abruf=2017-12-04}}</ref> |
|||
* Microsoft Azure Computer Vision API<ref name=":1">{{Internetquelle |url=https://azure.microsoft.com/en-us/services/cognitive-services/computer-vision/ |titel=Computer Vision API – Image Processing {{!}} Microsoft Azure |sprache=en |abruf=2017-12-04}}</ref> |
|||
* OCR.space Online OCR (proprietär, aber frei verwendbar)<ref>{{Internetquelle |url=https://ocr.space/ |titel=OCR.space Free Online OCR |werk=ocr.space |sprache=en |abruf=2019-03-15}}</ref> |
|||
* TextScan Online OCR<ref>{{Internetquelle |url=https://text-scan.com |titel=TextScan OCR |werk=text-scan.com |sprache=en |abruf=2019-10-25}}</ref> |
|||
=== Freie Software === |
|||
* [http://www.packet.cc/files/recent-development.html Jüngste Forschungsergebnisse am MIT (2001)] (engl.) |
|||
* [[eScriptorium]] (eine auf Kraken basierende Web-Applikation)<ref>{{Internetquelle |url=https://gitlab.com/scripta/escriptorium/ |titel=Scripta / eScriptorium |werk=gitlab.com |sprache=en |abruf=2022-06-30}}</ref> |
|||
* [[GT Text]] |
|||
* [[OCRopus]] (ocropy) und die davon abgeleiteten Programme Kraken und Calamari |
|||
* [[GOCR]] |
|||
* [[Loghi]]<ref>{{Internetquelle |autor=Thijs van der Veen |url=https://di.huc.knaw.nl/unique-software-to-transcribe-historical-texts-now-open-source-available-en.html |titel=Unique software to transcribe historical texts now open source available |titelerg=Digital Infrastructure |werk=di.huc.knaw.nl |hrsg=KNAW Humanities Cluster |datum=2023-04-21 |sprache=en |abruf=2023-04-26}}</ref> |
|||
* [[CuneiForm]] |
|||
* [[Ocrad]] |
|||
* [[Tesseract (Software)|Tesseract]] (mit z. B. gImageReader als grafische Benutzeroberfläche)<ref>{{Internetquelle |url=https://wiki.ubuntuusers.de/gImageReader/ |titel=gImageReader › Wiki › ubuntuusers.de |abruf=2021-05-23}}</ref> |
|||
* [[OCRFeeder]] |
|||
* [[OCRmyPDF]]<ref>{{Internetquelle |url=https://ocrmypdf.readthedocs.io/en/latest/ |titel=OCRmyPDF documentation — ocrmypdf 16.5.1.dev2+g6ca4940 documentation |werk=ocrmypdf.readthedocs.io |sprache=en |abruf=2024-10-31}}</ref> |
|||
* [[dpScreenOCR]] |
|||
* [[OCR4all]] |
|||
* [[OCR-D]] |
|||
* [[PERO OCR]]<ref>{{Internetquelle |url=https://github.com/DCGM/pero-ocr |titel=DCGM / pero-ocr |werk=github.com |sprache=en |abruf=2022-06-30}}</ref> |
|||
* [[PyLaia]]<ref>{{Internetquelle |url=https://github.com/jpuigcerver/PyLaia |autor=Joan Puigcerver, Carlos Mocholí |titel=jpuigcerver/PyLaia: A deep learning toolkit specialized for handwritten document analysis |hrsg=GitHub |datum=2018 |sprache=en |abruf=2025-01-02}}</ref> |
|||
== Einzelnachweise == |
|||
[[Kategorie:Künstliche Intelligenz]] |
|||
<references /> |
|||
[[Kategorie:Software]] |
|||
{{Normdaten|TYP=s|GND=4310936-6}} |
|||
[[cs:OCR]] |
|||
[[en:Optical character recognition]] |
|||
[[Kategorie:Künstliche Intelligenz]] |
|||
[[eo:Optika signorekono]] |
|||
[[Kategorie:Optische Zeichenerkennung| Texterkennung]] |
|||
[[es:Reconocimiento óptico de caracteres]] |
|||
[[fa:تشخیص نوری نویسهها]] |
|||
[[fi:Tekstintunnistus]] |
|||
[[fr:Reconnaissance optique de caractères]] |
|||
[[gl:Optical Character Recognition]] |
|||
[[he:זיהוי תווים אופטי]] |
|||
[[hr:Optičko prepoznavanje znakova]] |
|||
[[hu:Optikai karakterfelismerés]] |
|||
[[is:Ljóslestur]] |
|||
[[it:Optical Character Recognition]] |
|||
[[ja:光学文字認識]] |
|||
[[nl:Optical Character Recognition]] |
|||
[[pl:OCR]] |
|||
[[pt:OCR]] |
|||
[[sv:Optical character recognition]] |
|||
[[th:โอซีอาร์]] |
|||
[[tr:OCR]] |
|||
[[zh:光学字符识别]] |
Aktuelle Version vom 12. März 2025, 14:17 Uhr

Texterkennung ist ein Begriff aus der Informationstechnik. Es bezeichnet die automatisierte Text- bzw. Schrifterkennung innerhalb von Bildern.
Ursprünglich basierte die automatische Texterkennung auf optischer Zeichenerkennung (englisch optical character recognition, Abkürzung OCR). Diese Technik wird zunehmend durch neuronale Netze, die ganze Zeilen statt einzelner Zeichen verarbeiten, abgelöst.
Grundsätzliches
[Bearbeiten | Quelltext bearbeiten]Texterkennung ist deshalb notwendig, weil optische Eingabegeräte (Scanner oder Digitalkameras, aber auch Faxempfänger) als Ergebnis ausschließlich Rastergrafiken liefern können, d. h. in Zeilen und Spalten angeordnete Punkte unterschiedlicher Färbung (Pixel). Texterkennung bezeichnet dabei die Aufgabe, die so dargestellten Buchstaben als solche zu erkennen, d. h. zu identifizieren und ihnen den Zahlenwert zuzuordnen, der ihnen nach üblicher Textcodierung zukommt (ASCII, Unicode). Automatische Texterkennung und OCR werden im deutschen Sprachraum oft als Synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildteilen als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR-Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcke von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Bei der Entscheidung, welches Zeichen vorliegt, kann über weitere Algorithmen ein sprachlicher Kontext berücksichtigt werden.
Ursprünglich wurden zur automatischen Texterkennung eigens entworfene Schriftarten entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart OCR-A (DIN 66008, ISO 1073-1) durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. OCR-B (ISO 1073-2) ähnelt mehr einer serifenlosen, nicht-proportionalen Schriftart, während OCR-H (DIN 66225) handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde.
Die gestiegene Leistungsfähigkeit moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von „normalen“ Druckerschriftarten bis hin zu Handschriften (etwa bei der Briefverteilung); wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden drucktechnisch und erkennungstechnisch einfacher handhabbare Strichcodes genutzt.
Moderne Texterkennung umfasst inzwischen mehr als reine OCR (definiert als Verfahren der automatischen Schrifterkennung[1]), das heißt die Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse, Intelligent Character Recognition (ICR), hinzugezogen, mit denen die eigentlichen OCR-Ergebnisse korrigiert werden können. So kann ein Zeichen, das eigentlich als „8“ erkannt wurde, zu einem „B“ korrigiert werden, wenn es innerhalb eines Wortes steht. Statt „8aum“ wird also „Baum“ erkannt, aber eine Umwandlung von „8te“, also eine alphanumerische Kombination, sollte nicht vorgenommen werden. Im Bereich industrieller Texterkennungssysteme wird daher von OCR/ICR-Systemen gesprochen. Die Grenzen des OCR-Begriffes sind jedoch fließend, denn OCR und ICR dienen auch als Marketingbegriffe, um technische Weiterentwicklungen besser vermarkten zu können. Auch Intelligent Word Recognition (IWR) fällt unter diese Kategorie. Dieser Ansatz versucht das Problem bei der Erkennung von Fließhandschriften zu lösen, bei der die Einzelzeichen nicht eindeutig separiert und daher nicht über herkömmliche OCR-Methoden erkannt werden können.
Ein prinzipiell anderer Ansatz der Texterkennung wird bei der Handschriftenerkennung auf Touchscreens oder Eingabefeldern (PDA usw.) verwendet. Hier werden vektorbasierte Muster verarbeitet, entweder ‚offline‘ als gesamtes Wort oder ‚online‘ mit zusätzlicher Analyse des Eingabeflusses (beispielsweise Apples Inkwell).
Eine Sonderform der Texterkennung ergibt sich beispielsweise bei der automatischen Verarbeitung des Posteingangs großer Firmen. Eine Aufgabenstellung ist das Sortieren der Belege. Dafür braucht nicht immer der Inhalt analysiert zu werden, sondern es genügt manchmal schon, die groben Merkmale, etwa das charakteristische Layout von Formularen, Firmenlogos etc., zu erkennen. Die Klassifikation bestimmter Textarten erfolgt wie bei der OCR über eine Mustererkennung, die sich jedoch global auf das gesamte Blatt oder definierte Stellen anstelle einzelner Buchstaben bezieht.
Verfahren
[Bearbeiten | Quelltext bearbeiten]Ausgangspunkt ist eine Bilddatei (Rastergrafik), die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird. Die Texterkennung selbst erfolgt dreistufig:
Seiten- und Gliederungserkennung
[Bearbeiten | Quelltext bearbeiten]Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt.
Mustererkennung
[Bearbeiten | Quelltext bearbeiten]Fehlerkorrektur auf Pixelebene
[Bearbeiten | Quelltext bearbeiten]Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixeln korrigiert werden. Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage.
Mustervergleich Mapping
[Bearbeiten | Quelltext bearbeiten]Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen, Rohdigitalisate werden erzeugt.
Fehlerkorrektur Zeichenebene (Intelligent Character Recognition, ICR)
[Bearbeiten | Quelltext bearbeiten]Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet. In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt.
Fehlerkorrektur auf Wortebene (Intelligent Word Recognition, IWR)
[Bearbeiten | Quelltext bearbeiten]Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, wird anhand globaler Charakteristiken mit Wörterbüchern verglichen. Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, zum Beispiel handgeschriebene Adressen auf Briefumschlägen.
Manuelle Fehlerkorrektur
[Bearbeiten | Quelltext bearbeiten]Viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Korrektur nicht sicher erkannter Zeichen.
Codierung in das Ausgabeformat
[Bearbeiten | Quelltext bearbeiten]Im einfachsten Fall wird eine Textdatei in einem definierten Format wie UTF-8 erzeugt. Je nach Aufgabenstellung kann die Ausgabe auch in eine Datenbank oder als PDF-Datei erfolgen. Spezialisierte Ausgabeformate wie die XML-basierten Formate ALTO und PAGE oder hOCR, eine HTML-Variante, speichern den Text mit Layout-Information.
Die Qualität der Texterkennung bestimmen unter anderem mehrere Faktoren:
- Qualität der Layouterkennung,
- Umfang und Qualität der Muster-Datenbank,
- Umfang und Qualität der Wörterbücher,
- Qualität der Algorithmen zur Fehlerkorrektur,
- Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes,
- Auflösung und Qualität der Bilddatei.
Die Zahl der unerkannten Fehler in einem Dokument lässt sich abschätzen, siehe Rechtschreibfehler. Während Texte Redundanzen enthalten und deshalb eine höhere Fehlerrate zulassen, erfordern Zahlenlisten, wie beispielsweise Telefonnummern, ein mehrmaliges Korrekturlesen.
Erfolge durch neuronale Netze
[Bearbeiten | Quelltext bearbeiten]In jüngster Zeit erzielten künstliche neuronale Netzwerke bei Handschriftanwendungen oft bessere Ergebnisse als konkurrierende Lernverfahren. Zwischen 2009 und 2012 gewannen die rekurrenten bzw. tiefen vorwärtsgerichteten neuronalen Netzwerke der Forschungsgruppe von Jürgen Schmidhuber am Schweizer KI Labor IDSIA eine Serie von acht internationalen Wettbewerben in den Bereichen Mustererkennung.[2] Insbesondere gewannen ihre rekurrenten LSTM-Netzwerke[3][4] drei Wettbewerbe zur verbundenen Handschrifterkennung bei der „2009 Intl. Conf. on Document Analysis and Recognition (ICDAR)“, ohne eingebautes a priori-Wissen über die drei verschiedenen zu lernenden Sprachen. Die LSTM-Netze erlernten gleichzeitige Segmentierung und Erkennung[5]. Dies waren auch die ersten internationalen Wettbewerbe, die durch Deep Learning[6][7] oder durch rekurrente Netze gewonnen wurden.
Auch tiefe vorwärtsgerichtete Netzwerke wie Kunihiko Fukushimas Konvolutionsnetz der 1980er Jahre[8] sind heute wieder wichtig für Handschrifterkennung. Sie verfügen über alternierende Konvolutionslagen und Lagen von Neuronen, die miteinander im Wettbewerb stehen. Yann LeCuns Team von der New York University wendete den 1989 schon gut bekannten backpropagation Algorithmus auf solche Netze an[9]. Moderne Varianten verwenden sogenanntes „max-pooling“ für die Wettbewerbslagen[10]. Zum Abschluss krönt man das tiefe Netz durch mehrere voll vernetzte Neuronenlagen. Schnelle GPU-Implementierungen dieser Kombination wurden 2010 durch Scherer und Kollegen eingeführt[11]. Sie gewannen seither zahlreiche Wettbewerbe zur Erkennung von Handschrift und anderen Mustern[12]. GPU-basierte „max-pooling“ Konvolutionsnetze waren auch die ersten Verfahren, die die handgeschriebenen Ziffern des MNIST Benchmarks so gut erkennen konnten wie Menschen[13].
Auch bei gedrucktem Text gibt es einen Trend, die klassische zeichenweise Texterkennung durch zeilenweise Texterkennung mittels neuronaler Netze zu ersetzen. Diese Technik wird beispielsweise in den Programmen OCRopus, Tesseract (ab Version 4), PERO OCR und Loghi eingesetzt.
Anwendungen
[Bearbeiten | Quelltext bearbeiten]- Wiedergewinnen von Textinformation aus Bilddateien, um diese mit Hilfe einer Textverarbeitung weiter zu bearbeiten oder elektronisch durchsuchbar zu machen
- Erkennung von relevanten Merkmalen (zum Beispiel Postleitzahl, Vertragsnummer, Rechnungsnummer) zur mechanischen (Poststraße) oder elektronischen (Workflow-Management-System) Einsortierung eines Schriftstücks
- Eine erweiterte Volltextsuche in Datenbanken oder Document-Management-Systemen, um auch PDFs und Bilder durchsuchen zu können.
- Erkennung von Merkmalen zur Registrierung und gegebenenfalls Verfolgung von Gegenständen (beispielsweise Kfz-Kennzeichen)
- Layouterkennung: Es wird ein formatiertes Dokument erstellt, das der Vorlage bezüglich Text-, Bild- und Tabellenanordnung möglichst nahekommt.
- Blindenhilfsmittel: Für Blinde wird es durch die Texterkennung möglich, eingescannte Texte über Computer und Braillezeile zu lesen oder sich per Sprachausgabe vorlesen zu lassen.
OCR-Software
[Bearbeiten | Quelltext bearbeiten]Proprietäre Software
[Bearbeiten | Quelltext bearbeiten]- BIT-Alpha von B.I.T. Bureau Ingénieur Tomasi
- FineReader von ABBYY
- FormPro von OCR Systeme
- KADMOS best OCR/ICR
- Ocelus von Teklia
- OCRKit für Mac OS und iOS
- OmniPage von Kofax (früher: ScanSoft, Nuance Communications)
- Readiris von Image Recognition Integrated Systems Group (I. R. I. S), seit 2013 zu Canon
- NSOCR von Nicomsoft
- IDA Recognition von PLANET AI
- Screenworm für Mac OS von Funchip
- Transkribus
Als Nebenfunktion in proprietärer Software:
- Acrobat Text Capture in Adobe Acrobat von Adobe Inc.
- Corel OCR-Trace in CorelDRAW von Corel
- Microsoft OneNote, seit Version 2010
- Microsoft 365, Word ab Version 2013[14]
- ExactScan Pro für Mac OS
- PDF-XChange Viewer (kostenlos, auch als portable Version verfügbar)
Cloudbasiert:
- ABBYY Cloud OCR[15]
- Google Cloud Vision (Beta)[16]
- Microsoft Azure Computer Vision API[17]
- OCR.space Online OCR (proprietär, aber frei verwendbar)[18]
- TextScan Online OCR[19]
Freie Software
[Bearbeiten | Quelltext bearbeiten]- eScriptorium (eine auf Kraken basierende Web-Applikation)[20]
- GT Text
- OCRopus (ocropy) und die davon abgeleiteten Programme Kraken und Calamari
- GOCR
- Loghi[21]
- CuneiForm
- Ocrad
- Tesseract (mit z. B. gImageReader als grafische Benutzeroberfläche)[22]
- OCRFeeder
- OCRmyPDF[23]
- dpScreenOCR
- OCR4all
- OCR-D
- PERO OCR[24]
- PyLaia[25]
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ Hans F. Ebel, Claus Bliefert: Vortragen in Naturwissenschaft, Technik und Medizin. 1991; 2., bearbeitete Auflage 1994, VCH, Weinheim ISBN 3-527-30047-3, S. 300.
- ↑ 2012 Kurzweil AI Interview mit Jürgen Schmidhuber zu den acht Wettbewerben, die sein Deep Learning Team zwischen 2009 und 2012 gewann
- ↑ Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, S. 545–552; ein gleichnamiges Preprint befindet sich unter: (PDF; 808 kB), people.idsia.ch
- ↑ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, Band 31, Nummer 5, 2009.
- ↑ Schmidhuber, Jürgen; Winning Handwriting Recognition Competitions Through Deep Learning, people.idsia.ch
- ↑ Bengio, Y. (2009). Learning Deep Architectures for AI. Now Publishers. Archivierte Kopie. ( vom 21. März 2014 im Internet Archive; PDF; 1,1 MB) In: iro.umontreal.ca (englisch).
- ↑ Schmidhuber, Jürgen; My First Deep Learning System of 1991 + Deep Learning Timeline 1962-2013, people.idsia.ch
- ↑ Fukushima, K.: Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. In: Biological Cybernetics. 36. Jahrgang, Nr. 4, 1980, S. 93–202, doi:10.1007/BF00344251 (englisch).
- ↑ Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1(4):541-551, 1989. PDF; 5,4 MB
- ↑ M. Riesenhuber, T. Poggio. Hierarchical models of object recognition in cortex. Nature Neuroscience, 1999. Archivierte Kopie. [ vom 9. Oktober 2024 im Internet Archive; PDF; 275 kB]
- ↑ Dominik Scherer, Andreas C. Müller, and Sven Behnke: Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition. In 20th International Conference on Artificial Neural Networks (ICANN), S. 92–101, 2010. doi:10.1007/978-3-642-15825-4_10, PDF; 295 kB
- ↑ J. Schmidhuber, 2009–2013: Deep Learning since 1991: First Deep Learners to Win Contests in Pattern Recognition, Object Detection, Image Segmentation, Sequence Learning, Through Fast & Deep / Recurrent Neural Networks. www.deeplearning.it
- ↑ D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012. PDF; 1,7 MB
- ↑ Microsoft Word Supportseite
- ↑ ABBYY Cloud OCR SDK. In: ocrsdk.com. Abgerufen am 4. Dezember 2017 (englisch).
- ↑ Vision API – Analyse von Bildinhalten | Google Cloud Platform. Abgerufen am 4. Dezember 2017.
- ↑ Computer Vision API – Image Processing | Microsoft Azure. Abgerufen am 4. Dezember 2017 (englisch).
- ↑ OCR.space Free Online OCR. In: ocr.space. Abgerufen am 15. März 2019 (englisch).
- ↑ TextScan OCR. In: text-scan.com. Abgerufen am 25. Oktober 2019 (englisch).
- ↑ Scripta / eScriptorium. In: gitlab.com. Abgerufen am 30. Juni 2022 (englisch).
- ↑ Thijs van der Veen: Unique software to transcribe historical texts now open source available. Digital Infrastructure. In: di.huc.knaw.nl. KNAW Humanities Cluster, 21. April 2023, abgerufen am 26. April 2023 (englisch).
- ↑ gImageReader › Wiki › ubuntuusers.de. Abgerufen am 23. Mai 2021.
- ↑ OCRmyPDF documentation — ocrmypdf 16.5.1.dev2+g6ca4940 documentation. In: ocrmypdf.readthedocs.io. Abgerufen am 31. Oktober 2024 (englisch).
- ↑ DCGM / pero-ocr. In: github.com. Abgerufen am 30. Juni 2022 (englisch).
- ↑ Joan Puigcerver, Carlos Mocholí: jpuigcerver/PyLaia: A deep learning toolkit specialized for handwritten document analysis. GitHub, 2018, abgerufen am 2. Januar 2025 (englisch).