Distributed Proofreaders
Die Internet-Seite Distributed Proofreaders (DP) wurde im Jahr 2000 von Charles Franks ins Leben gerufen, um das internationale Project Gutenberg zu unterstützen.
Hierbei versucht man, durch Unterteilung von eingescannten Büchern in einzelne Seiten die Arbeitsbelastung für einen einzelnen Korrekturleser möglichst gering zu halten und nach der Brute Force-Methode (bedeutet hier: eine möglichst große Anzahl von Bearbeitern liest nur jeweils eine Buchseite von Tausenden bereitgestellten zur Korrektur) ein möglichst großes Pensum zu erreichen.
Dabei wird nach demselben Prinzip wie beim Distributed Computing vorgegangen. Der entscheidende Unterschied besteht darin, dass hier nicht eine sehr große Zahl von Computern über das Internet miteinander verknüpft werden, sondern dass eine beliebig große Zahl von Menschen über das Internet ihre Mitarbeit zur Verfügung stellen und damit in kurzer Zeit hunderte von Büchern duch ihr Korrektur lesen digitalisieren.
Ablauf der weltweiten Buchdigitalisierung
Grundsätzlich lassen sich im Ablauf drei Phasen unterscheiden.
Initialisierungsphase
- In der Initialisierungsphase wird durch einen erfahrenen und bereits seit längerem mitwirkenden Proofreader ein Buch ausgewählt. Das ausgewählte Buch muss frei von Urheberrechten sein. Dies ist der Fall, wenn der Autor des Buches bereits seit 70 Jahren verstorben ist.
- Der Initiator scannt zunächst jede Buchseite ein. Die Scans umfassen das ganze Buch, also Deckblatt, Inhaltsverzeichnis, Texte und Bilder.
- Anschließend werden die Seiten durch eine OCR-Software analysiert. Der erste, aber noch überaus fehlerbehaftete Rohtext liegt dann vor.
- Danach wird die Datenmenge auf die Homepage der Distributed Proofreader hochgeladen und als weiteren Projektvorschlag im Forum zur Diskussion gestellt. Nach positiver Abstimmung wird das Projekt dann zum Korrektur lesen freigeschaltet. Es steht dann zum Aufruf über die Homepage zusammen mit anderen Projekten weltweit zur Verfügung.
Phase des Korrekturlesens
Erste Runde des Korrekturlesens (Projekt hat "Bronze"-Status)
Nach Aufruf des Projekts wird dann jeweils eine Seite des Buchs angezeigt. Dabei wird in der oberen Bildschirmhälfte die gescannte Originalseite (als Grafik) und in der unteren Bildschirmhälfte der erkannte OCR-Text angezeigt. Der Proofreader liest nun den Text der Originalseite und vergleicht ihn mit dem OCR-Text (Rohtext). Dabei werden Wortfehler korrigiert, Sonderzeichen ergänzt und das Format angepasst. Dies Vorgehen wird mit allen Buchseiten von beliebigen teilnehmenden Proofreadern wiederholt. Die erste Runde endet, wenn alle Buchseiten einmal von irgend jemand bearbeitet wurde.
Zweite Runde ("Silber"-Status)
Der vorkorrigierte Rohtext wird nochmals durch mehrere erfahrene Proofreader redigiert. Dabei werden erneut verbliebene Wortfehler und Formatierungsfehler korrigiert. Zur zweite Runde haben nur Proofreader Zugang, die bereits mehr als 50 Seiten in der ersten Runde irgendwelcher Projekte bearbeitet haben. Die bisher unverbundenen Seiten des Rohtext werden zu einem Textdokument zusammengefasst.
Dritte Runde ("Gold"-Status)
Für die letzte Runde ist nur noch ein Proofreader zugelassen. Er vervollständigt das Layout mit den Grafiken, d.h. er passt diese an, verbessert diese bzw. ergänzt noch mögliche Lücken im Text. Er überprüft das Dokument auf vollständige Übereinstimmung mit dem Originalwerk. Schließlich wandelt er das elektronische Dokument in verschiedene Formate um (html-, txt-, pdf-Format).
Veröffentlichung
Das Projekt wird beendet. Das digitalisierte Werk wird auf dem Server von Project Gutenberg (bitte nicht mit dem kommerziellen Anbieter "Projekt Gutenberg - DE" verwechseln!) veröffentlicht. Jeder Internetnutzer kann nun dieses Werk herunterladen und lesen. Das Werk steht damit der ganzen Welt zur Verfügung!
Bedeutung von Distributed Proofreaders
Im Verlauf der Zeit entwickelte sich DP so zur größten Quelle von E-Texten für das Project Gutenberg, so dass Distributed Proofreaders im Jahr 2002 offizieller Teil des Project Gutenberg wurde. Bis jetzt wurden ca. 7.000 Texte aus Literatur und Wissenschaft im Internet durch Distributed Proofreading wiederveröffentlicht. Damit wird ein erheblicher Beitrag bei der Hebung eines Wissens-Schatzes unserer Kultur- und Wissensgeschichte geleistet.
Weblinks
http://www.pgdp.net - Homepage des Gründers Allan Franks. Bearbeitet überwiegend englische Texte.
http://dp.rastko.net - Distributed Proofreaders von Europa. Bearbeitet Texte aller europäischen Sprachen.