Zum Inhalt springen

Analyzed Layout and Text Object

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 27. November 2018 um 22:28 Uhr durch Chewbacca2205 (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Dieser Importartikel ist fälschlicherweise im Artikelnamensraum. Bitte verschiebe die Seite oder entferne diesen Baustein.
Dieser Artikel (Analyzed Layout and Text Object) ist im Entstehen begriffen und noch nicht Bestandteil der freien Enzyklopädie Wikipedia.
Wenn du dies liest:
  • Der Text kann teilweise in einer Fremdsprache verfasst, unvollständig sein oder noch ungeprüfte Aussagen enthalten.
  • Wenn du Fragen zum Thema hast, nimm am besten Kontakt mit den Autoren auf.
Wenn du diesen Artikel überarbeitest:
  • Bitte denke daran, die Angaben im Artikel durch geeignete Quellen zu belegen und zu prüfen, ob er auch anderweitig den Richtlinien der Wikipedia entspricht (siehe Wikipedia:Artikel).
  • Nach erfolgter Übersetzung kannst du diese Vorlage entfernen und den Artikel in den Artikelnamensraum verschieben. Die entstehende Weiterleitung kannst du schnelllöschen lassen.
  • Importe inaktiver Accounts, die länger als drei Monate völlig unbearbeitet sind, werden gelöscht.

ALTO (Analyzed Layout and Text Object) ist ein offenes XML Schema zur Beschreibung von Layoutinformationen digitalisierter Objekte.

Der Standard wurde ursprünglich für die Beschreibung von OCR- Erkennunsergebnissen Text und Layout auf Seitenebene von digitalisierten Materielien entwickelt. Ziel war es, den Text und das Layout so zu beschreiben, dass eine Rekonstruktion auf Basis digitalisierten Materials möglich wäre.

ALTO wird oft in Kombination mit Metadata Encoding and Transmission Standard (METS) für die Beschreibung des gesamten digitalisierten Objektes und die Erzeugung von Referenzen innerhalb der ALTO-Datei verwendet, z.B. um die Lese-Abfolge festzulegen.

ALTO wurde in dem von der EU geförderten Projekt METAe entwickelt. Seit 2010 wird der Standard durch die Library of Congress und eine Herausgeber-Team gepflegt.

Durch die Empfehlung in einer DFG-Richtlinie ist ALTO ein de facto-Standard für Text-Digitalisierungsprojekte in Deutschland[1].

Versionen

Die aktuellste Schema-Version sowie eine Übersicht über die älteren Versionen finden sich auf Github https://github.com/altoxml

Aufbau einer ALTO-Datei

Eine ALTO-Datei besteht aus drei Haupt-Abschnitt, also Kinder des Wurzelelements <alto>:[2]

  • Der Abschnitt <Description> beinhaltet Metadaten zur ALTO-Datei selbst und Prozess-Informationen wie die Datei erzeugt wurde.
  • <Styles> beinhaltet den Text und Layout-Informationen in der jeweils individuellen Ausprägung:
    • <TextStyle> beschreibt Font- und Schrifttypen
    • <ParagraphStyle> beschriebt Eigenschaften eines Absatzes, z.B. dessen Ausrichtung
  • Der <Layout>-Abschnitt enthält den eigentlichen Inhalt, der durch <Page>-Elemente für einzelne Seiten untergliedert ist.
    <?xml version="1.0"?>
    <alto>
      <Description>
        <MeasurementUnit/>
        <sourceImageInformation/>
        <Processing/>
      </Description>
      <Styles>
        <TextStyle/>
        <ParagraphStyle/>
      </Styles>
      <Layout>
        <Page>
          <TopMargin/>
          <LeftMargin/>
          <RightMargin/>
          <BottomMargin/>
          <PrintSpace/>
        </Page>
      </Layout>
    </alto>

Unterstützende Software

Siehe auch

Nachweise

  1. DFG-Praxisregeln "Digitalisierung". S. 37 (dfg.de [PDF]).
  2. Structure of ALTO Files

[[Kategorie:Offenes Format]] [[Kategorie:Beschreibungssprache]] [[Kategorie:XML]] [[Kategorie:Wikipedia:Seite mit ungeprüften Übersetzungen]]