Zum Inhalt springen

Hypertext Markup Language

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 22. Oktober 2003 um 18:08 Uhr durch Memowe (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.


Die Hypertext Markup Language (HTML) ist ein SGML-basiertes Dokumentenformat zur Auszeichung von Hypertexten im World Wide Web. Mittlerweile wurde der letzte HTML-Standard ([|HTML 4.01]) in XML neuformuliert. Das daraus entstandene XHTML 1.0 genügt den strengeren XML-Regeln, ist aber inhaltlich gleich geblieben.


Überblick

Namensgebend sind die Hypertext-Elemente, die zum Verweis auf andere Textstellen oder auf ein anderes Dokument dienen. Zur Adressierung anderer Dokumente im Internet werden innerhalb des Dokumentes Hyperlinks verwendet. Das WWW basiert auf diesen Standards. Die Programme, die die Struktur und den logischen Aufbau des Dokuments interpretieren und als formatierte Seiten (ev. mit Interaktionselementen wie Links oder Formularen) darstellen, werden Webbrowser genannt.

Dem Text wird durch Auszeichnung (Markup) von Textteilen mit in der Regel paarweisen (öffnenden und schließenden) Tags eine Struktur und Logik verliehen. Die jeweils zusammengehörenden Tags bilden zusammen mit dem Inhalt zwischen den Tags ein Element. Diese Elemente lassen sich nach Regeln, die in einer Document Type Definition angegeben sind, verschachteln:

   <p>Ein Textabsatz, der ein <em>betontes</em> Wort enthält.</p>

Neben Elementen mit Start- und End-Tag gibt es auch leere Elemente, wie etwa Zeilenumbrüche oder Bilder:

   <code>Eine Zeile Code<br>
          Noch eine Zeile Code</code>
   <img src="E-Mail-Button.jpg" alt="E-Mail"
        title="Schreiben Sie mir eine E-Mail!
        width="100" height="30">

(Zur Übersicht sind die Attribute umbrochen worden)

Dabei sind diese Tags keine Präsentations-Befehle (obwohl das in Zeiten von HTML 3.2 so war), die dem interpretierenden Webbrowser mitteilen, er müsse beispielsweise bis zum Auftreten des Endtags alles in Fettschrift setzen, sondern eine strukturgebende oder logische Auszeichnung, deren Repräsentation von der Umgebung abhängig ist. Obwohl HTML-Dokumente in der Regel auf Computerbildschirmen dargestellt werden, kann man sie auch auf anderen Medien ausgeben lassen, etwa auf Papier oder als Sprachausgabe.

Auf die Präsentation in verschiedenen Medien sollte mit HTML kein Einfluss genommen werden, dazu eignet sich CSS vorzüglich.


HTML-Struktur

Allgemeine Struktur

Ein HTML-Dokument besteht aus drei Bereichen:

  1. der Doctype-Deklaration ganz am Anfang der Datei, die die verwendete DTD angibt, z.B. "HTML 4.01 Strict",
  2. dem HEAD, der hauptsächlich technische oder dokumentarische Informationen enthält, die nicht direkt im Browser sichtbar sind und
  3. dem BODY, der anzuzeigende Informationen enthält.

Im HEAD können 6 verschiedene Elemente angewandt werden:

  1. TITLE Titel der Seite, wird in Suchmaschinen häufig angezeigt,
  2. META enthält so genannte Metaangaben (Meta-Tags) und ist weitreichend parametrisierbar,
  3. BASE gibt entweder eine Basis-URL an oder einen Basisframe und
  4. LINK dient zur Angabe von logischen Beziehungen zu anderen Ressourcen. Am häufigsten zur Einbindung von Stylesheets benutzt.
  5. SCRIPT bindet Code in einer bestimmten Skriptsprache ein, hauptsächlich Javascript.
  6. STYLE beinhaltet CSS-Regeln direkt im Dokument.

BODY

Eine Hauptüberschrift wird so ausgezeichnet:

   <h1>Hauptüberschrift</h1>

h1 steht für Heading 1. Diese Auszeichnung wird nun als Hauptüberschrift interpretiert. Weiter möglich sind h2 bis h6, Überschriften zweiter bis sechster Ordnung, mit denen sich die Gliederung einer Seite verdeutlichen lässt. Die Präsentation dieser Überschriften ist von ihrer strukturierenden Bedeutung unabhängig und kann mit CSS beeinflusst werden. Auf keinen Fall sollte man die Überschrift-Elemente zur Vergrößerung von Text missbrauchen. Suchmaschinen-Roboter messen Überschriften eine höhere Relevanz bei als normalem Fließtext.

Hyperlinks:

   <a href="http://www.example.com/">Gehe zu example.com</a>

Hier wird auf die Ressource http://www.example.com/ verwiesen. Der Text Gehe zu example.com wird dabei als Link dargestellt.

Die logische Beschreibung der Struktur des Textes vereinfacht es zum Beispiel, dass der Text auch einem Sehbehinderten vorgelesen oder als Braille-Schrift ausgegeben werden kann. Auch für Suchmaschinen ist das von Vorteil, um HTML-Dateien möglichst sinnentnehmend auszuwerten.

Zur Logik stehen zum Beispiel die Elemente strong und em bereit, mit denen sich stark hervorgehobener oder betonter Text auszeichnen lässt. Zur visuellen Kenntlichmachung empfiehlt sich die Verwendung der beiden CSS-Regeln

   strong { font-weight: bold }
   em { font-style: italic }

die für den Inhalt von strong-Elementen und em-Elementen die Präsentation in Fettschrift bzw. Kursiv-Schrift empfehlen.

Geschichte und Zukunft

1992
Erste Version von HTML
1993
HTML+ (nicht verabschiedet)
1995
HTML 3.0 (nicht verabschiedet)
Jan. 1997
HTML 3.2
Dez. 1999
HTML 4.01


HTML lernen

SelfHTML ist ein deutschsprachiges und sehr umfangreiches Projekt, das für viele Themen rund um HTML Referenzmaterial bietet. Der Autor meint aber, dass es wegen seiner nichtlinearen Struktur, dem erheblichen Umfang und den teilweise auftretenden inhaltlichen Fehlern zum Lernen nicht optimal geeignet ist.

Der Autor empfiehlt die Lektüre einer modernen linearen Einführung (siehe Weblinks) und die Handarbeit direkt in einem Texteditor, um HTML richtig zu verstehen und voll auszunutzen.

Für schnelle Arbeiten mag die Arbeit in einem grafischen (sogenannten WYSIWYG-Editor) genügen, allerdings produzieren diese Editoren stets ein HTML, das die optischen Vorstellungen widerspiegelt. Strukturelle und logische Informationen, die dem Text erst einen echten Mehrwert geben, lassen sich nur einsetzen, wenn man HTML hinreichend gut verstanden hat. Hinzu kommt, dass diese Editoren oft ungültiges HTML produzieren, was die Darstellung des Dokuments von der Ratekunst des Webbrowsers abhängig macht.


Sprachtyp

Im Gegensatz zu anderen Sprachen wie Java oder C ist HTML keine Programmiersprache, auch wenn die Mehrheit der Internetnutzer genau dieses annimmt. HTML ist aufgrund fehlender Elemente wie Wenn-Dann-Bedingungen, Variablen etc. keine Programmiersprache und HTML ist auch keine Seitenbeschreibungssprache wie etwa Postscript weil eben keine Seiten beschrieben werden, sondern Text strukturell und logisch ausgezeichnet wird. Daher ist HTML eine Textauszeichnungssprache und wird als solche auch nicht programmiert, gescriptet, gecodet oder gar geproggt. HTML wird schlicht geschrieben.


Siehe auch: DHTML