Zum Inhalt springen

ISO 639

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 25. Oktober 2006 um 20:33 Uhr durch Chrislb (Diskussion | Beiträge) (Beispiel der Sprachkennungen nach ISO 639: Format und Beispiele). Sie kann sich erheblich von der aktuellen Version unterscheiden.

ISO 639 ist ein internationaler Standard der International Organization for Standardization, welcher Kennungen für Namen von Sprachen zur Verfügung stellt. Zwei Teilnormen, die in der ISO 639 definiert werden, sind bereits angenommen und weit verbreitet, weitere Normen sind in der Entwicklung.

Anwendung

Die in der Norm definierten Kennungen werden unter anderm in der Lexikographie, Linguistik, in Bibliotheken, Informationsdiensten und im Datenaustausch verwendet. Sie dienen zur eindeutigen Angabe von Sprachen und ihrer Kennzeichnung in Dokumenten. Sie sollen dabei keine Abkürzungen darstellen.

Eine Verwendung kann beliebig in Groß- und Kleinschreibung erfolgen, doch gibt es darauf aufbauende Normen, die eine gewisse Schreibung festlegen.

Struktur

Die offiziell eingeführten Teilnormen sind:

  • ISO 639-1:2002 − Codes for the representation of names of languages - Part 1: Alpha-2 code
  • ISO 639-2:1998 − Codes for the representation of names of languages - Part 2: Alpha-3 code

Weitere Teile befinden sich derzeit noch in Entwicklung:

  • ISO 639-3:2006? − Codes for the representation of names of languages - Part 3: Alpha-3 code for comprehensive coverage of languages
  • ISO 639-4:2007? − Codes for the representation of names of languages - Part 4: Implementation guidelines and general principles for language coding
  • ISO 639-5:2006? − Codes for the representation of names of languages - Part 5: Alpha-3 code for language families and groups

Die Teilnormen

ISO 639-1

Die Teilnorm ISO 639-1, welche ursprünglich unter ISO 639 geführt wurde, ist für den Einsatz in „Terminologie, Lexikographie und Linguistik“ erstellt worden. Die Liste der aufgenommenen Sprachen soll nicht nur die meist verbreiteten Sprachen im Bezug auf Literatur repräsentieren sondern auch die am weitesten „entwickelten“ Sprachen mit einem „spezialisierten“ Vokabular[1].

Verwaltet wird sie als "Registration Authority" (dt. „Registrierungsinstanz“) von Infoterm (International Information Center for Terminology) eines durch die UNESCO gegründeten Zentrums.

Die Norm führt Kennungen aus jeweils zwei Buchstaben für die aufgenommenen Sprachen ein. Beispiele sind de für die Deutsche Sprache oder fr für die Französische Sprache. Es werden desweiteren auch historische Sprachen wie Mittelhochdeutsch (gmh für German, Middle High) oder Althochdeutsch (goh für German, Old High) und Dialekte wie Plattdeutsch (nds für Low Saxon) aufgenommen.

ISO 639-2

Für die zweite Norm der ISO 639 wurde der Kreis der aufgenommenen Artikel weiter gezogen und eine Zahl von mehr als 450 Sprachen erreicht. Ziel der Norm ist die „Terminologie und Bibliographie“ um den Bedürfnissen des Bibliothekswesen nachzukommen und eine möglichst weite Auszeichnung von Werken der Welt zu ermöglichen. Aufgenommen wurden Sprachen für die eine als geeignet empfundene Menge an Literatur herausgegegben wurde. Da der Schwerpunkt auf der geschriebene Sprache liegt, wurde auf eine Unterscheidungen für Sprachen verzichtet, die in der geschriebenen Form zwar gleich sind, doch in ihrer gesprochenen Form abweichen. So gibt es zum Beispiel keine Unterscheidung für die chinesischen Sprachen wie Hochchinesisch und Kantonesisch[1].

Die US-amerikanische Library of Congress übernimmt die Pflege dieser Teilnorm.

ISO 639-2 sieht für die geführten Sprache eine Kennung aus jeweils drei Buchstaben vor. Sie erweitert die Norm ISO 639-1 indem alle Sprachen mit einer Kennung aus zwei Buchstaben auch hier wiederum mit drei Buchstaben aufgeführt wird. Die Erweiterung auf drei Buchstaben erweitert so die Zahl an Sprachen, die aufgenommen werden können.

Eine Besonderheit sind kollektive Sprachkennungen ("collective language code") die eine Kennzeichnung von Sprachen ermöglichen, für die eine Zuordnung einer eigenen Sprachkennung nicht möglich ist.

Ein weiterer Unterschied ist die Verwendung terminologischen (terminology code) und bibliographischen Kennungen (bibliographic code), die mit ISO 639-2(T) und ISO 639-2(B) bezeichnet werden. Diese Unterscheidung wird für 22 Einträge gemacht und rührt weitestgehend daher, dass vor Einsatz der Norm bereits Konventionen im Bibliothekswesen für drei-Buchstaben-Kennungen bestanden, die von der Bennennung der bereits festgelegten Norm ISO 639-1 für zwei Buchstaben stark abwichen. Die terminologische Kennung führt also die Benennung nach ISO 639-1 weiter, während die bibliographische Kennung aus Kompatibilitäsgründen geführt wird. Vor dem Datenaustausch müssen die betroffenen Parteien dabei festlegen welche Art verwendet wird.

Mit mul (multiple languages für „mehrere Sprachen“), welches für die Auszeichnung mehrerer Sprachen gedacht ist, wenn eine Auszeichnung in mehreren einzelnen Sprachen nicht sinnvoll erscheint, und und (undetermined) für eine unbekannte Sprachzuordnung, gibt es zwei besondere Kennungen[2] .

Die Kennungen von qaa bis qtz (inklusive der im Alphabet dazwischen liegenden Kennungen) sind für die lokale Verwendung registriert und werden von der Registrierungsstelle nicht vergeben.

Zusätzlich zu den definierten Kennungen macht die Norm auch Aussage über spezielle Verwendungsarten.

ISO 639-3

Die sich in Entwicklung befindende Norm ISO 639-3 soll aufbauend auf die ersten beiden Teilnormen eine umfassende Abdeckung aller Sprachen der Welt ermöglichen. Diese wiederum baut auf der vorhergehenden Norm ISO 639-2 auf. Aufgenommen werden alle bekannten Sprachen. Darunter fallen alle lebendige, ausgestorbene, historische sowie auch konstruierte Sprachen.

Verwaltet wird sie von der Organisation SIL International.

Kennungen der ISO 639-2 finden sich mit Ausnahme der kollektive Sprachkennungen in dieser Norm wieder. Eine Erweiterung ist der Gebrauch einer Makrosprache.

Verwaltung

Die Verwaltung der Kennungslisten übernehmen die Registrierungsinstanzen ("Registration Authority"), deren Aufgabe in der Annahme und Prüfung der Anfragen zur Aufnahme neuer Kennungensowie Änderungen bestehender Einträge besteht[3].

Die Benennung der Kennungen soll möglichst der landessprachlichen Bezeichnung der kodierten Sprache folgen. Ausnahmen werden gemacht für Länder, in welchen diese Sprache gesprochen wird, sollten diese eine andere Benennung wünschen.

Verwendung mit ISO 3166 und RFC 4646

Während ISO 639 die sprachliche Einteilung definiert, beschreibt ISO 3166 die geografische Einteilung. ISO 639-1 und ISO 3166 verwenden dabei beide zweibuchstabige Kürzel, aber während diese im ISO 639-1 aus Kleinbuchstaben bestehen, verlangt die ISO 3166 Großbuchstaben. Abweichend vom Standard wird die Sprachkodierung aber oft in Großbuchstaben angegeben. Dies kann zur Verwechslung mit der Geografiekodierung führen, da einige Länder die selben Kürzel für ihre geografische und sprachliche Einteilung haben während andererseits das selbe Kürzel für völlig verschiedene Geografien bzw. Sprachen stehen kann.

Beispielsweise stehen DE/de für Deutschland/deutsch, FR/fr stehen für Frankreich/französisch, aber BE/be stehen für Belgien/belorussisch.

Andererseits lautet die geografische Einteilung für Griechenland GR, während die sprachliche Einteilung für die griechische Sprache el lautet.

Es existieren viele weitere Beispiele. Das Kürzel EU/eu steht einerseits für die geografische Einteilung Europäische Union, andererseits für die sprachliche Einteilung baskische Sprache. Das Kürzel AF/af steht einerseits für die geografische Einteilung Afghanistan, andererseits für die sprachliche Einteilung Afrikaans. Sämtliche Homographen finden sich auf meta:Language codes/Conflicts (engl.).

Die Unterscheidung von Geografie und Sprache ist jedoch sinnvoll: beispielsweise gilt, dass Deutsch nicht nur in Deutschland und Französisch nicht nur in Frankreich gesprochen wird.

In Kombination mit den Geografiecodes nach ISO 3166 für Länder erklärt der RFC 4646 (früher RFC 3066 und davor RFC 1766) die Angabe von Sprachenkürzeln wie man sie für Locales benutzt, z.B. en-US (englische Sprache im Gebiet der Vereinigten Staaten von Amerika; amerikanisch) im Gegensatz zu en-GB (englische Sprache im Gebiet des Vereinigten Königreichs; britisch). Die Sprachkürzel werden hier durch Kleinbuchstaben symbolisiert, die Länder durch Großbuchstaben. Entgegen der Empfehlung in RFC 4646 wird anstatt des Bindestriches oftmals der Unterstrich (engl. underscore) als Trennzeichen verwendet. Locales definieren aber nicht nur eine Landessprache bzw. Regionalsprache, sondern werden auch zur Lokalisierung herangezogen.

Beispiel der Sprachkennungen nach ISO 639

Diese Tabelle zeigt die verschiedenen Sprachtypen und Zusammenhänge zwischen den Teilnormen der ISO 639 auf. So werden lebendige, historische und künstliche Sprachen aufgeführt. Manche Kennungen existieren nicht in den anderen Normen, oder sie existieren in einer anderen Form.

Sprache ISO 639-1 ISO 639-2 (T/B) ISO 639-3
Altkirchenslawisch cu chu chu
Chinesische Sprachen zh zho/chi zho (Makrosprache)
Deutsch de deu/ger deu
Esperanto eo epo epo
Friesisch fy fry fry (Makrosprache)
Jiddisch yi yid yid (Makrosprache)
Klingonisch - tlh tlh
Ladakhische Sprache - Einordnung unter kollektiver Kennung sit lbj
Obersorbisch - hsb hsb
Sanskrit sa san san
Samische Sprachen - smi (kollektive Kennung) -

Quellen

  1. a b Frequently Asked Questions (FAQ) - Codes for the representation of names of languages (Library of Congress). In: ISO 639-2 Registration Authority. Library of Congress, abgerufen am 24. Oktober 2006.
  2. Codes for the representation of names of languages (Library of Congress). In: ISO 639-2 Registration Authority. Library of Congress, abgerufen am 24. Oktober 2006.
  3. siehe z.B. die Änderungsmittelung zu ISO 639-2: ISO 639-2/RA Change Notice (englisch)