Zum Inhalt springen

Automated Similarity Judgment Program

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 28. Juni 2015 um 21:42 Uhr durch Vincent2236 (Diskussion | Beiträge) (Ursprüngliche Ziele). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Diese Baustelle befindet sich fälschlicherweise im Artikelnamensraum. Bitte verschiebe die Seite oder entferne den Baustein {{Baustelle}}.

Das Automated Similarity Judgment Program (ASJP), auf Deutsch Automatisietes Programm für die Ähnlichkeitsbeurteilung, ist ein kollaboratives Projekt, welches die Anwendung von computergesteuerten Techniken in der vergleichenden Sprachwissenschaft als Ansatz verfolgt. Die Basis vom ASJP ist eine Datenbank mit Wörterlisten. Die Datenbank ist frei zugänglich (open access) und besteht aus Vokabellisten von 40 Grundwörtern in mehr als die Hälfte der Sprachen der Welt.[1] Die Datenbank wird kontinuierlich ergänzt. Zusätzlich zu isolierten Sprachen und Sprachen, dessen Zugehörigkeit zu bestimmten Sprachfamilien bereits bewiesen ist, enthält die Datenbank auch Pidgin-Sprachen, Kreolsprachen, Mischsprachen, und konstruierte Sprachen. Die Wörter der Datenbank werden in eine eigene vereinfachte und standardisierte Schreibweise (ASJPcode) transkribiert.[2] Die Datenbank wurde bereits verwendet um das Zeitalter, zu welchem Sprachfamilien auseinander gedriftet sind, zu bestimmen. Die verwendete Methodologie ist verwandt mit der Glottochronologie, unterscheidet sich jedoch in manchen Aspekten. [3] Weiters wurde das System auch angewendet, um die Urheimat einer Ursprache zu bestimmen,[4] für die Untersuchung der Lautsymbolik,[5] um verschiedene phylogenetische Methoden auszuprobieren[6] und für andere Zwecke.

Geschichte

Ursprüngliche Ziele

Das ASJP Programm ist ursprünglich entwickelt worden, um die Ähnlichkeit von Wörtern mit der gleichen Bedeutung in unterschiedlichen Sprachen, objektiv festzustellen. In weiterer Folge zielt dieses Prozess darauf ab, eine automatisierte Klassifikation von Sprachen mittels Computerprogramme zu erstellen, die auf beobachteten lexikalischen Ähnlichkeiten basieren. In der ersten ASJP Publikation [2] zwei semantisch gleiche Wörter in verglichenen Sprachen wurden als ähnlich betrachtet, wenn sie mindestens zwei identische Klangsegmente teilten. Die Ähnlichkeit zwischen Sprachen wurde aufgrund des Anteils Wörter in der gesamten Liste berechnet, die als ähnlich betrachtet wurden. Diese Methode wurde mit einer Liste mit 100 Wörtern in 250 Sprachen in diversen Sprachfamilien wie Austroasiatisch, Indogermanisch, Maya-Sprachen, und Muskogee-Sprachen.

Das ASJP Konsortium

Das ASJP Konsortium, wurde um 2008 gegründet. Das Ziel war, ca. 25 professionelle Linguisten sowie andere Interessierten zusammenzubringen. Diese arbeiten als Freiwillige Transkribierer und/oder als Unterstützer des Projektes in anderen Formen. Die Treibende Kraft hinter der Gründung des Konsortiums war Cecil H. Brown. Søren Wichmann ist der Projektkurator im Tagesgeschäft. Ein drittes, zentrales Mitglied des Konsortiums ist Eric W. Holman, der das Meiste von der Software des Projektes geschrieben hat.

Kürzere Wörterlisten

Die ursprünglich verwendete Wörterliste basierte auf der 100-Wörter Swadesh-Liste. Es wurde in weiterer Folge statistisch bewiesen, dass ein Auszug von 40 Wörtern aus dieser Liste genauso gute (wenn nicht leicht bessere) Ergebnisse für Sprachenklassifikationen lieferten als die komplette Liste.[7] Seitdem werden in den verschiedenen Sprachen nur mehr 40 Wörter für die Listen als Basis herangezogen (bzw. noch weniger wenn Nachweise für bestimmte Wörter fehlen).

Levenshtein Distance

In seinen Publikationen seit den Jahr 2008, hat das ASJP ein System für die Ähnlichkeitsbeurteilung, das auf die Levenshtein-Distanz (LD) basiert. Es zeigte sich, dass dieser Ansatz bei Klazifikationen bessere Ergebnisse erzielt als die ursprünglich angewandte Methode. LD ist definiert als die minimale Anzahl von Einfüge-, Lösch- und Ersetz-Operationen die notwendig sind, um ein Wort als Zeichenkette in ein anderes umzuwandeln. Innerhalb des Levenshtein Ansatzes, können Unterschiede in Wörterlängen durch die Division von LD mit der Anzahl Zeichen des längsten der verglichenen Wörter. Daraus ergibt sich die Normalisierte LD (Englisch: Levenshtein Distance Normalized LDN). Eine dividierte LDN (Englisch: Levenshtein Distance Normalized Divided, LDND) zwischen zwei Sprachen ist die Division der durchschnittlichen LDN aller Wörter-Paare mit der gleichen Bedeutung durch die durchschnittliche LDN aller Wörter-Paare unterschiedlichen Bedeutungen. Diese zweite Normalisierung dient dazu, die Ergebnisse von den Zufallstreffern zu bereinigen.[8]

Wörterliste

Das ASJP verwendet folgende 40-Wörterliste.[9] Diese ist ähnlich wie die vom Linguisten Sergei Yakhontov erstellte kürzere Swadesh Liste, enthält jedoch einige Unterschiede.

Vorlage:Div col

Köperteile
  • Auge
  • Ohr
  • Nase
  • Zunge
  • Zahn
  • Hand
  • Knie
  • Blut
  • Knochen
  • Brust (der Frau)
  • Leber
  • Haut
Tiere und Pflanzen
  • Laus
  • Hund
  • Fisch
  • Horn (von Tieren)
  • Baum
  • Blat
Menschen
  • Mensch
  • Name
Natur
  • Sonne
  • Stern
  • Wasser
  • Feuer
  • Stein
  • Pfad
  • Berg
  • Nacht
Verben und Adjektive
  • Trinken
  • Sterben
  • Sehen
  • Hören
  • Komen
  • Neu
  • Voll
Ordnungszahlen und Pronomen
  • Eins
  • Zwei
  • Ich
  • Du
  • Wir

Vorlage:Div col end

Siehe auch

Einzelnachweise

  1. Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). http://asjp.clld.org/
  2. a b Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.
  3. Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.
  4. Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.
  5. Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.
  6. Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.
  7. Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
  8. Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).
  9. http://asjp.clld.org/static/Guidelines.pdf