Zum Inhalt springen

Automated Similarity Judgment Program

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 28. Juni 2015 um 20:27 Uhr durch Vincent2236 (Diskussion | Beiträge) (Word list). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Diese Baustelle befindet sich fälschlicherweise im Artikelnamensraum. Bitte verschiebe die Seite oder entferne den Baustein {{Baustelle}}.

Das Automated Similarity Judgment Program (ASJP) ist ein kollaboratives Project, welches mit computergesteuerten Techniken einen eigenen Ansatz in der vergleichenden Sprachwissenschaft verfolgt. Die Basis von ASJP ist eine Datenbank mit Wörterlisten. Die Datenbank ist frei zugänglich (open access) und besteht aus Vokabellisten von 40 Grundwörtern in mehr als die Hälfte der Sprachen der Welt.[1] Die Datenbank wird kontinuierlich ergänzt. Zusätzlich zu isolierten Sprachen und Sprachen, dessen Zugehörikeit zu bestimmten Sprachfamilien bereits bekannt ist, enthält die Datenbank auch Pidgin-Sprachen, Kreolsprachen, Mischsprachen, und konstruierte Sprachen. Die Wörter der Datenbank werden in eine eigene, vereinfachte und standartisierte Schreibweise (ASJPcode) transkribiert.[2] Die Datenbank wurde bereits verwendet um das Zeitalter, zu welchem Sprachfamilien auseinander gedriftet sind zu bestimmen. Die verwendete Methodologie ist verwandt mit der Glottochronologie, unterscheidet sich jedoch in manchen Aspekten, [3] um die (Urheimat) einer Ursprache zu bestimmen,[4] to investigate sound symbolism,[5] um verschiedene phylogenetische Methoden auszuprobieren,[6] und für andere Zwecke.

Geschichte

Ursprüngliche Ziele

Das ASJP Programm ist ursprünglich entwickelt worden, um die Ähnlichkeit von Wörtern mit der gleichen Bedeutung in unterschiedlichen Sprachen, objektiv festzustellen. In weiterer Folge zielt dieses Prozess darauf ab, eine automatisierte Klassifikation von Sprachen mittels Computerprogramme zu erstellen, die auf beobachteten lexikalischen Ähnlichkeiten basieren. In der ersten ASJP Publikation [2] zwei semantisch gleiche Wörter in verglichenen Sprachen wurden als ähnlich betrachtet, wenn sie mindesten zwei identische klangsegmente teilten. Die Ähnlichkeit zwischen Sprachen wurde aufgrund des Anteils Wörter in der gesamten Liste berechnet, die als ähnlich betrachtet wurden. Diese Methode wurde mit einer Liste mit 100 Wörtern in 250 Sprachen in diversen Sprachfamilien wie Austroasiatisch, Indogermanisch, Maya-Sprachen, und Muskogee-Sprachen.

Das ASJP Konsortium

Das ASJP Konsortium, wurde um 2008 gegründet. Das Ziel war, ca. 25 professionelle Linguisten sowie andere Interessierten zusammenzubringen. Diese arbeiten als Freiwillige Transkribierer und/oder als Unterstützer des Projektes in anderen Formen. Die Treibende Kraft hinter der Gründung des Konsortiums war Cecil H. Brown. Søren Wichmann ist der Projektkurator im Tagesgeschäft. Ein drittes, zentrales Mitglied des Konsortiums ist Eric W. Holman, der das Meiste von der Software des Projektes geschrieben hat.

Kürzere Wörterlisten

Die ursprünglich verwendete Wörterliste basierte auf der 100-Wörter Swadesh-Liste. Es wurde in weiterer Folge statistisch bewiesen, dass ein Auszug von 40 Wörtern aus dieser Liste genauso gute (wenn nicht leicht bessere) Ergebnisse für Sprachenklassifikationen lieferten als die komplette Liste.[7] Seitdem werden in den verschiedenen Sprachen nur mehr 40 Wörter für die Listen als Basis herangezogen (bzw. noch weniger wenn Nachweise für bestimmte Wörter fehlen).

Levenshtein Distance

In papers published since 2008, ASJP has employed a similarity judgment program based on Levenshtein distance (LD). This approach was found to produce better classificatory results measured against expert opinion than the method used initially. LD is defined as the minimum number of successive changes necessary to convert one word into another, where each change is the insertion, deletion, or substitution of a symbol. Within the Levenshtein approach, differences in word length can be corrected for by dividing LD by the number of symbols of the longer of the two compared words. This produces normalized LD (LDN). An LDN divided (LDND) between the two languages is calculated by dividing the average LDN for all the word pairs involving the same meaning by the average LDN for all the word pairs involving different meanings. This second normalization is intended to correct for chance similarity.[8]

Word list

Das ASJP verwendet folgende 40-Wörter Liste.[9] Diese ist ähnlich wie die vom Linguisten Sergei Yakhontov erstellte kürzere Swadesh Liste, enthält jedoch einige Unterschiede.

Vorlage:Div col

Köperteile
  • Auge
  • Ohr
  • Nase
  • Zunge
  • Zahn
  • Hand
  • Knie
  • Blut
  • Knochen
  • Brust (der Frau)
  • Leber
  • Haut
Tiere und Pflanzen
  • Laus
  • Hund
  • Fisch
  • Horn (von Tieren)
  • Baum
  • Blat
Menschen
  • Mensch
  • Name
Natur
  • Sonne
  • Stern
  • Wasser
  • Feuer
  • Stein
  • Pfad
  • Berg
  • Nacht
Verben und Adjektive
  • Trinken
  • Sterben
  • Sehen
  • Hören
  • Komen
  • Neu
  • Voll
Ordnungszahlen und Pronomen
  • Eins
  • Zwei
  • Ich
  • Du
  • Wir

Vorlage:Div col end

See also

Vorlage:Div col

Vorlage:Div col end

Einzelnachweise

  1. Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). http://asjp.clld.org/
  2. a b Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.
  3. Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.
  4. Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.
  5. Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.
  6. Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.
  7. Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
  8. Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).
  9. http://asjp.clld.org/static/Guidelines.pdf