Automated Similarity Judgment Program

Diese Baustelle befindet sich fälschlicherweise im Artikelnamensraum. Bitte verschiebe die Seite oder entferne den Baustein {{Baustelle}}.

Das Automated Similarity Judgment Program (ASJP) ist ein kollaboratives Project, welches mit computergesteuerten Techniken einen eigenen Ansatz in der vergleichenden Sprachwissenschaft verfolgt. Die Basis von ASJP ist eine Datenbank mit Wörterlisten. Die Datenbank ist frei zugänglich (open access) und besteht aus Vokabellisten von 40 Grundwörtern in mehr als die Hälfte der Sprachen der Welt.^[1] Die Datenbank wird kontinuierlich ergänzt. Zusätzlich zu isolierten Sprachen und Sprachen, dessen Zugehörikeit zu bestimmten Sprachfamilien bereits bekannt ist, enthält die Datenbank auch Pidgin-Sprachen, Kreolsprachen, Mischsprachen, und konstruierte Sprachen. Die Wörter der Datenbank werden in eine eigene, vereinfachte und standartisierte Schreibweise (ASJPcode) transkribiert.^[2] Die Datenbank wurde bereits verwendet um das Zeitalter, zu welchem Sprachfamilien auseinander gedriftet sind zu bestimmen. Die verwendete Methodologie ist verwandt mit der Glottochronologie, unterscheidet sich jedoch in manchen Aspekten, ^[3] um die (Urheimat) einer Ursprache zu bestimmen,^[4] to investigate sound symbolism,^[5] um verschiedene phylogenetische Methoden auszuprobieren,^[6] und für andere Zwecke.

Geschichte

Ursprüngliche Ziele

Das ASJP Programm ist ursprünglich entwickelt worden, um die Ähnlichkeit von Wörtern mit der gleichen Bedeutung in unterschiedlichen Sprachen, objektiv festzustellen. In weiterer Folge zielt dieses Prozess darauf ab, eine automatisierte Klassifikation von Sprachen mittels Computerprogramme zu erstellen, die auf beobachteten lexikalischen Ähnlichkeiten basieren. In der ersten ASJP Publikation ^[2] zwei semantisch gleiche Wörter in verglichenen Sprachen wurden als ähnlich betrachtet, wenn sie mindesten zwei identische klangsegmente teilten. Die Ähnlichkeit zwischen Sprachen wurde aufgrund des Anteils Wörter in der gesamten Liste berechnet, die als ähnlich betrachtet wurden. Diese Methode wurde mit einer Liste mit 100 Wörtern in 250 Sprachen in diversen Sprachfamilien wie Austroasiatisch, Indogermanisch, Maya-Sprachen, und Muskogee-Sprachen.

Das ASJP Konsortium

Das ASJP Konsortium, wurde um 2008 gegründet. Das Ziel war, ca. 25 professionelle Linguisten sowie andere Interessierten zusammenzubringen. Diese arbeiten als Freiwillige Transkribierer und/oder als Unterstützer des Projektes in anderen Formen. Die Treibende Kraft hinter der Gründung des Konsortiums war Cecil H. Brown. Søren Wichmann ist der Projektkurator im Tagesgeschäft. Ein drittes, zentrales Mitglied des Konsortiums ist Eric W. Holman, der das Meiste von der Software des Projektes geschrieben hat.

Kürzere Wörterlisten

Die ursprünglich verwendete Wörterliste basierte auf der 100-Wörter Swadesh-Liste. Es wurde in weiterer Folge statistisch bewiesen, dass ein Auszug von 40 Wörtern aus dieser Liste genauso gute (wenn nicht leicht bessere) Ergebnisse für Sprachenklassifikationen lieferten als die komplette Liste.^[7] Seitdem werden in den verschiedenen Sprachen nur mehr 40 Wörter für die Listen als Basis herangezogen (bzw. noch weniger wenn Nachweise für bestimmte Wörter fehlen).

Levenshtein Distance

In papers published since 2008, ASJP has employed a similarity judgment program based on Levenshtein distance (LD). This approach was found to produce better classificatory results measured against expert opinion than the method used initially. LD is defined as the minimum number of successive changes necessary to convert one word into another, where each change is the insertion, deletion, or substitution of a symbol. Within the Levenshtein approach, differences in word length can be corrected for by dividing LD by the number of symbols of the longer of the two compared words. This produces normalized LD (LDN). An LDN divided (LDND) between the two languages is calculated by dividing the average LDN for all the word pairs involving the same meaning by the average LDN for all the word pairs involving different meanings. This second normalization is intended to correct for chance similarity.^[8]

Word list

Das ASJP verwendet folgende 40-Wörter Liste.^[9] Diese ist ähnlich wie die vom Linguisten Sergei Yakhontov erstellte kürzere Swadesh Liste, enthält jedoch einige Unterschiede.

Vorlage:Div col

Köperteile

Auge
Ohr
Nase
Zunge
Zahn
Hand
Knie
Blut
Knochen
Brust (der Frau)
Leber
Haut

Tiere und Pflanzen

Laus
Hund
Fisch
Horn (von Tieren)
Baum
Blat

Menschen

Mensch
Name

Natur

Sonne
Stern
Wasser
Feuer
Stein
Pfad
Berg
Nacht

Verben und Adjektive

Trinken
Sterben
Sehen
Hören
Komen
Neu
Voll

Ordnungszahlen und Pronomen

Eins
Zwei
Ich
Du
Wir

Vorlage:Div col end

Einzelnachweise

↑ Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). http://asjp.clld.org/
↑ ^a ^b Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.
↑ Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.
↑ Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.
↑ Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.
↑ Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.
↑ Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
↑ Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).
↑ http://asjp.clld.org/static/Guidelines.pdf

Weblinks

ASJP Database official home page

[1] Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). http://asjp.clld.org/

[BrownCecil-2] Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.

[3] Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.

[4] Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.

[5] Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.

[6] Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.

[7] Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.

[8] Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).

[9] ttp://asjp.clld.org/static/Guidelines.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]