Der Artikel enthält teilweise Inhalte, die zur Varianzanalyse gehören und wahrscheinlich gibt es weitere Überschneidungen. Besser an einer Stelle gut erklärt als an mehreren Stellen nur halb gut. Thematische Doppelungen sind auch schlecht zu warten. Die Bilder und Beispiele sind aber toll. Es sollte nur noch ein bischen gestrafft werden. -- Nichtich 09:49, 27. Jul 2004 (CEST)
Deiner Meinung bin ich nicht. Die klassische VA und DA gehören gemeinsam zu einer Klasse von Verfahren, den sog. linearen Verfahren, die man i.a. als y = a + bx beschreiben könnte, wobei sowohl x als auch y Matrizen sein können. Sie unterscheiden sich folgendermaßen:
Bei der VA ist y eine metrische Variable und x kategoriale Dummyvariable als Platzhalter für den Einfluss eines Faktors. Beispiel: x1 ist Farbe eines Regals und x2 ist Stärke der Beleuchtung. y ist Absatz von Kaffeepaketen. Man fragt hier, wieviel Einfluss haben der Faktor Farbe und Beleuchtung jeweils auf den Absatz?
Bei der DA sind die x metrische Variablen und y ist nominalskaliert. y bezeichnet die Zugehörigkeit eines Objekts zu einer Gruppe. Man fragt hier: Kann ich y mit Hilfe von x vorhersagen. Beispiel: y ist eine Schiffsklasse (Schlachtschiff, Zerstörer, Kreuzer) und x sind etwa Länge, Breite, Tiefgang, BRT. Frage: Zu welcher Schiffsklasse gehört ein Schiff mit bestimmten Maßen? (Mag dieses Beispiel künstlich sein, gibt es tatsächlich eine ähnliche Anwendung in den GIS: Wenn per Satellit im Meer eine Ölverschmutzung entdeckt wird, versucht man mit Hilfe der Daten, die der Satellit von Schiffen in der Nähe erfasst, den vermutlichen Verursacher zu finden, etwa ist dieses Schiff eher ein Containerschiff oder Tanker? usw.).
Was Dich vielleicht zur Annahme der Ähnlichkeit gebracht hat, war die Verwendung des Begriffs Varianz. Varianz ist allerdings ein formales Maß für den Gehalt an Information. Hat ein Merkmal eine große Varianz, streut es stark, es steckt also viel Information in den einzelnen Daten. Mit Varianzen hat man es in linearen Verfahren immer zu tun: In der Regressionsanalyse und eigentlich auch der VA wird die Varianz der Residuen minimiert, in der DA maximiert man die Varianz zwischen den Gruppen, in der Faktorenanalyse wird die Gesamtvarianz der Daten auf die einzelnen Hauptachsen aufgeteilt usw.
(Eigentlich könnte man fast daraus einen Artikel über Lineare Verfahren machen.) DA ist nicht einfach zu erklären. Wenn man zu lakonisch ist, bleibt die Beschreibung unverständlich. Ich kenne jemanden, der hat eine Dissertation über dieses Thema geschrieben und hat trotzdem eigentlich nie gewusst, was er da macht. In der Hoffnung, dass der Artikel DA einigermaßen ungerupft bleibt --Philipendula 10:57, 27. Jul 2004 (CEST)
Das VA und DA zwei unterschiedliche Dinge sind ist mir schon klar. Teile des Artikels und die Beispiele könnten aber genauso gut unter Varianzanalyse, Mahalanobis-Distanz, Bayes-Klassifikator etc. stehen. Deine Bilder machen das ganze schon ziemlich anschaulich (schade nur, dass man Bilder so schlecht bearbeiten kann, sonst würde ich noch die Trennfläche der Diskriminanzfunktion hinzufügen). Was mir immer wieder in der Wikipedia aufstösst ist, dass zwar einzelne Artikel (wie dieser) ganz gut sind, man aber beim Weiterblättern in verwandten Artikeln auf lauter Ungereimtheiten und Unklarheiten stösst. Die unterschiedliche Benennung von Variablen ist nur eine Kleinigkeit. Besser einheitliche kurze aber klare Artikel mit Beispielen und Verweisen untereinander, zwischen denen man hin und her springen kann als komplexe Lehrbuchartikel, die alles nochmal von vorne Erklären und dabei sogar verschiedene Terminologien benutzen. Da ich noch nicht so tief in der Materie stecke, werde ich mich mit dem auseinanderrupfen des Artikels aber erstmal zurückhalten ;-) -- Nichtich 12:17, 28. Jul 2004 (CEST)
P.S: Eine der Gründe, warum ich die Wikipedia so interessant finde, ist ihre hochgradige Transdisziplinarität. Beispielsweise wird die Diskriminanzanalyse in unterschiedlichsten Bereichen eingesetzt, so dass dieser Artikel am Ende u.A. für den Statistiker, Geowissenschaftler, Wirtschaftswissenschaftler, Informatiker und interessierten Laien passend sein muss.
gepoolte Kovarianz
Wird im Text erwähnt aber nicht erklärt. Was ist das?