Diskussion:Hauptkomponentenanalyse

Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 27. Juli 2008 um 11:11 Uhr durch 84.184.136.95 (Diskussion). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 17 Jahren von Philipendula in Abschnitt Schiffsklassen verwirrend (und überflüssig?)

Beispiel Kreuzer unklar

Ich wollte das Beispiel nachrechnen. Dabei fiel mir auf, daß die Angabe der Ausgangsdaten unklar ist. Sind das Rohdaten? Wie erklären sich dann die negativen Werte (Meter)? Sind das zentriert normierte Daten, sind das Vektoren, Hauptkomponenten? Die Darstellung ist nicht nachvollziehbar und daher so nicht akzeptabel. R.sponsel 15:33, 5. Apr 2006 (CEST)

Welche negativen Werte meinst du insbesondere? Die Daten selber sind nicht angegeben. --Philipendula 09:25, 6. Apr 2006 (CEST)

Ich meine diese Daten aus dem Bild:

  • 1 2 3 4 5 6 7
  • Wasserverdrängung BRT 0.948 -0.094 -0.129 0.228 0.040 0.036 -0.136
  • Länge m 0.906 0.302 -0.064 -0.209 0.128 -0.144 -0.007
  • Breite m 0.977 -0.128 -0.031 0.032 0.103 -0.017 -0.014
  • Tiefgang m 0.934 -0.276 -0.061 0.014 0.074 0.129 0.154
  • 1000 ps 0.552 0.779 -0.196 -0.133 -0.099 0.143 -0.038
  • Knoten sm/h -0.520 0.798 -0.157 0.222 0.109 -0.038 0.071
  • Aktionsradius 100 sm 0.398 0.311 0.862 0.038 0.008 0.022 -0.002
  • Mannschaftsstärke 0.955 0.063 -0.052 0.108 -0.226 -0.121 0.067

Diese Daten müßten mindestens richtig gekennzeichnet werden. R.sponsel 15:56, 6. Apr 2006 (CEST)

Es handelt sich um die Ladungsmatrix. Hab den Text dazu noch ergänzt. --Philipendula 18:41, 6. Apr 2006 (CEST)

ok, die Probe c = f * f' führt zu keiner genauen Korrelationsmatrix, was bei einer Hauptkomponentenanalyse "eigentlich" nicht sein darf:

  • c=f*f'
  • c =
  • Columns 1 through 7
  • 0.9976 0.7920 0.9549 0.9091 0.4514 -0.5038 0.2469
  • 0.7920 0.9970 0.8575 0.7536 0.7427 -0.2475 0.3893
  • 0.9549 0.8575 0.9840 0.9535 0.4293 -0.5873 0.3240
  • 0.9091 0.7536 0.9535 0.9983 0.3159 -0.6791 0.2370
  • 0.4514 0.7427 0.4293 0.3159 0.9993 0.3169 0.2904
  • -0.5038 -0.2475 -0.5873 -0.6791 0.3169 0.9995 -0.0858
  • 0.2469 0.3893 0.3240 0.2370 0.2904 -0.0858 1.0002
  • 0.9082 0.8530 0.9079 0.8573 0.5746 -0.4295 0.3544
  • Column 8
  • 0.9082
  • 0.8530
  • 0.9079
  • 0.8573
  • 0.5746
  • -0.4295
  • 0.3544
  • 1.0006

Nachdem die Hauptdiagonalelemente doch recht deutlich von 1 abweichen, stellt sich die Frage: Wo wurde "gepfuscht"?

Offen bleiben zudem: Von welchen Rohwerten (zentriert, normiert) bzw. welcher Korrelationsmatrix wurden diese Werte gewonnen? Problematisch und unerklärt bleibt auch die Deutung der Faktoren. R.sponsel 20:43, 6. Apr 2006 (CEST)

1. Ui ui, da hat SPSS gepfuscht. Na, wenn ich die erwische ... Ich hätte bei der Ladungsmatrix vielleicht lieber alle 8 statt nur 7 Komponenten angeben lassen sollen. Aber die Werte bleiben gleich.

2. Bei den Rohdaten bin ich etwas zurückhaltend. Ich hatte schon mal zwei Dateien mit Rohdaten eingestellt, weil ich das für guten Service hielt. Ich wollte es Usern ermöglichen, Beispiele von mir nachzuvollziehen. Leider kamen dann ein paar Jugendliche dahergerannt und setzten die Daten auf die Löschliste, mit dem Argument, WP sei keine Datenbank und überhaupt seien die Daten Mist usw. Du wirst vielleicht nachvollziehen können, dass meine Neigung, weiterhin Daten vorzuhalten, auf Null gesunken ist.

3. Die Interpretation der Komponenten bleibt jedem selber überlassen, häufig kann man sie auch nicht vernünftig interpretieren.

Gruß --Philipendula 08:26, 7. Apr 2006 (CEST)

1. Nein, die Werte bleiben nicht gleich. Und da hat sicher auch nicht SPSS gepfuscht, sondern Du. Was da steht ist falsch, schlecht dokumentiert und schlecht bis gar nicht erklärt.

2. Hm, das riecht mir sehr nach einer Ausrede. Man kann die zugrundeliegenden Daten ja in einer anderen Abteilungen niederlegen oder auf die Diskussionsliste stellen.

3. Das ist erstens falsch und zweitens, wenn es stimmen würde, warum schreibst Du das denn nicht hin? Kann es sein, daß Du die Sache gar nicht richtig verstehst?

Also präsentiere die Rohdaten wenigstens hier. Dann laesst sich die Pfuscherei immerhin aufklären und beseitigen. So kann es nicht stehen bleiben.

dito R.sponsel 17:00, 7. Apr 2006 (CEST)

Ein wenig rüpelhaft finde ich deine Einlassungen ja schon. Also ich denke, dass eher du etwas nicht verstehst. Ich werde mir jedenfalls von dir nicht vorschreiben lassen, ob ich die Daten bereit stelle oder nicht. --Philipendula 23:25, 7. Apr 2006 (CEST)

Das ist die richtige Einstellung: pfuschen und vertuschen. R.sponsel 19:50, 8. Apr 2006 (CEST)

... renn ruhig in dein Unglück. *g*--Philipendula 20:46, 8. Apr 2006 (CEST)


Ich habe mal oben die Diskussionbeiträge von R.sponsel nach unten zusammengefasst, sonst denkt noch jemand, das ist von mir.

Ich hab in SPSS nachgerechnet:

Run MATRIX procedure:
M3
Columns 1 - 5
  5,190187903    ,000000001   -,000000001    ,000000001    ,000000001
   ,000000001   1,537516954   -,000000001    ,000000000    ,000000000
  -,000000001   -,000000001    ,834573256    ,000000000    ,000000000
   ,000000001    ,000000000    ,000000000    ,177209427    ,000000000
   ,000000001    ,000000000    ,000000000    ,000000000    ,107055463
   ,000000000    ,000000000    ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000    ,000000000    ,000000000
   ,000000001    ,000000000    ,000000000    ,000000000    ,000000000
Columns 6 - 8
   ,000000000    ,000000000    ,000000001
   ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000
   ,076125380    ,000000000    ,000000000
   ,000000000    ,053419932    ,000000000
   ,000000000    ,000000000    ,023911687
------ END MATRIX -----


Run MATRIX procedure:
M3
Columns 1 - 5
  1,000000000    ,794430342    ,947131359    ,910928956    ,450056336
   ,794430342   1,000000001    ,851033833    ,755987616    ,741758011
   ,947131359    ,851033833   1,000000000    ,948442057    ,431107553
   ,910928956    ,755987616    ,948442057    ,999999999    ,315419919
   ,450056336    ,741758011    ,431107553    ,315419919   1,000000001
  -,503452962   -,247927671   -,586694592   -,679187171    ,317600535
   ,246349567    ,389362139    ,322839030    ,237098856    ,290061241
   ,907325721    ,852877693    ,907542699    ,856973964    ,574493389
Columns 6 - 8
  -,503452962    ,246349567    ,907325721
  -,247927671    ,389362139    ,852877693
  -,586694592    ,322839030    ,907542699
  -,679187171    ,237098856    ,856973964
   ,317600535    ,290061241    ,574493389
  1,000000000   -,085991072   -,429282355
  -,085991072    ,999999999    ,354036071
  -,429282355    ,354036071   1,000000001
------ END MATRIX -----

f*f', wie du es bezeichnest, ergibt den unteren Block, also eine saubere Korrelationsmatrix, f'*f ergibt die orthogonale Matrix, wie im oberen Block. Du kann natürlich immer noch gern behaupten, dass ich pfusche, allerdings würde mich mal interessieren, was ich davon hätte. --Philipendula 16:11, 9. Apr 2006 (CEST)

Hab jetzt mal alle 8 Hauptkomponenten hochgeladen. --Philipendula 18:04, 9. Apr 2006 (CEST)

Ja, das ist immer noch Pfusch. Der Zusammenhang zwischen der Diagonalmatrix M3 (offenbar die Eigenwerte) und der rückgerechneten Korrelationsmatrix M3 - schon die gleichen Bezeichungen sind Pfusch - ist hier nicht ersichtlich, auch nicht der Zusammenhang zu den Faktoren. Auch die Rohwerte fehlen immer noch, die ganze Entwicklung ist immer noch nicht nachvollziehbar (dargestellt). R.sponsel 00:25, 11. Apr 2006 (CEST)

Naja, M3 war ja nur ein Platzhalter für die Matrix-Berechnungen in SPSS. So steht das ja nicht im Artikel. Ich denke, in WP sind lediglich ca. 30% der Matheartikel nachvollziehbar, und zu denen gehören "meine" Artikel zu einem allergrößten Teil. Und die Daten bleiben unter Verschluss. Basta. Übrigens: Wo beispielsweise i.a. echt gepfuscht wird, ist im Bereich Psychologie, weil da sehr oft in Fragebögen rangskalierte Daten verwendet werden, die dann mit Verfahren, die für metrisch skalierte Daten gemacht wurden, wie etwa der Hauptkomponentenanalyse, ausgewertet werden. --Philipendula 09:16, 11. Apr 2006 (CEST)
Ich weise noch darauf hin, dass Diskussionsbeiträge in der WP im Web gespiegelt werden. Wenn man unter R.Sponsel googelt, wird man möglicherweise noch ewig diese Diskussion finden. Vielleicht solltest du mit deinen haltlosen Pauschalanwürfen doch etwas vorsichtiger sein. Es haben schon viele Selbstdarsteller später allzu forsches Auftreten bereut. *sich entspannt zurücklehn* --Philipendula 09:31, 11. Apr 2006 (CEST)

Schön, damit ist dokumentiert, dass diese angebliche Hauptkompontenanalyse schlecht dokumentierter, nicht nachvollziehbarer 30%-Meister-Pfusch ist. R.sponsel 12:09, 11. Apr 2006 (CEST)

30%? --Philipendula 13:22, 11. Apr 2006 (CEST)

Normierung der Eigenvektoren in der Matrix Γ

Es wird unter dem Punkt: Verfahren beschrieben, dass es sich bei der Hauptkomponentenanalyse im eigentlichen Sinne um eine Rotation der Merkmalsvektoren handelt, so dass die Korrelationen zwischen den einzelnen Parametern verschwinden. Somit muss Γ einer Rotationsmatrix (mit den typischen Eigenschaften wie Inverse(A) = Trans(A) sowie det(A)=1) entsprechen. Das tut sie aber im Beispiel mit den 3 Komponenten (Länge, Breite und Knoten) sowie im Beispiel mit den 8 Komponenten nicht. Die Werte wurden zeilen-Spalten-vertauscht. Aber auch dann erfüllt die "richtige" Rotationsmatrix nicht die oben genannten Bedingungen. Das Beispiel sollte überarbeitet werden. Gruß Alex 27.10.2005

Griechische Buchstahm

Sagt mal, Jungs, könnt ihr die Matrizen nicht mit ganz normalen Bezeichnern anstatt \Sigma, \Gamma und \Lambda verwenden? Es wäre (zumidnest für mich) um einiges einfacher, den mathematischen Sachverhalt nachzuvollziehen, wenn ich nicht immer die (für mich) fremden Buchstaben entziffern müsste. Überlets euch mal. Gruß und danke Ernie. 00:41, irgendwann im Juni 2005

Ungern. Zum Einen stehen griechische Buchstaben als Parameter der Grundgesamtheit, das lateinische Pendant ist der Stichprobenparameter. Außerdem gehen einem sonst die Zeichen aus, wenn man nicht auf griechische zurückgreifen kann. Irgendwann am frühen Morgen Gruß --Philipendula 00:53, 12. Jun 2005 (CEST)

Ist es möglich, den originalen Datensatz beizufügen, damit man selbst mit ihm spielen kann, oder ist der Datensatz proprietär? --Johannes Hüsing 14:50, 1. Jul 2004 (CEST)

Ist mir gnu-mäßig zu unsicher. --Philipendula 14:55, 1. Jul 2004 (CEST)

Faktorenanalyse wird ja angesprochen, aber wie ist das Verhältnis zur Diskriminanzanalyse? Was ist der Unterschied? -- Nichtich 21:52, 27. Jul 2004 (CEST)

Man könnte die PCA als Spezialfall der Faktorenanalyse bezeichnen. Insofern ist sie vom Verwandschaftsgrad zur Faktorenanalyse eher eine Schwester, wohingegen die DA eher als Schwippschwägerin aufzufassen ist. Lies doch mal nach unter Hauptkomponentenanalyse und Diskriminanzanalyse ;-). Oder interessiert es Dich wirklich? --Philipendula 23:06, 27. Jul 2004 (CEST)

In der Einleitung zu dem Beispiel heißt es "Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch PS-Zahl und Knoten bestimmt wird. Vielleicht könnte man ihn „Geschwindigkeit“ nennen." Die "PS-Zahl" ist ein Maß für die Leistung, und "Knoten" eine Maßeinheit der Geschwindigkeit. Vielleicht könnte man diese Bezeichnungen für die Variablen übernehmen, nur ist es dann natürlich ungünstig, den Faktor auch "Geschwindigkeit" zu nennen. --Qlmatrix 16:53, 17. Nov 2004 (CET)

Was stört Dich an der jetzigen Bezeichnungsweise? --Philipendula 17:28, 17. Nov 2004 (CET)
Nun, "PS" und "Knoten" sind Maßeinheiten und keine Merkmale/Größen. Oben steht ja auch nicht "Meter-Zahl" , sondern Länge und Breite. Zudem ist es verwirrend einen Faktor "Geschwindigkeit" einzuführen, zu dem u.a. ein Merkmal "Geschwindigkeit" gehört und anderes ein Merkmal, das nicht die Geschwindigkeit, sondern die Antriebsleistung beschreibt. --Qlmatrix 15:44, 18. Nov 2004 (CET)
Gut. Natürlich hast Du prinzipiell recht. Allerdings war dieser Artikel keine Vorlesung: Physikalische Grundlagen. Ich dachte eigentlich, dass klar sein müsste, was mit Knoten und PS gemeint ist. Das sind ja nur Variablennamen, ich hätte sie auch x1 und x2 nennen können, das hätte dann gar nicht mit der Sache zu tun. Wenn es nur eine Ausdehnung gegeben hätte, hätte ich sie möglicherweise Meter genannt. Ich habe Knoten in einem Klammerzusatz noch präzisiert. O.K? Ein Faktor wird von einem Bündel Variablen dominiert. Es geht bei der Bezeichnung des Faktors nur darum, eine Interpretation zu finden, um anzuzeigen, welche Variablen vor allem hier wichtig sind. Es gibt auch Faktoren, die kann man gar nicht sinnvoll interpretieren, weil die Mischung der Variablen völlig rätselhaft ist. Geschwindigkeit war hier nur als Symbol gemeint, im Gegensatz zu Größe. Die PS-Zahl bestimmt ja die Höchstgeschwindigkeit eines Schiffs (Jaa, die Größe bestimmt sie auch ;)). Man könnte diesen Faktor auch als Leistung bezeichnen. Wäre Dir das lieber? Ich will nur die Variablenbezeichnung nicht ändern, sonst müsste ich die Grafiken neu machen, was mich nicht gefreut! --Philipendula 00:37, 19. Nov 2004 (CET)

Mich wunderts ein bißchen, dass in meinen Statistikbüchern (Backhaus, Bortz) die PCA als _die_ Faktorenanalyse geführt wird, in diesem Artikel aber steht, die PCA unterscheide sich von der Faktorenanalyse? Ich dachte immer die Faktorenanaylse sei ein Sammelbegriff für eine ganze Reihe von Verfahren, von denen die PCA die bekannteste sei? Natürlich stimmt nicht immer alles was in den Lehrbüchern steht ;-) Trotzdem ein "???"- Mathias Fischer 23:38, 26. Jan 2005 (CET)

Nun, der Backhaus ...räusper... vereinfacht manchmal die Tatsachen. Die Faktorenanalyse ist ein statistisches Modell, bei der eine Variable aus der Linearkombination der Faktorladungen besteht und einem Residuum. Man hebt hier vor allem auf die Kovarianzen ab. Die PCA dagegen ist ein rein mathematisches Verfahren ohne Modellannahmen, die nur dazu dient, die Daten orthogonal abzubilden. Hier sind die Varianzen der Daten von Interesse. Die Residuen werden nicht betrachtet. Man kann allerdings die PCA als Rechenverfahren bei der Faktorenanalyse einsetzen. (siehe etwa Fahrmeir, et al.). --Philipendula 23:53, 26. Jan 2005 (CET)

Habe die Artikel Karhunen-Loève-Transformation und Hauptkomponentenanalyse in einen gepackt, weil Ersterer eigentlich das Gleiche ist wie Letzterer und nur in der Bildbearbeitung einen anderen Namen hat. Das Bild Bild:PCA2.jpg hab ich rausgenommen, denn es ist nur mit großem zusätzlichen Aufwand zu verstehen. Ich warte ergebenst auf diverse Schläge ... Gruß --Philipendula 15:56, 2. Aug 2005 (CEST)


Diskussionsseite von Karhunen-Loève-Transformation

Die Seite gibts aber noch.

Ich habe im Artikel mal darauf hingewiesen, dass die gesuchte Matrix KLT zwar durchaus aus den Eigenvektoren der Kovarianzmatrix aufgebaut wird, aber nicht (wie man es intuitiv annehmen würde) als Spaltenvektoren betrachtet.

Wenn man sich den Artikel zur Hauptkomponentenanalyse anschaut, sieht man, dass zwar erstmal eine Matrix aus den Eigenvektoren als Spaltenvektoren aufgebaut wird - die gesuchte Abbildung in das "kovarianzfreie" (*) System aber mit dem Inversen dieser Matrix erfolgt. Und da sie orthogonal ist, ist das gleich der transponierten Matrix - eben aus den gleichen Vektoren aufgebaut, aber als Zeilenvektoren betrachtet. (sieht man besonders gut auf der englischen Seite en:Principal components analysis)

Unter diesem Aspekt ist das Beispiel im Artikel vielleicht etwas verwirrend. Dessen Eigenvektormatrix ist nämlich verwirrenderweise gerade eine symmetrische Matrix. Da ist es natürlich egal, ob man sie aus Zeilen- oder Spaltenvektoren aufbaut. Abgesehen davon: Eine symmetrische Rotationsmatrix kann doch eigentlich nur eine Rotation um 180° darstellen, oder? Kann eine solche Rotation überhaupt etwas an der Korrelation zwischen den Vektorkomponenten ändern? Bei einer 180°-Rotation ändern sich doch nur die Vorzeichen aller Komponenten - die Korrelationen werden dadurch nicht verändert, oder habe ich hier einen Denkfehler? Das müsste dann doch aber bedeuten, dass die Korrelation bereits minimal war. Dann hätten wir aber von Anfang an eine Diagonalmatrix als Kovarianzmatrix gehabt. Irgendwas passt da bei mir noch nicht. ;-}

(* im Artikel wird erwähnt, dass es ein "Verfahren zur Minimierung der Korrelation" ist. Aus dem Bauch heraus, würde ich annehmen, dass nach der Abbildung die Korrelation zwischen den Komponenten sogar komplett verschwunden ist - eben "kovarianzfrei". Kann das jemand bestätigen?

Meine Vermutung stützt sich vor allen Dingen auf die Diagonalmatrix D, die man mit D= Q^T A Q erhält, wenn A die Kovarianzmatrix und Q die Eigenvektormatrix ist. In en:Principal components analysis wird ja gezeigt, dass D dann die Kovarianzmatrix des neuen Systems ist, wenn ich das nicht falsch verstanden habe. Dann ist natürlich die Kovarianz überall 0 (Diagonalmatrix).

Wenn das stimmt, sollte man das vielleicht noch in den Artikel einbauen - also dass die Korrelationen nicht nur verringert sondern komplett beseitigt werden. (Ok, vielleicht ist das auch nur für mich nicht offensichtlich ;) )

--134.109.132.157 04:27, 11. Jul 2005 (CEST)

Idee der Hauptkomponentenanalyse

Hallo,

ich habe mir diesen Artikel gelesen bevor ich wusste was PCA ist und jetzt danach.

Hier sind einige Korreturvorschläge: Die Idee von PCA ist doch, einen geeigneten Unterraum zu finden, damit die Anzahl der empirischen Dimensionen weniger wird, damit man überhaupt damit arbeiten kann. Es kommt aus dem Artikel nicht so klar hervor. Zudem wären die Begriffe wie Abbildungsverlust und Projektionsverlust zu erwähnen, was im Artikel komplett fehlt.

Im ersten Absatz wird das mit der Dimensionsreduktion doch eigentlich in einfachen Worten angesprochen. Das mit dem Informationsverlust kann man erwähnen, das ist aber bei linearen Verfahren meistens in irgend einer Art und Weise der Fall. --Philipendula 12:21, 13. Nov 2005 (CET)

Außerdem: Man kann die PCA benutzen, um die Dimension eines Datensatzes zu reduzieren. Das ist in der Tat eine häufige Anwendung. Prinzipiell tut die PCA aber nichts anderes, als die Daten so umzuschreiben, dass ihre innere Struktur möglichst deutlich zur Geltung kommt. Im Idealfall bemerkt man dann, dass einige der Komponenten der Daten keine nützliche Information enthalten, so dass man diese dann vernachlässigen kann.
MfG, Rene

Hauptachsentransformation abtrennen

Ich habe Hauptachsentransformation eingetippt und bin dann auf diese Seite gestoßen. Ich kenne das Verfahren eigentlich nur aus der Geometrie bzw. aus der Bildverarbeitung. Sicher ist das mathematisch, an dieser Stelle das selbe. Ich wäre denoch dafür, wenn man für man einen eigenen Artikel dafür anlegt um evtl. auch die geometrische Bedeutung genauer zu erklären. Dadurch kann man sich dan richtig vorstellen, was da passiert. Im stochastischen Zusammenhang fällt mir das schon nicht mehr so leicht. Ich werde das die nächsten Tage mal in Angriff nehmen. Wenn jemand ein gutes Argument dagegen hat, kann er sich ja hier auslassen :)--Hackendahl 18:15, 8. Mai 2006 (CEST)Beantworten

Ein rein mathematischer Artikel fehlt noch. Ich hatte ihn auch schon im Visier, konnte mich aber noch nicht aufraffen. Mir wäre es lieber, wenn man nicht den mathematischen Teil aus Hauptkomponentenanalyse auslagern würde, sondern einen komplett neuen schreiben würde. Es ist nämlich abzusehen, dass der mathematische Artikel nach dem Prinzip "Ich weiß auch was!" irgendwann so unverdaulich wird, dass er für reine Anwender der HA nicht mehr zu gebrauchen ist. Also den mathematischen Teil von mir bitte drin lassen, er ist bewusst einfach gehalten. --Philipendula 21:19, 8. Mai 2006 (CEST)Beantworten

Vektormarkierung

Vektoren durch Unterstreichung hervorzuheben ist keine Alternative. Es ist unüblich, sieht unschön aus und verwirrt den unbedarften Leser. Mir ist klar, dass die Fettmarkierung bei den vielen griechischen Großbuchstaben nicht direkt ins Auge fällt, aber das muss sie auch gar nicht: Die Hervorhebung von Vektoren ist mathematisch nicht üblich und hier nur schmückendes Beiwerk und kostenlose Zugabe. Wer sich ernsthaft mit den Formeln beschäftigt erkennt ohnehin sofort was Vektor oder Matrix ist und was nicht. Wer sich nicht ernsthaft damit beschäftigen will, kümmert sich auch nicht um die Formeln. Ich bitte darum, die in der Statistik übliche Fettmarkierung wieder herzustellen (die vom Benutzer nach mir eingefügten überflüssigen <math>s natürlich nicht, die stören nur den Zeilenfluss). --217.185.80.33 09:23, 7. Aug 2006 (CEST)

vektoren werden in der literatur nicht einheitlich dargestellt. der unterstrich ist eine der haeufig benutzten varianten. siehe dazu Vektor#Darstellungsformen. ja, mathematiker haben das nicht noetig, wenn die variablen gescheit deklariert wurden. nicht-mathematiker (z.b. ingenieure) jedoch koennen i.a.r. einer gleichung besser folgen, wenn die vektoren anders als skalare aussehen. der didaktische hintergrund ist wohl auch ausschlaggebend fuer die in der schule verwendete optische trennung der variablen. die math-umgebung ist nicht obergeil, aber das beste was wir haben, siehe hilfe:teX. -- seth 10:19, 7. Aug 2006 (CEST)
Die Hervorhebung durch Unterstrich ist ausschließlich im englischsprachigen Raum anzutreffen, siehe ebenda Vektor#Darstellungsformen. Im deutschsprachigen Raum ist sie nichtssagend. Was die Häufigkeit betrifft: Sogar die englischsprachige Wiki verzichtet fast vollständig auf diese Art der Markierung, vgl. en:Vector (spatial). Gegen eine Hervorhebung an sich habe ich nichts, schließlich habe ich sie nicht entfernt, sondern nur durch eine üblichere Art der Markierung ersetzt. Der Unterstrich ist nicht nur schlecht weil er hierzulande so selten verwendet wird, sondern insbesondere deshalb, weil man ihn andauernd mit der Hyperlink-Markierung verwechselt. Die zusätzliche Auszeichnung von Matrizen ist übrigens sehr unüblich, egal welchen Sprachraum man betrachtet. Nicht umsonst verwendet man Großbuchstaben im Vergleich zu den Kleinbuchstaben der Vektoren und Skalare. --217.185.68.251 15:12, 7. Aug 2006 (CEST) (derselbe wie oben)
ich habe mehrere vorlesungen auf deutsch gehoert, in denen vektoren durch einen unterstrich angezeigt wurden. das "ausschliesslich" steht auch nicht im verlinkten wikipedia-artikel, sondern wurde von dir (faelschlich) reininterpretiert.
egal. auch ich vermute, dass der unterstrich hier nicht so oft verwendet wird wie (die ingenieurs-)pfeile, die wiederum von mathematikern fast nie verwendet werden. die moeglichkeit der verwechslung mit hyperlinks halte ich jedoch fuer kein gutes argument, da wohl fast niemand bei seinem browser (oder in den wiki-einstellungen) einstellt, dass links immer schwarz sein sollen.
bzgl. der matrizen-unterstriche gebe ich dir recht. ich enthalte mich jedoch insg. der meinung darueber, wie nun vektoren oder matrizen zu kennzeichnen seien, weil's mir als mathematiker eigentlich voellig egal ist, solange es eindeutig/klar ist. -- seth 00:22, 8. Aug 2006 (CEST)
Du hast recht, das ausschließlich hab ich aus meiner eigenen Erfahrung dazugedichtet. Ich habe den Unterstrich in keiner einzigen Vorlesung (Mathe, Statistik, Mustererkennung) kennengelernt. Ich habe sie aber auch noch nie in irgendeinem Buch oder einem Skript einer anderen Uni gesehen; und ich habe nicht gerade wenige gelesen. Was aber vielleicht wichtiger ist, ist der Kommentar dahinter: „(Anmerkung: In diesem Artikel wird durchgängig die Pfeilschreibweise verwendet, in anderen Wikipedia-Artikeln kommt aber auch der Fettdruck vor.)“ Wenn's schon so ausdrücklich da steht, sollte man sich auch dran halten. Die Verwechslung mit Hyperlinks zählt als Argument, denn 1.) setzen sich viele Webanwendungen bei der Linkfarbe über die Browservorgabe hinweg, 2.) ist die Unterscheidung zwischen Dunkelblau/-lila und Schwarz nicht immer leicht, vor allem bei einzelnen Symbolen im Schmaldruck (Λ oder Λ)und 3.) hab selbst ich als Informatik-Dödel mehrmals den Drang verspürt, auf Λ zu klicken... --217.185.80.23 10:22, 9. Aug 2006 (CEST) (derselbe wie oben)
In Vorlesungen meines Studiums gab es die Unterstriche. --Philipendula 12:05, 9. Aug 2006 (CEST)

Schiffsklassen verwirrend (und überflüssig?)

Die Einteilung der Kriegsschiffe in vier Klassen erscheint mir verwirrend. Sie spielt doch offensichtlich bei der durchgeführten Analyse gar keine Rolle. Eine grössere Anzahl von Schiffen wird nach drei bzw. acht Eigenschaften untersucht, von denen einige mehr oder weniger korreliert sind, so dass man die Anzahl der signifikanten Parameter dementsprechend verkleinern kann, um das einzelne Schiff – unabhängig davon, zu welcher Klasse es gehört – zu charakterisieren. --BurghardRichter 17:03, 27. Feb. 2008 (CET)Beantworten

Nun, man sieht am Streudiagramm, wie sich die Merkmale auf die Klassen aufteilen, was ja eigentlich informativ ist, oder? --Philipendula 17:08, 27. Feb. 2008 (CET)Beantworten

Ja, informativ über Kriegsschiffe ist es schon, aber nicht für das Verständnis der Hauptkomponentenanalyse. --BurghardRichter 17:34, 27. Feb. 2008 (CET)Beantworten

Und? Muss ich jetzt die Grafiken löschen oder willst du welche machen? --Philipendula 18:03, 27. Feb. 2008 (CET)Beantworten

Man muss deswegen nicht die Zeichnungen ändern. Aber man könnte im Text darauf hinweisen, dass die Klasseneinteilung kein wesentliches Element der Hauptkomponentenanalyse ist, sondern eine Information, die in den Hauptkomponenten, die durch die Transformation gewonnen wurden, vielleicht etwas deutlicher sichtbar wird als in den ursprünglichen Daten. Anderenfalls wird ein Leser, der noch keine oder nur eine mangelhafte Vorkenntnis über die PCA besitzt, dadurch verwirrt, dass in dem Beispiel zunächst eine Klasseneinteilung herausgestellt wird, die dann bei der mathematischen Behandlung anscheinend gar keine Rolle spielt. Hilfreich könnte auch noch eine weitere Zeichnung im gleichen Format sein, in der die transformierten Koordinaten yA und yB für die einzelnen Schiffe aufgetragen sind. --BurghardRichter 18:33, 27. Feb. 2008 (CET)Beantworten

Hier darf jeder. Bitte lass dich nicht aufhalten. --Philipendula 18:40, 27. Feb. 2008 (CET)Beantworten


Dimensionsreduktion

Da es auf der Diskussionsseite bereits Fragen zur Verwendung der PCA zur Dimensionsreduktion gab, würde ich vorschlagen, dass man dazu ebenfalls noch einen kurzen Abschnitt formuliert. Da könnte man dann auch die gängige Kritik anbringen, dass PCA nicht zwischen Signal-Varianz und Rausch-Varianz unterscheiden kann und somit nur begrenzt zur Dimensionsreduktion anwendbar ist. Beispielbilder dazu sollten sich auch leicht finden lassen.
MfG, Rene, 03. Juli 2008, 22.07

Beispielbild falsch

 
Hauptkomponentenanalyse für die Bildverarbeitung: Zwei Hauptkomponenten eines Bildes (oblique rotiert)

Die Koordinatenachsen auf diesem Beispielbild (sowie auch auf den anderen beiden auf der Bildseite verlinkten Bildern) stehen nicht senkrecht aufeinander. Da die Koordinatenachsen der PCA immer senkrecht aufeinander stehen, ist das als sehr verwirrend und falsch einzuordnen und meiner Meinung nach komplett zu löschen, am Besten gleich in allen Sprachen (auf der Bildseite steht was vom französischen Wikipedia).