Hauptkomponentenanalyse
Artikel wird gerade bearbeitet!!
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA)) ist eine Methode der multivariaten Verfahren in der Statistik. Sie ist verwandt mit der Faktorenanalyse.
Konzeption der Hauptkomponentenanalyse
In diesem Verfahren versucht man, aus Daten mit vielen Eigenschaften einige wenige latente Faktoren zu extrahieren, die für diese Eigenschaften bestimmend sind. Da die Hauptkomponentenanalyse nicht ganz einfach ist, folgt zunächst ein
Beispiel
Betrachtet werden Artillerieschiffe des 2. Weltkriegs. Sie sind eingeteilt in die Klassen Schlachtschiffe, schwere Kreuzer, leichte Kreuzer und Zerstörer. Es liegen Daten für ca. 200 Schiffe vor. Es wurden die Merkmale Länge, Breite, Wasserverdrängung, Tiefgang, PS-Stärke, Knoten, Aktionsradius und Mannschaftsstärke erfasst. Eigentlich messen die Merkmale Länge, Breite, Wasserverdrängung und Tiefgang alle einen ähnlichen Sachverhalt. Man könnte hier also von einem Faktor „Größe“ sprechen. Die Frage ist, ob noch andere Faktoren die Daten bestimmen. Es gibt tatsächlich noch einen zweiten deutlichen Faktor, der vor allem durch PS-Zahl und Knoten bestimmt wird. Vielleicht könnte man ihn „Geschwindigkeit“ nennen.
Weitere Anwendungsbeispiele der Hauptkomponentenanalyse
Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an, gibt es möglicherweise latente Faktoren wie sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. Hier könnte man durch gezielte Werbung die Kauflust entsprechend kanalisieren.
Hat man ein statistisches Modell mit sehr vielen Merkmalen, könnte mit Hilfe der Hauptkomponentenanalyse gegebenenfalls die Zahl der Variablen im Modell reduziert werden, was meistens die Modellqualität steigert.
Verfahren
Es soll zunächst vorausgeschickt werden, dass die Varianz von Daten ein Maß für ihren Informationsgehalt ist.
Die Daten liegen als n-dimensionale Punktwolke in einem n-dimensionalen kartesischen Koordinatensystem vor. Es wird nun ein neues Koordinatensystem in die Punktwolke gelegt, das Koordinatensystem wird rotiert. Die erste Achse soll so durch die Punktwolke gelegt werden, dass die Varianz der Daten in dieser Richtung maximal wird. Die zweite Achse steht auf der ersten Achse senkrecht. In ihrer Richtung ist die Varianz am zweitgrößten usw. Für die n-dimensionalen Daten gibt es also grundsätzlich n viele Achsen, die aufeinander senkrecht stehen, sie sind orthogonal. Die Gesamtvarianz der Daten ist die Summe dieser "Achsenvarianzen". Wird nun durch die ersten p (p<n) Achsen der größte Prozentsatz der Gesamtvarianz abgedeckt, erscheinen die Faktoren, die durch die neuen Achsen repräsentiert werden, ausreichend für den Informationsgehalt der Daten.
Häufig können die Faktoren inhaltlich nicht interpretiert werden.
Statistisches Modell
Man betrachtet p viele Zufallsvariablen Xj, die bezüglich ihrer Erwartungswerte zentriert sind, d.h. ihre Erwartungswerte wurden von der Zufallsvariablen subtrahiert. Diese Zufallsvariablen werden in einem (px1)-Zufallsvektor x zusammengefasst. x hat als Erwartungswertvektor einen Nullvektor und die (pxp)-Kovarianzmatrix Σ, wobei Σ symmetrisch und positiv definit ist. Die Eigenwerte λj (j=1,...,p) der Matrix Σ sind absteigend der Größe nach geordnet. Sie werden als Diagonalelemente in der Diagonalmatrix Λ aufgeführt. Die zu ihnen gehörenden Eigenvektoren bilden die orthogonale Matrix Γ. Es gilt dann
Der Zufallsvektor x wird linear transformiert zu
.
Zur Verdeutlichung betrachten wir einen dreidimensionalen Zufallsvektor
- .
Die Matrix der Eigenwerte ist
wobei λA > λB > λC ist.
Die (3x1)-Eigenvektoren γj lassen sich in der Matrix Γ zusammenfassen:
- .
Die Multiplikation
ergibt die Gleichungen
- .
Die Varianz von YAist
also hat die Hauptkomponente YA den größten Anteil an der Gesamtvarianz der Daten, YB den zweitgrößten Anteil usw. Die Elemente γjk (j=1,2,3; k = A,B,C) könnte man als Beitrag der Variablen Xj am Faktor k bezeichnen. Die Matrix Γ bezeichnet man in diesem Zusammenhang als Ladungsmatrix, sie gibt an, "wie hoch eine Variable X auf einen Faktor Y lädt".
Schätzung der Modellparameter
Liegen konkret erhobene Daten mit p Merkmalen vor, wird aus den Merkmalswerten die Stichproben-Korrelationsmatrix errechnet. Aus dieser Matrix bestimmt man dann die Eigenwerte und Eigenvektoren für die Hauptkomponentenanalyse.
Beispiel mit drei Variablen
Dieses obige Beispiel wird jetzt in Zahlen verdeutlicht:
Wir betrachten die Variablen Länge, Breite, Knoten. Die Streudiagramme geben einen Eindruck über die gemeinsame Verteilung der Variablen wieder.
Streudiagramm Länge - Knoten von Artillerieschiffen Länge - Breite von Artillerieschiffen
Mit diesen drei Variablen wurde mit dem statistischen Programmpaket SPSS eine Hauptkomponentenanalyse durchgeführt. Die Ladungsmatrix Γ ist
Faktor | A | B | C |
Länge | 0,862 | 0,481 | -0,159 |
Breite | 0,977 | 0,083 | 0,198 |
Knoten | -0,679 | 0,730 | 0,082 |
Der Faktor yA setzt sich also zusammen aus
vor allem der Beitrag von Länge und Breite zum ersten Faktor ist groß. Beim zweiten Faktor ist vor allem der Beitrag von Knoten groß. Der dritte Faktor ist unklar und wohl auch unerheblich.
Die Gesamtvarianz der Daten verteilt sich wie folgt auf die Hauptkomponenten:
Faktor | Eigenwert λj | Prozent der Gesamtvarianz | Prozentualer Anteil der Kumulierten Varianz an Gesamtvarianz |
A | 2,16 | 71,97 | 71,97 |
B | 0,77 | 25,67 | 97,64 |
C | 0,07 | 2,36 | 100,00 |
Es werden also durch die ersten zwei Hauptkomponenten bereits 97,64% der gesamten Varianz der Daten abgedeckt. Der dritte Faktor trägt nichts Nennenswertes zum Informationsgehalt bei.
Beispiel mit acht Variablen
Es wurden nun acht Merkmale der Artillerieschiffe einer Hauptkomponentenanalyse unterzogen. Die Tabelle der Ladungsmatrix zeigt, dass vor allem die Variablen Länge, Breite, Tiefgang, Wasserverdrängung und Mannschaftsstärke hoch auf die erste Hauptkomponente laden. Diese Komponente könnte man als "Größe" bezeichnen. Die zweite Komponente wird zum größten Teil durch PS und Knoten erklärt. Die könnte "Geschwindigkeit" genannt werden. Eine dritte Komponente lädt noch hoch auf Aktionsradius.
Die beiden ersten Faktoren decken bereits ca. 84% der Information der Schiffsdaten ab, der dritte Faktor erfasst noch einmal ca. 10%. Der zusätzliche Beitrag der restlichen Komponenten ist unerheblich.
Ladungsmatrix der Hauptkomponenten
Literatur
- Mardia, KV, Kent, JT, and Bibby, JM: Multivariate Analysis, New York 1979
- Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg): Multivariate statistische Verfahren, New York 1996
- Hartung, Joachim, Elpelt, Bärbel: Multivariate Statistik, München, Wien 1999