Benutzerin:Frau Holle/fa

Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 20. August 2007 um 18:59 Uhr durch Frau Holle (Diskussion | Beiträge) (Grundidee der Faktorenanalyse). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die Faktorenanalyse dient dazu, aus empirischen Beobachtungen verschiedener Variablen (Observablen) auf zugrunde liegende latente Variable ("Faktoren") zu schließen. Sie gehört somit zu den datenreduzierenden (auch dimensionsreduzierenden) statistischen Verfahren.

Hintergrund: Geschichte, Anwendungen

Die Faktorenanalyse wurde vom Psychologen Charles Spearman für die Auswertung von Intelligenztests entwickelt. 1904 zeigte er, dass Testergebnisse zu einem guten Teil durch ein eindimensionales Persönlichkeitsmerkmal, den general factor (g-Faktor), erklärt werden konnten. Die Verallgemeinerung auf eine Analyse mit mehreren Faktoren wird J. C. Maxwell Garnett zugeschrieben (Steiger 1979); popularisiert wurde sie in den 1940er Jahren von Louis Leon Thurstone. In den 1950er und 60er Jahren fand die Methode dank zunehmender Computerverfügbarkeit weite Verbreitung; theoretische Probleme wie die Unbestimmtheit der Faktoren wurden verdrängt und werden noch heute nicht in allen Lehrbüchern adäquat behandelt.

Gelegentlich wird die Faktorenanalyse auch für naturwissenschaftliche Probleme eingesetzt. Die typischen Anwendungen sind aber nach wie vor in der Psychologie und Soziologie. Regelmäßig wird die Faktorenanalyse bei der Entwicklung von Fragebögen eingesetzt.

Als Beispiel nehmen wir an, im Rahmen einer medizinischen Untersuchungsreihe sei ein Fragebogen mit Fragen (Items) wie den folgenden zum Einsatz gekommen:

  • Fühlen Sie sich oft abgeschlagen?
  • Sind Sie tagsüber oft müde?
  • Haben Sie das Bedürfnis, sich am Tag ins Bett zu legen?
  • Empfinden Sie sich oft kraftlos?
  • Trinken Sie tagsüber viel Kaffee?

Mit einer Faktorenanalyse der empirischen Antworten könnte man untersuchen, ob die Antworten überwiegend von ein und derselben latenten Variable abhängen, oder ob mehrere Variable relevant sind. Anhand ihrer Korrelationen mit den Observablen kann man den latenten Variablen günstigenfalls eine anschauliche Bedeutung zuschreiben ("Abgeschlagenheit", "Müdigkeit", "Durst"); unter Umständen ist dafür eine gezielte Transformation (Faktorenrotation, siehe unten) erforderlich.

Lineares Modell

Der Faktorenanalyse liegt stets ein lineares Modell zugrunde:

 

mit

  •  : Vektor der   zu erklärenden Variablen,
  •  : Vektor der Erwartungswerte der  ,
  •  : Matrix der "Faktorladungen",
  •  : Vektor der   Faktorenwerte,
  •  : Zufallsvektor mit Mittelwert 0.

Das empirische Datenmaterial besteht aus   Realisationen des Variablenvektors   (Z.B. Fragebögen mit p Fragen, die von n Probanden bearbeitet wurden). Zur Notationsvereinfachung kann angenommen werden, dass die Rohdaten in einem ersten Schritt der Auswertung zentriert wurden, so dass  .

Im Rahmen einer Faktorenanalyse sind zu schätzen:

  • die Anzahl   der Faktoren,
  • die   Faktorladungen aus  ,
  • die p Varianzen der Residuen aus  ,
  • die   Realisationen des Faktorvektors  .

Das Grundproblem der Faktorenanalyse besteht darin, dass die Zahl der Unbekannten mit der Stichprobengröße n ansteigt. Eine gleichmäßige Qualität der Schätzungen lässt sich daher auch durch Vergrößerung der Stichprobe nicht erzwingen.

Faktorenberechnungsmethoden: Für die Berechnung der Faktoren steht eine Vielzahl von Extraktionsmethoden zur Auswahl, von denen die Hauptkomponentenanalyse (ein parametrisches Extraktionsverfahren) (engl. Abk. PCA, principal component analysis) die am häufigsten angewandte ist. Häufig werden Faktorenanalyse und Hauptkomponentenanalyse miteinander gleichgesetzt oder verwechselt. Tatsächlich ist die Hauptkomponentenanalyse nur ein parametrisches Extraktionsverfahren innerhalb der Faktorenanalyse, welches darauf abzielt, sukzessive Varianz über alle Faktoren aufzuklären – möglich wäre beispielsweise auch ein Extraktionsverfahren, welches auf maximale Varianzaufklärung durch einen einzigen Faktor unter schwächerer Berücksichtigung der anderen Faktoren abzielt.

Faktorenqualitätsabschätzung: Wurden die Faktoren gebildet, kann man mit speziellen Faktorenanalyseverfahren die Qualität der Faktoren abschätzen, indem man diese in Relation zu den Ausgangsvariablen setzt. Zur erleichterten inhaltlichen Interpretation der Ergebnisse dienen Analyseverfahren wie das Rotationsverfahren.

Aufgrund der vielfältigen Kombinationsmöglichkeiten dieser Einzelverfahren gibt es verschiedene Wege, eine Faktorenanalyse durchzuführen. Eine interpretatorisch korrekte Faktorenanalyse setzt somit Erfahrung voraus.

Grundidee der Faktorenanalyse

Vergleich zwischen explorativer Faktorenanalyse und Hauptkomponentenanalyse (PCA)

Ursprünglich wurde von Spearman eine explorative Faktorenanalyse entwickelt, die der Hauptkomponentenanalyse (PCA) sehr ähnlich ist, sich aber in einigen Punkten von ihr unterscheidet. Beiden gemeinsam ist das Modell:  

mit

  ist der Vektor der zu erklärenden Variablen
  ist die Ladungsmatrix
  ist ein Vektor von Faktorenwerten
  ist ein Vektor mit Residuen (Fehler)

Ein fundamentaler Unterschied zwischen explorativer Faktorenanalyse und Hauptkomponentenanlyse (PCA) besteht in einer Annahme bezüglich der Korrelation zwischen den Residuen (Messfehler). In der explorativen Faktorenanalyse nimmt man an, die Residuen seien unkorreliert, während sie in der PCA durchaus korreliert sein können.


Historisch weiter entwickelt wurden bspw. die Verfahren:

Allgemeiner Ablauf der Faktorenanalyse

Die Faktorenanalyse wird, unabhängig von den spezifischen Rechenverfahren, stets auf die gleiche Weise durchgeführt. Die folgenden Schritte werden nacheinander eingehalten, können aber bei Bedarf wiederholt ausgeführt werden.

  1. Rohdatenaufbereitung, deskriptive Statistik, Vorbereitung der Variablen
  2. Bestimmung des Extraktionsverfahrens
  3. Extraktion
  4. Festlegung der gültigen Faktoren (kriteriengeleitet)
  5. Hypothesenanpassung
  6. ggf. Rotation
  7. weitere statistische Auswertungen oder
  8. inhaltliche Auswertung der Ergebnisse


Überblick über Einzelverfahren der Faktorenanalyse

Extraktionsmethoden

Als Extraktion (auch Extraktionsmethode, Extraktionsalgorithmus) wird jene statistische Rechnung bezeichnet, die zur Bildung der Faktoren führt. Sie wird zuerst durchgeführt. Die Methoden sind teilweise aus anderen Anwendungen entlehnt.

Häufig verwendete Extraktionsmethoden sind:

Kriterien zur Bestimmung der Faktorenzahl

Bei der Extraktion entstehen je nach Option und Verfahren sehr viele Faktoren. Nur wenige von ihnen erklären genug Varianz, um ihre weitere Verwendung rechtfertigen zu können. Die Auswahl der Faktoren dient in erster Linie der Gewinnung von aussagekräftigen, gut interpretierbaren Ergebnissen und ist damit nur eingeschränkt objektivierbar. Anhaltspunkte können folgende Kriterien liefern:

Grundsätzlich sollten mehrere Kriterien herangezogen werden. Insbesondere im Zweifelsfall bietet es sich an, mehrere Faktorenzahlen durchzurechnen und im Hinblick auf Ladungen und Interpretierbarkeit zu überprüfen.

Gibt die der Untersuchung zugrundeliegende Theorie eine bestimmte Faktorenanzahl vor, kann diese auch in der Faktorenanalyse verwendet werden. Auch kann seitens des Untersuchenden mehr oder minder willkürlich festgelegt werden, welcher Anteil der Gesamtvarianz erklärt werden soll, die hierfür erforderliche Faktorenzahl leitet sich dann daraus ab. Jedoch ist auch bei einer theorie- oder varianzgeleiten Festlegung die Faktorenzahl anhand der genannten Kriterien auf Plausibilität zu prüfen.

Rotationsverfahren

Die Rotation ist eine Entscheidungshilfe für die inhaltliche Interpretation der Faktoren. Zur Verfügung stehen verschiedene Verfahren, darunter:

Diese Verfahren nähern sich der Rotationslösung iterativ an und erfordern meist zwischen 10 und 40 Iterationsrechnungen.

Projektion von neuen Variablen in den vorhandenen Faktorenraum

An den Objekten mit jeweils n Variablen seien weitere k Variable gemessen worden. Aus den (n+k) Variablen würden u.U. völlig neue Faktoren resultieren. Es sollen aber keine neuen Faktoren ermittelt werden. Statt dessen sollen die k zusätzlichen Variablen in den vorhandenen (durch die Ladungen vorgegebenen) Faktorenraum projiziert werden. Hierbei werden die Korrelationen (Ladungen) zwischen den neuen Variablen und den alten Faktoren gesucht.

Es seien folgende Korrelationsmatrizen definiert:   zwischen den alten Variablen,   zwischen den alten und neuen Variablen (wobei  ) und   zwischen den neuen Variablen. Sei   die vorhandene und   die gesuchte Ladungsmatrix zwischen den k neuen Variablen und den s ≤ n alten Faktoren.

Die gesamte Korrelationsmatrix ist   , entsprechend ist   .

Eine Schätzung für   ist   , wie sich wegen   zeigen lässt. Für   gelten die Gleichheitszeichen.

Extraktionsmethode Hauptkomponentenanalyse

Hauptartikel: Hauptkomponentenanalyse

Die Hauptkomponentenanalyse ist wegen ihrer Problemlosigkeit die häufigst verwendete Extraktionsmethode. Mit ihr werden Faktoren ermittelt, die sukzessiv einen maximalen Anteil der Varianz beschreiben. Das bedeutet, dass der erste Faktor den größten Anteil der Varianz beschreibt, der zweite Faktor den zweitgrößten usw. In der Regel sind die extrahierten Faktoren voneinander unabhängig, d. h. ihre Korrelation beträgt 0 bzw. sie sind orthogonal.

Nach der Berechnung gibt der Faktorwert für jeden einzelnen Probanden seine Ausprägung auf den einzelnen Faktoren an. Besonders bekannt ist hier die Berechnung des IQ durch den Faktor g von Charles Spearman. Weitere typische Anwendungen sind Persönlichkeitstests, bei denen die Probanden (z.B. n=1000) einen Fragebogen mit z.B. 60 skalierten Fragen ausfüllen, aus denen 60 Variablen mit Einzelwerten für jeden Probanden resultieren. In diesen werden dann zur Bildung eines schlüssigen Persönlichkeitsbildes Faktoren gesucht. Das können bei der Hauptkomponentenanalyse beispielsweise 8 - 12 sein. Ein solcher Faktor könnte Extraversion/Introversion heißen.

Grundlage für die Berechnung ist eine Korrelationsmatrix.

Mathematisches Vorgehen bei Verwendung der Hauptkomponentenanalyse

Datei:Faktorenanalyse iiii.PNG
Hauptkomponentenanalyse in einem 2-dimensionalen Raum

Das Prinzip der Hauptkomponentenanalyse lässt sich am besten graphisch verdeutlichen. Wenn n Variablen erfasst werden, spannen diese Variablen einen n-dimensionalen Raum auf, der sich graphisch bei n>3 nicht darstellen lässt. Darum stelle man sich vereinfachend vor, es wären nur zwei Variablen erfasst worden. Diese spannen also ein Koordinatensystem auf (X- und Y-Achse stellen die Variablen dar). Die Punkte im Koordinatensystem stellen die jeweiligen Leistungen der Versuchspersonen (Vpn) auf beiden Variablen dar. Angenommen, beide Variablen seien nun leicht positiv miteinander korreliert (d. h. der Punktschwarm ist in etwa ellipsenförmig mit einer von links unten nach rechts oben verlaufenden großen Achse der Ellipse). Bei der Hauptkomponentenanalyse werden nun – vereinfachend umschrieben – die Faktoren wie folgt extrahiert: Ein Faktor wird genau so in den Punktschwarm gelegt, dass diese die Varianz optimal beschreibt. Das heißt nichts anderes, als dass die Gerade solange gedreht wird, bis sie die Punktwolke maximal approximiert – also bis die Gerade genau durch den maximalen Durchmesser der Ellipse verläuft. Diese Gerade ist der erste Faktor, der nun die Varianz optimal beschreibt. Um den zweiten Faktor zu extrahieren, soll eine zweite Gerade rechtwinklig durch den ersten Faktor verlaufen. Damit ist die Korrelation beider Faktoren miteinander null – sie sind also linear unabhängig. Diese zweite Gerade wird nun solange auf dem ersten Faktor bewegt (immer im rechten Winkel zu diesem), bis sie die maximale Restvarianz der Punktwolke beschreibt, also die Punktwolke auf der zweiten Geraden maximal breit ist. Diese Gerade ist nun der zweite Faktor.

Folgende fiktive Statistik könnte entstehen:

Variable    Kommunalität  Faktor    Eigenw   Var    kum.Var

Var 1         1.00           1       3.7     55.1    55.1
Var 2         1.00           2       3.5     34.3    89.4

Eine wichtige Anmerkung zu diesem Beispiel ist natürlich, dass man in der Forschung viel mehr als nur zwei Ausgangsvariablen untersucht. Die Faktoren bilden also einen n-dimensionalen Raum („Faktorenraum“), der für n > 3 nicht anschaulich vorgestellt werden kann. Außerdem würde eine Faktorenanalyse, die aus zwei Variablen zwei Faktoren extrahiert, natürlich wenig sinnvoll sein, weil die Zahl der Faktoren sehr viel geringer als die Zahl der Variablen sein soll. Das Beispiel dient der Veranschaulichung des Prinzips.

Folgende fiktive Statistik könnte mit 10 Variablen entstehen:

Variable    Kommunalität  Faktor    Eigenw   Var    kum.Var in %

Var 01        1.00           1       4.7     55.1    55.1
Var 02        1.00           2       4.5     34.3    89.4
Var 03        1.00           3       1.1     5.2     94.6
Var 04        1.00           4       0.9     1.1     95.7
Var 05        1.00           5       0.8     1.0     96.7     
Var 06        1.00           6       0.8     0.8     97.5
Var 07        1.00           7       0.5     0.3     97.8
Var 08        1.00           8       0.5     0.2     98.0
Var 09        0.92           9       0.4     0.2     98.2
Var 10        0.31          10       0.3     0.1     98.3

In diesem Beispiel ist nach dem Kaiser-Kriterium die Berücksichtigung von drei Faktoren sinnvoll (Eigenwerte über "1"); nach dem Ellenbogenkriterium hingegen sollen nur zwei Faktoren unterschieden werden (Knick). Nach beiden Kriterien wird ein sehr hoher Anteil der Observablenvarianz aufgeklärt. (89.4 % bzw. 94.6 %) Außerdem zeigt eine geringe Kommunalität der Variable 10 an, dass diese Variable vermutlich zu unrecht in die Rechnung einbezogen wurde. Durch Ausschluss dieser Variable kann möglicherweise eine erneute Rechnung verbessert werden.

Gängige Statistikprogramme wie SPSS oder SAS geben die Faktoren als Variablen in die Datensätze zurück.

Weitere Merkmale der Hauptkomponentenanalyse

Die Diagonalemente der Korrelationsmatrix der zu faktorisierenden Variablen werden eingangs auf "1" gesetzt. Dies entspricht der ersten Schätzung innerhalb des Verfahrens.

Interpretation der Faktoren

Inhaltliche Interpretation

Die Faktoren können inhaltlich gut interpretiert werden, wenn auf ihnen Variablen hoch laden, die inhaltlich eng mit einander verbunden sind. Die Interpretation sollte alle Eigenschaften, die die Variablen erfassen, einbeziehen. Als Name für den Faktor kann ein Substantiv mit mehreren Adjektiven gewählt werden. Wurden beispielsweise Items Fühlen Sie sich oft abgeschlagen?, Sind Sie tagsüber oft müde?, Haben Sie das Bedürfnis, sich am Tag ins Bett zu legen?, Empfinden Sie sich oft kraftlos? und Trinken Sie tagsüber viel Kaffee? faktorisiert, so könnte der Faktor tagesmüde Abgeschlagenheit heißen. In der Statistik ist auch die Bildung von Kunstworten üblich, die sich nicht an grammatischen Regeln orientieren, z.B. kaffetrinkenbewirkendes Tagesabgeschlagenfühlen.

Die inhaltliche Interpretation ist immer mit einer eigenen Hypothese verbunden.

Interpretation mit Hilfe der Rotationstransformation

Ebenso, wie man sich vieldimensionale Räume schwer vorstellen kann, fällt es schwer, sich Eigenschaften vorzustellen, die Extrakte aus Mischungen von Messwerten sind. Die Interpretation der Faktoren kann jedoch durch statistische Verfahren erleichtert werden, die die Datensätze gewissermaßen von verschiedenen Richtung beleuchten. Hierzu zählt das Rotationsverfahren. Es lässt sich unabhängig von der Extraktionsmethode einsetzen und kann durch oben genannte Algorithmen berechnet werden. Meist wird die Varimax-Methode eingesetzt, die orthogonal ist.

Mit einer Testbatterie wurden vier Variablen (Observablen) gewonnen, die die Messwerte eines Rechentests (R), einer Zählaufgabe (Z), eines Lesetests (L) und eines Worttests (W) enthalten. Durch Faktorenanalyse wurden zwei Faktoren extrahiert. Jede der Ausgangsvariablen weist eine Faktorladung auf, die die Korrelation zwischen der Variablen und einem Faktor angibt. Zur Verdeutlichung wird ein Koordinatensystem gezeichnet, in dem die X-Achse dem ersten und die Y-Achse dem zweiten Faktor entspricht. In dieses Koordinatensystem werden nun die Faktorenladungen der vier Ausgangsvariablen eingetragen. Dabei ergebe sich folgender Faktorraum:

          |Faktor 2
          |        
    R     |       L
    Z     |       W
          |
__________|__________Faktor 1
          |
          |
          |
          |

Wobei:

Die X-Achse den Faktor 1, die Y-Achse den Faktor 2 darstellt. R, Z, L, W gibt die Position der Faktorladung der Tests in diesem Koordinatensystem wieder. Die Werte entsprechen der Korrelationen der Variablen mit den Faktoren.

Die Skizze zeigt, dass alle vier Ausgangsvariablen hoch mit beiden Faktoren korreliert sind. Wie also sollen die Faktoren interpretiert werden? Während Faktor 1 hier die mathematischen von den sprachliche Kompetenzen noch trennen kann (Vorzeichen), fallen alle vier Variablen auf Faktor 2 zusammen.

Um nun die Faktoren interpretieren zu können, wird das Rotationsverfahren angewendet. Es gibt verschiedene Transformationen – hier soll die am häufigsten verwendete orthogonale Transformationsrotation dargestellt werden.

Orthogonale Rotationstransformation bedeutet, dass das obige Koordinatensystem solange entgegen dem Uhrzeigersinn gedreht wird, bis die einzelnen Variablen jeweils möglichst hoch auf einem Faktor und möglichst niedrig auf dem anderen Faktor laden. Bei dieser Rotation wird aber stets die ursprüngliche Form des Koordinatensystem beibehalten, d. h. beide Faktoren bleiben rechtwinklig zueinander.

In unserem Beispiel könnten das Koordinatensystem um 45° entgegen dem Uhrzeigersinn gedreht werden. Das hätte zur Folge, dass R und Z hoch auf Faktor 2 laden und kaum auf Faktor 1. Und gleichzeitig laden L und W sehr stark auf Faktor 1, aber kaum auf Faktor 2. Dann fiele die Interpretation der Faktoren sehr viel leichter. Da nur die Lese- und Worttests deutlich auf dem ersten Faktor laden, könnte man schlussfolgern, dass der erste Faktor sprachliche Kompetenzen erfasst. Da nur die Rechen- und Zählaufgabe auf Faktor 2 deutlich laden, könnte man diesen als mathematische Kompetenz beschreiben.

Die Rotationsmatrix in diesem fiktiven Fall könnte so aussehen:

    Faktor 1  Faktor 2
R      .08        .92
Z      .03        .89

L      .83       -.06
W      .82       -.12

Nachteile der Rotationstransformation

Die Rotationstransformation reagiert insbesondere bei wenigen Variablen sehr sensibel auf Messfehler und kurzfristig wirksame Einflüsse.

Probleme der Faktorenanalyse

Das Verfahren der Faktorenanalyse gibt nur an, wie hoch die einzelnen Faktoren mit den jeweiligen Variablen korrelieren. Es bleiben viele Entscheidungen, die der subjektiven Ansicht überlassen sind. Hierzu zählt unter anderem die Anzahl der verwendeten Faktoren sowie die Benennung der Faktoren.

Darüber hinaus müssen die Daten intervallskaliert sein, um für eine Faktorenanalyse geeignet zu sein. Dieses Kriterium wird in der Praxis oft verletzt und Daten werden einer Faktorenanalyse unterzogen, die einem niedrigeren Skalenniveau entsprechen (wie etwa Nominalskalenniveau oder Ordinalskalenniveau).

Außerdem können Daten, die auf einer nicht repräsentativen Stichprobe beruhen, zu falschen Ergebnissen führen.

Ein weiteres Problem stellen zeitlich aufeinanderfolgende Messreihen mit jeweiliger Faktorenanalyse oder die Erweiterung der vorhandenen Variablen durch neue Variablen und ihre Messungen dar. Werden immer wieder neue Faktorenanalysen gerechnet, dann können sich auch immer neue Faktoren errechnen, die Ergebnisse sind nicht vergleichbar. Hier bietet sich die Projektion der neuen Variablen in den vorhandenen Faktorenraum an.

Explorative Faktorenanalyse

Von explorativer Faktorenanalyse spricht man, wenn faktorenanalytische Verfahren dazu verwendet werden, Items in einem Test zu Skalen zusammenzustellen. Hiermit wird die sogenannte Einfachstruktur gewährleistet, die für die Anwendungsfähigkeit der Test später wichtig ist. Für diese Aufgabenstellungen eignen sich die faktorenanalytischen Verfahren sehr gut. Das Vorgehen zählt zur induktiven Testkonstruktion.

Ziele der explorativen Faktorenanalyse bestehen darin, die Korrelation zwischen den Items innerhalb der Skalen (Homogenität) hoch zu halten. Die Korrelation von Items einer Skala mit Items anderer Skalen soll hingegen niedrig sein.

Schritte bei der Durchführung einer explorativen Faktorenanalyse:

  1. Auswahl der Variablen
  2. Prüfung der Voraussetzungen (Zahl der Variablen, Normalverteilung etc.)
  3. Erstellung der Korrelationsmatrix
  4. Faktorenextraktion
  5. Festlegung der Anzahl der Faktoren, z.B. über den Eigenwertverlauf (Kaiser-Kriterium, Scree-Test)
  6. Faktorenrotation (mit dem Ziel einer Einfachstruktur --> geeignete Items laden nur auf einen Faktor)
  7. Faktoreninterpretation

Siehe auch

Literatur

  • Krzanowski, WJ: Principles of Multivariate Analysis. A User's Perspective (rev. ed.). New York: Oxford University Press (2000)
  • Steiger, JH: Factor indeterminacy in the 1930's and the 1970's. Some interesting parallels. Psychometrika 44, 157-167 (1979).