Die Faktorenanalyse (eigentlich Faktorenanalysen) ist ein statistisches Daten reduzierendes und Hypothesen generierendes Verfahren (bzw. eine Sammlung solcher verschiedener Verfahren), das in der wissenschaftlichen Psychologie entwickelt wurde. Es wird häufig in der sozialwissenschaftlichen und psychologischen Forschung eingesetzt. Die Faktorenanalyse stellt Zusammenhänge zwischen mehreren Variablen (Einflussgrößen) dar, indem sie diese anhand ihrer Korrelationen in möglichst wenige, nicht überlappende Gruppen (Faktoren) klassifiziert. Die Zusammenfassung soll so erfolgen, dass ein möglichst großer Teil der gemeinsamen Varianz der Variablen erklärt und berücksichtigt wird.
Begriffe
Faktor: Dimension eines Faktorraumes
Faktorraum: Raum der durch die Faktoren aufgespannt wird
Faktorladung: Korrelation einer Variablen mit einem Faktor
Je kürzer die räumliche Entfernung zwischen Faktor und Variable, desto höher die Korrelation.
Eigenwert eines Faktors: Anteil der Gesamtvarianz, die durch den Faktor aufgeklärt wird
Der Eigenwert ergibt sich aus der Summe der quadrierten Faktorladungen der Variablen.
Kommunalität: Summe der quadrierten Faktorladungen einer Variablen
Die Kommunalität gibt an, wieviel der Varianz einer Variable durch die Faktoren aufgeklärt wird.
Das Geometrische Verfahren
Man kann sich das Verfahren der Faktorenanalyse auch geometrisch vorstellen. Die einzelnen Variablen werden mit dem Ursprung eines Koordinatensystems verbunden und bilden einen n dimensionalen Raum (n= Anzahl Variablen). Die Faktoren werden nun so in das Koordinatensystem gelegt, dass sie möglichst nahe an möglichst vielen Variablen liegen und hoch mit diesen korrelieren. Dadurch verringert sich die Anzahl der Dimensionen auf die Zahl der Faktoren und ähnliche Variablen werden zu Gruppen zusammen gefasst.
Anwendungsbeispiele
Ein Anwendungsbeispiel für die Faktorenanalyse sind Persönlichkeitstests:
Die Probanden füllen zunächst einen Fragebogen mit z.B. 60 skalierten Fragen zur Persönlichkeit aus. Aus diesen 60 Einzelwerten lässt sich jedoch kein schlüssiges Persönlichkeitsbild vermitteln.
Die Faktorenanalyse sucht jetzt zunächst über die Gesamtstichprobe (z.B. 1000 Personen) nach den dahinterliegenden Dimensionen der Einzelvariablen. Das können dann bei 60 Ursprungsvariablen zum Beispiel 8, 10, 12 oder auch mehr Dimensionen sein (siehe auch Kaiser-Kriterium und Scree-Test). So lässt sich bei Persönlichkeitstests zum Beispiel in der Regel ein Faktor Extraversion/Introversion feststellen.
Grundlage für die Berechnung Faktorenanalyse ist eine Korrelationsmatrix.
Die häufigste Variante der Faktorenanalyse ist die Hauptkomponentenanalyse (oder auch principal components analysis genannt, abgekürzt PCA). Bei dieser Methode geht man davon aus, dass die Faktoren untereinander nicht korrelieren. Wie die Ursprungsvariablen zu der errechneten Dimension beitragen, wird dabei aus den Faktorladungen deutlich: Eine Ladung von 1 bedeutet, die Variable ist mit dem Faktor identisch, eine Ladung von 0 bedeutet, die Variable ist von dem Faktor vollkommen unabhängig.
Nach der Berechnung der Faktorenanalyse gibt der Faktorwert für jeden einzelnen Probanden seine Ausprägung auf den einzelnen Faktoren an. Besonders bekannt ist hier die Berechnung des IQ durch den Faktor g von Charles Spearman.
Die wichtigsten Verfahren sind:
- Hauptkomponentenanalyse, Hauptfaktorenanalyse (deskriptiv, explorativ)
- konfirmatorische Faktorenanalyse (strukturprüfend)
Probleme der Faktorenanalyse
Das Verfahren der Faktorenanalyse gibt nur an, wie hoch die einzelnen Faktoren mit den jeweiligen Variablen korrelieren. Es bleiben viele Entscheidungen, die der subjektiven Ansicht des Forschers überlassen sind. Hierzu zählt unter anderem die Anzahl an Faktoren, die verwendet werden, sowie die Benennung der Faktoren.
Darüber hinaus müssen die Daten intervallskaliert sein, um für eine Faktorenanalyse geeignet zu sein. Teilweise wird diese Kriterium verletzt und Daten werden einer Faktorenanalyse unterzogen, die einem niedrigeren Skalenniveau entsprechen (wie etwa Nominalskalenniveau und Ordinalskalenniveau).
Außerdem können Daten, die auf einer nicht repräsentativen Stichprobe beruhen, zu fälschlichen Ergebnissen führen.