Varianzanalyse

Als Varianzanalyse (eigentlich Varianzanalysen) bezeichnet man eine große Gruppe datenanalytischer und mustererkennender statistischer Verfahren, die zahlreiche unterschiedliche Anwendungen zulassen. Ihnen gemeinsam ist, dass sie die Varianz analysieren, um Aufschlüsse über die hinter den Daten steckenden Gesetzmäßigkeiten zu erlangen. Die Varianzanalyse wird in vielen Computerprogrammen auch als ANOVA für analysis of variance bezeichnet.

Nicht alle Verfahren, die mit der Varianz rechnen, werden als Varianzanalyse bezeichnet, sondern nur solche, die die Varianz einer metrischen Zufallsvariable durch den Einfluss einer oder mehrerer Gruppenvariablen erklären. Stets wird eine Prüfgröße berechnet. Hinsichtlich der beteiligten Variablen lassen sich im wesentlichen vier Formen der Varianzanalyse unterscheiden:

einfaktorielle univariate Varianzanalyse
mehrfaktorielle univariate Varianzanalysen
einfaktorielle multivariate Varianzanalysen
mehrfaktorielle multivariate Varianzanalysen

Beispiele für die Anwendung der Varianzanalyse sind die Untersuchung der Wirksamkeit von Medikamenten in der Medizin (siehe Doppelblindversuch) und die Untersuchung des Einflusses von Düngemitteln auf den Ertrag von Anbauflächen in der Landwirtschaft.

Grundidee der Varianzanalysen

Die Verfahren untersuchen, ob (und gegebenenfalls wie) sich die Erwartungswerte der metrischen Zufallsvariablen in verschiedenen Gruppen (auch Klassen) unterscheiden. Mit den Prüfgrößen des Verfahrens wird getestet, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. Dadurch kann ermittelt werden, ob die Gruppeneinteilung sinnvoll ist oder nicht bzw. ob sich die Gruppen signifikant unterscheiden oder nicht.

Wenn sie sich signifikant unterscheiden, kann angenommen werden, dass in den Gruppen unterschiedliche Gesetzmäßigkeiten wirken. So lässt sich beispielsweise klären, ob das "Verhalten" einer Kontrollgruppe mit dem einer Experimentalgruppe identisch ist. Ist beispielsweise die Varianz einer dieser beiden Gruppen bereits auf reale Ursachen (Varianzquellen) zurück geführt, kann bei Varianzgleichheit geschlossen werden, dass in der anderen Gruppe keine neue Wirkungsursache (z.B. durch die Experimentalbedingungen) hinzu kam.

Siehe auch: Diskriminanzanalyse, Nullhypothese, Bestimmtheitsmaß

Bedeutung der Varianzanalyse

Die Varianzanalyse spielt in der Wissenschaft eine wesentliche Rolle. Sie kann als die wissenschaftlich fundierte Form der Attribuierung (Ursachenzuschreibung) angesehen werden, welche Menschen in naiver Weise ständig im Alltag betreiben und dabei Häufigkeiten und Variabilität von Handlungen oder Vorgängen auf mutmaßliche Gründe zurückführen. Alltagsvorgänge, die oft gemeinsam auftreten oder unter Umgebungsveränderungen in ähnlicher Weise variieren/kovariieren, werden als miteinander im Zusammenhang stehend interpretiert. Man nimmt im Alltag an, Variationen gingen auf Abhängigkeiten zurück. So kann die Häufigkeit (Intensität, Art und Weise usw.), mit der eine Person ihre Hände wäscht, mit der Häufigkeit in Bezug gesetzt werden, mit der sie schmutzige Tätigkeiten ausführt (z.B. Automechaniker). Im Alltag wird dann naiv der Schluss gezogen, dass eine Person, die gerade ihre Hände wäscht, zuvor eine Verschmutzung hatte, die als Grund für das Händewaschen angesehen wird. Diese Ursachenzuschreibung ist jedoch nur im Regelfall korrekt, da es auch andere Gründe für Händewaschen gibt. Alltagsbeobachtungen können trügerisch sein.

Der statistischen Varianzanalyse kommt deshalb eine wesentliche Rolle zu, da sie das Alltagsdenken in konsequenter Form fortsetzt. Viele andere multivariate Verfahren setzen das Alltagsdenken nicht fort, sondern basieren auf künstlich entwickelten Modellannahmen.

Die Signifikanz einer ermittelten Gruppeneinteilung lässt sich anhand der F-Verteilung testen. Die Werte in dieser Verteilung sind die Prüfgrösse der Varianzanalyse.

Voraussetzungen der Varianzanalysen

Die Anwendung jeder Form der Varianzanalyse ist an Voraussetzungen gebunden, deren Vorliegen vor jeder Berechnung geprüft werden muss. Erfüllen die Datensätze diese Voraussetzungen nicht, so sind die Ergebnisse unbrauchbar. Die Voraussetzungen sind je nach Anwendung etwas unterschiedlich, allgemein gelten folgende:

Varianzhomogenität der Stichprobenvariablen
Normalverteilung der Stichprobenvariablen

Die Überprüfung erfolgt mit anderen Tests außerhalb der Varianzanalyse, die allerdings heute standardmäßig in Statistik-Programmen als Option mitgeliefert werden. Die Normalverteilung kann beispielsweise für jede Variable mit dem Kolmogorow-Smirnow-Test überprüft werden. Wenn diese Voraussetzungen nicht erfüllt sind, bieten sich verteilungsfreie, non-parametrische Verfahren an, die robust sind, aber weniger genau rechnen.

Begriffe

Abhängige Variable aV (Zielvariable)
- Die metrische Variable, deren Wert durch die kategorialen Variablen erklärt werden soll. Die abhängige Variable enthält Messwerte.
Unabhängige Variable uV (Einflussvariable, Faktoren)
- Die kategoriale Variable, die die Gruppen vorgibt. Ihr Einfluss soll überprüft werden.
- Auch Faktor genannt. Die Kategorien heißen dann Faktorstufen. Diese Bezeichnung ist nicht identisch mit jener bei der Faktorenanalyse.

Einfaktorielle Varianzanalyse

Bei einer einfaktoriellen Varianzanalyse untersucht man den Einfluß einer unabhängigen Variable (Faktor) mit p verschiedenen Ausprägungen auf eine abhängige Variable, welche die Messwerte enthält.

Voraussetzungen

Die Fehlerkomponenten müssen normalverteilt sein. Fehlerkomponenten bezeichnen die jeweiligen Varianzen (Gesamt-, Treatment- und Fehlervarianz). Die Gültigkeit dieser Voraussetzung setzt gleichzeitig eine Normalverteilung der Messwerte in der jeweiligen Grundgesamtheit voraus.
Die Fehlervarianzen müssen zwischen den Gruppen (also den Faktorstufen) gleich bzw. homogen sein (Homoskedastizität).
Die Messwerte bzw. Faktorstufen müssen unabhängig voneinander sein.

Beispiel

Diese Form der Varianzanalyse ist angezeigt, wenn untersucht werden soll, ob Rauchen einen Einfluss auf die Aggressivität hat. Rauchen ist hier eine unabhängige Variable, welche in drei Ausprägungen (Faktorstufen) unterteilt werden kann: Nichtraucher, schwache Raucher und starke Raucher. Die durch einen Fragebogen erfasste Aggressivität ist die abhängige Variable. Zur Durchführung der Untersuchung werden die Versuchspersonen den drei Gruppen zugeordnet. Danach wird der Fragebogen vorgelegt, mit dem die Aggressivität erfasst wird.

Hypothesen

Die Nullhypothese einer einfaktoriellen Varianzanalyse lautet:

$H_{0}:\mu _{1}=\mu _{2}=...=\mu _{p}$

Die Alternativhypothese lautet:

$H_{1}:\mu _{i}\neq \mu _{j}$

Die Nullhypothese besagt demnach, dass zwischen den Mittelwerten der Gruppen (die den Faktorausprägung bzw. Faktorstufen entsprechen) kein Unterschied besteht. Die Alternativhypothese besagt, dass zwischen mindestens zwei Mittelwerten ein Unterschied besteht. Wenn wir beispielsweise fünf Faktorstufen haben, dann ist die Alternativhypothese bestätigt, wenn sich mindestens zwei der Gruppenmittelwerte unterscheiden. Es können sich aber auch drei Mittelwerte oder vier oder alle fünf deutlich voneinander unterscheiden.

Wird die Nullhypothese verworfen, liefert die Varianzanalyse also weder Aufschluss darüber, zwischen wievielen noch zwischen welchen Faktorstufen ein Unterschied besteht. Wir wissen dann nur mit einer bestimmten Wahrscheinlichkeit (siehe Signifikanzniveau, Fehler 1. Art), dass mindestens zwei Ausprägungen einen bedeutsamen Unterschied aufweisen.

Man kann nun fragen, ob es zulässig wäre, mit verschiedenen t-Tests jeweils paarweise Einzelvergleiche zwischen den Mittelwerten durchzuführen. Vergleicht man mit der Varianzanalyse nur zwei Gruppen (also zwei Mittelwerte), dann führen t-Test und Varianzanalyse zum gleichen Ergebnis. Liegen jedoch mehr als zwei Gruppen vor, ist die Überprüfung der globalen Nullypothese der Varianzanalyse über paarweise t-Tests nicht zulässig - es kommt zur sogenannten Alphafehler-Kumulierung.

Grundgedanken der Rechnung

Bei der Berechnung der Varianzanalyse berechnet man zunächst die beobachtete Gesamtvarianz in allen Gruppen. Dazu fasst man alle Messwerte aus allen Gruppen zusammen, errechnet den Gesamtmittelwert und die Gesamtvarianz.

Dann möchte man den Varianzanteil der Gesamtvarianz, der allein auf den Faktor zurückgeht, ermitteln. Wenn die gesamte beobachtete Varianz auf den Faktor zurückginge, dann müssten alle Messwerte in einer Faktorstufe gleich sein - dann dürften nur Unterschiede zwischen den Gruppen bestehen. Da alle Messwerte innerhalb einer Gruppe dieselbe Faktorausprägung aufweisen, müssten sie folglich alle den gleichen Wert haben, da der Faktor die einzige varianzgenerierende Quelle wäre. In der Praxis werden sich aber auch Messwerte innerhalb einer Faktorstufe unterscheiden. Diese Unterschiede innerhalb der Gruppen müssen also von anderen Einflüssen stammen (entweder Zufall oder sogenannten Störvariablen).

Um nun auszurechnen, welche Varianz allein auf die Ausprägungen des Faktors zurückgeht, stellt man seine Daten für einen Moment gewissermaßen `ideal´ um: Man weist allen Messwerten innerhalb einer Faktorstufe den Mittelwert der jeweiligen Faktorstufe zu. Somit macht man alle Werte innerhalb einer Faktorstufe gleich und der einzige Unterschied besteht nun noch zwischen den Faktorstufen. Nun errechnet man mit diesen `idealisierten´ Daten erneut die Varianz. Diese kennzeichnet die Varianz, die durch den Faktor zu Stande kommt ("Treatment-Varianz").

Teilt man die Treatmentvarianz durch die Gesamtvarianz, erhält man den relativen Anteil, der auf den Faktor zurückzuführenden Varianz.

Zwischen der Gesamtvarianz und der Treatmentvarianz besteht in aller Regel eine Diskrepanz - die Gesamtvarianz ist größer als die Treatmentvarianz. Die Varianz, die nicht auf den Faktor (das "Treatment") zurückzuführen ist, bezeichnet man als Fehlervarianz. Diese beruht entweder auf Zufall oder anderen, nicht untersuchten Variablen (Störvariablen).

Die Fehlervarianz lässt sich berechnen, indem man seine Daten erneut umstellt: Man errechnet für jeden einzelnen Messwert dessen Abweichung von jeweiligen Gruppenmittelwert seiner Faktorstufe. Daraus berechnet man erneut die gesamte Varianz. Diese kennzeichnet dann die Fehlervarianz.

Eine wichtige Beziehung zwischen den Komponenten ist die Additivität der Quadratsummen. Als Quadratsummen bezeichnet man den Teil der Varianzformel, der im Zähler steht. Lässt man also bei der Berechnung der Treatmentvarianz den Nenner (die Freiheitsgrade) weg, erhält man die Treatmentquadratsumme. Die Gesamtquadratsumme (also Gesamtvarianz ohne Nenner) ergibt sich aus der Summe von Treatment- und Fehlerquadratsumme.

Die letztendliche Signifikanzprüfung erfolgt über einen `gewöhnlichen´ F-Test. Man kann mathematisch zeigen, dass bei Gültigkeit der Nullhypothese der Varianzanalyse gleichzeitig gilt, dass Treatment- und Fehlervarianz gleich sein müssen. Mit einem F-Test kann man die Nullhypothese überprüfen, dass zwei Varianzen gleich sind, indem man den Quotienten aus ihnen bildet.

Im Falle der Varianzanalyse bildet man den Quotienten aus Treatmentvarianz geteilt durch Fehlervarianz. Dieser Quotient ist F-verteilt mit (N-1) Zählerfreiheitsgraden und p×(n-1) Nennerfreiheitsgraden (N ist die Gesamtzahl aller Versuchspersonen, n ist die jeweilige Zahl der Versuchspersonen pro Faktorstufe).

In Tabellen der F-Verteilung kann man dann den entsprechenden F-Wert mit entsprechenden Freiheitsgraden nachschlagen und liest ab, wieviel Prozent der F-Verteilungsdichte dieser Wert `abschneidet´. Einigen wir uns beispielsweise vor der Durchführung der Varianzanalyse auf ein Signifikanzniveau von 5 %, dann müsste der F-Wert mindestens 95 % der F-Verteilung auf der linken Seite abschneiden. Ist dies der Fall, dann haben wir ein signifikantes Ergebnis und können die Nullhypothese auf dem 5 %-Niveau verwerfen.

Mathematisches Modell

Das Modell in Effektdarstellung lautet: $Y_{ij}=\mu +\alpha _{i}+\epsilon _{ij},\quad i=1,...I,\quad j=1,...n_{i}$

Y_ij: Zielvariable; annahmegemäß in den Gruppen normalverteilt
I:  Anzahl der Faktorstufen des betrachteten Faktors
n_i: Stichprobenumfänge für die einzelnen Faktorstufen
μ: Mittelwert der Gesamtstichprobe
α_i: Effekt der i-ten Faktorstufe
ε_ij: Störvariablen, unabhängig und normalverteilt mit Erwartungswert 0 und gleicher Varianz.

Beispielrechnung einer einfachen Varianzanalyse

Bei dem folgenden Beispiel handelt es sich um eine einfache Varianzanalyse mit zwei Gruppen (auch Zwei-Stichproben F-Test). In einem Versuch erhalten zwei Gruppen von Tieren ( $k=2$ ) unterschiedliche Nahrung. Nach einer gewissen Zeit wird ihr Gewicht mit folgenden Werten gemessen:

Gruppe 1: 45, 23, 55, 32, 51, 91, 74, 53, 70, 84 (Anzahl der Tiere

n_{1}=10

)

Gruppe 2: 64, 75, 95, 56, 44, 130, 106, 80, 87, 115 (Anzahl der Tiere

n_{2}=10

)

Es soll untersucht werden, ob die unterschiedliche Nahrung einen signifikanten Einfluss auf das Gewicht hat. Der Mittelwert und die Varianz (hier "Schätzwert") der beiden Gruppen betragen

{\bar {x}}_{1}=57,8{\mbox{ und }}var_{1}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}=479,7

{\bar {x}}_{2}=85,2{\mbox{ und }}var_{2}=728,6

Das zugrunde liegende Wahrscheinlichkeitsmodell setzt voraus, dass die Gewichte der Tiere normalverteilt sind und pro Gruppe dieselbe Varianz aufweisen. Die zu testende Nullhypothese ist

H_{0}

: "Die Mittelwerte der beiden Gruppen sind gleich"

Offensichtlich unterscheiden sich die Mittelwerte ${\bar {x}}_{1}$ und ${\bar {x}}_{2}$ . Diese Abweichung könnte jedoch auch im Bereich der natürlichen Schwankungen liegen. Um zu prüfen, ob die Unterscheidung signifikant ist, wird eine Testgröße $F$ mit bekannter Wahrscheinlichkeitsverteilung berechnet. Dazu wird zunächst die gemeinsame Varianz $var_{g}$ bestimmt:

var_{g}={\frac {n_{1}var_{1}+n_{2}var_{2}}{n_{1}+n_{2}}}=604,18

Anmerkung: Manchmal wird bei dieser Berechnung auch die um eins verringerte Größe der Stichproben verwendet, also $n_{i}-1$ statt $n_{i}$ ("Schätzwert"). Mit Hilfe der gemeinsamen Varianz berechnet sich die Testgröße $F$ als:

F={\frac {n_{1}n_{2}({\bar {x}}_{1}-{\bar {x}}_{2})^{2}}{(n_{1}+n_{2})var_{g}}}={\frac {n_{1}n_{2}({\bar {x}}_{1}-{\bar {x}}_{2})^{2}}{n_{1}var_{1}+n_{2}var_{2}}}\approx 6,21

Die Größe $F$ ist nach dem zugrunde liegenden Modell eine Zufallsvariable mit einer $F_{k-1,n-k}$ -Verteilung, wobei $k$ die Anzahl der Gruppen und $n$ die Anzahl der Messwerte sind. Die Indizes werden als Freiheitsgrade bezeichnet. Der Wert der F-Verteilung für gegebene Freiheitsgrade (F-Quantil) kann in einer Fisher-Tafel nachgeschlagen werden. Dabei muss noch ein gewünschtes Signifikanzniveau (die Irrtumswahrscheinlichkeit) angegeben werden. Im vorliegenden Fall ist $F_{1,18}\approx 4,41$ das F-Quantil zur Irrtumswahrscheinlichkeit 5 %. Das heißt, dass bei allen Werten der Testgröße $F$ bis 4,41 die Nullhypothese angenommen werden kann. Da $6,21>4,41$ , muss die Nullhypothese bei den vorliegenden Werten jedoch verworfen werden.

Es kann also mit einer Wahrscheinlichkeit von 95 % davon ausgegangen werden, dass die Tiere in den beiden Gruppen im Mittel wirklich ein unterschiedliches Gewicht aufweisen.

Siehe auch: Chi-Quadrat-Test, t-Verteilung

Zweifaktorielle Varianzanalyse

Die zweifaktorielle Varianzanalyse berücksichtigt zur Erklärung der Zielvariablen zwei Faktoren (Faktor A und Faktor B).

Beispiel

Diese Form der Varianzanalyse ist angezeigt, wenn untersucht werden soll, ob Rauchen und Kaffetrinken bei Rauchern einen Einfluss auf die Nervosität hat. Rauchen ist hier der Faktor A, welcher in zwei Ausprägungen (Faktorstufen) unterteilt werden kann: raucht gerade und raucht gerade nicht. Der Faktor B kann der Kaffegenuss in einer bestimmten Situation sein. Die durch eine peripherphysiologische Messung erfasste Nervosität ist die abhängige Variable. Zur Durchführung der Untersuchung werden die Raucher in zwei Gruppen geordnet, wobei eine der Gruppen Kaffee getrunken hat. Jede dieser beiden Gruppen wird ihrerseits in zwei Hälften geteilt, von denen eine zu rauchen bekommt. Dabei wird die Messung der Nervosität durchgeführt, die metrische Daten liefert.

Grundgedanken der Rechnung

Das Modell (für den Fall mit festen Effekten) in Effektdarstellung lautet: $Y_{ijk}=\mu +\alpha _{i}+\beta _{j}+(\alpha \beta )_{ij}+\epsilon _{ijk},\quad \epsilon _{ijk}~N(0,\sigma ^{2}),\quad i=1,...,I,\quad j=1,...,J,\quad k=1,...,K$

Y_ijk: Zielvariable; annahmegemäß in den Gruppen normalverteilt
I: Anzahl der Faktorstufen des ersten Faktors (A)
J: Anzahl der Faktorstufen des zweiten Faktors (B)
K: Anzahl der Beobachtungen pro Faktorstufe (hier für alle Kombinationen von Faktorstufen gleich)
α_i: Effekt der i-ten Faktorstufe des Faktors A
β_j: Effekt der j-ten Faktorstufe des Faktors B
(αβ)_ij: Interaktion (Wechselwirkung) der Faktoren auf der Faktorstufenkombination (i,j).
Die Interaktion beschreibt einen besonderen Effekt, der nur auftritt, wenn die  Faktorstufenkombination (i,j) 
vorliegt.
ε_ijk: Störvariablen, unabhängig und normalverteilt mit Erwartungswert 0 und gleichen Varianzen.

...mehr als zwei Faktoren

Auch mehrere Faktoren sind möglich. Allerdings steigt der Datenbedarf für eine Schätzung der Modellparameter mit der Anzahl der Faktoren stark an. Auch die Darstellungen des Modells (z.B. in Tabellen) werden mit zunehmender Anzahl der Faktoren unübersichtlicher. Mehr als drei Faktoren können nur noch schwer dargestellt werden.

Literatur

Fahrmeir u.A. (Hrsg): Multivariate statistische Verfahren. Walter de Gruyter, 1996. ISBN 3110138069
Fahrmeir u.A.: Statistik - Der Weg zur Datenanalyse. Springer, 1999
Hartung/Elpelt: Multivariate Statistik : Lehr- und Handbuch der angewandten Statistik. Oldenbourg, 1999. ISBN: 3-486-25287-9
Backhaus u.A.: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Springer, 2006. ISBN 3540278702