Materialgleichungen der Elektrodynamik und Varianzanalyse: Unterschied zwischen den Seiten
[ungesichtete Version] | [ungesichtete Version] |
KKeine Bearbeitungszusammenfassung |
verlinkung |
||
Zeile 1: | Zeile 1: | ||
Die '''Varianzanalyse''' ist ein [[Statistik|statistisches]] Verfahren der [[Datenanalyse]] und [[Mustererkennung]], das versucht, die [[Varianz]] einer [[Skalenniveau|metrisch]]en Variablen durch eine oder mehrere Variablen zu erklären. Das Verfahren untersucht, ob (und gegebenenfalls wie) sich der [[Erwartungswert]] einer metrischen [[Zufallsvariable]]n in verschiedenen Gruppen (auch ''Klassen'') unterscheidet. In Prüfgrößen des Verfahrens wird getestet wird, ob die Varianz zwischen den Gruppen größer ist als die [[Varianz]] innerhalb der Gruppen. Dadurch kann ermittelt werden, ob die Gruppeneinteilung sinnvoll ist oder nicht bzw. ob sich die Gruppen signifikant unterscheiden oder nicht. |
|||
{| cellpadding="5" align="center" |
|||
| <math>\vec D=\varepsilon\cdot\vec E</math> |
|||
| mit |
|||
| <math>\varepsilon=\varepsilon_r\cdot\varepsilon_0</math> |
|||
|----- |
|||
| <math>\vec B=\mu\cdot\vec H</math> |
|||
| mit |
|||
| <math>\mu=\mu_r\cdot\mu_0</math> |
|||
|----- |
|||
| <math>\vec J=\kappa\cdot\vec E</math> |
|||
| |
|||
| |
|||
| |
|||
|} |
|||
Beispiele für die Anwendung der Varianzanalyse sind die Untersuchung der Wirksamkeit von Medikamenten in der Medizin (siehe [[Doppelblindversuch]]) und die Untersuchung des Einflusses von Düngemitteln auf den Ertrag von Anbauflächen in der Landwirtschaft. |
|||
*[[Permittivität]] des Vakuums <math>\varepsilon_0</math> und und Permittivitätszahl oder Dielektrizitätszahl <math>\varepsilon_r</math> |
|||
*[[Permeabilität (Magnetismus)|Permeabilität]] des Vakuums <math>\mu_0</math> und relative Permeabilität <math>\mu_r</math> |
|||
*[[spezifischer Leitwert]]: <math>\kappa</math> |
|||
<!-- [[nominalskaliert]]e oder [[Ordinalskala|ordinalskalierte]] --> |
|||
''Siehe auch:'' [[Diskriminanzanalyse]], [[Nullhypothese]], [[Bestimmtheitsmaß]] |
|||
== Begriffe == |
|||
Die metrische Variable, deren Wert durch die kategorialen Variablen erklärt werden soll, heißt |
|||
*Zielvariable oder |
|||
*Abhängige Variable |
|||
Die kategorialen Variablen heißen |
|||
*Einflussvariablen oder |
|||
*Unabhängige Variablen oder |
|||
*Faktoren (die Kategorien heißen dann Faktorstufen) |
|||
Die [[Statistische Signifikanz|Signifikanz]] einer ermittelten Gruppeneinteilung lässt sich anhand der [[F-Verteilung]] testen. |
|||
== Einfaktorielle Varianzanalyse == |
|||
Bei der einfaktoriellen Varianzanalyse enthält das Modell nur einen Faktor (der dann beliebig viele Faktorstufen haben kann). |
|||
Das Modell in Effektdarstellung lautet: |
|||
<math> |
|||
Y_{ij} = \mu + \alpha_{i} + \epsilon_{ij},\quad i=1,...I,\quad j=1,...n_{i} |
|||
</math> |
|||
Y<sub>ij</sub>: Zielvariable; Annahmegemäß in den Gruppen [[normalverteilt]] |
|||
I: Anzahl der Faktorstufen des betrachteten Faktors |
|||
n<sub>i</sub>: Stichprobenumfänge für die einzelnen Faktorstufen |
|||
μ: Mittelwert der Gesamtstichprobe |
|||
α<sub>i</sub>: Effekt der i-ten Faktorstufe |
|||
ε<sub>ij</sub>: Störvariablen, unahbhängig und Normalverteilt mit Erwartungswert 0 und gleicher Varianz. |
|||
== Zweifaktorielle Varianzanalyse == |
|||
Die zweifaktorielle Varianzanalyse berücksichtigt zur Erklärung der Zielvariablen zwei Faktoren (Faktor A und Faktor B). Das Modell (für den Fall mit festen Effekten)in Effektdarstellung lautet: |
|||
<math> |
|||
Y_{ijk} = \mu + \alpha_{i} + \beta_{j}+ (\alpha\beta)_{ij} + \epsilon_{ijk}, \quad \epsilon_{ijk}~N(0,\sigma^2), \quad i=1,...,I, \quad j=1,...,J, \quad k=1,...,K |
|||
</math> |
|||
Y<sub>ijk</sub>: Zielvariable; Annahmegemäß in den Gruppen normalverteilt |
|||
I: Anzahl der Faktorstufen des ersten Faktors (A) |
|||
J: Anzahl der Faktorstufen des zweiten Faktors (B) |
|||
K: Anzahl der Beobachtungen pro Faktorstufe (hier für alle Kombinationen von Faktorstufen gleich) |
|||
α<sub>i</sub>: Effekt der i-ten Faktorstufe des Faktors A |
|||
β<sub>j</sub>: Effekt der j-ten Faktorstufe des Faktors B |
|||
&(αβ)<sub>ij</sub>: Interaktion (Wechselwirkung) der Faktoren auf der Faktorstufenkombination (i,j). Dies beschreibt einen besonderen Effekt, der nur auftritt, wenn die Faktorstufenkombination (i,j) vorliegt. |
|||
ε<sub>ijk</sub>: Störvariablen, unahbhängig und Normalverteilt mit |
|||
== mehr als zwei Faktoren== |
|||
auch mehrere Faktoren sind möglich. Allerdings steigt der Datenbedarf für eine Schätzung der Modellparameter mit der |
|||
Anzahl der Faktoren stark an. Auch die Darstellungen des Modells (z.B. in Tabellen) werden mit zunehmender Anzahl der Faktoren unübersichtlicher. |
|||
== Beispiel einer einfachen Varianzanalyse == |
|||
Bei dem folgenden Beispiel handelt es sich um eine einfache Varianzanalyse mit zwei Gruppen (auch |
|||
''Zwei-Stichproben F-Test''). In einem Versuch erhalten zwei Gruppen von Tieren (<math>k=2</math>) unterschiedliche Nahrung. Nach einer gewissen Zeit wird ihr Gewicht mit folgenden Werten gemessen: |
|||
:'''Gruppe 1:''' 45, 23, 55, 32, 51, 91, 74, 53, 70, 84 (Anzahl der Tiere <math>n_1=10</math>) |
|||
:'''Gruppe 2:''' 64, 75, 95, 56, 44, 130, 106, 80, 87, 115 (Anzahl der Tiere <math>n_2=10</math>) |
|||
Es soll untersucht werden, ob die unterschiedliche Nahrung einen signifikanten Einfluss auf das Gewicht hat. Der [[Mittelwert]] und die [[Varianz]] der beiden Gruppen betragen |
|||
:<math>\bar{x}_1=57,8 \mbox{ und } var_1=479,7</math> |
|||
:<math>\bar{x}_2=85,2 \mbox{ und } var_2=728,6</math> |
|||
Das zugrunde liegende Wahrscheinlichkeitsmodell setzt voraus, dass die Gewicht der Tiere [[Normalverteilung|normalverteilt]] sind. Die zu testende [[Nullhypothese]] ist |
|||
:<math>H_0</math>: "Die Mittelwerte der beiden Gruppen sind gleich" |
|||
Offensichtlich unterscheiden sich die Mittelwerte <math>\bar{x}_1</math> und <math>\bar{x}_2</math>. Diese Abweichung könnte jedoch auch im Bereich der natürlichen Schwankungen liegen. Um zu prüfen, ob die Unterscheidung signifikant ist, wird eine Testgröße <math>F</math> mit bekannter [[Wahrscheinlichkeitsverteilung]] berechnet. Dazu wird zunächst die gemeinsamen Varianz <math>var_g</math> bestimmt: |
|||
:<math>var_g=\frac{n_1 var_1 + n_2 var_2}{n_1+n_2}=604,18</math> |
|||
Anmerkung: Manchmal wird bei dieser Berechnung auch die um eins verringerte Größe der Stichproben verwendet, also <math>n_i-1</math> statt <math>n_i</math>. Mit Hilfe der gemeinsamen Varianz berechnet sich die Testgröße <math>F</math> als: |
|||
:<math>F = \frac{n_1 n_2 (\bar{x}_1-\bar{x}_2)^2}{(n_1+n_2) var_g} = \frac{n_1 n_2 (\bar{x}_1-\bar{x}_2)^2}{n_1 var_1 + n_2 var_2} \approx 6,21</math> |
|||
Die größe <math>F</math> ist nach dem zugrunde liegenden Modell eine [[Zufallsvariable]] mit einer <math>F_{k-1,n-k}</math>-verteilung wobei <math>k</math> die Anzahl der Gruppen und <math>n</math> die Anzahl der Messwerte sind. Die Indizes werden als ''Freiheitsgrade'' bezeichnet. Der Wert der [[F-Verteilung]] für gegebene Freiheitsgrade (F-[[Quantil]]) kann in einer Fisher-Tafel nachgeschlagen werden. Dabei muss noch ein gewünschtes Signifikanzniveau (die Irrtumswahrscheinlichkeit) angegeben werden. Im vorliegenden Fall beträgt die Irrtumswahrscheinlichkeit von 5% <math>F_{1,18} \approx 4,41 </math>. Das heisst dass bei allen Werten der Testgröße <math>F</math> bis 4,41 die Nullhypothese angenommen werden kann. Da <math>6,21 > 4,41</math> muss die Nullhypothese bei den vorliegenden Werten jedoch verworfen werden. |
|||
Es kann also mit einer Wahrscheinlichkeit von 95% davon ausgegangen werden, dass die Tiere in den beiden Gruppen im Mittel wirklich ein unterschiedliches Gewicht aufweisen. |
|||
''Siehe auch:'' [[Chi-Quadrat-Test]], [[t-Verteilung]] |
|||
== Literatur == |
|||
* Fahrmeir u.A. (Hrsg): ''Multivariate statistische Verfahren''. Walter de Gruyter, 1996 |
|||
* Fahrmeir u.A.: ''Statistik - Der Weg zur Datenanalyse''. Springer, 1999 |
Version vom 14. Juni 2004, 17:08 Uhr
Die Varianzanalyse ist ein statistisches Verfahren der Datenanalyse und Mustererkennung, das versucht, die Varianz einer metrischen Variablen durch eine oder mehrere Variablen zu erklären. Das Verfahren untersucht, ob (und gegebenenfalls wie) sich der Erwartungswert einer metrischen Zufallsvariablen in verschiedenen Gruppen (auch Klassen) unterscheidet. In Prüfgrößen des Verfahrens wird getestet wird, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. Dadurch kann ermittelt werden, ob die Gruppeneinteilung sinnvoll ist oder nicht bzw. ob sich die Gruppen signifikant unterscheiden oder nicht.
Beispiele für die Anwendung der Varianzanalyse sind die Untersuchung der Wirksamkeit von Medikamenten in der Medizin (siehe Doppelblindversuch) und die Untersuchung des Einflusses von Düngemitteln auf den Ertrag von Anbauflächen in der Landwirtschaft.
Siehe auch: Diskriminanzanalyse, Nullhypothese, Bestimmtheitsmaß
Begriffe
Die metrische Variable, deren Wert durch die kategorialen Variablen erklärt werden soll, heißt
- Zielvariable oder
- Abhängige Variable
Die kategorialen Variablen heißen
- Einflussvariablen oder
- Unabhängige Variablen oder
- Faktoren (die Kategorien heißen dann Faktorstufen)
Die Signifikanz einer ermittelten Gruppeneinteilung lässt sich anhand der F-Verteilung testen.
Einfaktorielle Varianzanalyse
Bei der einfaktoriellen Varianzanalyse enthält das Modell nur einen Faktor (der dann beliebig viele Faktorstufen haben kann). Das Modell in Effektdarstellung lautet:
Yij: Zielvariable; Annahmegemäß in den Gruppen normalverteilt I: Anzahl der Faktorstufen des betrachteten Faktors ni: Stichprobenumfänge für die einzelnen Faktorstufen μ: Mittelwert der Gesamtstichprobe αi: Effekt der i-ten Faktorstufe εij: Störvariablen, unahbhängig und Normalverteilt mit Erwartungswert 0 und gleicher Varianz.
Zweifaktorielle Varianzanalyse
Die zweifaktorielle Varianzanalyse berücksichtigt zur Erklärung der Zielvariablen zwei Faktoren (Faktor A und Faktor B). Das Modell (für den Fall mit festen Effekten)in Effektdarstellung lautet:
Yijk: Zielvariable; Annahmegemäß in den Gruppen normalverteilt I: Anzahl der Faktorstufen des ersten Faktors (A) J: Anzahl der Faktorstufen des zweiten Faktors (B) K: Anzahl der Beobachtungen pro Faktorstufe (hier für alle Kombinationen von Faktorstufen gleich) αi: Effekt der i-ten Faktorstufe des Faktors A βj: Effekt der j-ten Faktorstufe des Faktors B &(αβ)ij: Interaktion (Wechselwirkung) der Faktoren auf der Faktorstufenkombination (i,j). Dies beschreibt einen besonderen Effekt, der nur auftritt, wenn die Faktorstufenkombination (i,j) vorliegt. εijk: Störvariablen, unahbhängig und Normalverteilt mit
mehr als zwei Faktoren
auch mehrere Faktoren sind möglich. Allerdings steigt der Datenbedarf für eine Schätzung der Modellparameter mit der Anzahl der Faktoren stark an. Auch die Darstellungen des Modells (z.B. in Tabellen) werden mit zunehmender Anzahl der Faktoren unübersichtlicher.
Beispiel einer einfachen Varianzanalyse
Bei dem folgenden Beispiel handelt es sich um eine einfache Varianzanalyse mit zwei Gruppen (auch Zwei-Stichproben F-Test). In einem Versuch erhalten zwei Gruppen von Tieren () unterschiedliche Nahrung. Nach einer gewissen Zeit wird ihr Gewicht mit folgenden Werten gemessen:
- Gruppe 1: 45, 23, 55, 32, 51, 91, 74, 53, 70, 84 (Anzahl der Tiere )
- Gruppe 2: 64, 75, 95, 56, 44, 130, 106, 80, 87, 115 (Anzahl der Tiere )
Es soll untersucht werden, ob die unterschiedliche Nahrung einen signifikanten Einfluss auf das Gewicht hat. Der Mittelwert und die Varianz der beiden Gruppen betragen
Das zugrunde liegende Wahrscheinlichkeitsmodell setzt voraus, dass die Gewicht der Tiere normalverteilt sind. Die zu testende Nullhypothese ist
- : "Die Mittelwerte der beiden Gruppen sind gleich"
Offensichtlich unterscheiden sich die Mittelwerte und . Diese Abweichung könnte jedoch auch im Bereich der natürlichen Schwankungen liegen. Um zu prüfen, ob die Unterscheidung signifikant ist, wird eine Testgröße mit bekannter Wahrscheinlichkeitsverteilung berechnet. Dazu wird zunächst die gemeinsamen Varianz bestimmt:
Anmerkung: Manchmal wird bei dieser Berechnung auch die um eins verringerte Größe der Stichproben verwendet, also statt . Mit Hilfe der gemeinsamen Varianz berechnet sich die Testgröße als:
Die größe ist nach dem zugrunde liegenden Modell eine Zufallsvariable mit einer -verteilung wobei die Anzahl der Gruppen und die Anzahl der Messwerte sind. Die Indizes werden als Freiheitsgrade bezeichnet. Der Wert der F-Verteilung für gegebene Freiheitsgrade (F-Quantil) kann in einer Fisher-Tafel nachgeschlagen werden. Dabei muss noch ein gewünschtes Signifikanzniveau (die Irrtumswahrscheinlichkeit) angegeben werden. Im vorliegenden Fall beträgt die Irrtumswahrscheinlichkeit von 5% . Das heisst dass bei allen Werten der Testgröße bis 4,41 die Nullhypothese angenommen werden kann. Da muss die Nullhypothese bei den vorliegenden Werten jedoch verworfen werden.
Es kann also mit einer Wahrscheinlichkeit von 95% davon ausgegangen werden, dass die Tiere in den beiden Gruppen im Mittel wirklich ein unterschiedliches Gewicht aufweisen.
Siehe auch: Chi-Quadrat-Test, t-Verteilung
Literatur
- Fahrmeir u.A. (Hrsg): Multivariate statistische Verfahren. Walter de Gruyter, 1996
- Fahrmeir u.A.: Statistik - Der Weg zur Datenanalyse. Springer, 1999